Latenza
Tempo che un'operazione impiega per completarsi: critica per chatbot e API.
La latenza è il tempo che intercorre tra una richiesta e la sua risposta. Per un chatbot, è il tempo dal messaggio del cliente alla risposta. Per un'API, è il tempo dalla richiesta alla risposta del server. Si misura in millisecondi (ms).
Per le PMI che implementano chatbot, la latenza è critica per l'esperienza utente: una risposta in 500ms sembra istantanea, in 3 secondi è accettabile, oltre 10 secondi il cliente si spazientisce. Ogni componente aggiunge latenza: rete, server, database, LLM, formattazione.
Kynetixx ottimizza la latenza a ogni livello: cache per le risposte frequenti (ms), embedding pre-calcolati per la ricerca semantica (100ms), streaming delle risposte LLM (la risposta appare progressivamente), e infrastruttura in EU per ridurre la latenza di rete. Il target: prima parola della risposta in meno di 1 secondo.