Latenza - Glossario AI

La latenza è il tempo che intercorre tra una richiesta e la sua risposta. Per un chatbot, è il tempo dal messaggio del cliente alla risposta. Per un'API, è il tempo dalla richiesta alla risposta del server. Si misura in millisecondi (ms).

Per le aziende che implementano chatbot, la latenza è critica per l'esperienza utente: una risposta in 500ms sembra istantanea, in 3 secondi è accettabile, oltre 10 secondi il cliente si spazientisce. Ogni componente aggiunge latenza: rete, server, database, LLM, formattazione.

Kynetixx ottimizza la latenza a ogni livello: cache per le risposte frequenti (ms), embedding pre-calcolati per la ricerca semantica (100ms), streaming delle risposte LLM (la risposta appare progressivamente), e infrastruttura in EU per ridurre la latenza di rete. Il target: prima parola della risposta in meno di 1 secondo.

Chiedi all'AI di spiegarti "Latenza"

ChatGPT Claude Perplexity Grok Gemini

Chiedi all'AI di spiegarti "Latenza"

Vuoi capire come applicare l'AI alla tua azienda?