Tokenizzazione
Processo con cui l'AI scompone il testo in unità (token): influenza costi API e qualità delle risposte del chatbot aziendale.
La tokenizzazione è il processo fondamentale con cui un LLM scompone il testo in unità più piccole chiamate token. Un token può essere una parola, parte di una parola o un singolo carattere, a seconda del modello. Ad esempio, "automazione" potrebbe essere un token unico, mentre "automatizzazione" potrebbe essere diviso in più token.
La tokenizzazione è importante per le aziende che usano servizi AI per due motivi pratici: i costi delle API sono calcolati per token (più token = più costo), e ogni modello ha un limite massimo di token per richiesta (context window). Testi più lunghi o con terminologia tecnica tendono a generare più token.
Nei sistemi RAG di Kynetixx, la tokenizzazione influenza direttamente come i documenti aziendali vengono indicizzati e recuperati. Una buona strategia di chunking tiene conto dei limiti di token per massimizzare le informazioni rilevanti in ogni query.