Tokenizzazione
Processo di suddivisione del testo in unità (token) comprensibili dal modello.
La tokenizzazione è il processo fondamentale con cui un LLM scompone il testo in unità più piccole chiamate token. Un token può essere una parola, parte di una parola o un singolo carattere, a seconda del modello. Ad esempio, "automazione" potrebbe essere un token unico, mentre "automatizzazione" potrebbe essere diviso in più token.
La tokenizzazione è importante per le PMI che usano servizi AI per due motivi pratici: i costi delle API sono calcolati per token (più token = più costo), e ogni modello ha un limite massimo di token per richiesta (context window). Testi più lunghi o con terminologia tecnica tendono a generare più token.
Nei sistemi RAG di Kynetixx, la tokenizzazione influenza direttamente come i documenti aziendali vengono indicizzati e recuperati. Una buona strategia di chunking tiene conto dei limiti di token per massimizzare le informazioni rilevanti in ogni query.