Chunking
Suddivisione di documenti lunghi in pezzi gestibili per il sistema RAG.
Il chunking è il processo di suddivisione di documenti lunghi in pezzi (chunk) di dimensioni gestibili per il sistema RAG. Un catalogo di 200 pagine viene diviso in chunk di 500-1000 token ciascuno, ognuno rappresentante un'unità informativa coerente.
La strategia di chunking è critica per la qualità del RAG: chunk troppo piccoli perdono contesto, chunk troppo grandi diluiscono le informazioni rilevanti. Il chunking intelligente rispetta i confini semantici: divide per sezione, prodotto, FAQ, non a metà di una frase.
Kynetixx applica strategie di chunking personalizzate per ogni tipo di documento: le schede prodotto vengono chunkate per prodotto, i manuali per sezione, i listini per categoria. Questo garantisce che quando il chatbot recupera un chunk, contiene tutte le informazioni necessarie per una risposta completa e accurata.