Come Lavoriamo Servizi Settori Casi Studio Blog Glossario AI Parliamo
Glossario AI

Quantizzazione

Tecnica per ridurre le dimensioni dei modelli AI mantenendo le performance.

La quantizzazione è una tecnica di ottimizzazione che riduce la precisione numerica dei pesi di un modello AI (da 32-bit a 8-bit o 4-bit), diminuendo drasticamente le dimensioni del modello e la memoria necessaria per eseguirlo, con perdite minime di qualità.

Un modello LLM che richiede 40GB di RAM in precisione piena può girare in 10GB dopo la quantizzazione a 4-bit, rendendo possibile l'esecuzione su hardware molto più accessibile. La perdita di qualità è tipicamente del 1-3% — impercettibile nella maggior parte degli usi.

Per le PMI che vogliono modelli self-hosted (per privacy o costi), la quantizzazione è la chiave: permette di eseguire modelli potenti su server economici o addirittura su GPU consumer. Kynetixx valuta la quantizzazione per i deployment on-premise dove i costi infrastrutturali sono una priorità, garantendo il giusto equilibrio tra qualità e efficienza.

Chiedi all'AI di spiegarti "Quantizzazione"

Vuoi capire come applicare l'AI alla tua azienda?

Non servono competenze tecniche. Serve capire dove stai perdendo tempo e soldi.