Buon giorno,
recentemente ho letto un po' di cose sul porting dei modelli AI su CPU.
A quanto pare ci sono diversi modelli che ora possono essere eseguiti su normali CPU, senza la necessità di possedere una costosa GPU.
Io ho provato ollama con modello gemma2:2b.
gemma2 è un modello pubblicato da Google e basato su Gemini, 2b indica che ha 2 miliardi di parametri, è il modello più piccolo, ce ne sono altri 2, uno con 6b ed il più grande con 27b, se ricordo bene.
Il mio portatile sopporta appena quella da 2b.
Ma ci si può chattare, legge testo e parla anche in italiano, anche se ogni tanto ritorna all'inglese, ad ogni modo si può continuare a scrivere in italiano anche se lui risponde in inglese. :)
Cercando questo tipo di modelli ho scoperto che c'è un lavoro di riduzione dei modelli, per risparmiare risorse di calcolo e potenzialmente farli eseguire sui normali dispositivi personali: pc desktop, laptop, tablet e cellulari.
Sono state sviluppate diverse tecniche, ad esempio la quantizzazione, che agisce sulla conversione dei valori float utilizzati per i pesi e li converte in interi. In questo modo si riduce la memoria necessaria a far eseguire il modello ed, inoltre, si può eseguirlo su una CPU.
Ovviamente, nella quantizzazione qualcosa va perso, il modello risultate è di certo meno accurato dell'originale, ma si risparmia molto il termini di costo operativo.
Ci sono altre tecniche che prevendono azioni su tutti i componenti dell'architettura di un modello.
E' interessante, e se qualcuno vuole approfondire, suggerisco questo articolo:
Mario