
Generative AI: inferenza efficiente su CPU cloud
E’ passato un po’ di tempo dall’ultimo articolo. Ultimamente ho approfondito l’inferenza AI, cioe’ il processo di esecuzione dei modelli per generare risposte, cercando di capire se servano davvero GPU costose per eseguire modelli linguistici moderni. Spoiler: la risposta potrebbe sorprenderti. Dopo molti test su Oracle Cloud Infrastructure (OCI), confrontando processori Ampere basati su ARM con i piu’ recenti chip AMD EPYC, ho visto che la giusta combinazione di ottimizzazioni software e modelli compressi puo’ offrire performance notevoli, senza usare una GPU. ...
