Indicazioni sulla scelta dell’hardware per Large Language Model
Le nostre raccomandazioni sull’hardware per i server AI con grandi modelli linguistici (LLM). Queste informazioni hanno lo scopo di fornire una guida generale, ma le situazioni specifiche possono avere requisiti unici.
Indicazioni sulla scelta dell’hardware
Large Language Model server – Requisiti di Sistema
Link rapido a: Processore (CPU) – Scheda video (GPU) – Memoria (RAM) – Archiviazione (HDD/SSD)
Negli ultimi tempi i modelli di linguaggio AI sono progrediti a ritmo serrato, con l’uscita di modelli sempre nuovi e migliori. Allo stesso modo, l’hardware che alimenta questi modelli viene costantemente sviluppato da produttori del calibro di NVIDIA, Intel, AMD e altri. La scelta dell’hardware “migliore” per ospitare un determinato modello varia a seconda della situazione specifica, ma possiamo fornire alcune linee guida generali. La discussione Q&A che segue coprirà le basi. Per ulteriori informazioni rivolgetevi al nostro team di consulenti per ottenere assistenza nella configurazione del vostro server LLM.
Processore (CPU)
Per i server di modelli linguistici di grandi dimensioni, la CPU in particolare non è generalmente importante quanto la piattaforma su cui è installata. Consigliamo vivamente una piattaforma di tipo server come Intel Xeon o AMD EPYC per ospitare LLM e le applicazioni che li utilizzano. Queste piattaforme hanno caratteristiche fondamentali come molte corsie PCI-Express per le GPU e lo storage, un’elevata larghezza di banda/capacità di memoria e il supporto della memoria ECC.
Qual è la CPU migliore per l’esecuzione di modelli linguistici di grandi dimensioni (LLM)?
Le due piattaforme CPU consigliate sono lo Xeon W di Intel e il Threadripper PRO di AMD. Entrambe offrono un elevato numero di core, eccellenti prestazioni e capacità di memoria e un gran numero di corsie PCIe. In particolare, le versioni a 32 core di entrambe sono consigliate per l’utilizzo e le prestazioni bilanciate della memoria.
Un maggior numero di core della CPU rende più veloci i modelli linguistici di grandi dimensioni (LLM)?
A meno che non si esegua un LLM su una CPU, cosa generalmente sconsigliata, il numero di core della CPU avrà un impatto minimo. L’unico “obbligo” sarà di avere almeno un core per ogni GPU del sistema.
Tuttavia, quando il flusso di lavoro non si limita all’esecuzione di modelli generativi, la CPU potrebbe avere un impatto notevole. Ad esempio, se parte del flusso di lavoro prevede la raccolta, la manipolazione o la pre-elaborazione dei dati, la CPU può essere un componente critico della pipeline di lavoro.
Le pipeline di dati, tra cui l’ingestione, la pre-elaborazione, il parsing iniziale, la creazione di embeddings e i vector store, possono essere eseguite sulla CPU per non gravare sulla GPU. In questo caso, la CPU potrebbe essere un componente significativo della catena applicativa.
L’AI generativa funziona meglio con le CPU Intel o AMD?
Per lo più non importa se si utilizzano CPU AMD o Intel, purché la piattaforma complessiva sia di alta qualità e di livello server.
Scheda video (GPU)
Le applicazioni che utilizzano gli LLM sono state rese possibili grazie alle straordinarie prestazioni delle GPU per questo tipo di problemi di calcolo!
Quale tipo di GPU (scheda video) è la migliore per i modelli linguistici di grandi dimensioni (LLM)?
Per le applicazioni server LLM, si consigliano le GPU di livello “Professional” o “Compute”. Questo perché sono disponibili quantità maggiori di VRAM e perché sono più adatte all’ambiente di raffreddamento di uno chassis di server. Esempi sono le RTX 6000 Ada e Blackwell, L40S e H100 di NVIDIA – o le GPU AMD MII Instinct.
Di quanta VRAM (memoria video) hanno bisogno i modelli linguistici di grandi dimensioni (LLM)?
Quando si lavora con gli LLM, la quantità totale di VRAM disponibile è spesso il fattore limitante di ciò che si può fare. Ad esempio, per servire un modello di parametri STOTA ~70b nella sua precisione nativa è necessario disporre di 200 GB di VRAM. Ad esempio, Llama3-70b può essere utilizzato con buone prestazioni in ambienti multiutente (organizzazioni di piccole e medie dimensioni) con 4 GPU 6000 Ada o L40s.
Le GPU multiple migliorano le prestazioni dei modelli linguistici di grandi dimensioni (LLM)?
Sì! I server e i framework LLM faranno buon uso di più GPU. Un server basato su Linux con 4-8 GPU è un sistema di dimensioni “standard”.
I modelli linguistici di grandi dimensioni (LLM) funzionano meglio con le GPU NVIDIA o AMD?
NVIDIA è il leader storico del GPU Computing ed è in gran parte responsabile del rapido sviluppo dell’intelligenza artificiale. Continua a innovare e a produrre miglioramenti significativi di generazione in generazione nel suo design. Tuttavia, AMD ha fatto grandi progressi nell’ultimo anno. L’alternativa ROCm di AMD a NVIDIA CUDA è supportata attivamente da Hugging Face e PyTorch.
I modelli linguistici di grandi dimensioni (LLM) hanno bisogno di una scheda video “professionale”?
Tecnicamente no, ma offrono quantità molto più elevate di VRAM per scheda, quindi per i server LLM seri sono quasi sempre l’opzione giusta. Inoltre, le schede video di fascia consumer tendono a occupare più spazio e ad avere sistemi di raffreddamento che non sono adatti all’uso in chassis a rack.
Nvlink è necessario quando si utilizzano GPU multiple per i modelli linguistici di grandi dimensioni (LLM)?
La maggior parte delle schede grafiche NVIDIA non supporta più NVLink, ma esistono GPU selezionate che lo supportano, come la NVIDIA H100 NVL. Per le GPU supportate, è consigliabile utilizzare NVLink… ma non è un requisito per l’hosting LLM.
Memoria (RAM)
Di quanta RAM di sistema hanno bisogno i modelli linguistici di grandi dimensioni (LLM)?
NVIDIA (e noi) raccomandiamo una quantità di memoria di sistema della CPU almeno 2 volte superiore alla quantità totale di VRAM della GPU. In questo modo è possibile effettuare un “pinning di memoria” completo sullo spazio della CPU per facilitare un buffering efficiente.
Archiviazione (SSD/HDD)
Qual è la configurazione di storage migliore per i modelli linguistici di grandi dimensioni (LLM)?
Si consiglia di utilizzare unità a stato solido NVMe ad alta capacità (2-8 TB) per i sistemi che ospitano LLM. I parametri e i set di dati del modello possono occupare grandi quantità di spazio di archiviazione e molti server potrebbero anche dover ospitare database di grandi dimensioni per l’uso delle applicazioni. Per questo tipo di archiviazione è possibile utilizzare unità SSD NVMe aggiuntive, in array controllati dal software se si desidera una ridondanza locale dei dati.
È necessario utilizzare uno storage collegato alla rete per i modelli linguistici di grandi dimensioni (LLM)?
I parametri LLM dovrebbero essere mantenuti localmente sul server per ottenere le migliori prestazioni, ma lo storage collegato alla rete può essere un’opzione valida per il backup o la condivisione dei dati su più sistemi.
Cercate un server per LLM?
Costruiamo computer su misura per il vostro flusso di lavoro.
Non sapete da dove cominciare? Possiamo aiutarvi!
Contattate oggi stesso uno dei nostri consulenti tecnici.