QVAC Fabric LLM guida completa: fine-tuning LoRA su qualsiasi GPU

8 dicembre 2025

QVAC Fabric LLM guida completa è il punto di partenza per capire come portare il fine-tuning dei modelli linguistici direttamente su laptop, desktop e perfino smartphone, senza dipendere dal cloud. In questa guida vediamo cos'è, come funziona e perché permette di fare LoRA fine-tuning su GPU eterogenee, da NVIDIA ad AMD, da Intel alle GPU mobile Adreno, Mali e Apple.

L'articolo si basa su An Edge-First Generalized LLM LoRA Fine-Tuning Framework for Heterogeneous GPUs, pubblicato sul blog di Hugging Face il 1 dicembre 2025 e scritto dal team QVAC di Tether Data.

Che cos'è QVAC Fabric LLM e perché è importante (QVAC Fabric LLM guida completa)

Che cos'è QVAC Fabric LLM in parole semplici?

QVAC Fabric LLM è un framework di perfezionamento efficiente dei parametri (parameter-efficient fine-tuning, PEFT) che integra LoRA direttamente dentro llama.cpp. In pratica aggiunge a un motore di inferenza già cross-platform la capacità di addestrare modelli con LoRA, mantenendo il modello base congelato e aggiornando solo piccoli adapter, così da ridurre memoria e tempo di training.

Il risultato è un unico stack con cui puoi eseguire e fine-tunare Large Language Model (LLM) sia su CPU sia su GPU desktop e mobile, con la stessa pipeline e lo stesso formato di modello GGUF, senza conversioni tra framework diversi.

Perché QVAC Fabric LLM è rilevante proprio ora?

Finora il LoRA fine-tuning pratico era legato quasi sempre a framework PyTorch o JAX come PEFT, Unsloth o Llama-Factory, pensati principalmente per GPU NVIDIA e lo stack CUDA. Questo crea una forte dipendenza da un solo vendor e rende difficile usare GPU AMD, Intel, Apple o le GPU degli smartphone.

QVAC Fabric LLM sposta l'asse: integra LoRA in llama.cpp e usa API grafiche portabili come Vulkan e backend Metal, ottenendo un unico framework che addestra su Adreno, Mali, Apple GPU, oltre alle classiche GPU desktop. In questo modo il fine-tuning smette di essere un privilegio del data center e arriva sui device degli utenti.

Come si collega QVAC Fabric LLM ai framework che già conosci?

Se oggi fai fine-tuning con PEFT o librerie simili, sei in un mondo centrato su PyTorch: script Python, checkpoint .pt, pipeline Hugging Face, spesso eseguite su una singola GPU NVIDIA. Con QVAC Fabric LLM l'idea è diversa: lo "scheletro" è llama.cpp, scritto in C/C++, con kernel ottimizzati per più backend, e LoRA viene gestito tramite nuove API C pensate per essere upstream-safe.

La cosa importante da capire è che QVAC Fabric LLM non sostituisce PyTorch, ma lo affianca per tutti i casi in cui vuoi un flusso train once, run everywhere. Alleni con LoRA dentro llama.cpp e poi puoi riusare gli stessi adapter, o il modello mergiato, su qualunque piattaforma supportata, inclusi terminali mobili.

Risorse principali e dove trovare il progetto

GitHub: tetherto/qvac-rnd-fabric-llm-finetune Paper / articolo: An Edge-First Generalized LLM LoRA Fine-Tuning Framework for Heterogeneous GPUs Dataset: qiaojin/PubMedQA su Hugging Face (per gli esperimenti biomedici)

QVAC Fabric LLM spiegato più in dettaglio

Architettura e componenti chiave

Il cuore di QVAC Fabric LLM è l'adattamento a rango ridotto (Low-Rank Adaptation, LoRA): il modello base rimane congelato e si aggiungono piccole matrici addestrabili, gli LoRA adapters, nei layer lineari del trasformatore. Nel framework questi adapter vengono applicati sia alle proiezioni di attenzione (query, key, value, output) sia ai layer feed-forward, massimizzando la capacità di adattamento.

Per gestire tutto dentro llama.cpp sono state introdotte nuove funzioni pubbliche: inizializzazione degli adapter, configurazione dell'optimizer con filtro di parametri, esecuzione delle epoche di training e serializzazione degli adapter in file GGUF separati. In questo modo si possono salvare, riprendere e mergiare gli adapter senza toccare il formato del modello base.

Training LoRA cross-platform: Vulkan, Metal, CUDA

Per rendere davvero portabile il fine-tuning, il team ha scelto l'API grafica e di calcolo Vulkan (interfaccia grafica e compute portabile), invece di legarsi solo a CUDA o Metal. Vulkan ha implementazioni per NVIDIA, AMD, Intel, Adreno e Mali, quindi un singolo backend può servire quasi tutto l'hardware consumer.

Su Apple, il framework sfrutta il backend Metal di ggml con nuovi shader MSL specifici per retropropagazione e ottimizzazione, con copertura di operatori allineata a Vulkan e CUDA. Il risultato è una pipeline che supporta gradienti e LoRA training in float32, float16, int8 e int4, abilitando anche scenari di training quantizzato su device con poca memoria.

Instruction-tuning su dispositivo e obiettivo di perdita mascherata

Per trasformare un modello generico in un assistente che segue istruzioni, QVAC Fabric LLM introduce l'obiettivo di perdita mascherata (masked loss). In pratica, durante il training solo i token dell'assistente contribuiscono alla loss; i messaggi di sistema e dell'utente restano nel contesto, ma non vengono penalizzati.

Questa logica è implementata con nuove operazioni GGML per la cross-entropy mascherata e il conteggio delle predizioni corrette solo sui token dell'assistente, tutte con versioni GPU-accelerate. Sopra questi operatori c'è un sistema di chat template compatibile con ChatML e template Jinja, che uniforma il formato di dataset diversi senza cambiare la pipeline core.

Dataset, pipeline e modelli supportati

Per validare il framework, il team ha scelto due scenari: uno di testo conversazionale non strutturato (email sintetiche) e uno biomedico a risposta sì/no basato su PubMedQA. Le email fungono da sandbox per il style transfer, mentre il dominio medico stressa la parte di instruction-tuning e classificazione.

I test coprono modelli compatti ma moderni: Qwen3-0.6B, Qwen3-1.7B, TinyLlama-1.1B e Gemma3-1B e 4B, con LoRA applicato in modo consistente. L'addestramento è stato eseguito su una gamma di hardware che va da GPU desktop (RTX 4090, AMD 7900 XTX, Intel Arc, Apple M3 Pro) fino a GPU mobile Adreno 830 e Mali-G715, tutte con lo stesso codice di training.

Confronto con le baseline tradizionali

Una domanda naturale è: quanto perde, in qualità, un training in C++ dentro llama.cpp rispetto a un classico stack PyTorch + Hugging Face? Gli autori confrontano i modelli fine-tunati con QVAC Fabric LLM con una baseline PyTorch su metriche come accuratezza biomedica, win-rate con giudice LLM e similarità coseno delle risposte.

I risultati mostrano qualità molto vicina alle pipeline consolidate: in alcuni casi l'accuracy è paragonabile o leggermente migliore, in altri la baseline PyTorch conserva un piccolo margine sul win-rate. Il punto chiave però è che QVAC raggiunge quasi la stessa qualità potendo girare su molte più piattaforme, incluse GPU mobile che prima non erano considerate training-capable.

Dinamic tiling e fine-tuning su GPU con memoria limitata

Portare il training LoRA su una GPU mobile Adreno non è stato solo un problema di API, ma anche di limiti duri del driver. Gli autori raccontano di crash durante le operazioni di moltiplicazione di grandi matrici con Vulkan, poi ricondotti a un limite non documentato sulla dimensione combinata dei buffer per singolo operatore.

La soluzione è un algoritmo di dynamic tiling: invece di una grande operazione, la moltiplicazione viene suddivisa in tanti blocchi più piccoli che rispettano il limite di memoria, componendo poi il risultato finale. Questa strategia permette di eseguire LoRA anche su tensori molto grandi, adattando automaticamente le dimensioni delle tile al modello e al tipo di dato.

Limiti, trade-off e punti aperti

Dal punto di vista delle prestazioni, QVAC Fabric LLM mostra tempi per epoca molto rapidi su GPU di fascia alta, ma naturalmente più lenti su hardware mobile. Per Qwen3-1.7B quantizzato a 8-bit, un'epoca può richiedere pochi minuti su RTX 4090, decine di minuti su GPU desktop mid-range e diverse ore su Adreno o Mali, pur restando comunque eseguibile.

Un altro limite è che oggi il focus è su LoRA e su architetture specifiche come Qwen3 e Gemma3; il supporto per altri modelli e nuovi formati di quantizzazione è indicato come lavoro futuro. Gli autori citano l'obiettivo di espandere il supporto a formati come GPTQ-INT8 e Q5_K_M, oltre a ulteriori ottimizzazioni di kernel e gestione memoria.

Domande frequenti (FAQ) su QVAC Fabric LLM

QVAC Fabric LLM cos'è in pratica per chi sviluppa? È un modo per avere fine-tuning LoRA e instruction-tuning integrati in llama.cpp, sfruttando GPU molto diverse tra loro, senza dover mantenere stack separati per training e inferenza. Vediamo le domande più comuni in stile QVAC Fabric LLM spiegato semplice.

QVAC Fabric LLM è solo un motore di inferenza o anche di training?

È entrambe le cose. Il progetto nasce come estensione di llama.cpp per aggiungere un vero workflow di fine-tuning LoRA: inizializzazione, training, salvataggio degli adapter, checkpointing e merge in un unico framework. Puoi eseguire inferenza, fare instruction-tuning e poi riusare gli stessi modelli su tutte le piattaforme supportate.

Che vantaggio ho rispetto a usare solo PyTorch con PEFT?

PyTorch resta ideale per esperimenti rapidi e prototipi, ma ti lega spesso a CUDA e a un certo tipo di hardware. QVAC Fabric LLM punta a un flusso edge-first: fine-tuning direttamente nell'ambiente dove poi eseguirai il modello, che sia un laptop con GPU AMD o uno smartphone con GPU Adreno, mantenendo lo stesso formato GGUF e le stesse API.

QVAC Fabric LLM è adatto anche a chi non ha una GPU potente?

Sì, purché accetti tempi di training più lenti. Il framework funziona anche in fallback CPU e su GPU integrate o mobile; ovviamente non avrai la velocità di una RTX 4090, ma puoi comunque eseguire fine-tuning su modelli piccoli per compiti specifici, sfruttando la riduzione di parametri resa possibile da LoRA.

Posso usare QVAC Fabric LLM in contesti aziendali con dati sensibili?

È uno dei casi d'uso principali. Il fatto che il training avvenga direttamente sul device o sul server locale permette di mantenere i dati all'interno del perimetro aziendale, senza mandarli al cloud di terze parti. Questo aiuta con requisiti di privacy, compliance e riduzione dei rischi legati alla condivisione dei dati.

Quali modelli supporta oggi e quali in futuro?

Gli esperimenti descritti nel blog usano soprattutto Qwen3 e Gemma3, oltre a TinyLlama, con kernel dedicati per supportare componenti come le feed-forward GEGLU. L'intenzione dichiarata è ampliare il supporto ad altre famiglie di modelli e a nuovi schemi di quantizzazione, mantenendo la compatibilità con l'ecosistema llama.cpp.

Cosa aspettarsi nei prossimi anni da QVAC Fabric LLM?

A breve termine, ci si può aspettare un miglioramento dell'efficienza dei kernel, più formati di quantizzazione e un'integrazione sempre più stretta con l'upstream llama.cpp. Nel medio periodo, se la community adotta il framework, QVAC Fabric LLM potrebbe diventare lo standard de facto per fare fine-tuning on-device di LLM moderni, con modelli personalizzati che vivono direttamente sui nostri device.