Blind Image Quality Assessment con VLM guida completa: inferenza più “umana” per valutare le immagini

11 dicembre 2025

In questo articolo di mauroscIA parliamo di una guida completa per Blind Image Quality Assessment con VLM: cos'è, perché è nata e come funziona la nuova proposta "Building Reasonable Inference" per rendere i modelli multimodali più coerenti quando valutano la qualità delle immagini. Vedremo perché oggi i Vision-Language Models sembrano ragionare come noi, ma spesso arrivano a giudizi instabili o contraddittori, e come questo lavoro prova a correggere la rotta.

Titolo originale: "Building Reasonable Inference for Vision-Language Models in Blind Image Quality Assessment", arXiv:2512.09555, versione pubblicata il 10 dicembre 2025 e presentata come contributo alla conferenza ICONIP 2025, fonte: arXiv e Springer.

Per valutazione cieca della qualità delle immagini (blind image quality assessment, BIQA) intendiamo il compito di stimare quanto è "buona" un'immagine senza avere l'originale perfetta come riferimento. Il modello deve capire se è sfocata, rumorosa, compressa male, troppo scura, solo guardandola.

Negli ultimi anni, questa valutazione è stata affidata a vision-language models (VLMs): sistemi che combinano un encoder visivo, un proiettore multi-modale e un grande language model per descrivere e giudicare le immagini usando testo naturale. L'idea è affascinante: il modello vede, descrive e poi "ragiona" sulla qualità, un po' come farebbe un essere umano.

In pratica, il VLM riceve un prompt del tipo "Per favore valuta la qualità di questa immagine", genera alcune frasi che descrivono difetti e contenuto, e infine produce un giudizio di qualità, per esempio "good" o "poor". Idealmente, il giudizio finale dovrebbe essere coerente con queste descrizioni intermedie.

Dove nascono i problemi: descrizioni "belle" ma giudizi assurdi

Gli autori mostrano che i VLM per BIQA spesso producono descrizioni visuali plausibili, ma poi danno un punteggio di qualità in contraddizione con quanto appena detto. Classico esempio: testo "the image is clear" e giudizio finale "poor".

Ancora peggio, se si ripete più volte la stessa domanda sulla stessa immagine, il modello può cambiare idea, passando da "good" a "poor" e poi magari di nuovo a "good". Questo rende difficile usare questi sistemi in pipeline di produzione dove stabilità e coerenza sono essenziali.

Queste incoerenze fanno sorgere un dubbio di fondo: il VLM sta davvero ragionando partendo dalle caratteristiche visive descritte, oppure sta semplicemente "regredendo" a un punteggio sfruttando embedding astratti poco interpretabili?

Come si collega ai modelli che già conosci?

Prima dell'ondata VLM, la BIQA era dominata da modelli puramente visivi: CNN o transformer addestrati a mappare direttamente l'immagine in uno score numerico, senza generare testo. Esempi citati nel paper includono MUSIQ, ARNIQA e altre varianti che lavorano su feature visive multi-scala.

Questi approcci ottengono buone correlazioni con i giudizi umani, ma non spiegano perché danno un certo voto. Niente descrizioni, niente "catena di pensiero". Il passaggio ai VLM nasce proprio per colmare questo gap di interpretabilità: non solo un numero, ma anche un testo che racconta difetti e qualità dell'immagine.

Uno dei primi esempi di questa nuova generazione è Q-Instruct, che costruisce un grande dataset multimodale di descrizioni di difetti e punteggi, usato per fare instruction tuning di VLM su compiti di qualità visiva. Lavori successivi come Q-Ground, Seagull e DepictQA spingono più avanti la direzione, ma si concentrano soprattutto sulle metriche di performance.

Che cosa propone di nuovo "Building Reasonable Inference"?

Questo lavoro non introduce un nuovo backbone gigantesco, ma due contributi chiave: analisi dell'inferenza e una strategia di two-stage tuning pensata per costruire un ragionamento più "umano".

Primo, gli autori studiano come il token di qualità finale si relaziona alle descrizioni visive generate in precedenza, analizzando le mappe di attenzione che collegano i token. Scoprono che il modello spesso ignora le descrizioni e si appoggia invece a pochi token di embedding visivo difficili da interpretare.

Secondo, decodificano gli stati intermedi (latent output) del language model tramite una variante del logit lens: osservano così come cambiano, layer dopo layer, i token candidati alla risposta "good", "poor" ecc., scoprendo catene di inferenza instabili.

Impatto pratico: stabilità, coerenza e fiducia nel modello

Sulla parte sperimentale, la proposta riduce l'instability ratio (frequenza con cui il modello cambia giudizio sulla stessa immagine) dal 22,00% al 12,39% sul mix SPAQ+KONIQ, e da 16,27% a 4,09% su LIVE, con miglioramenti analoghi su CSIQ.

In termini di qualità predittiva, misurata con SRCC e PLCC, il modello proposto ottiene miglioramenti medi di 0,3124/0,3507 rispetto a una baseline one-stage basata su mPLUG-Owl2, a fronte di un lieve aumento del tempo di inferenza. Non è lo stato dell'arte assoluto, ma è molto più stabile a parità di backbone.

Per chi costruisce prodotti, questo significa poter avere modelli che non solo performano bene, ma che non "impazziscono" tra una richiesta e l'altra, e che forniscono spiegazioni testuali più allineate al voto finale.

Link utili: paper, codice, dataset

GitHub: non disponibile (al momento della stesura non è indicato un repository ufficiale per questo lavoro).
Paper: arXiv 2512.09555
Dataset principale (Q-Instruct / Q-Pathway, usato per il two-stage tuning): Q-Instruct-DB su HuggingFace

Architettura e componenti chiave

Il lavoro usa come backbone mPLUG-Owl2-7B, un VLM simile a LLaVA: un encoder visivo, un vision-language projector che porta le feature nel semantic embedding space, e un LLM decoder con 32 layer che genera i token di output. Ogni token di testo viene raffinato passando sequenzialmente attraverso tutti i layer.

Nel setup BIQA, il prompt testuale è relativamente semplice ("Please rate the image quality"), mentre il grosso del lavoro lo fanno i token immagine proiettati nello spazio linguistico e poi elaborati dall'LLM. Prima si generano frasi che descrivono il contenuto visivo, poi un token finale <quality> che rappresenta il giudizio.

Come viene diagnosticato il problema: attenzione e hidden states

Per capire se il VLM "ragiona" partendo dalle descrizioni visive, gli autori analizzano le attenzioni del token <quality> verso gli altri token di contesto: sia quelli derivati dall'immagine, sia quelli delle frasi generate in precedenza. In un modello davvero interpretabile, ci si aspetterebbe pesi di attenzione forti verso i token che descrivono blur, rumore, esposizione, composizione.

Invece osservano che, nei modelli one-stage esistenti, il token di qualità si aggancia spesso a un piccolo insieme di token immagine astratti e quasi ignora i token che verbalizzano le caratteristiche visive. La catena "immagine → descrizione → giudizio" è quindi spezzata: il giudizio salta direttamente dall'immagine al punteggio.

Con il logit lens applicato agli hidden states del decoder, vedono inoltre che, a layer intermedi, il token più probabile può essere "poor", mentre nel layer finale diventa "good", e su ripetute valutazioni la risposta può oscillare. È un segnale chiaro di una dinamica interna instabile.

Two-stage tuning: separare percezione e ragionamento

Il cuore della proposta è una two-stage tuning pipeline che forza il modello a separare il momento percettivo da quello inferenziale. Nel primo stage, il VLM viene addestrato a mappare direttamente immagini in descrizioni testuali di base, usando dati multimodali tipo Q-Pathway.

In questo stage, l'obiettivo è che il modello impari a produrre descrizioni accurate di difetti visivi: blur, noise, artefatti di compressione, esposizione, colore, contrasto. Qui la BIQA è vista come un problema di "captioning di difetti", non di scoring.

Nel secondo stage, invece, il modello riceve solo testo (le descrizioni generate nello stage 1) e deve concludere la qualità ("good", "poor", livelli intermedi) tramite instruction tuning mono-modale. L'immagine non entra più in gioco: il reasoning è guidato esclusivamente dal contenuto linguistico.

Perché funziona: trade-off interpretabilità vs costo computazionale

Questa decomposizione ha due effetti importanti. Primo, obbliga il modello a groundare il giudizio finale nelle descrizioni testuali: se lo stage 2 non vede l'immagine, non può appoggiarsi a embedding astratti per "barare". Secondo, rende osservabile l'errore: se descrizione e giudizio non sono allineati, sai che qualcosa è andato storto nello stage 2, non nella percezione.

Ovviamente c'è un costo. Il two-stage tuning richiede due fasi di fine-tuning e, in inferenza, comporta un tempo leggermente superiore: l'articolo riporta nel complesso circa 0,2044 secondi contro ~0,16 della baseline, con lo stesso backbone. È un compromesso esplicito fra stabilità/interpretabilità e efficienza.

Dataset usati: Q-Pathway, SPAQ, KONIQ, LIVE, CSIQ

Per il training, gli autori estraggono circa 6.720 campioni dal dataset Q-Pathway, parte del più ampio Q-Instruct, di cui 6.000 usati per il training vero e proprio. Q-Pathway contiene immagini con descrizioni dettagliate della qualità visiva e un giudizio complessivo.

Per la valutazione usano una combinazione di dataset "in-the-wild" come SPAQ e KONIQ-10k, e dataset più classici come LIVE e CSIQ, che coprono sia degradazioni autentiche sia sintetiche. In totale, valutano sia stabilità (instability ratio) sia correlazione con i voti umani, usando SRCC e PLCC.

Confronto con le baseline e risultati chiave

Il confronto diretto è con una pipeline one-stage basata sempre su mPLUG-Owl2 e Q-Pathway, quindi a parità di backbone e dati. Qui il two-stage tuning mostra miglioramenti consistenti, sia in stabilità che in qualità predittiva, a parità di setup sperimentale.

Rispetto a modelli più complessi come Q-Align o sistemi addestrati su dataset molto più grandi, il modello degli autori non è sempre al top sulle metriche di accuratezza assoluta, ma resta competitivo. La differenza è nell'obiettivo: massimizzare la ragionevolezza dell'inferenza più che spremere ogni decimale di SRCC.

Limiti e punti aperti

Gli autori sono espliciti sui limiti. Primo, la performance in termini di SRCC/PLCC non raggiunge lo stato dell'arte assoluto, in gran parte per la scala ridotta e la composizione del training set. Secondo, la valutazione è condotta su un'unica architettura VLM; resta aperta la generalizzazione ad altri backbone.

Inoltre, il lavoro si concentra sui VLM e non confronta la proposta con metodi non-VLM che raggiungono ottime performance ma non producono spiegazioni testuali, come alcune soluzioni basate su contrastive learning e regressione lineare. Infine, la complessità dei grandi VLM pone un problema di efficienza, e gli autori suggeriscono come direzione futura tecniche di distillazione per modelli più leggeri.

Oggi i VLM per BIQA sono già abbastanza maturi per essere integrati in prodotti, ad esempio per monitorare la qualità di immagini caricate dagli utenti o di flussi video. La proposta "Building Reasonable Inference" punta proprio a rendere questi modelli più stabili e interpretabili, qualità fondamentali per casi d'uso in produzione dove servono decisioni coerenti nel tempo.

Che differenza pratica c'è tra un modello two-stage e uno one-stage?

In un modello one-stage, il VLM riceve l'immagine, genera qualche descrizione e direttamente il giudizio, ma può ignorare le descrizioni. Nel modello two-stage, la qualità viene inferita solo a partire dal testo, costringendo il sistema a usare davvero le descrizioni come base del ragionamento. Questo riduce i casi in cui la frase dice "nitida" e il voto è "scarso" senza motivo apparente.

Posso riutilizzare questa idea per altri compiti oltre la qualità delle immagini?

Sì, l'idea di separare percezione e reasoning è molto generale. Qualunque compito multimodale in cui oggi il VLM produce spiegazioni testuali più un output finale può beneficiare di un two-stage tuning simile: prima descrizioni controllate, poi decisione basata solo sul testo. È plausibile applicarla a diagnosi medica da immagini, moderazione di contenuti o valutazione estetica, anche se il paper non sperimenta questi scenari.

Ci sono rischi o misunderstanding tipici quando si usano VLM per BIQA?

Il rischio principale è credere che, siccome il modello genera testo "convincente", stia anche ragionando in modo coerente. Questo lavoro mostra che non è sempre così: il modello può usare scorciatoie sugli embedding e solo dopo "inventarsi" una spiegazione plausibile a posteriori. Per mitigare il problema servono analisi interne e progettazione di pipeline che rendano osservabili i singoli passi della decisione.

È probabile che vedremo tre evoluzioni: training su dataset più vari e meno template-driven, integrazione di modelli esplicitamente progettati per la stabilità dell'inferenza, e uso estensivo di distillazione per portare questi comportamenti "ragionevoli" in modelli più piccoli e deployabili. Lavori come questo indicano che il futuro non è solo avere VLM più grandi, ma VLM che ragionano meglio.

Se vuoi mettere le mani in pasta, un percorso ragionevole è: partire da un VLM open-source come LLaVA o mPLUG-Owl2, usare il dataset Q-Instruct/Q-Pathway per istruirlo sulle descrizioni di difetti, e implementare una versione semplificata del two-stage tuning. Anche solo decodificare gli hidden states con un logit lens su alcuni token ti darà intuizioni preziose su come il modello "pensa" alla qualità.

Riferimenti e link utili

Building Reasonable Inference for Vision-Language Models in Blind Image Quality Assessment