Interleaved Latent Visual Reasoning guida completa: capire ILVR e il nuovo ragionamento visivo latente

8 dicembre 2025

Interleaved Latent Visual Reasoning guida completa: in questa guida vedremo che cos'è ILVR, perché è stato proposto e cosa cambia rispetto ai metodi precedenti di ragionamento multimodale. In pratica, è un modo per far "vedere" a un modello immagini multiple volte durante una catena di ragionamento, senza doverle ricodificare ogni volta in pixel-space. Il risultato è un miglior equilibrio tra percezione fine e ragionamento sequenziale nei Multimodal LLM.

Titolo originale: Interleaved Latent Visual Reasoning with Selective Perceptual Modeling - pubblicato su arXiv il 5 dicembre 2025. Autori: Shuai Dong, Siyuan Wang, Xingyu Liu, Zhongyu Wei.

Che cos'è Interleaved Latent Visual Reasoning e perché è importante (guida completa)

Interleaved Latent Visual Reasoning guida completa: in parole semplici

Partiamo dal concetto chiave: ragionamento visivo interleaved (Interleaved Latent Visual Reasoning, ILVR). L'idea è che il modello non generi solo token di testo, ma alterni testo e "stati visivi latenti", cioè vettori continui che rappresentano ciò che sta "vedendo" in quel momento.

Questi latents sono come piccoli appunti visivi che vengono aggiornati passo dopo passo, invece di essere estratti una volta sola all'inizio. Il modello può così simulare stati visivi che cambiano nel tempo, ad esempio una scacchiera dopo una mossa o una scena di navigazione dopo un passo avanti.

Perché ILVR nasce: il problema del costo dei pixel

I modelli linguistici multimodali (Multimodal Large Language Models, MLLM) hanno iniziato a usare catene di ragionamento multimodali dove testo e immagini si alternano. Il problema è che ogni volta che generi una nuova immagine intermedia devi ricodificarla con l'encoder visivo: è costoso e poco scalabile per molti step.

La linea di lavoro del latent visual reasoning ha provato a sostituire le immagini con latents, ma fino ad ora c'era un trade-off: o comprimi troppo e perdi dettagli, o tieni l'immagine "statica" e non riesci a modellare scenari che evolvono, come pianificazione o manipolazione robotica.

Come ILVR si differenzia da Mirage e LVR

Metodi precedenti come Mirage e LVR generavano un singolo latent visivo da una "helper image" all'inizio del ragionamento. Poi tutto il resto avveniva solo in testo. Questo significa che il segnale visivo rimaneva statico: utile per zoomare su una regione, ma insufficiente per seguire un processo multi-step o scenari dinamici.

In più, Mirage ottiene i suoi latents comprimendo fortemente le patch dell'immagine, perdendo dettagli utili per compiti come il conteggio preciso. ILVR affronta entrambi i punti: mantiene latents aggiornati a ogni step e usa una selezione visiva più mirata, evitando l'over-compressione.

Come si collega ILVR ai modelli che già conosci

ILVR non è un nuovo modello di base, ma una cornice di training e inferenza applicata a un MLLM esistente. Nel paper viene implementato sopra Qwen2.5-VL 7B, confrontandolo con varie baseline: zero-shot, fine-tuning diretto sulle risposte, e fine-tuning con text-only Chain-of-Thought (CoT).

In pratica, se oggi lavori con un modello multimodale tipo Qwen, LLaVA, etc., ILVR è una strategia che potresti adottare per fargli usare latents visivi interleaved invece di affidarsi solo a immagini statiche o a CoT puramente testuale.

Impatto pratico: cosa cambia per ricercatori, dev e aziende

Per i ricercatori, ILVR è sia un nuovo paradigma di ragionamento multimodale sia una prova empirica che i latents dinamici possono superare CoT testuale e latent reasoning statico su benchmark complessi come COMT, VSP, EMMA BENCH e VisualLogic.

Per developer e aziende, significa la possibilità di avere agenti che ragionano su immagini, video, robotica o interfacce grafiche seguendo sequenze di azioni e osservazioni, senza esplodere i costi computazionali. Ad esempio, pianificare una traiettoria, aggiornare una mappa visiva o simulare step di manipolazione fisica diventa più gestibile in termini di compute.

Link utili: codice, paper e dataset principali

GitHub: https://github.com/XD111ds/ILVR
Paper: https://arxiv.org/abs/2512.05665
Dataset principale di training interleaved: Zebra-CoT
Altri benchmark chiave: CoMT, VSP

Interleaved Latent Visual Reasoning spiegato più in dettaglio

Architettura e componenti chiave

L'architettura di base è quella di un MLLM standard: encoder visivo, backbone tipo Transformer e testa di generazione testuale. La novità di ILVR è nel paradigma di generazione interleaved, non nel backbone.

La sequenza di output contiene sia token di testo, sia segmenti di token speciali che delimitano i latents visivi. Questi segmenti non vengono proiettati nel vocabolario, ma usano direttamente gli hidden states del modello come rappresentazione continua della scena visiva del momento.

Il paradigma interleaved: testo e latents nella stessa sequenza

Durante l'inferenza, il modello procede normalmente finché non genera un token speciale, ad esempio <|latent_start|>. A quel punto entra in "modalità latente": per un numero fisso di step non produce testo, ma aggiorna uno stato continuo che funge da memoria visiva interna.

Finita la finestra latente, con <|latent_end|> torna a generare testo, ma ora il contesto include i latents aggiornati. In questo modo la catena di ragionamento alterna step del tipo "spiego in parole" e step del tipo "aggiorno la mia rappresentazione visiva interna".

Selective perceptual modeling: il ruolo del Momentum Teacher Model

Perché questi latents siano davvero informativi, serve una supervisione visiva di qualità. Qui entra in gioco il modello insegnante a momentum (Momentum Teacher Model), una copia del modello online aggiornata con Exponential Moving Average dei pesi.

L'insegnante riceve la stessa history testuale e la stessa helper image del modello studente. Da questa immagine estrae patch features, le aggrega spazialmente se sono troppe (per ridurre il rumore locale) e usa un meccanismo di attenzione guidato dal testo per selezionare solo le regioni visive più rilevanti per lo step corrente.

Queste feature selezionate diventano il target verso cui gli hidden states latenti dello studente devono avvicinarsi, step per step. È qui che nasce la parte di selective perceptual modeling: non tutte le informazioni visive sono trattate allo stesso modo, solo quelle importanti per la domanda e lo stato corrente del ragionamento.

Due fasi di apprendimento: latent alignment e latent relaxation

Il training di ILVR avviene in due stage distinti, pensati per bilanciare precisione percettiva e flessibilità del ragionamento.

Nella Stage 1 (Interleaved Latent-Text Joint Supervision), i latents sono fortemente vincolati alle feature selezionate dal teacher. Gli hidden states generati per i token latenti vengono penalizzati se non coincidono abbastanza con quelle feature. In parallelo si usa la classica loss di cross-entropy sui token testuali.

Nella Stage 2 (Text-Only Supervision with Latent Relaxation), il vincolo di allineamento viene rimosso: resta solo la loss sul testo finale. A questo punto i latents diventano una sorta di spazio di lavoro interno che il modello può ottimizzare end-to-end per massimizzare la qualità della risposta, mantenendo però le capacità percettive apprese nello stage precedente.

Confronto con le baseline: CoT testuale e latent reasoning statico

Il confronto sperimentale è uno dei punti più interessanti della paper. Su COMT, un benchmark con quattro categorie (Creation, Deletion, Selection, Update), ILVR raggiunge fino al 60,8% di accuratezza media, contro il 56% di Mirage nella configurazione migliore.

Su VSP, focalizzato su visual spatial planning, ILVR arriva a 81,5% di accuratezza contro il 76% di Mirage e supera anche il fine-tuning diretto e il CoT testuale, che si fermano rispettivamente al 72% e al 47% in alcune configurazioni. Questo suggerisce che l'interleaving di latents dinamici porta un guadagno tangibile sia rispetto al testo puro sia rispetto ai latents statici.

Sui benchmark out-of-distribution (EMMA BENCH, VisualLogic, Zebra-CoT 2D) ILVR ottiene la miglior media complessiva, circa 37,5%, superando sia le baseline CoT testuali sia Mirage. Il miglioramento è particolarmente evidente in compiti scientifici (chimica, coding) e in task di logica visiva fine-grained.

Analisi qualitativa: cosa fanno davvero questi latents?

Le visualizzazioni delle heatmap di attenzione mostrano che i latents prodotti da ILVR seguono la semantica del compito lungo la sequenza. Nei task di navigazione, il modello passa dal focalizzarsi sull'agente al goal e agli ostacoli; nei task di manipolazione robotica, l'attenzione si sposta dall'oggetto da afferrare al target finale dove deve essere posizionato.

Questo suggerisce che i latents non sono solo un "buffer di feature", ma diventano una rappresentazione dinamica del piano visivo che sta dietro alla catena di pensiero testuale, allineata step-by-step alle esigenze del task.

Limiti, costi computazionali e punti aperti

ILVR riduce il costo rispetto a generare e ricodificare immagini, ma introduce comunque overhead computazionale: bisogna gestire segmenti latenti in sequenza, un teacher a momentum durante lo stage 1 e la selezione adaptiva delle patch. Per modelli molto grandi o contesti lunghi, questo overhead non è trascurabile.

Inoltre, la complessità del sistema rende la riproducibilità più delicata: bisogna scegliere il numero di token latenti, il peso della loss di allineamento, i parametri dell'EMA, ecc. Le ablation mostrano che, ad esempio, usare 8 token latenti e un peso di allineamento pari a 1 è un buon compromesso, ma resta un ampio spazio di tuning.

Dal punto di vista di ricerca, restano aperte domande su come generalizzare ILVR a video lunghi, a scenari interattivi real-time, o su come usare latents condivisi tra agenti multipli in ambienti collaborativi.

Domande frequenti (FAQ) su Interleaved Latent Visual Reasoning

Interleaved Latent Visual Reasoning cos'è, in pratica?

Interleaved Latent Visual Reasoning è un modo di far ragionare un MLLM alternando testo e rappresentazioni visive latenti all'interno della stessa sequenza. Invece di usare una sola immagine codificata all'inizio, il modello aggiorna questi latents a più step, guidato da un teacher che seleziona le regioni visive più rilevanti per il ragionamento.

ILVR è un nuovo modello o una tecnica che posso applicare ad altri MLLM?

Nel paper ILVR è implementato sopra Qwen2.5-VL 7B, ma concettualmente è un framework di training e inferenza: introduce token speciali per i latents, un teacher a momentum e un curriculum in due fasi. Nulla vieta, in principio, di adattarlo ad altri MLLM con architettura simile, anche se questo richiede un effort di ingegneria non banale.

In quali casi ILVR può essere davvero utile rispetto al solo CoT testuale?

ILVR brilla quando c'è interazione sequenziale con lo spazio visivo: pianificazione in labirinti o mappe, puzzle 2D e 3D, ragionamento scientifico che usa diagrammi, manipolazione robotica, giochi da tavolo come gli scacchi. In questi casi, avere latents visivi aggiornati step-by-step aiuta il modello a non perdere di vista gli effetti delle proprie azioni o delle trasformazioni sulla scena.

Quali sono i principali limiti e rischi di ILVR oggi?

I limiti principali sono tre. Primo, il costo computazionale extra dovuto al teacher e alla generazione di segmenti latenti. Secondo, la maggiore complessità di implementazione e tuning, che rende più difficile portare ILVR in produzione rispetto a un semplice fine-tuning CoT. Terzo, la dipendenza da dataset ben progettati per il ragionamento multimodale interleaved, come Zebra-CoT e CoMT.

Posso usare ILVR in contesti industriali o di prodotto?

In linea di principio sì, soprattutto in applicazioni dove il modello deve prendere decisioni su interfacce visive o ambienti simulati: agenti che navigano dashboard, sistemi di controllo di robot, strumenti di analisi di scene complesse. Tuttavia, oggi ILVR è ancora un risultato di ricerca: portarlo in produzione richiede stabilizzare il codice, ridurre i costi di training e capire bene i trade-off rispetto a pipeline più semplici, ad esempio tool esterni per la visione.

Cosa possiamo aspettarci nei prossimi anni da ILVR e dal latent visual reasoning?

È probabile che vedremo ibridi tra ILVR e altri paradigmi: ad esempio, latents visivi interleaved combinati con tool esterni specializzati, o con reinforcement learning per ottimizzare politiche di "quando aggiornare i latents". Ci aspettiamo anche versioni più leggere e modulari, pensate per essere integrate come plugin di ragionamento visivo dentro agenti LLM generalisti, e benchmark sempre più realistici per misurare queste capacità.