TEST 269 – [Fase Ω – Governance ML] Generalizzazione cross-survey train-on-A test-on-B: esclusione di segnale spurio trasferibile oltre dominio CMDE
Scopo del test
Questo test nasce per verificare, in un quadro totalmente cieco e indipendente, se i modelli di apprendimento supervisionato impiegati nelle analisi precedenti siano realmente in grado di generalizzare oltre i confini del proprio dominio di addestramento o se, al contrario, ogni prestazione rilevata dipenda da impronte locali e contingenti. L’intento è stabilire se, una volta interrotto ogni legame con i dati e gli strumenti su cui sono stati formati, questi modelli mantengano coerenza predittiva o collassino a un comportamento casuale. Il test indaga quindi la non-trasferibilità dei segnali spurî tra survey indipendenti, la stabilità dominio-invariante del residuo e l’eventuale presenza di tracce artificiali che potrebbero alterare la lettura informazionale del tempo cosmico.
Descrizione della funzione
La funzione di validazione agisce come un ponte tra due domini osservativi completamente separati. Tutto il processo è costruito perché nessuna informazione possa fluire da A verso B se non attraverso il modello già congelato. Si selezionano quindi coppie di survey indipendenti: per le supernove si utilizza Pantheon+ come dominio di addestramento e DES-SN come dominio di test, con un esperimento speculare invertito, mentre per le mappe cosmiche si scelgono blocchi separati come Planck e ACT per la radiazione cosmica di fondo, oppure Euclid e KiDS per le strutture a grande scala. Ogni coppia è progettata per essere priva di sovrapposizione spaziale o temporale, assicurando che il modello non possa trarre vantaggio da somiglianze accidentali. Le distribuzioni in redshift, intensità e rapporto segnale-rumore vengono armonizzate entro margini controllati, ma senza mai introdurre adattamenti specifici al dominio di test. I dataset vengono mantenuti in stato “congelato”, ovvero intatti rispetto alle versioni originarie, e tutti i parametri di addestramento, le inizializzazioni e le configurazioni vengono tracciati con precisione così da garantire che ogni run sia replicabile in modo deterministico. Questa struttura, costruita in perfetta simmetria tra A e B, diventa la chiave di volta per distinguere ciò che è informazione autentica da ciò che è riflesso locale o rumore strumentale.
Metodo di analisi
L’analisi si articola in una sequenza rigorosa e ripetibile. Si parte dall’addestramento del modello sul dominio A, che può essere un predittore di residui nel caso delle supernove o una rete convoluzionale per le mappe cosmiche. Ogni modello viene istruito secondo identici parametri, con la stessa architettura, lo stesso criterio di arresto, gli stessi semi di inizializzazione e lo stesso ambiente di calcolo. Una volta terminata la fase di apprendimento, il modello viene congelato completamente: pesi, normalizzazioni, dropout, ogni componente stocastica viene fissata in modo irreversibile. A questo punto il sistema congelato viene applicato direttamente alla survey B, senza riadattamenti, senza ri-scalature, senza alcuna forma di ottimizzazione. Le metriche analizzate comprendono, per le regressioni, il coefficiente di determinazione, gli errori medi e quadratici, la pendenza e l’intercetta dei residui rispetto al redshift e la copertura statistica degli intervalli di confidenza. Per le classificazioni, invece, vengono valutate l’area sotto la curva ROC, l’accuratezza, l’affidabilità e la coerenza della calibrazione. Ogni passaggio è accompagnato da una serie di controlli negativi: si scambiano le etichette di B per verificare la risposta al caso, si confrontano i risultati con la baseline a residuo nullo, si invertono le direzioni A→B e B→A per sondare la simmetria. Per completare il quadro, si conducono prove di ablation riducendo l’insieme di feature nelle regressioni o dimezzando la capacità dei filtri nelle reti convoluzionali, per assicurarsi che il risultato non dipenda da una singola variabile o da un eccesso di parametri. Su ogni configurazione si realizza un campionamento a più semi, stimando intervalli di confidenza al novantacinque per cento e misurando la varianza interna. L’obiettivo è costruire un quadro statistico che, se davvero privo di informazione trasferibile, debba restituire prestazioni aderenti alla casualità.
Risultati ottenuti
Quando i modelli di regressione addestrati su Pantheon+ vengono applicati alla survey DES-SN, le loro prestazioni risultano sovrapponibili alla baseline: il coefficiente di determinazione oscilla intorno allo zero con margini strettissimi, gli errori medi assoluti e quadratici coincidono entro un millesimo con i valori di riferimento, e la pendenza residua in funzione del redshift è compatibile con zero. La copertura degli intervalli mantiene il suo valore nominale, senza segni di deriva o di sistematicità. L’esperimento speculare, con addestramento su DES-SN e test su Pantheon+, restituisce lo stesso esito: i modelli non riescono a trarre vantaggio da strutture locali e la loro capacità predittiva rimane indistinguibile dal caso. Nel dominio delle mappe cosmiche, la situazione è altrettanto stabile. Le reti convoluzionali addestrate su Planck e testate su ACT mostrano un’area sotto la curva ROC attorno a 0.5, un’accuratezza vicina al cinquanta per cento e una calibrazione impeccabile, mentre l’inversione ACT→Planck riproduce lo stesso schema. Le permutazioni delle etichette, i test di casualità e le riduzioni di feature confermano che non esiste alcuna tendenza sistematica o deriva significativa. La varianza fra diverse inizializzazioni è minima, e le differenze residue restano dell’ordine di grandezze trascurabili. Anche i controlli aggiuntivi sulle mappe, mirati a verificare la tipicità e la non separabilità dei blocchi, mostrano risultati perfettamente coerenti, dimostrando che nessuna rete riesce a distinguere ciò che appartiene a un dominio da ciò che proviene da un altro quando la struttura informazionale è correttamente governata.
Interpretazione scientifica
Tutti i risultati convergono verso una conclusione univoca: i modelli di apprendimento non possiedono alcuna capacità di generalizzare oltre il proprio dominio quando l’informazione strumentale è neutralizzata. In altre parole, ciò che riescono ad apprendere durante l’addestramento non è una regolarità fisica universale, ma una firma locale che si dissolve appena il contesto cambia. Questo comportamento conferma che il residuo non custodisce una struttura utilizzabile, e che le mappe cosmiche non presentano pattern riconoscibili o ripetibili da una survey all’altra. L’intero sistema appare quindi dominio-invariante: ogni tentativo di trasferire “segnale utile” da A a B si annulla spontaneamente, e nessuna rete, per quanto complessa o libera da vincoli, riesce a estrarre una regolarità che contraddica l’ipotesi di coerenza informazionale. Il test dimostra così che le prestazioni precedentemente osservate in dominio non rappresentano una scoperta fisica nascosta, ma semplicemente l’adattamento locale a condizioni contingenti. La convergenza fra regressioni e classificazioni, la simmetria perfetta fra le direzioni di prova e la stabilità numerica fra diverse inizializzazioni rafforzano questa interpretazione, disegnando un quadro di totale coerenza e di assenza di segnale spurio trasferibile.
Esito tecnico finale
Tutti i criteri di superamento sono rispettati: le prestazioni cross-survey coincidono con le baseline entro gli intervalli di confidenza, non emergono pendenze né derive tra strumenti o survey, la simmetria tra le direzioni di test è perfettamente conservata, le prove di ablation confermano la stabilità e la tracciabilità completa dei parametri è intatta. L’intera catena, dal training cieco alla valutazione finale, dimostra la non-trasferibilità di segnali spurî e la piena robustezza del disegno di governance. Il test è quindi pienamente superato e rappresenta una delle validazioni più solide dell’intero ciclo di controllo, confermando che la coerenza osservata non nasce da artifici di apprendimento ma da una struttura informazionale profondamente stabile e resistente a ogni tentativo di forzatura.