top of page

TEST 270 – [Fase Ω – Governance ML] Inferenza bayesiana gerarchica dei residui con LOO-CV/WAIC: calibrazione, posterior predictive checks e non-inferiorità CMDE vs ΛCDM out-of-sample

Scopo del test
Questo test è stato concepito per verificare in modo profondo e indipendente che il comportamento dei residui delle supernove di tipo Ia, cioè le differenze tra quanto osservato e quanto previsto dal modello, sia effettivamente compatibile con quello di un rumore casuale ben calibrato, privo di strutture e capace di mantenere stabilità e coerenza predittiva anche fuori dal campione di addestramento. Lo scopo non è cercare un vantaggio numerico momentaneo o una supremazia statistica rispetto ad altri modelli, ma dimostrare che la teoria è sufficiente a spiegare i dati senza dover ricorrere a correzioni arbitrarie o parametri aggiuntivi. In questo senso il test rappresenta una delle prove più delicate della fase di governance, perché mira a capire se la metrica su cui si fonda la descrizione del redshift riesce da sola a contenere tutta l’informazione utile che le supernove mettono a disposizione, senza lasciare residui sistematici, pendenze nascoste o tendenze dipendenti dal tipo di osservazione o dallo strumento usato.

Descrizione della funzione
L’analisi prende in esame un archivio consolidato di supernove di tipo Ia, calibrate con procedure standard che includono le grandezze fotometriche principali e i parametri correttivi che permettono di confrontare eventi di diversa luminosità o colore. Ogni supernova viene accompagnata dai suoi metadati osservativi e dalle incertezze misurate, e il tutto viene organizzato in modo da mantenere la separazione cieca tra i set di addestramento, validazione e test. Per ogni evento si calcola la differenza tra la distanza osservata e quella teorica prevista, ottenendo così il residuo che diventa la base di tutto lo studio. L’intero insieme di dati viene trattato con la stessa struttura di modellazione sia per il modello oggetto di validazione sia per il modello di riferimento ΛCDM, così che nessuno dei due abbia vantaggi o penalizzazioni dovuti alla forma del modello o alla scelta delle variabili. Entrambi i modelli condividono la stessa organizzazione gerarchica, gli stessi livelli di correzione e gli stessi controlli di dispersione tra survey e strumenti, in modo che ogni differenza finale derivi solo dal contenuto fisico e non da differenze metodologiche. Questo assetto è stato rigidamente controllato per assicurarsi che la tracciabilità, la coerenza degli input e la neutralità delle condizioni di partenza restassero garantite lungo tutto il processo.

Metodo di analisi
Per ogni supernova si studia il comportamento del residuo come una quantità casuale che dipende da vari fattori, tra cui le incertezze osservate e alcune possibili dispersioni intrinseche che possono variare da survey a survey o da strumento a strumento. Queste dispersioni vengono trattate come effetti casuali, cioè come piccole variazioni che non hanno una direzione sistematica ma che permettono di descrivere realisticamente le differenze tra esperimenti. A ciò si aggiungono alcuni correttivi estremamente controllati e penalizzati che hanno la funzione di verificare se i residui presentano piccole pendenze non spiegate dal modello principale: una leggera dipendenza dal redshift, un effetto dovuto ai parametri di luminosità o colore, o una minima curvatura residua. Tutti questi correttivi sono mantenuti deboli, in modo che intervengano solo se realmente necessari e non diventino mai meccanismi di adattamento artificiale. L’analisi procede tramite un processo di inferenza probabilistica rigorosa che esplora tutte le combinazioni di parametri e valuta la loro compatibilità con i dati osservativi. Il campionamento avviene in modo da evitare convergenze spurie e da garantire stabilità numerica e riproducibilità.
Una volta ottenute le distribuzioni finali dei parametri, si eseguono controlli approfonditi di coerenza interna: si studia la forma dei residui normalizzati, la loro distribuzione statistica, la simmetria e la copertura predittiva dei vari intervalli di confidenza. Si osservano poi i grafici di confronto concettuale, che mettono in relazione i residui osservati e quelli previsti, cercando deviazioni o pendenze che possano segnalare un difetto di calibrazione. Tutte queste verifiche vengono condotte separatamente sui tre sottoinsiemi dei dati per assicurare che la stabilità del modello non dipenda da particolari porzioni del campione. Infine, il confronto finale tra il modello in esame e quello di riferimento viene eseguito in modalità completamente cieca, utilizzando metodi di validazione fuori campione che stimano il potere predittivo reale dei modelli. In parallelo vengono eseguiti controlli di robustezza per valutare la sensibilità del risultato alle scelte di prior, alla rimozione di componenti, all’esclusione di survey e a modifiche artificiali delle incertezze osservate. Il test è completato da una serie di controlli negativi che, lavorando su dati privi di segnale fisico, devono dimostrare che la pipeline statistica non genera spuri.

Risultati ottenuti
L’analisi ha mostrato un comportamento estremamente regolare e coerente. Tutti i parametri principali convergono rapidamente verso valori stabili e le dispersioni intrinseche restano contenute, senza indicare deviazioni eccessive o anomalie tra i diversi gruppi di dati. Gli effetti casuali di survey e di strumento risultano deboli e quasi sempre indistinguibili da zero, a conferma che le differenze tra campagne osservative non introducono variazioni sistematiche nei residui. I correttivi penalizzati, concepiti come sonde di eventuali trend nascosti, rimangono centrati intorno allo zero e i loro intervalli di incertezza comprendono sempre il valore nullo. La funzione di controllo sulla curvatura in redshift risulta piatta e non segnala alcuna deviazione sistematica, mentre le componenti angolari, introdotte come verifica estrema di isotropia, non mostrano pattern significativi e vengono automaticamente ridotte a valori trascurabili.
I controlli di calibrazione indicano che i residui hanno media prossima a zero e varianza compatibile con l’unità effettiva, con coperture predittive molto vicine ai valori nominali su tutte le fasce di confidenza. Non si rilevano correlazioni dei residui né con il redshift né con i parametri fotometrici o con le proprietà dell’host galaxy. Le analisi di confronto predittivo tra i due modelli restituiscono differenze minime e statisticamente irrilevanti, sempre comprese entro le incertezze. Le metriche di confronto predittivo fuori campione mostrano valori sostanzialmente equivalenti, con leggere oscillazioni che rientrano nella normalità di fluttuazione statistica, e i pesi di stacking non penalizzano mai il modello, anzi talvolta lo favoriscono marginalmente. Tutte le prove di robustezza confermano questa stabilità: la variazione delle prior, la rimozione dello spline, l’esclusione di singole survey o la modifica delle incertezze osservate non alterano le conclusioni. Anche i controlli negativi restituiscono risultati perfettamente neutrali, con correttivi collassati a zero e nessuna apparente produzione di segnale spurio, dimostrando che la pipeline è equilibrata e non produce falsi positivi.

Interpretazione scientifica
Il quadro che emerge da questa analisi è quello di un modello che descrive i dati con precisione sufficiente a rendere i residui indistinguibili da rumore casuale ben calibrato. Non ci sono pendenze nascoste, non ci sono strutture angolari, non ci sono deviazioni sistematiche lungo le variabili osservate. Tutto ciò suggerisce che la metrica adottata riesce a incorporare già in sé la totalità dell’informazione rilevante contenuta nei dati delle supernove di tipo Ia, senza bisogno di parametri aggiuntivi o di artifici statistici. La non-inferiorità predittiva rispetto al modello standard indica che il livello di descrizione raggiunto è sufficiente e che, dal punto di vista empirico, non esistono differenze statisticamente significative in grado di mettere in discussione la coerenza interna del modello. La stabilità dei risultati a variazioni di prior e condizioni, insieme alla neutralità dei controlli negativi, rafforza ulteriormente la fiducia nella solidità del quadro ottenuto. In sintesi, il test mostra che la teoria è in grado di reggere il confronto con i dati più sensibili del dominio luminosità–distanza senza segni di fragilità, e che il comportamento predittivo è stabile, calibrato e privo di residui strutturali.

Esito tecnico finale
Sulla base di tutti gli indicatori di calibrazione, della consistenza dei residui, della stabilità dei parametri e dell’equivalenza predittiva fuori campione rispetto al modello di riferimento, il test è considerato pienamente superato. Tutti i controlli di robustezza e le prove cieche confermano che il comportamento osservato non dipende da scelte arbitrarie e che la metrica mantiene coerenza e sufficienza esplicativa in tutto il dominio analizzato.

bottom of page