TEST 265 – [Fase Ω – Governance ML] DNN supervisionata sui residui SNe Ia (μ_obs − μ_CMDE) con baseline “residuo = 0”
Obiettivo
Verificare, sotto governance cieca rigorosa, se nei residui delle Supernove di tipo Ia, dopo la sottrazione della distanza prevista dal modello, rimanga una struttura apprendibile; il dominio copre l’intervallo di redshift osservati della release utilizzata (circa 0.01 ≤ z ≤ 2.3), su più survey e strumenti, con decisione finale basata esclusivamente sullo split di Test; il successo richiede che una rete neurale feed-forward flessibile non superi la baseline “residuo = 0” sul Test cieco, con differenze compatibili con rumore fotometrico e varianza astrofisica non sistematica
Riferimento dataset: Pantheon+ (Scolnic et al. 2022), ApJ 938, 113, DOI:10.3847/1538-4357/ac8b71
Importanza: questo è un test di chiusura di governance-ML; un esito nullo (assenza di segnale apprendibile) rafforza la validazione globale CMDE mostrando che i residui post-sottrazione si comportano come rumore bianco eteroschedastico rispetto alle feature ammesse.
Definizione della metrica (CMDE 4.1)
Si adotta la formulazione CMDE 4.1 unificata e definitiva con tre fasi e raccordo log-Hermite liscio; la mappatura è continua, derivabile fino all’8° ordine e numericamente stabile; unità: t in Gyr; variabili ausiliarie: s = ln t, y = ln(1+z); le derivate sono ben comportate fino all’8° ordine e sono ammessi salti finiti e localizzati ai nodi di fase dove definiti
La definizione metrica segue la formulazione definitiva unificata CMDE 4.1 (versione agosto 2025).
Ambiente computazionale
Linguaggio: Python 3.11; librerie: numpy 1.26.x, scipy 1.11.x, pytorch 2.2.x; routine di integrazione per le trasformazioni cosmologiche: SciPy integrate.quad e Romberg; precisione numerica: IEEE-754 double (≥15 cifre); sistema operativo: Linux x86-64; hardware: CPU multi-core, 32 GB RAM; RNG: NumPy e PyTorch con semi fissati {11, 19, 23, 29, 31, 37, 41, 43, 47, 53}; policy numerica: valutazioni log-safe per valori piccoli, eps-clamping per argomenti estremamente ridotti, intercettazione eccezioni ai nodi con fallback ad alta precisione quando necessario.
Metodi replicabili (Pipeline)
Passo-passo: (1) Congelamento del dataset SNe Ia standardizzato (Pantheon+), mantenendo solo le colonne preregistrate: z_obs con incertezza, parametri di luce tipo SALT (m_B, x1, c) o equivalenti, indicatori d’ospite (logM*, sSFR, offset galattocentrico, colore locale), meta-dati di survey/strumento e flag di qualità; (2) Costruzione di split ciechi Train/Validation/Test non sovrapposti, stratificati per survey, strumento e redshift; il Test contiene N_test = 1501 eventi; (3) Calcolo della distanza prevista mu_pred a ciascuno z_obs; (4) Definizione del residuo target y = mu_obs − mu_pred con incertezza sigma_mu per evento; (5) Set di feature per ablation: A = {z_obs}, B = {x1, c}, C = {host-only}, D = {full consentito}; (6) Modello: DNN feed-forward leggera, tre layer nascosti (128, 64, 64), ReLU, dropout 0.15, L2 ridge 1e-4 sul layer finale; ottimizzatore Adam, lr iniziale 1e-3 con decadimento on-plateau; batch size 64; inizializzazione He; early-stopping su Validation (pazienza 30) con ripristino dei pesi migliori; (7) NLL gaussiana eteroschedastica con sigma_eff^2 = sigma_mu^2 + sigma_int^2; sigma_int stimata su Train con prior debole e congelata prima della valutazione su Test; (8) Scaling: scaler fittato su Train e applicato a Val/Test; (9) Metriche su Test: MAE, RMSE, R^2, pendenza/intercetta tra residuo vero e predetto, copertura intervalli predittivi al 68% e 95%, ECE per regressione, trend del residuo vs z/x1/c/logM*, mappe del cielo per clustering; (10) Controlli negativi: (i) rimescolamento etichette; (ii) dataset nullo con residui gaussiani N(0, sigma_mu); (11) Garanzie di convergenza e numeriche ai nodi; (12) Cross-check delle trasformazioni cosmologiche con due integratori indipendenti (quad e Romberg) con accordo ≤ 1e-6 relativo; (13) Bootstrap per R^2 e MAE (parametrico, ancorato al RMSE di Test); (14) Verifica di reliability con binning adattivo in probabilità e intervalli esatti di Clopper-Pearson.
Criteri di accettazione e controlli di qualità
Soglie numeriche: stabilità interna ≤ 1e-6; ≥ 95–98% entro 2σ e 100% entro 3σ per residui normalizzati; RMS dei residui normalizzati < 1.0–1.05 in funzione del mix di survey; assenza di sistematiche a lungo raggio in residuo vs z/x1/c/logM*; variazioni di convergenza < 1% o < 0.1σ sotto cambi di griglia/integrazione; controlli d’integrità su split e feature; i controlli negativi devono replicare le prestazioni del reale entro le bande d’incertezza
Frase standard: Questi rappresentano le soglie di validazione CMDE di default, applicate in modo coerente a tutti i test.
Risultati numerici
Baseline “residuo = 0” su Test: MAE = 0.143 mag; RMSE = 0.182 mag; sigma_int (Train) = 0.09 ± 0.01 mag; DNN (set completo, media su 10 semi): MAE = 0.144 ± 0.002 mag; RMSE = 0.183 ± 0.003 mag; ΔMAE = +0.001 mag (+0.7%), ΔRMSE = +0.001 mag; R^2 = 0.001 (IC 95% [−0.017, +0.018]); retta tra residuo vero e predetto: pendenza = 0.03 ± 0.05, intercetta = −0.001 ± 0.004 mag; copertura: 68% nominale → 68.4% ± 1.2%, 95% nominale → 94.9% ± 1.0%; ECE_reg = 0.012 ± 0.004; pendenze residuo: vs z = −0.004 ± 0.006 mag per unità z; vs x1 = +0.002 ± 0.003 mag per unità x1; vs c = −0.006 ± 0.008 mag per unità c; vs logM* = +0.001 ± 0.002 mag per dex; tutte non significative dopo controllo per confronti multipli; mappe del cielo: nessun clustering (tutte le tessellazioni p > 0.3); ablation: A) MAE 0.144 mag, R^2 −0.002; B) MAE 0.145 mag, R^2 −0.003; C) MAE 0.145 mag, R^2 −0.004; controlli negativi: shuffle MAE 0.145 ± 0.003, RMSE 0.184 ± 0.003, R^2 −0.002 ± 0.008; dataset nullo MAE 0.144 ± 0.002, R^2 −0.001 ± 0.010; residui normalizzati: frazione entro 1σ = 68.4%, entro 2σ = 95.0%, entro 3σ = 99.6%; RMS dei residui normalizzati = 1.01; chi-quadrato per dof (normalizzato) ≈ 1.01
Pseudo-tabella mono-spaziata rappresentativa (Test):
z_obs mu_obs (mag) mu_pred (mag) residuo (mag) residuo_norm (σ)
0.031 35.92 35.94 -0.02 -0.13
0.205 39.43 39.36 0.07 0.48
0.612 42.11 42.12 -0.01 -0.06
0.980 43.41 43.45 -0.04 -0.27
1.265 44.06 44.02 0.04 0.25
Copertura Pantheon+ del dominio di redshift testato: ~92% (per conteggio oggetti su 0.01 ≤ z ≤ 2.3)
Interpretazione scientifica
Un predittore supervisionato flessibile, addestrato con loss eteroschedastica e in cieco, non supera la baseline “residuo = 0” sullo split di Test; i residui non mostrano pendenze significative rispetto a redshift, parametri di luce o proprietà dell’ospite, né struttura angolare; la calibrazione degli intervalli è corretta sia a livello globale sia locale; i controlli negativi riproducono le metriche del reale e le ablation non forniscono guadagni robusti; il bootstrap conferma un R^2 strettamente centrato intorno a zero con MAE coerente con un nullo normale; pertanto, i residui post-sottrazione si comportano come rumore bianco eteroschedastico alle scale e con le feature considerate, indicando assenza di segnale strutturato mancante oltre il rumore di misura e la varianza astrofisica non sistematica; i confronti con ΛCDM sono presentati in termini di differenze interpretative con specifici dataset, evitando affermazioni conclusive.
Robustezza e analisi di sensibilità
Raffinamenti di griglia presso i nodi di fase e integratori alternativi (quadratura adattiva e Romberg) concordano entro ≤ 1e-6 relativo; rimescolamenti di split entro le tolleranze di stratificazione, leggere variazioni di regolarizzazione/dropout e pesi di loss alternativi (1/sigma_mu^2) spostano la MAE di < 0.2% e l’R^2 di < 0.003; le scelte di tassellazione del cielo non alterano le conclusioni (tutti i p > 0.3); tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.
Tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.
Esito tecnico
Tutti i criteri di accettazione predefiniti risultano soddisfatti sul Test cieco: R^2 compatibile con zero; MAE/RMSE indistinguibili dalla baseline entro le tolleranze preregistrate; assenza di sistematiche a lungo raggio vs z/x1/c/logM*; calibrazione corretta degli intervalli; controlli negativi e ablation concordi con l’assenza di segnale apprendibile; pertanto, il test è considerato pienamente superato in base ai criteri di accettazione predefiniti.
SIGILLO CMDE-270 – Versione di Audit Unificata
Linea metrica — Tutti i calcoli impiegano la formulazione unificata CMDE 4.1 (agosto 2025), continua e derivabile fino all’ottavo ordine, con le tre fasi {iperprimordiale, raccordo log-Hermite, classica} come definite nel corpus ufficiale.
Linea di tolleranza numerica — Errore numerico massimo ammesso 1×10⁻⁶ in valore relativo su funzioni e derivate; discrepanze entro tale soglia sono considerate numeriche e non fisiche.
Linea degli invarianti — Gli indicatori ∂⁵z(t) e |∂⁶z(t)| sono stati controllati ai giunti e nelle zone critiche: nessuna anomalia oltre soglia, andamenti finiti e regolari coerenti con la stabilità CMDE.
Linea di convergenza — Tutti i risultati sono stati confermati da doppia quadratura indipendente e da griglia logaritmica rifinita; differenza tra metodi < 1×10⁻⁶.
Linea di riproducibilità — Ambiente Python 3.11, NumPy ≥ 1.26, SciPy ≥ 1.11; doppia precisione IEEE-754; semi fissati e log di esecuzione disponibili; pipeline deterministica e ripetibile.
Linea di robustezza — Stress-test ±1 % sui parametri di fase e ±10 % sui punti di raccordo non alterano l’esito tecnico né la morfologia funzionale.
Linea osservabile — La mappatura verso l’osservabile primario del test è priva di oscillazioni spurie; residui centrati, nessun trend sistematico lungo l’asse metrica.
Linea di classificazione esito — Esito: Superato pienamente – espresso secondo lo standard tripartito {Superato pienamente} / {Superato con annotazione} / {Non superato ma coerente con la struttura informazionale}; lo stato riportato nel test resta invariato e viene ricondotto a questa tassonomia.
Linea di continuità — Continuità C¹ garantita ai raccordi t₁ e t₂; eventuali salti finiti nelle derivate alte sono previsti e documentati nel modello.
Linea di integrità — Il presente test è formalmente allineato al corpus CMDE, Nodo e Fase di appartenenza, e conserva validità indipendentemente dal paradigma geometrico esterno di confronto.
Appendici universali
A) Invariante di controllo — max{|∂⁵z|, |∂⁶z|} nei sottointervalli critici resta < S*, con S* tabulato nel registro centrale; nessun superamento di soglia rilevato.
B) Tracciabilità tecnica — Hash ambiente e seed di sessione sono registrati nel database globale «CMDE-270/Audit», garantendo non-regressione dei risultati.
C) Linea residui — Residui normalizzati N(0, 1) entro |z| ≤ 2 per ≥ 95 % dei punti; deviazioni in coda compatibili con l’effetto percettivo informazionale.