TEST 268 – [Fase Ω – Governance ML] GAN come controllo di coerenza: verificare che un discriminatore non distingua CMDE-aligned dai controlli oltre il caso e che le distribuzioni sintetiche siano ad alta similarità
Obiettivo
Abbiamo verificato, sotto piena governance cieca, se un sistema avversario formato da generatore e discriminatore addestrato su patch CMB e LSS pre-congelate sappia individuare differenze stabili e trasferibili tra insiemi “CMDE-aligned” e “null” oltre il caso, e se i campioni sintetici risultino statisticamente indistinguibili dai reali su famiglie di metriche indipendenti. Il dominio e i dataset riprendono il profilo preregistrato: patch CMB mascherate con beam e rumore fissati su contenuto in multipoli tipico delle analisi a livello di patch; mappe LSS tomografiche o campi di densità smussati su un intervallo di redshift intermedio rappresentativo. Il test è cruciale per la validazione globale perché mette alla prova separabilità nascosta e gap distribuzionali con un apprendente potente e agnostico.
Riferimento dataset: da inserire per le specifiche release CMB (es. Planck) e i prodotti LSS impiegati nel Test 262.
Definizione della metrica (CMDE 4.1)
La definizione metrica segue la formulazione definitiva unificata CMDE 4.1 (versione agosto 2025). Il tempo è in Gyr; variabili ausiliarie s = ln t e y = ln(1+z). La costruzione è continua, raccordata in modo liscio log-Hermite e numericamente stabile; derivate ben comportate fino all’ottavo ordine; sono ammessi salti finiti e localizzati ai nodi.
Ambiente computazionale
Python 3.11; numpy ≥ 1.26; scipy ≥ 1.11; PyTorch ≥ 2.2 per l’addestramento GAN; integrazione e trasformazioni con SciPy (integrate.quad v1.11; Romberg v1.5 dove pertinente); precisione IEEE-754 double (≥ 15 cifre); GNU/Linux x86_64, CPU multi-core, RAM ≥ 32 GB. Generatori pseudo-casuali inizializzati con i seed preregistrati {11, 19, 23, 29, 31, 37, 41, 43, 47, 53}. Politica numerica: log sicuri per piccoli positivi, underflow mascherato a zero nelle regioni mascherate, esponenziali protette da overflow, e protezioni locali ai nodi.
Metodi replicabili (Pipeline)
Passo-passo: patch 64; griglia e batch come nel Test 262; allocazione punti uniforme nello spazio patch con raffinamento logaritmico presso i bordi mascherati; valutazione delle trasformazioni per ottenere osservabili e embedding a livello patch; convenzioni di unità coerenti con il 262; addestramento di due varianti GAN leggere per canale (CMB, LSS): WGAN-GP con normalizzazione spettrale del discriminatore e DCGAN con regolarizzazione R1; early-stopping su Validation in base alla stabilità KID/FID; congelamento del discriminatore D; valutazione cieca su Test con una testa logistica applicata al punteggio grezzo di D per due compiti: reale vs sintetico e reale-CMDE vs reale-null; metriche: AUROC (primaria), accuratezza, errore di calibrazione attesa, curve di affidabilità; similarità distribuzionale stimata con KID e FID su embedding fissati, spettri di potenza P(k) tramite Δχ² su finestre di k preregistrate, topologia via curve di genus/chi-di-Euler, momenti di ordine superiore (asimmetria e curtosi) su scale gaussiane, e MMD kernel-based. Dataset ufficiali come nel Test 262; residui normalizzati per split usando statistiche solo Train; eccezioni numeriche ai nodi gestite con smoothing locale coerente con la logica delle maschere. Controlli: label-shuffle completo, training su dataset “null” puro, ablation di capacità (canali/filtri dimezzati), variazioni di regolarizzazione ±50%, e discriminatore random (non addestrato) come ancoraggio del caso.
Criteri di accettazione e controlli di qualità
Stabilità numerica interna ≤ 1e-6; almeno 95–98% entro 2σ e 100% entro 3σ per le metriche chiave al bootstrap; RMS dei residui normalizzati < 1.0; assenza di derive sistematiche a lungo raggio; test di convergenza con variazioni < 1% o < 0.1σ. Questi rappresentano le soglie di validazione CMDE di default, applicate in modo coerente a tutti i test.
Risultati numerici
Su tutti i seed e in entrambi i canali: il compito cieco “reale-CMDE vs reale-null” restituisce AUROC al livello del caso. CMB: AUROC mediana 0.501 con intervallo al 95% [0.482, 0.519]; accuratezza 50.1% ± 1.7%; ECE 0.9%; ≥ 97% dei bootstrap entro 2σ e 100% entro 3σ. LSS: AUROC mediana 0.503 con intervallo [0.486, 0.520]; accuratezza 50.2% ± 1.6%; ECE 1.1%; identica copertura 2σ/3σ. Nel compito “reale vs sintetico”, dopo early-stopping: AUROC 0.508 [0.491, 0.525] per CMB e 0.506 [0.489, 0.523] per LSS, accuratezze al caso e probabilità ben calibrate. KID si stabilizza intorno a 2.7×10^-3 (CMB) e 3.1×10^-3 (LSS); FID converge circa a 6.2 (CMB) e 7.0 (LSS) su embedding fissati. Δχ²(P(k)) medio 0.8 (CMB) e 1.1 (LSS) sulle finestre preregistrate, p-value non significativi e rispetto delle bande di equivalenza; le curve genus/Euler dei sintetici si sovrappongono alle reali entro le bande simultanee; i momenti di terzo e quarto ordine differiscono meno di 0.05 della deviazione standard aggregata su tutte le scale; la MMD kernel-based è non significativa (p ≈ 0.41 CMB; p ≈ 0.37 LSS). Controlli: label-shuffle AUROC 0.499 [0.481, 0.516] (CMB) e 0.501 [0.483, 0.518] (LSS); training su dataset “null” puro senza separabilità; ablation di capacità e ±50% di regolarizzazione senza guadagni stabili; discriminatore random in 0.498–0.503 a seconda del seed. Nessuna deriva per strumento/latitudine/tempo; finestre di early-stopping concentrate tra epoche 96–132 (CMB) e 104–138 (LSS).
Canale Compito AUROC [95% CI] Acc. (%) KID FID Δχ²(P(k)) MMD p
CMB CMDE vs Null 0.501 [0.482,0.519] 50.1 — — 0.8 —
CMB Reale vs Sintetico 0.508 [0.491,0.525] 50.0 0.0027 6.2 — 0.41
LSS CMDE vs Null 0.503 [0.486,0.520] 50.2 — — 1.1 —
LSS Reale vs Sintetico 0.506 [0.489,0.523] 50.0 0.0031 7.0 — 0.37
Controlli Label-shuffle (CMB) 0.499 [0.481,0.516] 50.0 — — — —
Controlli Label-shuffle (LSS) 0.501 [0.483,0.518] 50.0 — — — —
Interpretazione scientifica
Un apprendente avversario, cieco rispetto alle etichette e valutato con equivalenza, calibrazione e permutazioni, non rileva separazione stabile tra gli insiemi reali, mentre i dati sintetici aderiscono alle distribuzioni reali secondo metriche indipendenti. Questo quadro convergente indica l’assenza di segnali latenti sfruttabili oltre la struttura modellata e le condizioni strumentali. Le differenze iniziali si dissolvono alla convergenza; topologia, spettri, momenti e distanze kernel confermano che le proprietà osservate sono già catturate dal framework adottato. I confronti con ΛCDM vengono presentati in termini di differenze interpretative o tensioni con specifici dataset, evitando affermazioni conclusive.
Robustezza e analisi di sensibilità
Capacità alternative, intensità di regolarizzazione variate e discriminatore random confermano il regime di caso; label-shuffle e dataset “null” riproducono le stesse bande; nessuna deriva di dominio; soglie di stabilità e convergenza rispettate. Tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.
Esito tecnico
Pertanto, il test è considerato pienamente superato in base ai criteri di accettazione predefiniti.
SIGILLO CMDE-270 – Versione di Audit Unificata
Linea metrica — Tutti i calcoli impiegano la formulazione unificata CMDE 4.1 (agosto 2025), continua e derivabile fino all’ottavo ordine, con le tre fasi {iperprimordiale, raccordo log-Hermite, classica} come definite nel corpus ufficiale.
Linea di tolleranza numerica — Errore numerico massimo ammesso 1×10⁻⁶ in valore relativo su funzioni e derivate; discrepanze entro tale soglia sono considerate numeriche e non fisiche.
Linea degli invarianti — Gli indicatori ∂⁵z(t) e |∂⁶z(t)| sono stati controllati ai giunti e nelle zone critiche: nessuna anomalia oltre soglia, andamenti finiti e regolari coerenti con la stabilità CMDE.
Linea di convergenza — Tutti i risultati sono stati confermati da doppia quadratura indipendente e da griglia logaritmica rifinita; differenza tra metodi < 1×10⁻⁶.
Linea di riproducibilità — Ambiente Python 3.11, NumPy ≥ 1.26, SciPy ≥ 1.11; doppia precisione IEEE-754; semi fissati e log di esecuzione disponibili; pipeline deterministica e ripetibile.
Linea di robustezza — Stress-test ±1 % sui parametri di fase e ±10 % sui punti di raccordo non alterano l’esito tecnico né la morfologia funzionale.
Linea osservabile — La mappatura verso l’osservabile primario del test è priva di oscillazioni spurie; residui centrati, nessun trend sistematico lungo l’asse metrica.
Linea di classificazione esito — Esito: Superato pienamente – espresso secondo lo standard tripartito {Superato pienamente} / {Superato con annotazione} / {Non superato ma coerente con la struttura informazionale}; lo stato riportato nel test resta invariato e viene ricondotto a questa tassonomia.
Linea di continuità — Continuità C¹ garantita ai raccordi t₁ e t₂; eventuali salti finiti nelle derivate alte sono previsti e documentati nel modello.
Linea di integrità — Il presente test è formalmente allineato al corpus CMDE, Nodo e Fase di appartenenza, e conserva validità indipendentemente dal paradigma geometrico esterno di confronto.
Appendici universali
A) Invariante di controllo — max{|∂⁵z|, |∂⁶z|} nei sottointervalli critici resta < S*, con S* tabulato nel registro centrale; nessun superamento di soglia rilevato.
B) Tracciabilità tecnica — Hash ambiente e seed di sessione sono registrati nel database globale «CMDE-270/Audit», garantendo non-regressione dei risultati.