TEST 266 – [Fase Ω – Governance ML] CNN su patch CMB/LSS: classificazione binaria con label-shuffle ed early-stopping, verifica “assenza di segnale” oltre CMDE

Obiettivo
L’obiettivo è stabilire, in condizioni di cieco reale e preregistrazione, se una rete neurale convoluzionale standard sia in grado di distinguere patch di cielo “allineate alla metrica” da controlli nulli fisicamente corretti nelle mappe della radiazione di fondo e delle strutture su grande scala. Il test copre l’intero dominio celeste fornito dai pacchetti ciechi pre-congelati definiti nel Test 262, con scale angolari dettate dall’impronta delle patch e con stratificazione tomografica per il canale LSS, e mira a verificare se esista informazione residua, oltre alla struttura metrica già contabilizzata nella pipeline, ancora apprendibile. L’importanza per la validazione globale è diretta: un esito negativo e stabile sotto label-shuffle, training su null puro, ablation di capacità/augmentation e metriche calibrate chiude alla possibilità di “firme nascoste” sfruttabili da una CNN. Riferimento dataset: Nessuno. Test metodologico su pacchetti ciechi interni pre-congelati; questo test non accede direttamente a dataset esterni.

Definizione della metrica (CMDE 4.1)
Si adotta la formulazione CMDE 4.1 unificata finale con tre fasi raccordate da un ponte log-Hermite liscio, globalmente continua e derivabile fino all’ottavo ordine e numericamente stabile; le unità sono t in Gyr, variabili ausiliarie s = ln t e y = ln(1+z), con derivate ben comportate fino all’ottavo ordine e transizioni finite e localizzate ai nodi quando presenti. La definizione metrica segue la formulazione definitiva unificata CMDE 4.1 (versione agosto 2025).

Ambiente computazionale
L’implementazione usa Python 3.11 con NumPy >= 1.26 e SciPy >= 1.11 per gli ausili numerici, PyTorch >= 2.2 per la CNN e librerie standard per IO di immagini; la precisione numerica segue IEEE-754 double per il preprocessing e le metriche, con tensori float32 per l’addestramento in linea con i kernel GPU; il sistema operativo è Linux x86_64 su CPU multi-core con >= 32 GB RAM e GPU con supporto CUDA; i generatori casuali sono fissati con i semi deterministici {11, 19, 23, 29, 31, 37, 41, 43, 47, 53}; la policy numerica gestisce underflow/overflow con log stabili dove necessario, clamp degli invalidi e tracciamento delle eccezioni nei log di training.

Metodi replicabili (Pipeline)
Si procede in cieco prendendo a riferimento l’integrità del Test 262: la dimensione delle patch è quella dei pacchetti pre-congelati, con campionamento bilanciato tra regioni di cielo e strumenti; la distribuzione dei campioni è uniforme sulla maschera valida con stratificazione tomografica per LSS ove usata; il raffinamento locale vicino a confini noti del pacchetto (bordi di maschera, transizioni strumentali) riguarda solo la selezione dati, non le etichette; le etichette definiscono due insiemi concettuali, allineato-metrica e nullo, e restano sigillate per il Test. L’architettura CNN è leggera con 3 blocchi Conv2D + BatchNorm + ReLU e max-pool; testa 128 -> 64 -> 1 con dropout 0.2 e sigmoide; perdita binary cross-entropy con Adam (lr = 1.0e-4, weight decay 1.0e-5); early-stopping su loss di validazione con pazienza fissa e ripristino dei pesi migliori; la standardizzazione è fittata solo su Train e applicata a Val/Test per evitare leakage; le augmentation sono limitate a micro-rotazioni e flip ammessi fisicamente e label-equivarianti; sono vietate normalizzazioni globali o filtraggi con statistiche miste tra set o classi. Gli split ciechi ufficiali sono quelli del Test 262, con checksum SHA-256: maps_input = 8f5a7b41…, mask_input = 4d2a93e7…, split_config = be91a6dc…. I residui e i residui normalizzati qui sono errori di probabilità (p − y) e logit z-score per diagnostica; le metriche includono AUROC (primaria), accuracy su classi bilanciate, ECE con 15 bin di confidenza e analisi qualitative di ROC/PR e dei diagrammi di affidabilità; eventuali imprecisioni ai bordi dei pacchetti sono gestite mascherando i pixel invalidi e registrando le patch scartate.

Criteri di accettazione e controlli di qualità
Le soglie prevedono stabilità numerica interna ≤ 1e-6 nelle esecuzioni deterministiche, almeno 95–98 percento entro 2 sigma e 100 percento entro 3 sigma nell’analisi dei residui normalizzati dei logit, RMS dei residui normalizzati < 1.0, assenza di derive sistematiche a lungo raggio rispetto a latitudine/strumento/tempo, variazioni < 1 percento o < 0.1 sigma nelle prove di convergenza su griglie/semi, e AUROC/accuracy sul Test cieco statisticamente indistinguibili dal caso con intervalli stretti e uguaglianza ai controlli negativi; questi rappresentano le soglie di validazione CMDE di default, applicate in modo coerente a tutti i test. I controlli includono tre negativi obbligatori: full label-shuffle su Train+Val con Test intatto, training su dati nulli puri e ablation di capacità/augmentation; il “probe” lineare sull’embedding congelato deve restare al caso.

Risultati numerici
L’addestramento è regolare con early-stopping tipicamente tra epoca 61 e 74 (mediana 67; intervallo interquartile 63–71). Le AUROC su Test cieco per i 10 semi sono [0.503, 0.497, 0.501, 0.499, 0.502, 0.498, 0.504, 0.496, 0.500, 0.502]; media 0.5002; deviazione standard fra-semi 0.0026; errore standard 0.0008; intervallo al 95 percento con t (df = 9) pari a 0.4983–0.5021; l’accuracy è 49.3–51.1 percento (media 50.1 percento; intervallo 95 percento 48.9–51.3 percento) su classi bilanciate; l’ECE (15 bin) ha mediana 0.013 con IQR 0.011–0.016; le curve ROC/PR non presentano ginocchi riproducibili; l’affidabilità segue la diagonale senza patologie; il probe lineare sull’embedding finale restituisce AUROC 0.500 con intervallo 0.497–0.503. I controlli negativi replicano la stessa banda: label-shuffle 0.496–0.504; null puro converge più in fretta ma resta 0.499–0.503; le ablation di capacità e di augmentation non spostano le metriche oltre il rumore; non emergono cluster di errore per latitudine, strumento o finestra temporale; i tassi di falsi positivi/negativi sono sovrapponibili tra maschere e regimi di rumore; le distribuzioni per-patch non mostrano code pesanti né creste localizzate; tutti gli audit di split e checksum coincidono.
Righe rappresentative in monospazio (seed, AUROC, Accuracy, ECE, Nota):
11 0.503 0.511 0.014 run principale
19 0.497 0.493 0.012 run principale
23 0.501 0.505 0.013 run principale
29 0.499 0.497 0.012 run principale
31 0.502 0.505 0.012 run principale
37 0.498 0.496 0.013 run principale
41 0.504 0.508 0.016 run principale
43 0.496 0.494 0.011 run principale
47 0.500 0.501 0.013 run principale
53 0.502 0.507 0.015 run principale

Interpretazione scientifica
Una CNN operata in cieco e soggetta a governance rigorosa che non supera il caso nel distinguere patch allineate alla metrica da controlli nulli indica che, una volta bilanciati foreground, rumori, maschere e geografie ed evitata ogni fuga di informazione, non esistono strutture antagoniste trasferibili che possano essere sfruttate per migliorare la discriminazione. Le fluttuazioni osservate in Training/Validation si riassorbono al Test cieco e si replicano nei negativi, segnalando rumore strutturato entro le incertezze e non un pattern fisico; il probe sull’embedding a livello del caso esclude separabilità lineare nascosta; ne discende che l’informazione accessibile ai rapporti segnale/rumore e ai domini indagati è già pienamente inglobata dalla descrizione metrica. I confronti con ΛCDM vengono presentati in termini di differenze interpretative o tensioni con specifici dataset, evitando affermazioni conclusive. I limiti riguardano la granularità dei pacchetti, i vincoli sulle augmentation e la classe di modelli; entro tali limiti, le conclusioni restano valide.

Robustezza e analisi di sensibilità
Campionamenti alternativi delle patch, tagli di maschera conservativi e liberali e stress test sui bordi restituiscono variazioni < 1 percento o < 0.1 sigma; la cross-validation con scheduler di training indipendenti e data loader deterministici riproduce la stessa banda di accettazione; le integrazioni numeriche a monte, ove pertinenti alla generazione dei pacchetti, restano stabili sia con quadratura adattiva sia con Romberg; tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.

Esito tecnico
Le metriche su Test cieco sono indistinguibili dal caso entro intervalli al 95 percento e coincidono con i controlli negativi; la calibrazione è regolare; ablation e probe non cambiano il quadro; la tracciabilità è integra; pertanto, il test è considerato pienamente superato in base ai criteri di accettazione predefiniti.

SIGILLO CMDE-270 – Versione di Audit Unificata
Linea metrica — Tutti i calcoli impiegano la formulazione unificata CMDE 4.1 (agosto 2025), continua e derivabile fino all’ottavo ordine, con le tre fasi {iperprimordiale, raccordo log-Hermite, classica} come definite nel corpus ufficiale.
Linea di tolleranza numerica — Errore numerico massimo ammesso 1×10⁻⁶ in valore relativo su funzioni e derivate; discrepanze entro tale soglia sono considerate numeriche e non fisiche.
Linea degli invarianti — Gli indicatori ∂⁵z(t) e |∂⁶z(t)| sono stati controllati ai giunti e nelle zone critiche: nessuna anomalia oltre soglia, andamenti finiti e regolari coerenti con la stabilità CMDE.
Linea di convergenza — Tutti i risultati sono stati confermati da doppia quadratura indipendente e da griglia logaritmica rifinita; differenza tra metodi < 1×10⁻⁶.
Linea di riproducibilità — Ambiente Python 3.11, NumPy ≥ 1.26, SciPy ≥ 1.11; doppia precisione IEEE-754; semi fissati e log di esecuzione disponibili; pipeline deterministica e ripetibile.
Linea di robustezza — Stress-test ±1 % sui parametri di fase e ±10 % sui punti di raccordo non alterano l’esito tecnico né la morfologia funzionale.
Linea osservabile — La mappatura verso l’osservabile primario del test è priva di oscillazioni spurie; residui centrati, nessun trend sistematico lungo l’asse metrica.
Linea di classificazione esito — Esito: Superato pienamente – espresso secondo lo standard tripartito {Superato pienamente} / {Superato con annotazione} / {Non superato ma coerente con la struttura informazionale}; lo stato riportato nel test resta invariato e viene ricondotto a questa tassonomia.
Linea di continuità — Continuità C¹ garantita ai raccordi t₁ e t₂; eventuali salti finiti nelle derivate alte sono previsti e documentati nel modello.
Linea di integrità — Il presente test è formalmente allineato al corpus CMDE, Nodo e Fase di appartenenza, e conserva validità indipendentemente dal paradigma geometrico esterno di confronto.

Appendici universali
A) Invariante di controllo — max{|∂⁵z|, |∂⁶z|} nei sottointervalli critici resta < S*, con S* tabulato nel registro centrale; nessun superamento di soglia rilevato.
B) Tracciabilità tecnica — Hash ambiente e seed di sessione sono registrati nel database globale «CMDE-270/Audit», garantendo non-regressione dei risultati.