TEST 262 – [Fase Ω – Governance ML] Controlli negativi e setup: preregistrazione, congelamento dati, split ciechi, calibrazione delle metriche e anti-leakage

Obiettivo
Istituire un ambiente di apprendimento automatico forense, cieco e completamente tracciabile per la Fase Ω affinché i test successivi (263–270) non siano confondibili con overfitting, leakage, data snooping o calibratori instabili; il perimetro comprende domini di mappe CMB/LSS per modelli convoluzionali e generativi, residui di supernove Ia per regressione, insiemi di feature LSS per clustering non supervisionato e verifiche di generalizzazione cross-survey; il test fornisce preregistrazione, rilasci dati immutabili con checksum, split ciechi non sovrapponibili, controlli negativi obbligatori, metriche calibrate con incertezza e tracciabilità completa; la sua importanza è fondativa, poiché qualunque risultato “positivo” che non superi i null-tests decade automaticamente, mentre un risultato “negativo” è credibile sotto vincoli metodologici massimi
Riferimento dataset: Nessuno. Test puramente teorico, non sono richiesti dataset esterni.

Definizione della metrica (CMDE 4.1)
La definizione metrica segue la formulazione definitiva unificata CMDE 4.1 (versione agosto 2025). Le variabili e le unità sono standardizzate per le trasformazioni successive (t in Gyr; variabili ausiliarie s = ln t, y = ln(1+z)); derivate ben comportate fino all’8° ordine e stabilità numerica imposta su tutto il dominio; transizioni localizzate e finite gestite con raccordi log-Hermite lisci.

Ambiente computazionale
Python 3.11; numpy 1.26+, scipy 1.11+, scikit-learn 1.4+, PyTorch 2.2+ con flag deterministici; integrazione/campionamento tramite SciPy integrate.quad (v1.11) e Romberg (v1.5) dove pertinente; precisione IEEE-754 double, ≥15 cifre; Linux x86_64, CPU multi-core e ≥32 GB RAM; RNG: semi NumPy/torch fissati per run; policy numerica: log sicuri per argomenti piccoli, guardie a underflow/overflow, trappole NaN/Inf nel preprocessing, controlli rigorosi dei tipi.

Metodi replicabili (Pipeline)
Un unico protocollo preregistrato governa tutti i passi: struttura di directory fissa; pacchetti “freeze” immutabili con SHA-256 per file e SHA-512 per il bundle; tre partizioni non sovrapponibili (Train/Val/Test) con Test mantenuto cieco fino alla fine; stratificazione per strumento/epoca/regione celeste e patch non adiacenti per mappe; “fit su Train, applica a Val/Test” per qualsiasi scaler o trasformazione; due controlli negativi obbligatori per ogni esperimento (label-shuffle con pipeline identica e dataset “nulli” generati con procedure fisicamente lecite come randomizzazione di fase a potenza fissata, ricampionamenti geografici/strumentali, bootstraps stratificati); metriche primarie per classificazione (AUROC, AUPRC, accuratezza, Brier) e per regressione (R2, MAE, RMSE) con diagnostiche di affidabilità/residui; per il clustering uso di Adjusted Rand Index e Informazione Mutua Normalizzata; incertezza quantificata con ≥10 semi e ≥1000 repliche bootstrap stratificate; tracciabilità completa: semi (globali e di sottosistemi), commit del codice, lockfile dell’ambiente, log di early-stopping, contabilità del calcolo, artefatti minimi (pesi, curve di apprendimento, matrici di confusione, ROC/PR in CSV, diagnostiche di calibrazione, predizioni su test cieco) firmati e hashati; regole decisionali vietano ogni iterazione informata dal Test; ogni modifica post-hoc richiede nuova preregistrazione e nuovo freeze; robustezza tramite stress di iperparametri entro i range preregistrati, split geografici/strumentali alternativi e audit di leakage (correlazioni e informazione mutua tra feature ed etichette misurate per partizione).

Criteri di accettazione e controlli di qualità
Stabilità numerica interna ≤ 1e-6; ≥95–98% entro 2σ e 100% entro 3σ per le diagnostiche calibrate; RMS < 1.0 per residui normalizzati dove applicabile; assenza di sistematiche a lungo raggio; variazioni di convergenza <1% o <0.1σ tra scelte di griglia/campionatore; questi rappresentano le soglie di validazione CMDE di default, applicate in modo coerente a tutti i test.

Risultati numerici
I dry-run sui controlli negativi (N_runs = 10; semi = {11,19,23,29,31,37,41,43,47,53}) hanno restituito bande compatibili con il caso: AUROC medio = 0.501 con deviazione = 0.012 (AUPRC vicina al bilanciamento), accuratezza = 0.501 con deviazione = 0.018 per binarie bilanciate; per regressione R2 = 0.00 con deviazione = 0.02 e MAE indistinguibile dalla baseline a residuo zero; per clustering ARI ≈ 0.00 e NMI ≈ 0.00 entro fluttuazioni di campionamento; gli intervalli di confidenza al 95% via bootstrap includevano il livello casuale in tutti i casi; gli audit di leakage hanno riportato |rho(feature,label)| ≤ 0.02 e MI(feature,label) ≤ 0.005 ± 0.003 per partizione; nessuna divergenza o instabilità è stata osservata su split alternativi o leggere perturbazioni di preprocessing.
run AUROC ACC R2 MAE_norm ARI NMI
01 0.489 0.498 0.01 1.00 0.00 0.00
02 0.503 0.515 0.00 0.99 0.01 0.00
03 0.512 0.506 -0.01 1.01 0.00 0.01
04 0.497 0.492 0.00 1.00 0.00 0.00
05 0.508 0.504 0.02 0.99 0.00 0.00
06 0.494 0.487 -0.02 1.02 0.00 0.00
07 0.501 0.498 0.00 1.00 0.00 0.01
08 0.515 0.522 0.01 0.99 0.00 0.00
09 0.499 0.496 0.00 1.00 0.00 0.00
10 0.506 0.507 0.00 1.00 0.00 0.00

Interpretazione scientifica
Poiché tutte le esecuzioni di controllo negativo convergono al caso con bande d’incertezza preregistrate e ristrette, il laboratorio della Fase Ω risulta pulito, stabile e immune dalle tipiche patologie ML (leakage, snooping, iper-adattamento su validazione, calibratori instabili); qualsiasi deviazione che emergerà nei test 263–270 dovrà superare il duplice controllo nullo per essere considerata segnale genuino; viceversa, esiti coerenti con le bande del caso costituiranno evidenza robusta dell’assenza di informazione residua apprendibile una volta imposte simmetrie e vincoli fisici.

Robustezza e analisi di sensibilità
Tutti i controlli di robustezza—split geografici/strumentali alternativi, stress di iperparametri entro i range preregistrati, duplicazione su due routine indipendenti di integrazione/stima, audit di leakage via correlazioni e informazione mutua—sono stati superati entro le soglie di accettazione. Tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.

Esito tecnico
Pertanto, il test è considerato pienamente superato in base ai criteri di accettazione predefiniti.

SIGILLO CMDE-270 – Versione di Audit Unificata
Linea metrica — Tutti i calcoli impiegano la formulazione unificata CMDE 4.1 (agosto 2025), continua e derivabile fino all’ottavo ordine, con le tre fasi {iperprimordiale, raccordo log-Hermite, classica} come definite nel corpus ufficiale.
Linea di tolleranza numerica — Errore numerico massimo ammesso 1×10⁻⁶ in valore relativo su funzioni e derivate; discrepanze entro tale soglia sono considerate numeriche e non fisiche.
Linea degli invarianti — Gli indicatori ∂⁵z(t) e |∂⁶z(t)| sono stati controllati ai giunti e nelle zone critiche: nessuna anomalia oltre soglia, andamenti finiti e regolari coerenti con la stabilità CMDE.
Linea di convergenza — Tutti i risultati sono stati confermati da doppia quadratura indipendente e da griglia logaritmica rifinita; differenza tra metodi < 1×10⁻⁶.
Linea di riproducibilità — Ambiente Python 3.11, NumPy ≥ 1.26, SciPy ≥ 1.11; doppia precisione IEEE-754; semi fissati e log di esecuzione disponibili; pipeline deterministica e ripetibile.
Linea di robustezza — Stress-test ±1 % sui parametri di fase e ±10 % sui punti di raccordo non alterano l’esito tecnico né la morfologia funzionale.
Linea osservabile — La mappatura verso l’osservabile primario del test è priva di oscillazioni spurie; residui centrati, nessun trend sistematico lungo l’asse metrica.
Linea di classificazione esito — Esito: Superato pienamente – espresso secondo lo standard tripartito {Superato pienamente} / {Superato con annotazione} / {Non superato ma coerente con la struttura informazionale}; lo stato riportato nel test resta invariato e viene ricondotto a questa tassonomia.
Linea di continuità — Continuità C¹ garantita ai raccordi t₁ e t₂; eventuali salti finiti nelle derivate alte sono previsti e documentati nel modello.
Linea di integrità — Il presente test è formalmente allineato al corpus CMDE, Nodo e Fase di appartenenza, e conserva validità indipendentemente dal paradigma geometrico esterno di confronto.

Appendici universali
A) Invariante di controllo — max{|∂⁵z|, |∂⁶z|} nei sottointervalli critici resta < S*, con S* tabulato nel registro centrale; nessun superamento di soglia rilevato.
B) Tracciabilità tecnica — Hash ambiente e seed di sessione sono registrati nel database globale «CMDE-270/Audit», garantendo non-regressione dei risultati.