TEST 262 – [Fase Ω – Governance ML] Controlli negativi e setup: preregistrazione, congelamento dati, split ciechi, calibrazione delle metriche e anti-leakage
Scopo del test
Questo test istituisce in modo forense l’ambiente sperimentale dell’intera Fase Ω, rendendo i successivi test di apprendimento automatico non confondibili con overfitting, data snooping o artefatti di pipeline, attraverso la definizione vincolante di preregistrazione, la produzione di rilasci dati congelati e verificabili, la costruzione di partizioni cieche non sovrapponibili per l’addestramento, la validazione e il test, l’inclusione obbligatoria di controlli negativi e la calibrazione rigorosa delle metriche con stime d’incertezza e diagnostiche di affidabilità; l’obiettivo operativo è ottenere un laboratorio ML “a tenuta stagna” in cui ogni risultato positivo che non sopravviva ai null-tests decada automaticamente e ogni risultato negativo sia credibile, essendo maturato sotto vincoli massimi di correttezza metodologica e tracciabilità.
Descrizione della funzione
La funzione del test è quella di blindare il perimetro di lavoro su tutti i domini previsti in Ω, ossia mappe cosmologiche per metodiche convoluzionali e generative, campioni di supernove di tipo Ia per l’analisi dei residui del diagramma di Hubble, insiemi di caratteristiche per clustering non supervisionato su traccianti di grande struttura e combinazioni cross-survey per la verifica di generalizzazione; a tale scopo si predispongono pacchetti dati immutabili corredati di maschere, mappe di rumore, cataloghi con incertezze e campi ammessi, si definiscono etichette concettuali protette da maschere di split cieco, si stabiliscono pipeline versionate, riproducibili bit-per-bit e integralmente tracciate, e si costruiscono insiemi di controllo generati con procedure fisicamente lecite che preservano gli spettri e la geografia statistica pur eliminando l’informazione discriminante, come randomizzazione di fase a potenza fissata, ri-campionamenti geografici e strumentali e bootstraps stratificati.
Metodo di analisi
Il metodo si svolge come un protocollo unico e continuo articolato in otto pilastri che non ammettono eccezioni; in primo luogo la preregistrazione definisce e firma con hash un documento che per ciascun test successivo esplicita obiettivi, dataset consentiti e loro versioni, trasformazioni ammesse, architetture massime, range degli iperparametri, politiche di early-stopping, schema di validazione, metriche primarie e secondarie con soglie interpretative, criteri di interruzione e piano di ablation ammesso; in secondo luogo il congelamento dati produce una release immutabile con checksum di ogni file e del pacchetto complessivo, comprensiva di manifesti e metadati normalizzati che specificano origini, licenze, unità, mascherature e incertezze, accanto a una cartella separata dedicata ai controlli negativi; in terzo luogo gli split ciechi disgiungono in modo non sovrapponibile le partizioni di addestramento, validazione e test, con criteri di stratificazione per strumento, epoca osservativa e posizione celeste, con vincoli di contiguità su mappe e coorti disgiunte su survey multi-epoca, e con interdizione esplicita di qualsiasi operazione che possa reintrodurre informazione dalle partizioni riservate, imponendo che ogni adattamento di scaler e trasformazioni sia stimato soltanto su addestramento e poi applicato invariato a validazione e test; in quarto luogo i controlli negativi sono obbligatori in doppia forma, ossia rimescolamento completo delle etichette con ripetizione dell’intera pipeline e addestramento su dataset nulli costruiti per essere indecidibili, imponendo che qualsiasi apparente miglioramento sui dati reali superi contemporaneamente entrambi i banchi di prova; in quinto luogo la calibrazione delle metriche prevede, per classificazione, la stima con intervalli di confidenza di AUROC, AUPRC, accuratezza e punteggio di Brier accanto a diagrammi di affidabilità e misure di errore di calibrazione atteso, mentre per regressione si stimano R^2, MAE e RMSE con analisi dei residui e verifica di omoschedasticità, e per il clustering indici di similarità aggiustati e informazione mutua normalizzata, sempre riportando media e dispersione su almeno dieci semi distinti e con bootstrap stratificato a molte repliche; in sesto luogo la tracciabilità completa richiede il salvataggio di configurazioni, semi globali e di sottosistemi, revisioni del codice, blocco dell’ambiente software, log di addestramento e arresto precoce, tempi e consumo computazionale, nonché gli artefatti minimi necessari all’audit, cioè pesi, curve di apprendimento, matrici di confusione, traiettorie di ROC e PR e file di predizioni su test cieco firmati; in settimo luogo le regole di decisione anticipata vietano ogni iterazione informata dalla partizione di test e impongono che qualunque modifica post-hoc comporti una nuova preregistrazione e un nuovo congelamento; in ottavo luogo le verifiche trasversali di robustezza sono rese obbligatorie e consistono in stress-test entro i range preregistrati, split alternativi geografici o strumentali e controlli quantitativi di leakage attraverso correlazioni e informazione mutua tra feature e label misurate separatamente in ciascuna partizione.
Risultati ottenuti
L’esecuzione del protocollo ha prodotto un ambiente coerente, deterministico e auditabile, con preregistrazione firmata e coerente con il perimetro di Ω, pacchetti dati organizzati in directory congelate con manifesti e checksum, partizioni cieche non sovrapponibili e vincoli di stratificazione applicati, controlli negativi generati con procedure riproducibili e documentate, metriche predisposte con procedure di bootstrapping e diagnostiche di affidabilità e una gerarchia di tracciamento degli artefatti che consente il riesame puntuale di ogni run; le prove a vuoto su modelli intenzionalmente semplici, eseguite sia su rimescolamento delle etichette sia su dataset nulli, hanno restituito bande di riferimento pienamente compatibili con l’assenza di segnale apprendibile, con valori prossimi al caso per classificazione e regressione e indici di somiglianza prossimi allo zero per clustering, e con varianza fra semi conforme a quanto atteso in assenza di informazione residua, senza evidenza di fughe di informazione o di instabilità dei calibratori e senza differenze sistematiche fra i due banchi di controllo negativi.
Interpretazione scientifica
Poiché l’ambiente sperimentale è stato sigillato con preregole vincolanti, dati congelati e partizioni cieche, e poiché le metriche calibrate su controlli negativi hanno mostrato prestazioni equivalenti al caso con incertezze quantificate, risulta altamente improbabile che i test successivi possano generare risultati positivi spuri per effetto di leakage, di riutilizzo implicito dell’informazione o di selezione a posteriori; la convergenza delle bande di riferimento su valori casuali rafforza l’idea che l’eventuale emersione di segnale nei test da 263 a 270 debba essere considerata autentica e non artefatto, mentre un esito negativo coerente con le bande stesse costituirebbe una conferma di coerenza metodologica e di allineamento con i vincoli fisici già accertati nelle verifiche non-ML del programma complessivo.
Esito tecnico finale
Il test è formalmente superato, con preregistrazione e congelamento pubblicati e verificabili, partizioni cieche e controlli negativi funzionanti e documentati, prove a vuoto che restituiscono prestazioni compatibili con il caso entro intervalli di confidenza e tracciabilità completa delle esecuzioni; l’ambiente Ω è quindi sigillato e pronto a sostegno dei test 263–270, per i quali ogni outcome sarà metodologicamente ineccepibile e immediatamente interpretabile alla luce delle bande di riferimento stabilite qui.