top of page

TEST 264 – [Fase Ω – Governance ML] Clustering non supervisionato su feature LSS: esclusione di separazioni spontanee tra CMDE-aligned e controlli

Scopo del test
Lo scopo di questo test è accertare, con la massima neutralità e rigore, che all’interno dei dati cosmologici su larga scala non emergano divisioni spontanee o pattern nascosti che possano separare in modo indipendente due insiemi concettualmente distinti, denominati “CMDE-aligned” e “controlli”. L’obiettivo non è quindi cercare nuove strutture, ma dimostrare che l’apparente differenza tra i due insiemi non dipende da una geometria intrinseca dei dati, bensì dal contenuto informazionale già noto. Il test serve a verificare se, dopo tutte le normalizzazioni e le calibrazioni eseguite in precedenza, il comportamento complessivo dei dati rimane omogeneo e privo di linee di separazione spurie, confermando la piena neutralità della pipeline di governance ML e la stabilità del metodo cieco utilizzato.

Descrizione della funzione
Il cuore del test è costituito da una funzione di verifica non supervisionata applicata a un insieme di dati cosmologici che rappresentano la struttura su larga scala dell’universo. Tali dati, congelati e tracciabili in modo univoco, sono suddivisi in tre parti – Train, Validation e Test – che garantiscono indipendenza e cieco operativo. Le feature impiegate per il clustering comprendono parametri che descrivono la morfologia del cosmo in modo sintetico ma significativo: la distribuzione della potenza su diverse scale, la forma statistica delle fluttuazioni attraverso i momenti d’ordine superiore, la topologia dei campi con indici come genus e caratteristica di Eulero, le correlazioni spaziali a due punti e le relazioni di varianza tra diverse scale di osservazione. Ogni misura è stata normalizzata per area e per strumento, in modo che nessuna specifica survey o configurazione possa introdurre bias nascosti. Le etichette “CMDE-aligned” e “controlli” sono state mantenute sigillate durante tutte le fasi analitiche, garantendo che le decisioni sui parametri o sui metodi non siano mai state influenzate dall’esito finale. Inoltre, la calibrazione delle incertezze deriva da una precedente analisi VAE che ha mostrato differenze minime e fluttuazioni controllate, fornendo così un riferimento oggettivo per definire la soglia di compatibilità con zero usata in questo test.

Metodo di analisi
L’analisi è stata condotta seguendo un approccio multilivello pensato per escludere qualsiasi interpretazione arbitraria. I dati sono stati prima ridotti dimensionalmente, in modo da conservare la quasi totalità della varianza ma eliminare il rumore e le ridondanze che avrebbero potuto amplificare falsi pattern. Due metodi indipendenti, una riduzione lineare classica e una decomposizione in componenti indipendenti, sono stati impiegati in parallelo per garantire che eventuali risultati non dipendessero dalla scelta del modello. Dopo questa fase, i dati proiettati sono stati analizzati tramite tre approcci distinti di clustering, ciascuno con una logica diversa: un metodo centrato su distanze euclidee per cercare raggruppamenti globali, un metodo probabilistico capace di adattarsi a forme gaussiane multiple e un metodo basato sulla densità per rilevare eventuali addensamenti locali. Tutte le soglie di decisione, come il numero di cluster o il livello di penalizzazione, sono state stabilite in modo automatico tramite indicatori standard e non soggettivi. La selezione degli iperparametri è avvenuta solo nella prima fase, mentre la successiva applicazione ai dati ciechi di Test è stata unica, congelata e definitiva. Per garantire la robustezza statistica, ogni esperimento è stato ripetuto più volte con semi diversi, e le variazioni fra esecuzioni sono state misurate con bootstrap e analisi di varianza. Sono stati inoltre previsti controlli negativi mirati: una completa rimescolatura delle etichette, una divisione alternativa dei dati per area o strumento e l’uso di set simulati privi di informazione strutturale. Infine, due versioni ridotte del dataset, ottenute rimuovendo gruppi specifici di feature, hanno permesso di verificare che nessuna singola famiglia di parametri influenzasse in modo decisivo il comportamento globale.

Risultati ottenuti
Le analisi condotte hanno mostrato un quadro chiaro e coerente: i dati non contengono separazioni stabili o raggruppamenti statisticamente robusti. Le proiezioni nello spazio ridotto appaiono compatte e omogenee, senza divisioni persistenti. Gli indici di coesione interna sono bassi, con valori medi che si mantengono intorno a livelli prossimi allo zero, indicando assenza di cluster ben definiti. I criteri informativi usati per valutare la complessità dei modelli non mostrano miglioramenti significativi nel passare da soluzioni semplici a modelli più articolati. I metodi basati sulla densità trovano un’unica grande regione coerente e qualche piccolo gruppo residuale privo di stabilità, che scompare quando l’analisi viene ripetuta su nuovi semi o su controlli sintetici. Al momento dello sblocco cieco delle etichette, gli indici che misurano la corrispondenza fra cluster e categorie attese si sono mantenuti perfettamente in linea con i casi di puro rumore. Tutte le prove di controllo e le varianti del metodo restituiscono risultati sovrapponibili. Non sono emersi segnali di overfitting, né dipendenze da scelte tecniche, né sensibilità alle famiglie di feature rimosse. In altre parole, il sistema di governance ML mostra un comportamento coerente e privo di distorsioni: ogni differenza residua tra gli insiemi rientra nell’ambito delle fluttuazioni statistiche e delle imperfezioni strumentali già contabilizzate.

Interpretazione scientifica
Il risultato complessivo dimostra che lo spazio delle feature cosmologiche analizzate non possiede alcuna geometria intrinseca capace di generare spontaneamente una distinzione tra regioni considerate concettualmente diverse. Le variazioni minime osservate non corrispondono a informazioni reali, ma a oscillazioni casuali coerenti con il rumore previsto. L’insieme dei metodi impiegati, tutti indipendenti e complementari, converge verso la stessa conclusione: la struttura informazionale del sistema è già pienamente descritta dal quadro teorico che governa i dati, e nessuna metrica esterna introduce nuove divisioni. La procedura cieca, il controllo dei semi e la molteplicità dei metodi garantiscono che l’assenza di separazione non sia un artefatto di scelta, ma una proprietà effettiva del dataset. Si conferma quindi che la pipeline di governance ML è capace di trattare i dati cosmologici in modo neutro, impedendo l’emergere di pattern spuri o interpretazioni non fondate, e assicurando che ogni eventuale differenza rilevata in futuro derivi da informazioni fisiche reali e non da deviazioni tecniche o statistiche.

Esito tecnico finale
Il test è pienamente superato. Tutti gli indici di valutazione rientrano ampiamente nei limiti di compatibilità prefissati e non mostrano alcuna tendenza verso separazioni non casuali. Le verifiche incrociate, i controlli negativi e le prove di ablation confermano che il risultato è stabile, riproducibile e indipendente da scelte metodologiche o da singoli insiemi di feature. L’intera catena operativa rispetta le condizioni di tracciabilità, trasparenza e rigore richieste da un ente di validazione internazionale. Il Test 264 sancisce così la piena neutralità e la coerenza della governance ML, certificando che il sistema non genera divisioni spurie e che la coesione informazionale osservata è autentica e robusta.

bottom of page