Sull'errore della media, ovvero del perché raddoppiare i dati non basta per dimezzare le incertezze

6 Settembre 2023 8 commenti

Nell'articolo precedente raccontavo dell'arresto prematuro della presa dati di LHC di quest'anno. Alla fine del pezzo menzionavo come questa cosa potrebbe essere problematica per chi, come studenti di dottorato o post-doc che abbiamo appena iniziato il loro contratto, speravano di usare i dati del Run 3 per le loro misure. In questo articolo cercherò di spiegare perché la quantità ridotta di dati sia potenzialmente problematica, e per farlo proverò a fare qualche calcoletto di statistica. Prima di iniziare, consiglierei ai digiuni della materia di andare a rileggersi questa serie di articoli che avevo pubblicato nel 2011: alcuni dei concetti sono già spiegati (persino meglio) lì.

Prendiamo molto alla lontana. Iniziamo col dire che ogni fenomeno fisico che vogliamo misurare è soggetto a fluttuazioni statistiche: semplificando molto, diciamo che ogni volta che facciamo una misura di una quantità il cui valore "vero" vogliamo conoscere, la misura restituisce un valore prossimo al valore vero, ma diverso da questo. Le ragioni di queste fluttuazioni possono essere molteplici, hanno a che fare sia con il fenomeno stesso che vogliamo misurare, sia con le proprietà dello strumento che usiamo per misurarlo. Trascuriamo qui tutti i dettagli, che ci richiederebbero di definire cosa vogliamo misurare e come vogliamo farlo, e facciamo un esempio ultra-semplificato. Diciamo che vogliamo misurare una certa quantità (la larghezza di un tavolo, la massa del bosone di Higgs, poco importa) che ha un valore vero , e che ogni volta che facciamo una misura (per esempio, ogni volta che usiamo un metro per misurare quanto è larga mano tra scrivania, o ogni registriamo una collisione a LHC che abbia le caratteristiche che cerchiamo) troviamo un valore per la quantità che ci interessa. Nel caso più semplice che possiamo immaginare, i valori che misuriamo vengono da un distribuzione a campana (per i più esperti, una Gaussiana) centrata sul valore "vero" , e cha ha una certa larghezza che gli statistici chiamano deviazione standard. Per fare un esempio concreto, se immaginiamo che che = 10 e = 3 (nell'unità di misura rilevante per il nostro esperimento, che qui ignoro), la distribuzione attesa delle misura avrà questa forma:

Immaginiamo adesso di fare 100 misure, e di mettere i loro valori in un istogramma. Questa è la nostra prima approssimazione della distribuzione "vera" della misure che otterremmo se ne facessimo un numero infinito:

Che cosa possiamo dire del valore vero di a partire da queste prima 100 misure? Possiamo calcolarne la media , sommando tutte le misure fatte e dividendo la somma per il numero di misure:

che possiamo generalizzare per misure come:

dove il simbolo significa "somma di tutti i valori". è in qualche modo legato al valore vero che vogliamo misurare , e vedremo tra un attimo come. Diciamo però che a partire dalle 100 misure possiamo anche calcolare il parametro che approssima la deviazione standard della distribuzione vera:

Qui stiamo prendendo la differenza di ognuno delle misure dalla loro media, ne facciamo il quadrato per considerare sullo stesso piano tanto le differenze positive che quelle negative, e ne facciamo a loro volta una (sorta di) media. Credetemi sulla parola quando vi dico che è uno "stimatore corretto" di .

Che cosa possiamo a questo punto dire di (e ), e che relazione ha con il valore vero che vogliamo misurare? Una discussione rigorosa richiederebbe una trattazione matematica che esula dello scopo di questo articolo, dovrete dunque nuovamente credermi sulla parola quando vi dico che è affetto da un'incertezza statistica pari a:

In questo caso "incertezza statistica" vuol dire che, se ripetessimo le 100 misure ancora e ancora, e ogni volta calcolassimo la media per ognuno di questi gruppi di 100 misure, i valori di sarebbero a loro volta distribuiti come una curva a campana, centrata in con una deviazione standard .

Queste informazioni (e le ipotesi che stanno dietro alla trattazione matematica su cui ho bellamente sorvolato) ci permettono di stabilire quello che in gergo di chiama un intervallo di confidenza. Qui serve prima di proseguire un disclaimer grosso come una casa: quello che sto per scrivere è corretto, ma deliberatamente vago per evitare le eventuali ire degli statistici che potrebbero passare da queste parti! Immaginiamo di costruire un intervallo pari a:

dove può assumere il valore che vogliamo: 1, 2, 3, ... Se prendiamo = 2 (o meglio, 1.96, ma di nuovo sorvoliamo) possiamo dire (senza attirarci le ire degli statistici in sala) di avere il 95% di confidenza che quell'intervallo sia rappresentativo del valore vero (noterete che ho accuratamente evitato di scrivere che l'intervallo ha il 95% di probabilità di contenere il valore vero , perché questa frase è tecnicamente falsa, e potrebbe scatenare una guerra di semantica statistica che preferirei evitare!).

Veniamo dunque alla parte che ci interessa veramente: come faccio a ridurre l'intervallo di confidenza che mi permette di dire qualcosa su ? Se guardate con attenzione le formule che vi ho propinato, capirete in fretta che se aumento la quantità di misure (o di collisioni!) il valore di diventerà sempre più piccolo, riducendo progressivamente la taglia del mio intervallo di confidenza, e di fatto migliorando la mia conoscenza di . Sembra banale, ma questa è la ragione primaria per cui più misure (ovvero, nel nostro caso, più collisioni a LHC) portano a misure più precise.

Come si riduce in funzione dell'aumentare delle misure? Non linearmente, ed è qui che le cose si complicano! La dipendenza va con l'inverso della radice quadrata del numero di misure, che è la ragione per cui raddoppiare il numero di misure non migliora del doppio l'incertezza della misura, ma solo di un fattore !

Torniamo dunque allo stop di LHC da cui siamo partiti. Nel corso del Run 2 abbiamo raccolto una quantità di collisioni pari a circa 140 femtobarn inversi. Tra il 2022 e il 2023 abbiamo raccolto una luminosità pari a circa 70 femtobarn inversi. Trascuriamo il fatto che l'energia dei fasci del Run 2 era leggermente diversa da quella delle collisioni del Run 3: se una certa misura è stata fatta con i dati del Run 2 con un errore , aggiungendo di dati del Run 3 l'errore migliorerà di un fattore:

ovvero, si ridurrà solo del 20%!

Capirete allora che per i dottorandi che speravano di poter migliorare sensibilmente con il loro lavoro le misure già pubblicate, o le chance di scoprire una nuova particella, le prospettive non sono esattamente rosee. Che cosa resta loro da fare? Da una parte certamente sperare che il 2024 porti una compensazione dei dati non presi durante il 2023, dall'altra lavorare al miglioramento delle loro analisi, qualcosa che nel nostro esempio corrisponderebbe si fatto a una riduzione diretta del paramento : un'impresa difficile e impegnativa!

Per finire, compito a casa per verificare se avete seguito fino a qui: date tutte le ipotesi e le approssimazioni dell'articolo, quanti dati servirebbero (in femtobarn inversi) per migliorare di un fattore 2 (ovvero, per dimezzare) le incertezze delle misure fatte con i dati del Run 2?

Correlati

Commenti

Renato dice

6 Settembre 2023 alle 13:31

Per il compito a casa...passo caro Marco

Rispondi
Fabio dice

6 Settembre 2023 alle 13:43

Ciao Marco,
molto interessante, grazie per la condivisione e le spiegazioni (e poveri dottoranti e post-doc...).

Se non ho fatto male i conti, per dimezzare l'errore X (inteso come stima della deviazione standard della media delle misure) servirebbero 420 femtobarn inversi, quindi oltre al Run 3 servirebbero altri 2,5 anni di misure paragonabili a quelle del Run 2 per dimezzare l'errore.

Un commento: anche nel caso di LHC è corretto dire che aumentare le misure è ragionevole solo fino a quando si ottiene un errore X superiore alla precisione strumentale, al di sotto del quale non si potrà comunque scendere?

Grazie ancora.

Rispondi
- Marco dice
  
  7 Settembre 2023 alle 08:02
  
  Ciao Fabio! Calcoli esatti 😉
  
  Per tutti quanti: se l'errore una misura fatta con dati è:
  
  e voglio dimezzare l'errore fino a ottenere allora avrò:
  
  da cui si capisce che la quantità di dati che dimezza l'incertezza statistica è il quadruplo dei dati ! Ergo, come dice Fabio, mi servirà aggiungere 3 volte i dati già raccolti per dimezzare l'incertezza sulle misure ottenute con i primi dati.
  
  Sulla questione dell'errore sperimentale mi toccherà fare un post a parte 😉
  
  Rispondi
may_may dice

13 Gennaio 2024 alle 20:55

Grazie Marco, non sono un esperto quindi perdonami se dico cose che nella tua lingua sembreranno senza senso. Lessi con piacere il tuo libro e ti ho seguito durante la scoperta del Bosone di Higgs. Saranno passati sicuramente degli anni, ma poi mi è venuto un dubbio. Dubbio che probabilmente questo articolo mi toglie. Volendo potrei andare a rileggermi il libro nel caso mi aiutasse a coprire ogni perplessità. Il dubbio: quando si fanno scontrare i protoni negli acceleratori lo scopo sarebbe quella di creare una energia, diciamo cosi, non comune. Durante le collisioni nascono poi le particelle di massa frazionata, nel senso che la somma delle masse delle particelle è uguale alla somma dell'enegia creata durante lo scontro. Io so gia che probabilmente avrò gia detto cose al minimo imprecise o addirittura al massimo completamente sbagliate. Ma dovevo passare da qua per chiedere una cosa piu precisa. E' accaduto per l'Higgs, ma la stessa cosa potrebbe accadere per altre particelle, ma non mi è chiara la relazione fra la natura statistica che utilizzate per scoprire nuove particelle e il modo o la frequenza con cui queste particelle si creano ad ogni collisione. Io mi aspetto ad esempio una situazione del genere: ad ogni collisione si genera un bosone di Higgs, ma questo "segnale" lo possiamo registrare e ufficialmente dichiarare solo quando, dopo svariati scontri (e si sa ci possono volere anche anni), appare forte e chiaro (arrivati diciamo a 5 sigma). Ciò che non mi è chiara è però la frequenza di uscita della nuova particella e se la sua è una apparizione dopo ogni scontro, come qualcosa che meccanicamente deve uscire (anche se come premesso, la sua presenza viene registrata molto piu tardi dopo svariati esperimenti), oppure viene fuori ogni tanto, come se fosse un evento probabile ma non un evento che ci si aspetta accada meccanicamente. ciao 🙂

Rispondi
- cloc3 dice
  
  5 Luglio 2024 alle 11:15
  
  be'. credo che tu non ti sia rivolto a me, per avere una risposta.
  però anch'io ni chiamo marco, e ne approfitto per dire una mia parola, con il vantaggio che, essendo meno autorevole, posso esprimermi con più libertà.
  🙂
  
  il fenomeno degli urti in un contesto di collisione negli esperimenti di particelle elementari è sempre molto complesso.
  i parametri di ingresso di ogni singola particelle sono noti con un notevole grado di approssimazione, per quanto i fasci siano collimati con tecniche estremamente efficaci.
  
  di conseguenza ogni singola particella dei fasci in ingresso è identica ad ogni altra nel senso che attribuisce al proprio stato iniziale lo stesso livello di incertezza sulle proprie caratteristiche (per esempio energia, posizione, direzione di volo, momento di rotazione e via dicendo).
  
  allo stesso modo, lo scambio di energia, quantità di moto, spin o quant'altro è identico agli altri scambi in senso statistico, e perciò è noto con un dato livello di precisione.
  
  come se non bastasse, l'effetto dell'interazione può generare manifestazione diverse, anche a parità di condizioni. così, ad esempio, se la collisione ha superato una soglia di scambio di energia, è possibile osservare fenomeni di tipo diverso, diciamo di tipo A, B, o C, ciascuno con la propria probabilità statistica (che a volte è nota, altre è oggetto di misurazione). Tenendo conto che non necessariamente la somma delle probabilità di A, B e C vale 1.
  
  in conclusione, generalmente, i fenomeni d'urto sono classificati confrontando la cosiddetta sezione d'urto in ingresso con la sezione d'urto in uscita. che è il modo piùcomune di descrivere l'esito di un esperimento scientifico.
  
  Rispondi
- Marco dice
  
  5 Luglio 2024 alle 13:58
  
  Grazie al commento di Cloc3 mi rendo conto che non ho mai risposto a questo tuo. Due punti importanti:
  
  - Quello che conosciamo (o ipotizziamo) è che in una collisione avvenga un certo fenomeno (per esempio la creazione di un bosone di Higgs): questa probabilità ci permette di calcolare quanto è il ritmo *medio* a cui avviene un certo fenomeno, ma non quando e in quale collisione avviene esattamente: questo resta un processo aleatorio con fluttuazioni, di cui dobbiamo tenere conto
  
  - Il modo con cui si manifesta un fenomeno (per esempio, gli specifici prodotti di disintegrazione di un bosone di Higgs) non è quasi mai univoco, ovvero la natura ha più di un modo di far apparire le stesse particelle nel nostro rivelatore. Prendiamo per esempio un bosone di Higgs che si disintegra in due fotoni: se questo fosse l'unico modo che la natura ha di produrre due fotoni nella collisione tra due protoni, l'osservazione di due fotoni (assumendo un rivelatore perfetto) sarebbe la traccia perfetta del passaggio di un bosone di Higgs. Purtroppo la natura ha diversi altri modi di produrre due fotoni nella collisione tra due protoni, modi che niente hanno a che vedere con il bosone di Higgs. Anche questi processi che "disturbano" la nostra visione (li chiamiamo "rumori di fondo") sono aleatori.
  
  Ci troviamo dunque a fronteggiare una doppia sorgente di variabilità statistica: quella che riguarda la produzione degli oggetti che vorremmo osservare, e quella che ha a che fare con i fenomeni che non sono quello che vogliamo osservare, ma ci assomigliano molto. Il tempo necessario a stabilire la significata statistica che corrisponde a un'osservazione ha a che fare con tutti e due: aver accumulato abbastanza dati tanto per aver prodotto sufficiente segnale, quanto per poter dire che quello che sembra un segnale non può ragionevolmente essere confuso con il rumore di fondo.
  
  Rispondi
may_may dice

7 Agosto 2024 alle 22:55

Grazie per le risposte. Purtroppo non ricordo più il motivo che ha scatenato quel dubbio. Probabile, ma non ne sono certo, che stessi cercando di capire se la natura faccia apparire le particelle secondo un meccanismo preciso, o le particelle nascono in quanto devono sottostare ad un preciso progetto statistico. Un po' come succede con le misure quantistiche. Non è la singola misura che interessa, cioè il suo risultato non è determinato da un meccanismo. Il meccanismo riguarda invece la globalità delle misure. Quelle invece devono sottostare ad un preciso vincolo, appunto statistico. Questa è la bellezza della fisica moderna, le cose interessanti non sono i singoli eventi, ma tutti gli eventi nella loro globalità. Piu che bellezza, per me è il piu grande mistero..il che lo rende anche bello 🙂

Rispondi
- cloc3 dice
  
  8 Agosto 2024 alle 07:24
  
  Per certi versi, la tua idea suggerisce molti sottintesi che è possibile approfondire.
  
  Da un lato, richiama il vecchio esempio di Aristotele, che descrive li varo di una nave in secca per la pulizia dello scafo. Un uomo solo non potrebbe riportarla in mare, ma cento uomini possono farlo, Dunque la forza di cento uomini è maggiore della forza del singolo moltiplicata per cento.
  
  Tuttavia, l'ambiguità della meccanica quantistica si presta ad interpretazioni ambigue anche nel campo della speculazione filosofica.
  In genere, preferisco interpretare il ruolo della statistica nella teoria come la capacità di attribuire carattere di identità a oggetti che condividono lo stesso grado di variabilità (non sono identici perché sono uguali, ma sono identici perché non li posso distinguere).
  
  Nell'esperimento di Mach e Zender, le particelle in ingresso manifestano la propria natura solo quando sono in grado di interferire. In questo modo, l'osservazione ripetuta aggiunge e non toglie contenuto alla comprensione della singola manifestazione sperimentale.
  
  Rispondi