• Passa alla navigazione primaria
  • Passa al contenuto principale
  • Passa alla barra laterale primaria
  • Passa alla barra laterale secondaria
  • Passa al piè di pagina
  • Home
  • Chi sono
  • Contatti
  • Tu che sei un fisico
  • Incontri e conferenze
  • Particelle familiari
  • Privacy

Sull'errore della media, ovvero del perché raddoppiare i dati non basta per dimezzare le incertezze

6 Settembre 2023 3 commenti

Nell'articolo precedente raccontavo dell'arresto prematuro della presa dati di LHC di quest'anno. Alla fine del pezzo menzionavo come questa cosa potrebbe essere problematica per chi, come studenti di dottorato o post-doc che abbiamo appena iniziato il loro contratto, speravano di usare i dati del Run 3 per le loro misure. In questo articolo cercherò di spiegare perché la quantità ridotta di dati sia potenzialmente problematica, e per farlo proverò a fare qualche calcoletto di statistica. Prima di iniziare, consiglierei ai digiuni della materia di andare a rileggersi questa serie di articoli che avevo pubblicato nel 2011: alcuni dei concetti sono già spiegati (persino meglio) lì.

Prendiamo molto alla lontana. Iniziamo col dire che ogni fenomeno fisico che vogliamo misurare è soggetto a fluttuazioni statistiche: semplificando molto, diciamo che ogni volta che facciamo una misura di una quantità il cui valore "vero" vogliamo conoscere, la misura restituisce un valore prossimo al valore vero, ma diverso da questo. Le ragioni di queste fluttuazioni possono essere molteplici, hanno a che fare sia con il fenomeno stesso che vogliamo misurare, sia con le proprietà dello strumento che usiamo per misurarlo. Trascuriamo qui tutti i dettagli, che ci richiederebbero di definire cosa vogliamo misurare e come vogliamo farlo, e facciamo un esempio ultra-semplificato. Diciamo che vogliamo misurare una certa quantità (la larghezza di un tavolo, la massa del bosone di Higgs, poco importa) che ha un valore vero \mu, e che ogni volta che facciamo una misura (per esempio, ogni volta che usiamo un metro per misurare quanto è larga mano tra scrivania, o ogni registriamo una collisione a LHC che abbia le caratteristiche che cerchiamo) troviamo un valore x per la quantità che ci interessa. Nel caso più semplice che possiamo immaginare, i valori x che misuriamo vengono da un distribuzione a campana (per i più esperti, una Gaussiana) centrata sul valore "vero" \mu, e cha ha una certa larghezza \sigma che gli statistici chiamano deviazione standard. Per fare un esempio concreto, se immaginiamo che che \mu = 10 e \sigma = 3 (nell'unità di misura rilevante per il nostro esperimento, che qui ignoro), la distribuzione attesa delle misura avrà questa forma:

Immaginiamo adesso di fare 100 misure, e di mettere i loro valori in un istogramma. Questa è la nostra prima approssimazione della distribuzione "vera" della misure che otterremmo se ne facessimo un numero infinito:

Che cosa possiamo dire del valore vero di \mu a partire da queste prima 100 misure? Possiamo calcolarne la media \bar{x}, sommando tutte le misure fatte e dividendo la somma per il numero di misure:

\bar{x} = \frac{x_1 + x_2 + ... + x_{100}}{100}

che possiamo generalizzare per N misure come:

\bar{x} = \frac{x_1 + x_2 + ... + x_{N}}{N} = \frac{1}{N} \Sigma_{i=1}^{N} x_i

dove il simbolo \Sigma significa "somma di tutti i valori". \bar{x} è in qualche modo legato al valore vero che vogliamo misurare \mu, e vedremo tra un attimo come. Diciamo però che a partire dalle 100 misure possiamo anche calcolare il parametro s che approssima la deviazione standard della distribuzione vera:

 s = \sqrt{\frac{(x_i - \bar{x})^2}{N-1}}

Qui stiamo prendendo la differenza di ognuno delle N misure x_i dalla loro media, ne facciamo il quadrato per considerare sullo stesso piano tanto le differenze positive che quelle negative, e ne facciamo a loro volta una (sorta di) media. Credetemi sulla parola quando vi dico che s è uno "stimatore corretto" di \sigma.

Che cosa possiamo a questo punto dire di \bar{x} (e s), e che relazione ha con il valore vero \mu che vogliamo misurare? Una discussione rigorosa richiederebbe una trattazione matematica che esula dello scopo di questo articolo, dovrete dunque nuovamente credermi sulla parola quando vi dico che \bar{x} è affetto da un'incertezza statistica pari a:

\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{N}} \simeq \frac{s}{\sqrt{N}}

In questo caso "incertezza statistica" vuol dire che, se ripetessimo le 100 misure ancora e ancora, e ogni volta calcolassimo la media \bar{x}_j per ognuno di questi gruppi j di 100 misure, i valori di \bar{x}_j sarebbero a loro volta distribuiti come una curva a campana, centrata in \mu con una deviazione standard \frac{\sigma}{\sqrt{N}}.

Queste informazioni (e le ipotesi che stanno dietro alla trattazione matematica su cui ho bellamente sorvolato) ci permettono di stabilire quello che in gergo di chiama un intervallo di confidenza. Qui serve prima di proseguire un disclaimer grosso come una casa: quello che sto per scrivere è corretto, ma deliberatamente vago per evitare le eventuali ire degli statistici che potrebbero passare da queste parti! Immaginiamo di costruire un intervallo pari a:

\bar{x} - z \frac{s}{\sqrt{N}}, \bar{x} + z \frac{s}{\sqrt{N}}

dove z può assumere il valore che vogliamo: 1, 2, 3, ... Se prendiamo z = 2 (o meglio, 1.96, ma di nuovo sorvoliamo) possiamo dire (senza attirarci le ire degli statistici in sala) di avere il 95% di confidenza che quell'intervallo sia rappresentativo del valore vero \mu (noterete che ho accuratamente evitato di scrivere che l'intervallo ha il 95% di probabilità di contenere il valore vero \mu, perché questa frase è tecnicamente falsa, e potrebbe scatenare una guerra di semantica statistica che preferirei evitare!).

Veniamo dunque alla parte che ci interessa veramente: come faccio a ridurre l'intervallo di confidenza che mi permette di dire qualcosa su \mu? Se guardate con attenzione le formule che vi ho propinato, capirete in fretta che se aumento la quantità N di misure (o di collisioni!) il valore di \frac{\sigma}{\sqrt{N}} diventerà sempre più piccolo, riducendo progressivamente la taglia del mio intervallo di confidenza, e di fatto migliorando la mia conoscenza di \mu. Sembra banale, ma questa è la ragione primaria per cui più misure (ovvero, nel nostro caso, più collisioni a LHC) portano a misure più precise.

Come si riduce \frac{\sigma}{\sqrt{N}} in funzione dell'aumentare delle misure? Non linearmente, ed è qui che le cose si complicano! La dipendenza va con l'inverso della radice quadrata del numero di misure, che è la ragione per cui raddoppiare il numero di misure non migliora del doppio l'incertezza della misura, ma solo di un fattore \sqrt{2} \simeq 1.4!

Torniamo dunque allo stop di LHC da cui siamo partiti. Nel corso del Run 2 abbiamo raccolto una quantità di collisioni pari a circa 140 femtobarn inversi. Tra il 2022 e il 2023 abbiamo raccolto una luminosità pari a circa 70 femtobarn inversi. Trascuriamo il fatto che l'energia dei fasci del Run 2 era leggermente diversa da quella delle collisioni del Run 3: se una certa misura è stata fatta con i dati del Run 2 con un errore X, aggiungendo di dati del Run 3 l'errore X migliorerà di un fattore:

X \sqrt{\frac{140}{140+70}} \simeq 80\% X

ovvero, si ridurrà solo del 20%!

Capirete allora che per i dottorandi che speravano di poter migliorare sensibilmente con il loro lavoro le misure già pubblicate, o le chance di scoprire una nuova particella, le prospettive non sono esattamente rosee. Che cosa resta loro da fare? Da una parte certamente sperare che il 2024 porti una compensazione dei dati non presi durante il 2023, dall'altra lavorare al miglioramento delle loro analisi, qualcosa che nel nostro esempio corrisponderebbe si fatto a una riduzione diretta del paramento \sigma: un'impresa difficile e impegnativa!

Per finire, compito a casa per verificare se avete seguito fino a qui: date tutte le ipotesi e le approssimazioni dell'articolo, quanti dati servirebbero (in femtobarn inversi) per migliorare di un fattore 2 (ovvero, per dimezzare) le incertezze delle misure fatte con i dati del Run 2?

Condividi:

  • Facebook
  • Twitter
  • E-mail

Correlati

Archiviato in:Fisica, Scienza Contrassegnato con: collisioni, deviazione standard, distribuzione, errore sulla media, formulette, intervallo di confidenza, LHC, luminosità, misure, precisione, Statistica

Interazioni del lettore

Commenti

  1. Renato dice

    6 Settembre 2023 alle 13:31

    Per il compito a casa...passo caro Marco

    Rispondi
  2. Fabio dice

    6 Settembre 2023 alle 13:43

    Ciao Marco,
    molto interessante, grazie per la condivisione e le spiegazioni (e poveri dottoranti e post-doc...).

    Se non ho fatto male i conti, per dimezzare l'errore X (inteso come stima della deviazione standard della media delle misure) servirebbero 420 femtobarn inversi, quindi oltre al Run 3 servirebbero altri 2,5 anni di misure paragonabili a quelle del Run 2 per dimezzare l'errore.

    Un commento: anche nel caso di LHC è corretto dire che aumentare le misure è ragionevole solo fino a quando si ottiene un errore X superiore alla precisione strumentale, al di sotto del quale non si potrà comunque scendere?

    Grazie ancora.

    Rispondi
    • Marco dice

      7 Settembre 2023 alle 08:02

      Ciao Fabio! Calcoli esatti 😉

      Per tutti quanti: se l'errore una misura fatta con N_1 dati è:

      \sigma_1 = \frac{\sigma}{N_1}

      e voglio dimezzare l'errore fino a ottenere \sigma_2 = \frac{1}{2} \sigma_1 allora avrò:

      \sigma_2 = \frac{\sigma}{N_1} = \frac{\sigma}{2\sqrt{N_1}} = \frac{\sigma}{\sqrt{4 N_1}}

      da cui si capisce che la quantità di dati che dimezza l'incertezza statistica è il quadruplo dei dati N_2 = 4 N_1! Ergo, come dice Fabio, mi servirà aggiungere 3 volte i dati già raccolti per dimezzare l'incertezza sulle misure ottenute con i primi dati.

      Sulla questione dell'errore sperimentale mi toccherà fare un post a parte 😉

      Rispondi

Lascia un commento Annulla risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Barra laterale primaria

Marco Delmastro Mi chiamo Marco Delmastro, sono un fisico delle particelle che lavora all'esperimento ATLAS al CERN di Ginevra. Su Borborigmi di un fisico renitente divago di vita all'estero lontani dall'Italia, fisica delle particelle e divulgazione scientifica, ricerca fondamentale, tecnologia e comunicazione nel mondo digitale, educazione, militanza quotidiana e altre amenità. Ho scritto un libro, Particelle familiari, che prova a raccontare cosa faccio di mestiere, e perché. Per qualche tempo ho risposto a domande di fisica (e non solo) sul podcast Tu che sei un fisico (e prima o poi potrei riprendere).

Barra laterale secondaria

Argomenti

  • Scienza
    • Fisica
    • Raccontare la scienza
    • Scienza e dintorni
  • Opinioni
    • Militanza
    • Mezzi e messaggi
    • Intenzioni educative
  • Sulla frontiera
    • Vita di frontiera
    • Letture e riflessioni
    • Geeking & Hacking

Footer

Iscriviti al blog tramite email

Non perderti neanche un aggiornamento! Inserisci il tuo indirizzo email per ricevere un messaggio ogni volta che un nuovo articolo viene pubblicato:

Trattamento dei dati, cookie e affiliate link

Questo sito fa uso di cookie: qui ti spiego quali sono e perché li uso, così puoi decidere se ti va bene. Uso anche Google Analytics per l'analisi delle visite e del traffico; per saperne di più, leggi la pagina sulla privacy, dove ti spiego anche come gestisco i tuoi dati se decidi di iscriverti al sito o di lasciare un commento. In certi post, alcuni dei link a prodotti venduti su Amazon sono affiliate link.

Qualche diritto riservato

I contenuti di Borborigmi di un fisico renitente sono rilasciati sotto licenza Creative Commons Attribuzione-Non Commerciale-Non opere derivate. Fatene buon uso.

Licenza Creative Commons

Copyright © by Marco Delmastro · Qualche diritto riservato

  • Facebook
  • Twitter
  • Instagram
  • Youtube
  • Linkedin
  • Github
Borborigmi di un fisico renitente usa alcuni cookie per funzionare al meglio. Se continui leggere o scorrere queste pagine dò per scontato che la cosa ti vada a genio. Ok! Dimmi di più
Politica dei cookie

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Sempre abilitato
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
ACCETTA E SALVA