Distinguere un segnale da un rumore di fondo. Seconda puntata: il significato di un eccesso

12 Dicembre 2011 31 commenti

Avvertenze: la prima puntata della serie è qui, se non l'avete letta fatelo prima di attaccare questa, altrimenti potreste perdervi in fretta. Nel testo che state per leggere ci sono dei numerelli, ma le sole operazioni che dovete sapere fare per seguire il ragionamento sono la moltiplicazione e la radice quadrata. E potete usare la calcolatrice, non controllo!

Riprendiamo dal nostro segnale, il puzzone di Piggs, e il suo fastidioso rumore di fondo, il bruglione di Yan, che lo imita in tutto e per tutto, e per di più avviene più spesso. In entrambi i casi, come dicevamo, si tratta di fenomeni relativamente rari: il bruglione di Yan si manifesta in media 10 volte ogni 10000 collisioni, il puzzone di Piggs, se esiste, in media soltanto 1 volta.

I fenomeni che avvengono raramente, e su questo dovrete credermi sulla parola, seguono nel loro apparire una distribuzione di probabilità detta di Poisson. Questa distribuzione ha diverse proprietà matematiche interessanti, che vi lascio andare a scoprire da soli se volete approfondire. Per quello che vogliamo fare qui, ci interessa conoscere soltanto un paio di caratteristiche di base. La prima proprietà, come potete immagine se avete letto la puntata precedente, è il suo valore medio. Se studiate un fenomeno poissoniano, che ha la proprietà di manifestarsi 1 volta ogni N misure (per esempio, ogni N collisioni), nel caso voi facciate M misure potete aspettarvi di osservare in media M/N volte il fenomeno. Se il bruglione di Yan si manifesta in media 1 volta ogni 1000 collisioni, se ne misurate 10000 vi aspettate di osservarlo in media 10 volte. Semplice, vero?

La seconda proprietà è la deviazione standard, la "sigma", della distribuzione, anch'essa incontrata nella puntata precedente. La distribuzione di Poisson è particolarmente comoda per i calcoli, perché se il suo valore medio è K, la sua sigma è la radice quadrata di K. Se in 10000 interazioni vi aspettate di osservare in media 10 volte il bruglione di Yan, la sigma della corrispondete distribuzione di probabilità è la radice quadrata di 10, ovvero un po' più di 3. Come ricorderete, la "sigma" di una distribuzione misura quanto è probabile che osserviate un valore diverso da quello medio della distribuzione. Nel caso della distribuzione di Poisson (che in certi regimi non si comporta in modo troppo diverso dalla distribuzione normale), l'intervallo compreso tra il valor medio atteso più o meno una sigma contiene approssimativamente il 68% delle osservazioni possibili. Se osservate l'apparire del brugliore di Yan in 10000 collisioni, in circa 68% dei casi potete aspettarvi che apparirà un numero di volte compreso tra poco meno di 7 e poco più di 13. L'intervallo compreso tra il valor medio e 3 sigma comprende circa il 99.7% di valori possibile, quello tra il valor medio più o meno 5 sigma il 99.9999%.

Veniamo dunque alle nostre prime 10000 interazioni. Ci aspettiamo (ce l'ha detto il nostro amico teorico) in media 10 accensioni di lampadina causate dal bruglione di Yan, con una sigma di più o meno 3 accensioni, e 1 accensione potenzialmente dovuta al puzzone di Piggs, la particella ignota di cui siamo alla ricerca, con una sigma di... 1 accensione! Immaginate dunque di osservare 13 accensioni: state forse vedendo l'apparire di puzzone di Piggs, o state semplicemente visionando il bruglione di Yan, che conoscete bene e che vi interessa poco? Purtroppo per voi, non potete dire (ancora) molto. 13 accensioni sono in effetti più delle 10 che vi aspettereste in media per il solo bruglione, ma l'eccesso che osservate non è (ancora) significativo. Siccome la statistica di Poisson governa la frequenza delle apparizioni di bruglione e puzzone, sapete bene che 13 accensioni dovute al solo bruglione, invece che le 10 medie, sono un'eventualità piuttosto probabile. In effetti, un'eventualità possibile circa un terzo delle volte: se doveste rifare l'acquisizione dei vostri 10000 eventi altre 2 volte, potete stare quasi sicuri che l'eccesso sparirà. Mentre il numero eventuale di puzzoni di Piggs (1 in media, ma troppo facilmente anche 2 o nessuno) è ancora troppo piccolo per poterlo distinguere.

Che fate allora? Aspettate, e continuate a misurare, a raccogliere dati, a collezionare collisioni. Vediamo come la situazione evolve se invece di 10000 collisioni ne abbiamo raccolte 1000000. In un milione di collisioni ci aspettiamo di osservare in media 1000 accensioni di lampadina dovute al brugliore di Yan, con una sigma di circa 31 (la radice quadrata di 1000), mentre le accensioni potenzialmente dovute al puzzone di Piggs sarebbero 100, con una sigma di 10. Se in un milione di collisioni osservate 1103 accensioni, questa volta l'eccesso diventa intrigante. Potrebbe trattarsi ancora di una fluttuazione del rumore di fondo? Certamente, ma questa volta si tratterebbe di un eccesso che supera il valor medio atteso (1000) di più di 3 volte la sigma della distribuzione (3 per 31 fa 93, e voi avete un eccesso di 103 accensioni). Una simile fluttuazione del bruglione di Yan ha una probabilità di avvenire solo 1 volta ogni 370 esperimenti che raccolgano un milioni di eventi, cosa non impossibile ma molto più rara. In questo caso, normalmente vi permettereste di parlare di "evidenza" di un fenomeno, e di "osservazione di un eccesso". Molto probabilmente pubblichereste qualcosa, ma ovviamente con molta cautela.

Per essere sicuri che il vostro eccesso sia genuino volete che le probabilità di una fluttuazione del rumore di fondo siano veramente minuscole, praticamente trascurabili. Se raccogliete un altro milione di interazioni fino ad averne 2 milioni, vi attendete 2000 accensioni dovute al bruglione, con una sigma di circa 41. Se osservate 2215 accensioni, il vostro eccesso (215 accensioni in più delle 2000 attese in media) rappresenta più di 5 volte la sigma del rumore di fondo: in questo caso, si tratterebbe di una fluttuazione del rumore di fondo che ha una probabilità di accadere ogni 1700000! D'altra parte, vi attendereste in media 200 accensioni potenzialmente dovute al puzzone, con una sigma di 14 accensioni: l'eccesso è infinitamente più probabilmente dovuto alla presenza di un secondo fenomeno oltre al bruglione, e certamente compatibile con l'esistenza del puzzone ("infinitamente" è un eufemismo: quanto questo secondo scenario sia più probabile è qualcosa che si può calcolare con precisione, ma in questa sede non ci proveremo nemmeno!). Se ve la sentite, in questo caso potete finalmente parlare di "scoperta", perché l'eccesso che osservate è statisticamente significativo.

Tutto a posto? Nella maggio parte dei casi, si. Champagne, applausi, seminario pubblico, magari premio Nobel. A meno che (perché c'è sempre un "a meno che")... Tutto il ragionamento fatto sino ad adesso si basa sull'ipotesi che le proprietà del rumore di fondo, quello che abbiamo chiamato il bruglione di Yan, siano ben note. Questo è spesso vero, ma quando si sperimenta in regimi energetici nuovi (per esempio a LHC!), potrebbe non essere così certo. Il bruglione di Yan potrebbe essere stato studiato con cura con un acceleratore che ha lavorato a 2 TeV, e le previsioni di come dovrebbe manifestarsi a 7 TeV potrebbero essere state estrapolate sulla base di calcoli teorici. Come fare a fidarsi? Che succederebbe se il bruglione di Yan si presentasse in realtà in media 11 volte in 10000 eventi, invece delle 10 inizialmente previste? Il ragionamento fatto prima sarebbe ancora valido? Vediamo un po'. In 2 milioni di eventi mi dovrei aspettare 2200 eventi (e non i 2000 che erroneamente credevo) con una sigma di circa 46. La mia osservazione di 2215 accensioni di lampadina assume immediatamente un significato diverso, non trovate?

Sbagliare a stimare il "rumore di fondo" è uno degli errori sistematici più comuni nella fisica delle alte energie. Per evitarlo, esiste una sola strategia: invece di affidarsi a predizioni teoriche, mettersi in condizione di misurare il ritmo di produzione del rumore di fondo direttamente dai dati. Per farlo, occorre trovare una zona di osservazione dove siate sicuri che si manifesti solo il bruglione di Yan, e misurarne le proprietà in questa regione. È quello di cui parleremo alla prossima puntata.

(continua)

Correlati

Commenti

Max dice

12 Dicembre 2011 alle 12:02

Mi sorge spontanea una questione.... una volta individuato un probabile Puzzone di Piggs, il Monello Scandal suppongo permetta di stabilirne alcune proprietà teoriche aggiuntive che permettano di migliorare sia dove cercarlo sia un controllo più accurato che sia effettivamente un Puzzone e non un Bruglione ?

Mi spiego.... adesso lo state cercando in uno spettro di masse direi immenso, visto che il MS non ne da appunto alcuna idea della massa. Una volta avute certe indicazione della zona precisa di massa dove "sembra" apparire, il MS vi viene in aiuto dal lato teorico per aumentare la "certezza" che si tratti effettivamente di un Puzzone o no ?

Max

Rispondi
- Marco dice
  
  12 Dicembre 2011 alle 12:41
  
  @Max: la risposta semplice è "si". La risposta completa è decisamente complessa, e se mai ci arriveremo non sarà prima di aver discusso la questione della misura delle proprietà del rumore di fondo direttamente dai dati (stanotte, forse 🙂 )
  
  Rispondi
Emanuele dice

12 Dicembre 2011 alle 12:07

Ottimo davvero.
ps.: i compiti a casa non li ho fatti e non ho la distribuzione di probabilità del lancio di 3 dadi perché mi sono messo a studiare la frequenza con cui pubblichi i post... negli ultimi tempi siamo decisamente fuori dai 3-sigma! Per cui, piuttosto che una fluttuazione nel rumore di fondo, vedrei più probabile un cambiamento nelle condizioni al contorno. 😀
In ogni caso, meglio per noi (avidi) lettori.

Rispondi
- Marco dice
  
  12 Dicembre 2011 alle 12:39
  
  @Emanuele: eh eh eh, negli ultimi giorni ho semplicemente smesso di dormire 🙂
  
  Rispondi
Mattia dice

12 Dicembre 2011 alle 12:16

Che belle queste spiegazioni... La statistica spiegata così è davvero uno spasso... Magari me l'avessero spiegata così all'università... Magari non avrei rifatto "Statistica/1" ben 7 VOLTE!!!

GRANDE MARCO!

Rispondi
lallo dice

12 Dicembre 2011 alle 14:07

spiegazione Eccellente!!!

Rispondi
Luci dice

12 Dicembre 2011 alle 14:31

Grazie! Fantastica spiegazione anche per chi la laurea in fisica l'ha presa ormai troppi anni fa 🙂
ciao e direi...a domani!

Rispondi
Stefano dice

12 Dicembre 2011 alle 16:40

Non ho voglia di pensare per cui lo chiedo, siamo sicuri che la somma della distribuzione poissoniana del bruglione e quella del puzzone sia ancora poissoniana con media la somma delle due medie?
A occhio abbiamo sottointeso che i due eventi non si influenzino a vicenda, giusto? E sempre a occhio direi che siccome sono eventi rari anche se non fosse così non cambierebbe nulla di significativo.
O forse mi sto facendo domande oziose?

Rispondi
- Marco dice
  
  12 Dicembre 2011 alle 17:22
  
  @Stefano: le domande così non sono mai oziose. Sulla distribuzione della somma di due distribuzioni ti lascio indagare da solo 🙂 ma non sei lontano dalla verità (anche se io mi sono guardato bene dal parlarne in questi termini!). Quanto a possibili fenomeni di interferenza, sono ovviamente possibili (e previsti) per certi canali e in certi modi di produzione e decadimento. L'influenza principale è nel valore assoluto del ritmo di produzione dell'uno o dell'altro fenomeno (da cui la necessità di misurarli entrambi dai dati).
  
  Rispondi
Paolo dice

12 Dicembre 2011 alle 19:09

Domani possiamo mettere alla prova questi utili insegnamenti. Anche se la particella non si chiama Puzzone di Piggs. 🙂

Rispondi
corrado dice

12 Dicembre 2011 alle 19:10

Seguo da poco il tuo blog. ottimo. grazie. ma devi farmi aspettare domani per sapere come si ricava il rumore di fondo dai dati? le cose che hai spiegato nelle prime 2 puntate più o meno le sapevo, ma per questa terza sono in ansiosa attesa.

Rispondi
Buzz dice

12 Dicembre 2011 alle 19:20

Complimenti davvero! Ottima e semplicissima spiegazione di statistica!

Rispondi
Asmaro dice

13 Dicembre 2011 alle 00:02

Non sapevo che la distribuzione di Poisson e la campana di Guass servissero a queste cose io ne ho sempre fatto uso per costruire algoritmi su grafici di borsa 🙂

Rispondi
Bigalfry dice

13 Dicembre 2011 alle 00:41

Con questo post hai chiarito molti miei dubbi. Grazie mille. Per il resto non vedo l'ora di studiare queste cose al liceo e all'università! E speriamo in bene per il bosone: se non lo trovassero mi dispiacerebbe per il povero signor Higgs! 😀 Comunque, sbaglio o, fra velocità non confermate di neutrini(nel tunnel 😀 ) e accelleratori più potenti, la fisica sta entrando in una nuova età densa di scoperte. Mi sembra, ma più che altro è un auspicio.
Te conosci la fisica da dentro. E' così o è ancora troppo presto per dirlo?
P.S.: grazie per la risposta al mio commento precedente!!

Rispondi
My_May dice

13 Dicembre 2011 alle 08:22

A me sembra che Marco ne avesse già parlato tempo fa, quindi la spiegazione non mi è nuova .
Io però (continuo qui dal commento fatto nella prima puntata) continuo a non capire il motivo per cui si debba stappare lo spumante (italiano... è meglio) solo perchè si è notato una "anomalia" nei dati. Cioè perchè si deve essere sicuri che quella anomalia faccia presagire che siamo alla presenza del puzzone di Piggs e non del puzzone di Maria o di Arturo?
Ritornando ai dadi e continuando qui quel discorso, possiamo senz'altro dire che il puzzone debba essere un dado in più lanciato. Ammettiamo di conoscerne 1000 (ed ad alte energie, come scrive Marco alla fine di questo articolo, potrebbero essercene anche 1001 o 1100), e di riuscire a "distinguere" quel dado in più lanciato nella mischia, perchè quello dovrebbe essere proprio il Piggs?

Rispondi
- Marco dice
  
  13 Dicembre 2011 alle 09:57
  
  @My_May: primo: nessuno ha mai detto (perlomeno su queste pagine) di essere già in condizione di stappare lo spumante (il resto lo vedrai oggi pomeriggio). Secondo: per un fisico sperimentale un segnale "anomalo" che sia statisticamente significativo è comunque una notizia fantastica: il manifestassi dell'ignoto `e sempre meglio della conferma del noto. Capire poi se si tratti del puzzone previsto da Mr. Piggs o del radione previsto da Mr. Gulp farà parte del lavoro "di fino" che viene dopo la scoperta, e ne parliamo un'altra volta.
  
  Rispondi
Daniele dice

13 Dicembre 2011 alle 09:13

Cavolo, grazie Marco. Strepitosa lezione.

Rispondi
Claudio dice

13 Dicembre 2011 alle 09:26

Marco, con riferimento al tuo precendente post, dove dici "devi considerare ce il tuo segnale possa essere come un dado aggiuntivo", potremmo (vado intuitivamente) immaginare come eventi del bruglione di Yan il lancio di 4 dadi a 6 facce, mentre il puzzone di Piggs sarebbe come un dado a 2 facce (0,1).
Con 4 dadi avremmo una distribuzione attorno 14, leggermente perturbata dagli eventi del puzzone di Piggs. Un numero sufficientemente alto di lanci, ci permetterebbe di scoprire il puzzone.
Analogia corretta?
Ah, ho fatto io compiti (e mentre li facevo mi e' venuta in mente l'analogia)
Le figure non sono capolavori 🙂 ma se volete vedere come si comportano 3 e 4 dadi:
https://sites.google.com/site/gnssinfoarc/dadi
Interessante vedere che con numero di dadi dispari abbiamo il massimo delle probabilita' su due somme equiprobabili (10 e 11 con 3 dadi).
Aumentando a coppie il numero il numero di dadi (partendo da 2), aggiungiamo 7 alla somma piu' probabile.
PS: openID mi ha dato qualche errore mentre postavo spero di non aver fatto post doppi

Rispondi
My_May dice

13 Dicembre 2011 alle 15:10

@Marco, attendo notizie fresche sulla conferenza. Avevo già capito però che lo spumante non potesse essere stappato, almeno non per oggi sulla questione Piggs. La mia quindi era una allusione ad una ipotetica scoperta del puzzone di Piggs. Che poi si possa stappare bottiglie per altre scoperte...non ci piove.

Rispondi
Xisy dice

13 Dicembre 2011 alle 23:51

Marco - i plots li hai fatti con root, giusto? Come si fa a mettere i numeretti percentuali sopra ai bins dell'istogramma (come nella prima figura)?

Rispondi
- Marco dice
  
  14 Dicembre 2011 alle 08:56
  
  @Xisy: TH1F::Draw("text"). Il formato del testo è gestito con gStyle->SetPaintTextFormat(). Magari posto le macro, se interessano.
  
  Rispondi
delo dice

13 Dicembre 2011 alle 23:57

@Xisy
nelle option del Draw()
http://root.cern.ch/root/html/THistPainter.html#HP15

Rispondi
Xisy dice

14 Dicembre 2011 alle 12:10

Grazie a entrambi! (Marco non preoccuparti per le macro).

Rispondi

Trackback

Distinguere un segnale da un rumore di fondo. Prima puntata: lanciare i dadi | Borborigmi di un fisico renitente ha detto:

12 Dicembre 2011 alle 13:31

[...] opinioni di frontiera« Aggiornamenti sulla ricerca del bosone di Higgs (la settimana prossima)Distinguere un segnale da un rumore di fondo. Seconda puntata: il significato di un eccesso »Distinguere un segnale da un rumore di fondo. Prima puntata: lanciare i dadi9 dicembre 2011Mi sono [...]

Rispondi
Distinguere un segnale da un rumore di fondo. Terza puntata: zone di rumore di fondo controllato | Borborigmi di un fisico renitente ha detto:

13 Dicembre 2011 alle 11:39

[...] da quiScienza con OliverBorborigmi di un fisico renitentescienza e opinioni di frontiera« Distinguere un segnale da un rumore di fondo. Seconda puntata: il significato di un eccessoDistinguere un segnale da un rumore di fondo. Terza puntata: zone di rumore di fondo controllato13 [...]

Rispondi
Sigma: così buoni, così vicini « Tutti a Zanzibar ha detto:

14 Dicembre 2011 alle 10:46

[...] Distinguere un segnale da un rumore di fondo. Seconda puntata: il significato di un eccesso [...]

Rispondi
Higgsteria | Borborigmi di un fisico renitente ha detto:

7 Marzo 2012 alle 17:00

[...] ormai avete imparato se leggete queste pagine da un po', un eccesso di 2.2 sigma non rappresenta niente per cui valga la pena di stappare lo champagne. Certo, la regione in cui [...]

Rispondi
Appunti sulla scoperta del bosone di Higgs: come lo abbiamo scovato, e quello che ne sappiamo oggi | Borborigmi di un fisico renitente ha detto:

4 Luglio 2012 alle 23:43

[...] di continuare, fare un altro sforzo, e andare a rileggervi questi tre articoli (questo, questo e questo) che trattano in modo accessibile a tutti la questione del segnale, del rumore, e della [...]

Rispondi
ll Bosone di #Higgs: consigli per la lettura | Background noise ha detto:

6 Luglio 2012 alle 21:48

[...] trattano in modo semplificato la questione del segnale, del rumore, e della statistica (segnale, rumore e [...]

Rispondi
Codex musicae « IL SUONO RAZIONALE ha detto:

12 Luglio 2012 alle 15:22

[...] sarebbero un segnale (per una spiegazione della faccenda si leggano questi tre ottimi articoli: 1, 2, [...]

Rispondi
LHC a 13 TeV: la nuova fisica potrebbe essere dietro l’angolo, ma c’è parecchio da sudare | Borborigmi di un fisico renitente ha detto:

4 Giugno 2015 alle 07:06

[…] belli, ma non è con questi che si scoprono nuovi fenomeni. Come abbiamo già discusso molte volte, un solo evento non è quasi mai sufficiente a stabilire la presenza di un nuovo fenomeno, e solo l'analisi statistica di una quantità sufficiente di dati può dare […]

Rispondi

Lascia un commento Annulla risposta

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.