09 dicembre 2021 13:57

La statistica può produrre risultati del tutto controintuitivi nonostante siano dimostrati rigorosamente. Sono i paradossi. Questo termine indica risultati che non sono falsi o incompatibili con un altro risultato, ma contrari alla nostra intuizione.

Uno dei paradossi statistici più sorprendenti è quello di Simpson. Esso afferma che, analizzando una popolazione composta da diversi gruppi, è possibile che all’interno di ogni gruppo si osservi uno stesso fenomeno, mentre nella popolazione totale si osserva il fenomeno opposto. Questo paradosso è all’origine di molti errori di interpretazione, anche da parte di matematici esperti.

Ecco un esempio emerso dai dati relativi ai ricoveri e alle vaccinazioni in Inghilterra. Nei rapporti sui decessi di persone positive alla variante delta del covid-19 (i dati, i riferimenti completi e i calcoli sono illustrati qui) si osserva che:

  • nella popolazione con meno di cinquant’anni, la percentuale di decessi è circa 1,8 volte più elevata tra i non vaccinati rispetto ai vaccinati;
  • nella popolazione con più di cinquant’anni, la percentuale di decessi è circa 6,3 volte più elevata tra i non vaccinati rispetto ai vaccinati;
  • invece, nella popolazione presa nel suo complesso, la percentuale di decessi è circa 1,3 volte meno elevata tra i non vaccinati rispetto ai vaccinati.

A questo punto sono necessarie due osservazioni. In primo luogo l’ultimo dato sembra contraddire i due precedenti. Come possiamo spiegare il fatto che il vaccino riduca il tasso di mortalità sia tra i maggiori di cinquant’anni sia tra i minori di cinquant’anni ma lo aumenti se consideriamo la popolazione nel suo insieme?

In secondo luogo (aspetto ancora più inquietante), a seconda che ci basiamo sui dati relativi alle persone sotto i cinquant’anni e sopra i cinquant’anni separatamente, o che consideriamo le persone di ogni età, giungiamo a conclusioni opposte sull’efficacia del vaccino. In altre parole: se osserviamo i primi due punti il vaccino sembra efficace nel ridurre la mortalità sia tra i minori sia tra i maggiori di cinquant’anni, ma se invece consideriamo la popolazione nel suo insieme (ovvero l’ultimo punto) si potrebbe concludere che il vaccino non sia affatto efficace, anzi sia addirittura pericoloso. Qual è la conclusione corretta?

Spiegazione del paradosso
I dati precisi sono presentati qui, ma è utile spiegare in forma generale il modo in cui questo paradosso si può produrre.

Il concetto di fondo è che nel periodo preso in esame la percentuale di persone vaccinate è molto diversa tra i maggiori di cinquant’anni (circa il 95 per cento secondo il servizio sanitario britannico) e i minori di cinquant’anni (circa il 50 per cento).

Di conseguenza una grande proporzione delle persone non vaccinate ha meno di cinquant’anni ed evidenzia un tasso di mortalità basso (a causa dell’età). Di contro, una grande proporzione delle persone vaccinate ha più di cinquant’anni ed evidenzia un tasso di mortalità più elevato (anche se fortemente ridotto dal vaccino). Questo spiega come mai, considerando la popolazione nel complesso, la percentuale di decessi tra i non vaccinati possa risultare inferiore a quella dei vaccinati.

Ecco una rappresentazione grafica in cui il paradosso emerge chiaramente, con dati fittizi per rendere il fenomeno più chiaro:

Illustrazione grafica del paradosso di Simpson con dati fittizi: ogni persona è rappresentata da un quadrato. Il colore del quadrato corrisponde a una fascia d’età, mentre la tonalità scura o chiara rappresenta lo stato vaccinale. Ogni croce indica un decesso. (Quentin Berger e Francesco Caravenna)

Se consideriamo i minori e i maggiori di cinquant’anni come due gruppi separati si vede chiaramente che in entrambi i casi la percentuale di decessi è inferiore tra la popolazione vaccinata:

Per i minori di 50 anni (blu), la percentuale di decessi è più bassa tra i vaccinati (0 per cento) che tra i non vaccinati (2,2 per cento). Anche per i maggiori di 50 anni (rosso) la percentuale di decessi è più bassa tra i vaccinati (13,3 per cento) che tra i non vaccinati (40 per cento). (Quentin Berger e Francesco Caravenna)

Se invece consideriamo la popolazione nel suo complesso, la situazione si ribalta e il tasso di mortalità diventa più elevato tra i vaccinati, come emerge dalla figura successiva:

Nella popolazione totale la percentuale di decessi è più elevata tra i vaccinati (blu scuro e rosso scuro, 12 per cento) rispetto ai non vaccinati (blu chiaro e rosso chiaro, 6 per cento). (Quentin Berger e Francesco Caravenna)

Questo fenomeno è dovuto al fatto che la maggior parte dei vaccinati ha più di cinquant’anni.

Quali conclusioni possiamo trarre?
Da questo paradosso possiamo trarre un messaggio importante: bisogna fare molta attenzione quando si analizzano dati statistici che si riferiscono a gruppi con caratteristiche diverse. In sostanza il paradosso di Simpson è legato al fatto che il tasso di vaccinazione varia molto con l’età, pertanto è importante valutare l’efficacia del vaccino all’interno di un gruppo di persone con età il più possibile omogenee.

Accorpare fasce d’età diverse produce il fenomeno noto come “distorsione da selezione” (selection bias): l’insieme delle persone vaccinate è composto in gran parte da anziani, dunque più fragili, mentre l’insieme delle persone non vaccinate è composto per lo più da giovani, che sono meno fragili. Di conseguenza un paragone tra i tassi di mortalità dei vaccinati e dei non vaccinati di ogni età diventa, di fatto, un paragone tra una popolazione mediamente anziana e una popolazione mediamente giovane. Affermare che la mortalità è più elevata tra i vaccinati che tra i non vaccinati è dunque fuorviante, perché il confronto è falsato dalla grande variabilità del tasso di vaccinazione in base alle diverse fasce d’età.

La difficoltà di interpretare le statistiche
I problemi della distorsione da selezione sono molto conosciuti in statistica, e fanno parte degli errori d’interpretazione più comuni.

Un esempio classico è quello dello statistico Abraham Wald, che durante la seconda guerra mondiale, dopo aver osservato tutti gli aerei tornati dai combattimenti, suggerì che fossero rafforzate le parti che erano state meno colpite dai proiettili. Il ragionamento era che quei punti erano le parti più critiche, perché quando venivano colpite gli aerei avevano meno probabilità di ritornare dal combattimento. Wald aveva capito l’importanza di correggere la distorsione nota come come survivorship bias o pregiudizio di sopravvivenza, che consiste nel fare analisi statistiche tenendo conto solo dei dati relativi ai sopravvissuti.

Le distorsioni di selezione, consapevoli o meno, fanno spesso parte integrante del processo di raccolta dei dati statistici, come abbiamo visto nell’esempio precedente. È importante sapere quali distorsioni sono presenti sono presenti, per correggerne l’effetto. Nel nostro esempio originale, confrontare la percentuale di decessi tra non vaccinati e vaccinati nell’intera popolazione comporta una distorsione dovuta all’età, come abbiamo visto. Un modo per correggerla è limitare il confronto a fasce di età il più possibile ristrette, all’interno delle quali il tasso di vaccinazione sia stabile.

pubblicità

Per concludere, i paradossi ci ricordano quali sono le insidie da evitare: grazie alla loro capacità di sorprendere ci aiutano ad affinare la nostra intuizione, o quanto meno a non fidarci troppo di essa. Ci ricordano che nessuno è infallibile e che non sempre è facile e immediato risolvere problemi che appaiono semplici. I paradossi ci spingono ad approfondire le nostre riflessioni con umiltà.

Per gli amanti dei paradossi eccone alcuni tra i più classici nel campo delle probabilità: il paradosso del compleanno, il paradosso di Bertrand, il problema di Monty Hall, il dilemma del prigioniero, il paradosso dei bambini.

(Traduzione di Andrea Sparacino)

Questo articolo è uscito su The Conversation.