venerdì 28 febbraio 2020

La matematica delle epidemie (parte seconda)

Nicolas Poussin, "La peste di Azoth" (1631), Louvre.
Nella prima parte di questo post abbiamo fatto la conoscenza dei modelli SIR per lo studio delle epidemie.
L'idea di fondo è molto semplice: la popolazione viene suddivisa tra suscettibili (S), cioè individui sani che potrebbero contrarre la malattia, infettivi (I) che si sono ammalati e sono quindi veicolo della malattia, e "recovered" (R), cioè individui che sono "usciti di scena" perché guariti oppure deceduti o ancora messi in isolamento.
I due scienziati Kermack-McKendrick scoprirono che, sotto alcune ipotesi semplificative, gli individui possono passare soltanto dalla classe S alla classe I oppure dalla classe I alla classe R.
La sfida è capire come avvengano questi passaggi, cioè come possano variare nel tempo le numerosità delle tre classi epidemiologiche: in altre parole descrivere l'andamento delle funzioni S(t), I(t) ed R(t). Per riuscire nell'intento, dobbiamo pagare un piccolo prezzo: introdurre un po' di matematica nella nostra discussione.
Ma non temete: se mi seguite con un pizzico di pazienza arriverete sani e salvi alla fine. Con qualche utile nozione in più, almeno spero (intendiamoci, io non sono un epidemiologo o un virologo e nemmeno un medico, ma semplicemente un insegnante e un divulgatore matematico: l'obiettivo di questo post non è sostenere una o l'altra tesi in un campo nel quale non ho alcuna voce in capitolo, ma mostrare come anche in questo ambito è stata usata la matematica per formalizzare alcuni concetti).

Innanzitutto dobbiamo analizzare meglio i meccanismi alla base dei passaggi di classe che ho citato prima. Per esempio, cosa significa che un individuo passa da S a I? Be', semplice: il malcapitato si è infettato ed è diventato contagioso. Perché ciò avvenga, serve un incontro tra un infettivo e un suscettibile: il primo, essendo contagioso, trasmette la malattia al secondo.
La domanda che assilla ciascuno di noi in questi giorni di preoccupazione per il COVID-19 è: quanto è probabile che io contragga il virus? Il calcolo combinatorio e la teoria della probabilità possono darci una mano in questa stima. Supponiamo che N sia il numero totale di individui della popolazione: questo numero è costante perché, come abbiamo visto, Kermack e McKendrick trascurano le nascite e i morti per cause diverse dall'epidemia.
È facile dimostrare che, in una popolazione di N persone, il numero di incontri possibili tra due soggetti è pari a


Per esempio, se ci fossero in tutto N=5 individui (chiamiamoli Alberto, Beatrice, Carlo, Daniele ed Elena), il numero totale di possibili incontri sarebbe

(precisamente: Alberto-Beatrice, Alberto-Carlo, Alberto-Daniele, Alberto-Elena, Beatrice-Carlo, Beatrice-Daniele, Beatrice-Elena, Carlo-Daniele, Carlo-Elena e Daniele-Elena).

Ma quanti di questi possibili incontri è a rischio? Basta che si tratti di un contatto tra un suscettibile e un infettivo: in questo caso è possibile (non certo) che il suscettibile venga contagiato. Il numero di incontri di questo tipo è dato dal prodotto tra il numero degli individui suscettibili S0 e il numero degli infettivi I0, ovvero da
La probabilità che un incontro qualsiasi sia a rischio di contagio è quindi uguale al rapporto tra il numero di incontri pericolosi e il numero totale di incontri, cioè al rapporto


Per esempio, se dei nostri N=5 individui, I0=2 sono già infettivi (poniamo Beatrice e Daniele) e gli altri S0=3 sono suscettibili, gli incontri a rischio sono S0I0=6 (Alberto-Beatrice, Alberto-Daniele, Beatrice-Carlo, Beatrice-Elena, Carlo-Daniele e Daniele-Elena) e la probabilità che uno di questi abbia luogo risulta essere uguale a


L'eremita dei tarocchi
In questa pagina potete trovare un divertente esercizio relativo alle probabilità di contagio in un contesto immaginario di epidemia in un'isola popolata da eremiti... provate a divertirvi a calcolare le probabilità prima di leggere nella pagina i calcoli già svolti!

Se si verifica un incontro a rischio, non è detto che l'infettivo contagi il suscettibile: potrebbe accadere, certo, ma la persona ancora sana potrebbe avere fortuna e salutare l'infettivo senza aver preso il virus. Ovviamente dipende dalla contagiosità della malattia: indichiamo allora con α la probabilità che un incontro a rischio determini un contagio. Preso a caso un incontro tra due individui, la probabilità che questo risulti in una nuova infezione è uguale a
Ammettiamo, per semplicità, che ogni giorno, mediamente, ogni individuo ne incontri un altro: il numero medio giornaliero di nuove infezioni si ottiene allora moltiplicando l'espressione precedente per N:
Se ora definiamo
scopriamo che ogni giorno si verificano
nuovi contagi: questa è anche la quantità di cui ogni giorno diminuisce il numero dei suscettibili.

Abbiamo così determinato che se S(t) è il numero di individui suscettibili in un certo giorno t, il giorno successivo tale numero sarà diventato
Ricordate? Oltre all'evento del contagio, cioè al passaggio tra suscettibile e infettivo, dobbiamo considerare anche una seconda evenienza: il passaggio da infettivo a "recovered", che può corrispondere a una guarigione, ma anche a un decesso oppure alla messa in isolamento di un individuo.
Indichiamo con γ la percentuale di infettivi che ogni giorno passano nella terza classe epidemiologica per uno qualsiasi di questi tre eventi: allora, detto R(t) il numero di individui "recovered" in un certo giorno t, il giorno successivo tale numero sarà cresciuto secondo la relazione


E il numero di infettivi? Be', esso da una parte cresce in virtù dei contagi, ma dall'altra diminuisce per effetto di guarigioni, decessi e isolamenti. Il saldo totale è il seguente:


Queste tre equazioni costituiscono il modello SIR di Kermack e McKendrick in un'ipotesi discreta (perché abbiamo descritto il tutto in uno scenario che avviene "a scatti", anzi a giorni).

Se traduciamo questo sistema in forma continua, si ottiene facilmente questo bel sistema di equazioni differenziali:


Le strane "frazioni" poste nei primi membri di queste equazioni sono le derivate delle tre funzioni S(t), I(t) e R(t) rispetto al tempo, cioè le misure di quanto velocemente queste quantità variano al trascorrere del tempo.
Com'è facile intuire, tutto dipende dal gioco dialettico di quei due parametri β e γ: il primo ci fornisce un indice della contagiosità dell'agente patogeno, il secondo un indice della possibilità che un malato "esca di scena" in quanto guarito, deceduto o isolato.

Le tre classi epidemiologiche del modello SIR e i parametri che regolano il passaggio da una all'altra

In particolare, la seconda equazione del sistema ci dice che la variazione del numero di infettivi


è determinata da un termine "positivo" proporzionale al prodotto S(t)I(t) secondo la costante di proporzionalità β e da un termine "negativo" proporzionale a I(t) secondo la costante di proporzionalità γ. Come si vede facilmente, questa variazione è positiva (cioè gli infettivi aumentano) se


cioè se il rapporto γ/β è minore del numero di suscettibili S(t).
Questo rapporto ha quindi il significato di soglia all'inizio dell'epidemia: se il numero di individui suscettibili è maggiore di questa soglia, l'epidemia può innescarsi e tenderà, in una prima fase, a espandersi in modo molto rapido; se invece è minore, l'epidemia non riesce nemmeno a partire perché il numero degli infettivi si estingue subito.

La buona notizia è che il numero di suscettibili, come abbiamo visto, diminuisce sempre: questo ci assicura che, anche nelle epidemie più devastanti, prima o poi esso scenderà al di sotto del rapporto γ/β, dando avvio alla fase discendente dell'epidemia. In alcuni casi, purtroppo, ciò avviene al prezzo di un elevato numero di vittime.

Concentriamoci ora sul caso "brutto", quello di vera epidemia: S(t) > γ/β.
Moltiplicando entrambi i membri di questa disequazione per β/γ si ottiene una relazione del tutto equivalente:


Quindi se l'inverso del rapporto di soglia moltiplicato per il numero di suscettibili è maggiore di uno, l'epidemia si innesca, altrimenti no. All'inizio dell'infezione, il numero di suscettibili è uguale a N, perché ancora nessuno si è contagiato. Se potessimo fotografare la situazione in quel momento e quantificare il numero
potremmo farci un'idea di come evolverà la situazione: l'epidemia si scatena solo se questo numero è maggiore di 1, altrimenti la diffusione della malattia si arresta sul nascere.

Di questo numero Rsi è parlato moltissimo in questi giorni su giornali, tv e social: è noto tra gli epidemiologi come "tasso netto di riproduzione" di un'infezione e indica il numero di persone che, in media, un singolo individuo infetto può contagiare durante il proprio periodo infettivo (nell'ipotesi che tutta la popolazione sia ancora suscettibile).

Guardate la tabella qui a fianco. Il morbillo, per esempio, un tasso netto di riproduzione altissimo, che può arrivare addirittura a 18 persone contagiate in media da un singolo malato. Altre malattie risultano meno contagiose, e per il virus che ci sta angosciando in queste settimane è stato per ora stimato un Rmolto basso, non superiore a 2,5.

Alla luce di queste considerazioni si possono comprendere meglio le misure messe in atto dalle autorità sanitarie e dalle istituzioni per contenere l'infezione. L'obiettivo è, in ogni caso, cercare di ridurre il valore di R0, oppure, il che è la stessa cosa, cercare abbassare S(t) al di sotto del rapporto di soglia γ/β. Se si raggiunge questo risultato, l'epidemia viene sconfitta. Per farlo, si può agire in diverse direzioni:
1. abbassare il numero S(t) dei suscettibili per sottrarre potenziale terreno di conquista al virus, per esempio sviluppando un vaccino ed effettuando vaccinazioni di massa (ecco perché sono così intensi gli sforzi attuali verso la ricerca di un vaccino contro il nuovo Coronavirus);
2. aumentare il rapporto di soglia γ/β, cosa che si può fare in due soli modi:
  a) alzando γ (risultato conseguibile migliorando le terapie e innalzando così la percentuale di guarigioni);
  b) abbassando β, che rappresenta la facilità del contagio (risultato conseguibile mediante una migliore educazione igienico-sanitaria e soprattutto riducendo le occasioni di incontro tra le persone - esattamente quello a cui mirano le misure adottate in questi giorni, come la chiusura delle scuole, la sospensione degli eventi, e così' via).

Due andamenti possibili per un'infezione
C'è un'ultima considerazione da fare. Alla fine della fiera, l'obiettivo del modello di Kermack e McKendrick è studiare l'andamento della funzione I(t), cioè la curva del numero di individui infettati.
Nella figura a fianco sono mostrati due diversi andamenti possibili per la funzione I(t): ciascuno di essi potrebbe rappresentare la soluzione del sistema di equazioni di Kermack e McKendrick in due diversi casi di infezione.
Chiaramente, l'andamento che presenta il picco corrisponde a un'epidemia in piena regola, molto preoccupante e potenzialmente devastante. Viceversa, l'altra curva, che non fa nemmeno in tempo a salire perché mostra fin dall'inizio una flessione indica un'infezione che passa inosservata perché si esaurisce subito. I modelli SIR ci permettono di distinguere tra queste diverse dinamiche.

Ma c'è una cosa che i modelli SIR non ci possono dire, ed è il numero di vittime che l'infezione può provocare. Se ci avete fatto caso, il modello di Kermack e McKendrick non fa differenza tra individui guariti, deceduti e messi in isolamento: ai fini dell'approccio SIR, in tutti questi casi si verifica una rimozione, nel senso che l'individuo in questione non è più infettivo, e questo basta e avanza per determinare l'andamento della funzione I(t).


Se vogliamo prevedere il numero di decessi, occorre "smembrare" quel parametro γ corrispondente alla percentuale di infettivi che ogni giorno passano nella classe R. Il parametro γ, infatti, è la somma di tre diversi parametri associati ai tre diversi eventi di rimozione: guarigioni, certo, ma anche decessi e quarantene.
Lo specifico parametro legato ai decessi è noto come tasso di letalità dell'infezione: esso è quindi definito come il rapporto tra il numero dei decessi e il numero totale di individui infettivi. Nel corso di un'epidemia, questo indice può variare molto, perché possono modificarsi le condizioni al contorno che rendono la malattia più o meno mortale.
Nella tabella a fianco, possiamo vedere il tasso di letalità stimato per alcune malattie: per alcune è davvero altissimo (evidente il caso dell'Ebola), per altre ovviamente quasi trascurabile (si pensi all'influenza stagionale), mentre il tasso di letalità del nuovo Coronavirus è per adesso stimato attorno al 2%.

Termina qui il breve viaggio di Mr. Palomar nella matematica delle epidemie. Spero che possa giovare per restituire un po' di razionalità e serenità a questi nostri giorni di ansia. Soprattutto, la lezione incoraggiante che possiamo imparare dai modelli SIR è l'inevitabilità dello spegnersi dell'epidemia (ci si augura non ad alto prezzo di decessi): la curva degli infettivi, insomma, prima o poi deve per forza piegarsi verso il basso fino a smorzarsi del tutto.
Come ebbe a dire il grande scrittore portoghese José Saramago nel suo capolavoro Cecità:

Un commentatore televisivo ebbe l’ingegnosità di trovare la metafora giusta quando paragonò l'epidemia, o quel che fosse, a una freccia scagliata verso l’alto, che, nel raggiungere il culmine dell’ascensione, si mantiene per un momento come sospesa, e poi comincia a descrivere l’obbligatoria curva discendente che, a Dio piacendo, e con questa invocazione il commentatore ritornava alla trivialità degli scambi umani e all'epidemia propriamente detta, poi ci penserà la gravità ad accelerare fino alla scomparsa del terribile incubo che ci tormenta (...)

21 commenti:

  1. Sono un tuo collega, insegno matematica a Treviso e sono entrato nella scuola come te, provenendo da molti anni di lavoro in azienda che mi avevano stancato, sono ingegnere elettronico ed ho scoperto per caso che, anche se non ci conosciamo personalmente, ci siamo di sicuro incontrati al concorso 2012 e poi alle nomine ad agosto 2015. Il tuo nome è infatti nella graduatoria subito dopo il mio... Mi farebbe piacere scambiare opinioni con te, se vuoi scrivimi.

    RispondiElimina
    Risposte
    1. Volentieri! Ma non hai lasciato alcun recapito. Puoi scrivermi tu all'indirizzo mail paoloaless@gmail.com. A presto!

      Elimina
  2. Congrats!
    Chiaro ed esaustivo. Sarebbe utile se ci fossero anche dei modelli di excel utilizzabili a completamento della spiegazione.
    in ogni caso grazie ancora e buon lavoro.

    RispondiElimina
  3. Grazie! Purtroppo non ho a disposizione modelli di Excel relativi a questo argomento.

    RispondiElimina
  4. Bella lezione, molto chiara. Grazie

    RispondiElimina
  5. Lezione molto chiara! Però c'è una cosa che non ho capito, quando dice "se il numero di individui suscettibili è maggiore di questa soglia, l'epidemia può innescarsi e tenderà, in una prima fase, a espandersi in modo molto rapido" con il termine "numero degli individui suscettibili" si fa riferimento proprio al numero delle persone o al rapporto S/N?

    RispondiElimina
  6. Grazie!
    Per rispondere alla domanda: faccio riferimento al numero dei suscettibili, cioè al numero di individui che potrebbero essere contagiati. Non a un rapporto.
    La seconda equazione del sistema ci dice che la variazione del numero di infettivi è positiva, cioè gli infettivi aumentano, se beta x S x I è maggiore di gamma x I.
    Dividendo tutto per beta x I, si desume che gli infettivi aumentano se S > gamma/beta.
    Questo gamma/beta rappresenta quindi un valore di soglia per l'inizio dell'epidemia, nel senso che se il numero di suscettibili lo supera si verifica un aumento degli infettivi.

    RispondiElimina
  7. Premessi i complimenti per la chiarezza davvero esemplare, vorrei capire qualcosa di più sui parametri che vengono calcolati giornalmente per monitorare l'andamento dell'epidemia. In particolare, posto che l'ormai famoso R0 è il parametro che, come ci hai ben spiegato, "l'epidemia si scatena solo se questo numero è maggiore di 1, altrimenti la diffusione della malattia si arresta sul nascere", parrebbe che abbia senso solo come dato iniziale, ma potrei sbagliarmi.
    Andando al sodo, al lordo dell'imprecisione che affligge la raccolta di tutti i dati, io mi sono imbattuto in parametri simili tra loro:
    - Growth Factor: rapporto tra nuovi casi del giorno / nuovi casi del giorno prima, questo mi sembra che misuri meglio di altri la capacità della comunità di infettivi di generare ulteriori infetti;
    - R(t) (come definito da qualcuno): rapporto tra Variazione Casi Totali / (Variazione Guariti + Variazione Defunti), questo mi dà l'idea che sia indice di una sorta di bilancio tra entrate ed uscite dall'insieme dei contagiati positivi;
    - R0: ammesso che abbia senso, come si calcola e si monitora con l'epidemia in corso?
    Ti ringrazio anticipatamente per la pazienza e la cortesia.
    Ciao
    Paolo

    RispondiElimina
    Risposte
    1. Grazie per i complimenti!
      Vorrei precisare che io non sono un esperto di modelli matematici per le epidemie, e tanto meno un epidemiologo, per cui le mie spiegazioni sono un tentativo divulgativo di spiegare quello che io so, che è sicuramente molto poco rispetto a quello che potrebbe conoscere un vero esperto di questo ambito di ricerca.
      Detto questo, il fattore R0 è, come ho scritto, il numero di persone che, in media, un singolo individuo infetto può contagiare durante il proprio periodo infettivo, ma nell'ipotesi che tutta la popolazione sia ancora suscettibile. Quindi non è che abbia senso solo all'inizio: ha senso stimarlo anche dopo, ma l'ipotesi che l'intera popolazione sia suscettibile è reale soltanto all'inizio dell'epidemia.
      Come esso venga concretamente stimato e monitorato a epidemia in corso è qualcosa che io francamente non so.
      Il growth factor è un indice diverso, che mi pare abbia un valore molto più "locale" (in senso temporale): è in qualche modo imparentato con la derivata di I(t) rispetto al tempo, ma non è la stessa cosa.
      Sicuramente si tratta di un ambito molto vasto e complesso, anche perché questi valori (soprattutto quelli molto legati alle situazioni contingenti, come il growth factor) sono molto variabili e presi singolarmente possono dare indicazioni fuorvianti o troppo parziali. Qui si entra nel dominio della statistica, che può fornire strumenti sofisticati per cercare di interpretare i dati estraendone qualcosa di significativo. Però è un lavoro molto difficile, soprattutto quando i dati disponibili sono affetti da rumore, sono ricavati in modi eterogenei e quindi cono poco confrontabili, e così via.
      Spero di essere stato utile (poco, credo!).
      Grazie ancora!

      Elimina
    2. Ti ringrazio per la risposta, comunque utile, e considerato che in giro se ne leggono di tutti i colori, mi va benissimo anche la modestia dimostrata.
      Devo dire che sto trovando veramente molte difficoltà a trovare, con l'aiuto di google ovviamente, una risposta al mio quesito. Ma non mi arrenderò ;-)
      Grazie ancora e buona serata!
      Paolo

      Elimina
    3. Ma il tuo quesito principale qual è? Come si stima R0 a epidemia in corso?

      Elimina
    4. Si, esatto, se R0 è indice della tendenza dell'epidemia a espandersi o contrarsi, mi chiedo come si valuti a epidemia in corso, per verificarne l'evoluzione.

      Elimina
    5. Un articolo che ti potrebbe essere utile in questo senso, anche perché si concentra operativamente sulla risoluzione delle equazioni differenziali e sulla stima concreta di R0, è questo:
      http://maddmaths.simai.eu/divulgazione/focus/epidemie-matematica/

      Elimina
    6. Grazie per la segnalazione, ma avevo già incontrato questa pagina, che, mi sbaglierò, non mi pare che sia molto "operativa" sui metodi di determinazione di R0 in corso di epidemia...

      Elimina
  8. lezione davvero interessante e chiara, dato che ho la maturità e devo fare un elaborato sulle derivate e approfondire un aspetto di queste con esempi e controesempi, Lei crede che potrei utilizzare la Sua lezione per approfondire l'aspetto dei massimi e minimi? o altro? Grazie in anticipo

    RispondiElimina
    Risposte
    1. Grazie dei complimenti! Il mio post tratta effettivamente anche di derivate, ma nell'ambito di un problema che viene risolto mediante equazioni differenziali. La questione dei massimi e dei minimi è ovviamente collegata, ma non vorrei che il modello di Kermack e McKendrick rappresentasse un modo troppo complicato per parlare di un tema di per sè molto più basilare...

      Elimina
  9. Salve sono uno studente di quinta liceo scientifico e purtroppo le mie conoscenze di calcolo combinatorio sono un po sfumate. Mi potrebbe dire da dove viene la formula N(N-1)\2
    Grazie in anticipo.

    RispondiElimina
    Risposte
    1. prova ad immaginare una popolazione di 5 individui A, B, C, D, E. Quante incontri ci potranno essere tra questi 5 individui? N-1 perchè un individuo non può incontrare se stesso e /2 perchè altrimenti contiamo gli incontri due volte. Quindi AB, AC, AD, AE, BC, BD, BE, CD, CE, DE (ho cancellato le combinazioni doppie e quelle con se stessi).

      Elimina
  10. Esattamente! È lo stesso motivo per cui, ad esempio, in un intero campionato di serie A (a 20 squadre) vengono giocate in tutto 20*19=380 partite. Qui non si divide per 2 semplicemente perché dopo il girone di andata c'è anche quello di ritorno.

    RispondiElimina
  11. Buongiorno! Intatno complimenti, e grazie per l'ottima spiegazione. Mi chiedevo: ma che valori possiamo dare ad alfa per stimare poi i risultati successivi?

    RispondiElimina
    Risposte
    1. Grazie per i complimenti!
      Alfa rappresenta la probabilità che un incontro a rischio determini un contagio, e il suo valore può variare tra 0 e 1, a seconda delle condizioni contingenti legati all'epidemia che viene considerata (diciamo che dare valori a questo parametro è un lavoro da epidemiologi più che da matematici...)

      Elimina

La top ten dei miei video su YouTube (1° posto)

Rullo di tamburi! Eccoci finalmente in vetta! E, devo dire, la vetta della classifica dei miei video su YouTube appare per il momento davver...