Mr. Palomar: novembre 2016

martedì 15 novembre 2016

Carnevale della Matematica #103 su Maddmaths!

Com'è giusto che sia, Mr. Palomar torna a celebrare i Carnevali della Matematica. L'edizione di novembre, centotreesima della lunga e gloriosa storia del Carnevale, è stato ospitato dal prestigioso sito MaddMaths!, e il tema suggerito era "Donne in matematica".
Come sottolineano gli autori di MaddMaths!:

Se ne è parlato tanto di recente, e vorremmo aggiungere che se ne è parlato soprattutto perché ci sono tante donne che fanno parlare di sé per i loro successi matematici.

Il post carnevalesco è opportunamente (e piacevolmente) adornato da una lunga serie di fotografie di illustri donne matematiche, a dimostrazione che la scienza di Euclide ed Eulero non è femminile soltanto di nome, ma anche di fatto.
Questa edizione si distingue per la numerosità dei blogger partecipanti e dei contributi, alcuni dei quali a tema e altri no. Per fortuna le consuetudini carnevalizie sono benevole, e ogni post di argomento matematico viene accolto: perfino quelli di Mr. Palomar, che per questo mese ha contribuito con due post completamente fuori tema, sul machine learning e sulle tecniche di memorizzazione dei numeri (a ben vedere, il primo aveva a che vedere con i generi, e il secondo tirava in ballo divinità pagane femminili come Mnemosine e Urania: va bene, la smetto di arrampicarmi sugli specchi).
Complimenti a tutti i partecipanti e a MaddMaths!, in particolare Roberto Natalini che ha allestito questa ricca edizione. Come è già accaduto l'anno scorso, il Carnevale di dicembre uscirà su queste pagine. Il motto gaussiano di questa edizione pre-natalizia sarà “canta allegro, canta, canta”, e il tema... be', il tema lo svelerò prossimamente. Evviva il Carnevale!

venerdì 4 novembre 2016

Gli enigmi di Coelum: Le parole per dirlo


La divinità Mnemosine in un dipinto di Dante Gabriel Rossetti

Vi sono sequenze di nomi, parole o cifre che è molto difficile riuscire a imparare a memoria senza un qualche ausilio. Al giorno d’oggi tendiamo a coltivare meno di un tempo le potenzialità mnemoniche del nostro cervello: forse perché ci possiamo affidare alla disponibilità di memorie artificiali, che ci permettono di immagazzinare enormi quantità di dati in spazi trascurabili e di reperire le informazioni desiderate in tempi brevissimi.
Nel passato, invece, e in particolare nell’antichità, alla capacità di ricordare veniva attribuita un’importanza fondamentale. Non possiamo tralasciare che a causa dell’alto tasso di analfabetismo la maggior parte della conoscenza veniva tramandata oralmente: saper ricordare, quindi, era a maggior ragione importante.
Celebri maestri di oratoria come Cicerone e Quintiliano riconobbero come in questa particolare arte il “trucco” più efficace risieda nell’associazione: per mandare qualcosa a memoria conviene cioè escogitare un qualche legame con oggetti concreti, o immaginare di collocare in luoghi familiari ciò che si deve ricordare. La grande rilevanza che gli antichi assegnavano alla memoria è testimoniata anche dal fatto che Mnemosine, una delle divinità dell’Olimpo, era la personificazione di questa facoltà della mente umana. Figlia di Urano e della Terra, fu amata da Zeus e divenne madre delle Muse, le nove divinità che rappresentavano le arti: in particolare la storia, la poesia lirica, la poesia amorosa, la poesia epica commedia, la tragedia, la danza, il mimo e, strano a dirsi, l’astronomia.

Urania, in una statua conservata
ai Musei Vaticani

Urania, musa dell’astronomia, era quindi figlia di Mnemosine, cioè della memoria: evidentemente già gli antichi erano consapevoli della grande difficoltà di tenere a memoria l’intera conoscenza delle cose celesti.
E figuriamoci nei tempi più recenti, quando le conoscenze astronomiche si sono fatte via via più vaste.
Ecco quindi le filastrocche alle quali accennavo nell’articolo del numero 181, inventate per ricordare più facilmente certe sequenze di interesse astronomico, come le principali classi spettrali delle stelle (“Oh, Be A Fine Girl: Kiss Me!”, “On Betelgeuse Astronomers Find Galactic Kings Making Lovely Tangerine Yogurts”) o i pianeti del sistema solare (“My Very Excellent Mother Just Sent Us Nine Pies”).

Oltre agli studenti di astronomia, anche quelli di altre discipline scientifiche possono trovare utili le tecniche di memorizzazione: ad esempio quelli di medicina, sempre alle prese con lunghissime litanie di tessuti, organi e apparati dai nomi complicati.
Tuttavia è forse la matematica l’ambito scientifico nel quale sono state ideate le tecniche mnemoniche più interessanti e sfoggiati i risultati più sorprendenti.
Vi sono per esempio alcuni numeri “speciali”, particolarmente degni di nota per i matematici, e per questo meritevoli di essere conosciuti e magari “imparati a memoria”. Sfortunatamente questi numeri non sono interi. Non solo, ma dopo la virgola hanno addirittura un numero infinito di cifre. I tre numeri più famosi di questa “famiglia” sono il pi greco, cioè π, pari a 3,141592653…, il numero di Eulero e, uguale a 2,718281828…, e il rapporto aureo φ, uguale a 1,618033988…
Ognuno di questi numeri ha un buon motivo per essere celebre. Ad esempio, π è il rapporto tra la lunghezza di una circonferenza e quella del corrispondente diametro. Questo rapporto è uguale per tutti i cerchi, siano essi grandi o piccoli. Il bello è che questo numero salta fuori non soltanto in geometria, ma anche in innumerevoli teoremi di analisi matematica, teoria dei numeri, calcolo della probabilità, statistica, fisica, che non hanno alcuna parentela evidente con i cerchi né con qualsiasi altra figura geometrica.

Leonhard Euler, spesso italianizzato in Eulero, in una banconota svizzera

Anche il numero di Eulero e rappresenta una costante fondamentale della matematica, in particolare nella branca nota come analisi matematica. Prende il nome dallo svizzero Leonhard Euler, uno dei più grandi matematici di ogni epoca.
Il rapporto aureo φ, detto anche sezione aurea, corrisponde al rapporto tra due lunghezze tali per cui la più grande sta alla più piccola come quest’ultima sta alla differenza tra le due.
Sia π che e compaiono nell’identità di Eulero, che viene spesso definita la più bella formula della matematica:

e^iπ + 1 = 0

dove i è l’unità immaginaria, pari alla radice quadrata di -1. La bellezza di questa formula risiede nel fatto che stabilisce un sorprendente ponte tra tutti i numeri e tutte le operazioni fondamentali della matematica: i due speciali numeri π ed e, l’unità immaginaria i, lo zero (elemento neutro per l’addizione), l’uno (elemento neutro per la moltiplicazione), l’addizione, la moltiplicazione, l’elevamento a potenza, l’uguaglianza.

Pi greco, il numero di Eulero e il rapporto aureo sono tutti numeri irrazionali: in altri termini, non sono uguali al rapporto tra due numeri interi. Se π fosse esattamente uguale a 22 diviso 7, sarebbe un numero molto meno affascinante di quello che è. I numeri razionali, uguali al quoziente tra due interi, si dividono in due categorie: quelli della prima categoria hanno un numero finito di cifre decimali (ad esempio 22 diviso 8 è uguale a 2,75), mentre quelli della seconda categoria hanno infinite cifre decimali, ma in realtà si tratta di una sequenza finita di cifre che si ripete indefinitamente (questo è il caso di 22 diviso 7, che è pari a 3,142857 142857 142857…).
Pitagora era convinto che esistessero soltanto numeri razionali, ma si sbagliava di grosso. Gran parte del fascino di pi greco, del numero di Eulero e del rapporto aureo, dipende dal fatto che si tratta di numeri irrazionali, dotati di un corteo davvero infinito di cifre decimali, prive di ripetizioni.
Proprio per questo motivo si tratta di numeri estremamente inafferrabili: ogni tentativo di indicarne il valore è destinato a essere soltanto un’approssimazione. Ecco perché questi numeri hanno rappresentato a lungo, e rappresentano tuttora, una straordinaria palestra per chi pratica le tecniche mnemoniche.
La cosiddetta “conversione fonetica” è particolarmente indicata per memorizzare numeri di questo tipo: per prima cosa si utilizza una tabella standardizzata come la seguente per convertire ogni cifra in una particolare famiglia di consonanti.

Poi si aggiungono delle vocali tra una consonante e l’altra, allo scopi di comporre delle parole che possano essere facilmente ricordate. Il metodo fu ideato dal matematico tedesco Stanislaus Mink von Wennsshein e fu divulgato dal grande matematico e filosofo tedesco Gottfried Wilhelm von Leibniz.

Il matematico e scrittore inglese Lewis Carroll

Il matematico Charles Lutwidge Dodgson, più noto come Lewis Carroll, famoso autore di “Le avventure di Alice nel paese delle meraviglie”, utilizzò la conversione fonetica per memorizzare le prime 71 cifre decimali di π.

Provate voi stessi a “tradurre” π secondo il metodo della conversione fonetica. Tenendo conto di 32 cifre decimali (3,14159265358979323846264338327950) potreste ottenere qualcosa del genere (in maiuscolo le consonanti corrispondenti alle cifre, in minuscolo le vocali interposte, in corsivo le parti del discorso aggiunte per chiarezza espositiva):

Una TRoTa aLPiNa voleva volare fino in CieLo, ma prima di partire si mise la MaGLia, perché aveva paura del freddo: una vera FoBia. Arrivata in quota incontrò un’oCa, dalla cui coda mancavano delle PiuMe. Gliele aveva strappate uno GNoMo VoRaCe, che quando non mangia oche si sazia divorando NoCi, noci che coglie dai RaMi coperti di MUFFA, sporcandosi la MaNiCa vicino al PoLSo.

È proprio π il numero sul quale maggiormente si sono sbizzariti gli esperti di tecniche mnemoniche. In inglese esiste addirittura un termine specifico, “piphilology”, che indica l’utilizzo di metodi di questo tipo per ricordare le cifre di π.
A parte la conversione fonetica, l’altro metodo per trasformare le cifre decimali di numeri come π in frasi di senso compiuto è quello che utilizza una parola per ogni cifra, scegliendo la lunghezza della parola in modo che sia pari alla cifra stessa. Da qui espressioni come “Ave o Roma o madre gagliarda di latine virtù che tanto luminoso splendore prodiga spargesti con la tua saggezza”, oppure “Già: è bene e utile ricordare le dodici cifre del greco parametro”, o ancora “Non è dato a tutti ricordare il numero aureo del sommo filosofo Archimede. Certuni sostengon che si può ricordare tale numero, ma questi poi non recitano che un centone insensato”.
Questo gioco ha un dominatore indiscusso, l’ingegnere informatico americano Mike Keith, che nel 1996 compose un poema basato sulle prime 3835 cifre di π. Il poema, intitolato “Cadaeic Cadenza”, è decisamente uno degli esempi più impressionanti di piphilology. A quanto pare Keith non si è accontentato del suo poema, se è vero che nel 2010 ha scritto addirittura un libro intero, dal titolo “Not a wake: a dream embodying π’s digits fully for 10000 decimals”, che codifica le prima 10.000 cifre di π!

Il cinese Lu Chao

Se da una parte esistono i poeti di π, che forniscono i testi adatti alla memorizzazione delle sue cifre, dall’altra esistono i recordmen dello sport dell’apprendimento mnemonico. L’attuale detentore del primato è il cinese Lu Chao, che nel 2006, in una stupefacente performance, riuscì a recitare a memoria ben 67.890 cifre decimali del numero di Archimede, impiegando 24 ore e 4 minuti: secondo quanto riferì, aveva imparato a memoria le prime 100.000 cifre, ma alla 67.891-esima commise un fatale errore, dicendo “5” anziché “0”.

Il problema del numero 181 di Moebius consisteva nel trovare il frammento dello stesso articolo in cui erano rappresentate, mediante la tecnica del numero di lettere contenute in ogni parola, le prime cifre di uno dei numeri famosi della matematica. Come molti lettori erano riusciti a scoprire, il frammento incriminato era il seguente:
“Il sistema è efficace: si utilizza l’iniziale di ciascuna…”.
Se contate le lettere di ognuna di queste parole, e mettete una virgola dopo la prima cifra, ottenete infatti 2,71828182, che rappresenta l’inizio del numero di Eulero e, base dei logaritmi naturali.

martedì 1 novembre 2016

Macchine che imparano #2: l'importanza dei vicini

Ricordate il problema della determinazione del genere di un autore? Ne avevo parlato nel primo post di questa serie dedicata alle tecniche di apprendimento automatico (in inglese, machine learning), interrotta sul nascere per molti mesi, che da oggi riprenderà tuttavia a camminare con maggiore regolarità.

Qualche volta vi sarà forse capitato di leggere un articolo, un racconto, o un qualsiasi testo, e non conoscendo nome e cognome dell'autore, vi sarete chiesti perlomeno se si tratti di un uomo o di una donna. Certo, questa attribuzione può diventare banale qualora il testo contenga indicazioni autoreferenziali: se a un certo punto si legge qualcosa come "il tale giorno mi sono recata nella tale città" è evidente che a scrivere è una donna e non un uomo. Ma in molti altri casi è molto più difficile determinare il sesso dell'autore, e per farlo ci si deve basare su elementi poco oggettivi e di dubbia interpretazione, come lo stile, la frequenza di certe parole, l’utilizzo di costrutti sintattici.

Può sembrare strano, ma c’è chi si è occupato in modo scientifico di questo tipo di determinazioni. Da alcuni studi, condotti su diverse lingue (non soltanto l'inglese ma, per esempio, anche lo spagnolo), risulta per esempio che gli uomini utilizzano le preposizioni in misura maggiore rispetto alle donne. Una spiegazione psicologica che viene fornita a supporto di questo dato è che gli uomini hanno più bisogno di categorizzare gerarchicamente gli oggetti all'interno dell'ambiente. Viceversa, le donne sembrano adoperare più interiezioni, più pronomi, più determinanti (cioè articoli, pronomi dimostrativi e in certe lingue come l'inglese e il francese anche i possessivi) rispetto agli uomini, probabilmente perché sono più interessate alle relazioni sociali.

Alcune ricerche suggeriscono che le donne si esprimono mediante un linguaggio più emotivamente connotato, e per questo impiegano più aggettivi e più avverbi degli uomini. Inoltre sembra che gli uomini commettano più errori grammaticali delle donne e si servano più spesso di quantificatori. Un paio di articoli su questa area della ricerca sono questo e questo.

Mi piace l’idea di utilizzare il curioso problema della determinazione del genere di un autore come esempio di applicazione delle tecniche di apprendimento automatico. Supponiamo di avere una raccolta di 50 racconti: dei primi 49 conosciamo con certezza il genere dell’autore, ma per il cinquantesimo no. Come possiamo affrontare il problema? Potremmo provare a concentrarci su un insieme ristretto di indicatori che riteniamo significativi per il nostro compito di attribuire un genere all’autore misterioso. Immaginiamo di considerarne soltanto due, per esempio il numero di aggettivi e il numero di determinanti ogni 1000 parole.

A ognuno dei 49 racconti già classificati possiamo assegnare una coppia di numeri, corrispondenti agli indicatori che abbiamo scelto. Per esempio, il primo racconto potrebbe essere costituito complessivamente da 5450 parole, e contenere 409 aggettivi e 703 determinanti. Ciò significa che, mediamente, questo testo contiene circa 75 aggettivi e 129 determinanti ogni 1000 parole. La coppia di numeri da attribuire al primo racconto è quindi (75, 129).

Potrebbe venire quasi spontaneo, a questo punto, pensare di rappresentare ciascuno dei racconti come un punto sul piano cartesiano, le cui coordinate (x, y) corrispondono ai due numeri caratterizzanti. Il risultato sarà un diagramma costellato di 49 punti, uno per ogni racconto già classificato. Potremmo pensare di rappresentare gli autori maschili come pallini gialli e le scrittrici come pallini viola. A questo punto analizziamo il cinquantesimo racconto, quello scritto dall'autore senza volto, e determiniamo i due indicatori. Il punto che disegneremo sul piano cartesiano avrà una collocazione ben precisa, ma non possiamo sapere se sia un pallino giallo o un pallino viola: il nostro obiettivo è proprio decidere il colore di questo cinquantesimo pallino.

Sgombriamo il campo da un dubbio: la tecnica che descriverò può sperare di risolvere il problema della determinazione del genere, ma è soggetta all'errore. Non c'è alcuna certezza nel successo di questo algoritmo, perché si tratta di una metodologia di predizione incerta per definizione.

L'idea è la seguente: si traccia una circonferenza attorno al pallino senza colore, in modo da comprendere al suo interno un numero prestabilito k di pallini colorati, ovvero di racconti di autore noto. La nostra predizione deve basarsi sul genere prevalente presente tra i k pallini racchiusi dalla circonferenza.

Per esempio, considerando la figura a fianco, con k = 3, abbiamo due pallini viola e un pallino giallo, cioè prevalgono le autrici. In base alla tecnica descritta, dobbiamo prevedere che l'autore del cinquantesimo racconto sia una donna. Che l'algoritmo sia per definizione incerto è dimostrato dal fatto che scegliendo, in alternativa, k = 6, i pallini considerati diventano 4 gialli e 2 viola: elementi che ci guiderebbero ad azzardare una predizione maschile per il cinquantesimo racconto.
Dove sta l'apprendimento automatico in questa procedura? Nella fase di acquisizione delle informazioni relative ai 49 punti associati ai racconti di autore noto: l'algoritmo, infatti, apprende, per ciascuno di questi punti, il genere dell'autore, e questi dati divengono la base di conoscenza su cui si basa la predizione relativa al cinquantesimo racconto. Si dice anche che questi 49 punti sono esempi noti che l'algoritmo utilizza per addestrarsi, in modo da costruire una sua descrizione interna (cioè un modello) del fenomeno, e quindi formulare predizioni.

L'esempio mostrato in figura ci fa osservare che lo stesso algoritmo può portare a predizioni diverse a seconda del valore scelto di k. Variando di poco il valore di k, infatti, cambia totalmente la predizione. Tale fenomeno si verifica perché sono stati scelti, per semplicità, valori molto bassi di k, mentre è evidente che, nella maggior parte dei casi, valori più alti di questo parametro possono garantire accuratezze migliori.

Inoltre, il problema scelto è un problema di classificazione binaria, perché la predizione può consistere esclusivamente in due opzioni: autore maschio o autore femmina. In problemi di tal genere, quando la predizione cambia, cambia di brutto (nel nostro esempio, da maschio a femmina, o viceversa), mentre in problemi di classificazione a più valori i cambiamenti possono essere meno radicali.

Altri due elementi molto importanti per il successo dell'algoritmo sono il numero di indicatori utilizzati e la quantità di dati di esempio impiegati per la fase di addestramento.

Utilizzando più di due indicatori, o, come si dice nel gergo tecnico, features, si può sperare di ottenere predizioni più accurate. Questo non è assicurato, tuttavia, perché se si includono nel modello features non significative, cioè grandezze che non influenzano il valore che si vuole predire, allora l'aumento del numero di features non aumenta la qualità delle predizioni. Aumentare il numero di features significa muoversi non più sul piano cartesiano, ma su un iperspazio a n dimensioni, dove n è il numero delle features selezionate.

Poter disporre di un numero il più alto possibile di esempi già classificati da cui apprendere, invece, è quasi sempre buona cosa. Non a caso il mondo dell'apprendimento automatico è strettamente imparentato con quello dei cosiddetti big data: questo non significa che avere grandi moli di dati sia di per sè sufficiente per costruire modelli vincenti grazie agli algoritmi di machine learning, ma che, al contrario, quasi mai si riesce a predire con buona precisione quando i dati a disposizione sono pochi.

Per inciso, l'algorimo che ho descritto si chiama "k-Nearest Neighbors" (kNN), ed è uno dei più famosi nel campo delle tecniche di classificazione basate sull'apprendimento automatico. Nel prossimo articolo della serie scopriremo un altro algoritmo che può essere impiegato per risolvere problemi simili.