Mr. Palomar: Da Cher al Festival di Sanremo 2021: la matematica dell'Auto-Tune

venerdì 12 marzo 2021

Da Cher al Festival di Sanremo 2021: la matematica dell'Auto-Tune

Se la settimana scorsa avete seguito il Festival di Sanremo, e magari avete anche prestato attenzione all'immancabile contorno di gossip e polemiche, vi sarete accorti che si è parlato spesso di una diavoleria algoritmica chiamata Auto-Tune, oggi utilizzata da molti cantanti per correggere intonazioni difettose e ottenere particolari effetti.

Andy Hildebrand, inventore dell'Auto-Tune
(fonte: priceonomics.com)

La storia dell'Auto-Tune ebbe inizio esattamente un quarto di secolo fa, e fu il frutto di una intuizione matematica. Il suo inventore, lo statunitense Andy Hildebrand, non era esattamente uno studente modello negli anni delle elementari e delle medie. Al liceo Andy fu finalmente folgorato dalla passione per la scienza e cominciò a studiare intensamente, laureandosi dapprima in scienza dei sistemi all'Università del Michigan, e conseguendo poi un master e un dottorato in ingegneria elettrica all'Università dell'Illinois.

Terminati gli studi nel 1976, Hildebrand fu assunto dalla multinazionale petrolifera Exxon. Il delicato incarico che gli fu subito assegnato riguardava un serio problema rilevato in uno strumento di monitoraggio sismico. Il giovane ingegnere escogitò una brillante soluzione attingendo dalle sue conoscenze di matematica avanzata, e l'accaduto lo convinse a intraprendere un percorso imprenditoriale autonomo dove avrebbe potuto mettere a frutto il suo talento. Così, nel 1979 fondò una sua società e si buttò nel business delle mappe sismiche a beneficio dell'industria petrolifera.

Dopo un decennio di successi e di ingenti guadagni, decise di ritirarsi e di tornare a una delle sue passioni giovanili: la musica. Cominciò a studiare composizione musicale alla Rice University di Houston e qualche anno dopo fondò una nuova società, la Antares Audio Technology, dedicata allo sviluppo di software di elaborazione delle tracce audio.

Nel 1995, Hildebrand si trovava a pranzo con alcuni colleghi dopo una conferenza. A un certo punto, lui stesso lanciò una domanda insolita: "Che cosa servirebbe inventare?" La moglie di uno dei colleghi rispose scherzosamente: "Perché non crei una macchina che mi permetta di cantare intonata?"

La proposta cadde nel vuoto: pochi minuti dopo il gruppo di amici stava già parlando d'altro. Lo stesso Hildebrand se ne dimenticò: ma evidentemente l'idea si era insediata in un angolino della sua testa, se è vero che mesi dopo gli tornò in mente e gli sembrò improvvisamente un'opportunità interessante.

Andy Hildebrand (fonte: priceonomics.com)

Hildebrand si mise al lavoro e cercò di ragionare su come potesse essere affrontato il problema.

Le fasi dell'algoritmo risolutivo erano necessariamente tre.

La prima consisteva nell'analizzare la traccia vocale e identificare tutte le note cantate.

La seconda era il confronto tra ogni nota rilevata e la nota "giusta", ovvero quella che sarebbe stata eseguita da un cantante perfettamente intonato.

La terza fase era costituita dalla correzione di ogni nota imprecisa, nella misura determinata nella seconda fase (mentre le note riconosciute come già intonate potevano restare invariate).

La parte più difficile era la prima: identificare le note della melodia, ovvero risolvere il problema di pitch detection, è cosa piuttosto facile per un essere umano, soprattutto se ha ricevuto una certa educazione musicale, ma rappresenta uno scoglio molto oneroso per un algoritmo informatico.

Hildebrand si ricordò che, quando faceva l'ingegnere petrolifero, aveva risolto problemi abbastanza analoghi, anche se non in ambito musicale, su set di dati giganteschi, e la chiave del successo era stata l'utilizzo di un particolare attributo dei segnali chiamato autocorrelazione.

L'autocorrelazione di un segnale (per esempio una traccia audio) è uno strumento matematico fondamentale nella teoria dei segnali, in grado di indicare quanto siano tra loro "somiglianti", o dipendenti l'uno dall'altro, i diversi valori assunti da un certo segnale f(t) per diversi valori del tempo t.

Se un segnale varia molto lentamente nel tempo, è probabile che, considerati due valori f(t) e f(t+Δt), questi saranno abbastanza simili tra di loro, per cui l'autocorrelazione assumerà un valore positivo (relativamente alto). Se invece un segnale varia molto rapidamente, i due valori saranno molto diversi e l'autocorrelazione assumerà un valore prossimo a zero. Capite bene che, se l'autocorrelazione riesce a rilevare valori che si ripetono simili nell'evoluzione di un segnale, essa può aiutare a individuare eventuali componenti periodiche presenti all'interno di un segnale "rumoroso": questo equivale a rilevare le frequenze dominanti presenti in questo segnale, ovvero le note che con ogni probabilità sono state suonate o cantate nella traccia musicale.

Hildebrand progettò un algoritmo che riusciva a identificare le note di una melodia sfruttando l'autocorrelazione, ma si imbatté in un ostacolo: l'algoritmo risultava estremamente complesso.

Tenendo conto che il tipico set di dati da elaborare, contenente le informazioni contenute nella traccia audio di un brano musicale, era tipicamente molto grande, la conseguenza era un allungamento inaccettabile dei tempi richiesti per portare a termine l'elaborazione.

A Hildebrand questo non piaceva, perché non era compatibile con il suo ambizioso obiettivo: riuscire a correggere un'esecuzione canora imperfetta anche "in diretta", cioè mentre il cantante sta offrendo la sua performance.

L'ingegnere americano si rimboccò le maniche e scoprì che l'algoritmo poteva essere reso drasticamente più efficiente. Anni dopo, Hildebrand raccontò:

Mi resi conto che la maggior parte della matematica contenuta era ridondante e poteva essere semplificata. La mia versione semplificata prevedeva quattro moltiplicazioni anziché un milione. Era un trucco, un trucco matematico.

La prima versione dell'Auto-Tune fu rilasciata il 19 settembre 1997 e funzionava originariamente solo su Apple Macintosh. Circa un anno dopo, questa tecnologia rivoluzionaria venne utilizzata per la prima volta in un disco, e l'impatto commerciale fu assolutamente strepitoso.

Sto parlando del singolo "Believe", pubblicato nell'ottobre 1998 dalla cantante americana Cher: in questo caso l'intento non era di correggere eventuali difetti di intonazione (non credo che la cantante in questione ne avesse bisogno), ma di ottenere un particolare effetto artificiale nel timbro vocale di Cher.

Il singolo ebbe un successo gigantesco: più di 11 milioni di copie vendute, premi e primati in classifica ovunque nel mondo.

Ve la ricordate la canzone-tormentone, vero? Riascoltatela qui:

Personalmente ricordo ancora lo sbalordimento che provai, ventitre anni fa, al primo ascolto di questo brano. Già in alcuni versi della prima strofa ("And I can't break through" e "It's so sad") la voce di Cher ci arriva come "metallica" e "robotizzata". Quei versi sconvolsero per sempre il mondo della musica pop: da "Believe" in avanti, nulla sarebbe più stato lo stesso.

La domanda che sorge spontanea, però, è la seguente: perché l'Auto-Tune, nato per aggiustare l'intonazione di cantanti mediocri, è diventato subito anche uno strumento per creare effetti speciali? Che cosa lega la correzione delle altezze delle note con il timbro robotico che ascoltiamo in "Believe"?

Nella figura successiva è illustrata la porzione di una traccia vocale registrata e visualizzata dall'applicazione Auto-Tune di Antares. Il grafico ha il tempo sull'asse delle ascisse e l'altezza delle note sull'asse delle ordinate.

Come vedete, il saliscendi delle voce del cantante assomiglia a una specie di montagna russa: le parti più in alto corrispondono alle note più acute, quelle più in basso alle note più gravi.

In alcuni tratti il profilo si stabilizza per qualche istante su una sequenza pressoché orizzontale (salvo lievi oscillazioni). Questi "pianerottoli", rilevati dall'applicazione ed evidenziati mediante rettangoli, corrispondono alle note "ferme" delle melodia e costituiscono la stragrande maggioranza della curva rilevata, mentre le rampe che congiungono tra di loro i rettangoli si riferiscono ai rapidi glissati (o, ricorrendo a un termine musicale tecnico, i "portamenti") che, inevitabilmente, un cantante esegue per passare da una nota all'altra.

Il risultato principale dell'Auto-Tune è di determinare con precisione le altezze dei pianerottoli e confrontarle con le frequenze convenzionali previste dal temperamento equabile: se il programma decide che una di queste altezze è imprecisa, essa viene spostata verso l'alto oppure verso il basso.

Come fa l'Auto-Tune a prendere queste decisioni?

Solitamente, prima di avviare il processo, viene richiesto di settare la tonalità del brano musicale: sulla base di questa indicazione il programma riesce poi a capire se una nota è corretta oppure no.

Per esempio, se la canzone è in do maggiore, ci si aspetta che le note della melodia rientrino tra quelle della scala di do maggiore: do, re, mi, fa, sol, la e si. Se uno dei "pianerottoli" corrisponde a una frequenza vicina al sol# (sol diesis), l'Auto-Tune concluderà che si tratti di un difetto di intonazione, e sposterà il rettangolo più in alto (la) oppure più in basso (sol), a seconda della distanza minore.

In alternativa, anziché selezionare una tonalità precisa, è anche possibile impostare una scala cromatica di 12 suoni: in questo modo l'Auto-Tune considererà accettabile una qualsiasi delle 12 note (do, do#, re, re#, mi, fa, fa#, sol, sol#, la, la#, si) e sposterà ogni eventuale nota imprecisa verso la più vicina tra queste 12.

Ma un'impostazione forse ancora più importante, cruciale per comprendere la risposta alla domanda di prima, è quella relativa alla durata dei portamenti tra una nota e l'altra.

Se per questa durata viene ammesso un valore alto, si concede che tra una nota e l'altra possa trascorrere un tempo relativamente lungo. Le note ferme vengono così corrette dal programma (se necessario), ma le rampe di congiunzione restano invariate, sia nella forma del loro profilo che nella durata. Il risultato finale sarà una traccia corretta nell'intonazione, ma senza artificiose distorsioni timbriche.

Se invece viene settata una durata bassa, i portamenti vengono quasi eliminati e si ottengono bruschi passaggi tra una nota corretta e l'altra, con la conseguenza di creare il fatidico "effetto Cher".

I produttori che utilizzano l'Auto-Tune per elaborare le loro tracce audio si trovano spesso a dover scegliere tra una versione morbida e naturale, che si limita a correggere i difetti di intonazione, e una versione aggressiva, che può portare a effetti robotici molto marcati.

Da "Believe" in poi, l'invenzione di Hildebrand è diventata sempre più popolare negli studi di registrazione e produzione musicale.

Il critico musicale inglese Simon Reynolds ha scritto nel 2018 un'accurata e interessante "storia definitiva" dell'Auto-Tune, in cui il celebre brano di Cher viene definito "un assaggio del pop che sarebbe arrivato negli anni successivi".

All'inizio gli effetti speciali creati dall'Auto-Tune venivano spesso scambiati per quelli prodotti dal vocoder, glorioso sistema di sintesi sonora in grado di attribuire a una voce umana le caratteristiche timbriche di un altro strumento, creando un'onda sonora avente la voce come segnale modulante e il secondo strumento come segnale portante. Il vocoder era stato utilizzato diffusamente negli anni Settanta da band come i Pink Floyd, i Kraftwerk, i Rockets, The Alan Parsons Project, e conobbe un nuovo momento di successo dagli anni Novanta soprattutto grazie ai francesi Daft Punk e agli italiani Eiffel 65.

Ma torniamo all'Auto-Tune. Dopo Cher, molti altri artisti lo hanno impiegato, soprattutto nell'ambito della musica hip hop. Il rapper americano T-Pain ne ha fatto un uso così ampio che il cosiddetto "effetto Cher" viene spesso denominato "effetto T-Pain". Altri artisti hip hop come Snoop Dogg, Lil Wayne, Kanye West, Black Eyed Peas, Future, Playboi Carti, Travis Scott, Lil Uzi Vert lo hanno impiegato nelle loro produzioni.

Anche una grande rock band come i Radiohead ha utilizzato l'Auto-Tune: nel loro album Amnesiac del 2001 è stata usata nel brano "Pulk/Pull Revolving Doors", per trasformare alcuni passaggi parlati in frasi melodiche, mentre in "Packt Like Sardines in a Crushd Tin Box" l'algoritmo è stato impiegato per creare "un sound nasale e spersonalizzato".

Come spesso accade per le invenzioni influenti, anche l'Auto-Tune è al tempo stesso osannato e odiato. Il suo creatore, Andy Hildebrand, lo ha definito un prodotto incredibilmente complesso, frutto di anni di studio rigoroso e di conoscenze matematiche sofisticate. La stessa Cher ha spesso ritenuto un vanto essere stata la prima pop star a usarlo.

Ancora più numerose, oggi più che mai, sono però le voci contrarie: l'Auto-Tune è spesso visto come un motivo di disonore, una vergogna da nascondere in quanto indice di probabile mediocrità vocale. La rivista Time lo ha definito "una delle 50 peggiori invenzioni del Novecento".

Al Festival di Sanremo della settimana scorsa, molti cantanti in gara lo hanno utilizzato: per esempio Fedez, Fasma e Madame. Orietta Berti (ehi, mai avrei pensato di citare Orietta Berti su queste pagine: ma si sa, la matematica ci porta ovunque), intervistata nei giorni della kermesse sanremese, ha affermato:

Noi non usiamo dei mezzi sofisticati. Siamo all’antica. Vogliamo le spie, l’auricolare, il microfono normale. Così uno se sa fare, sa fare. Se non sa fare va a casa.

In molti casi è probabile che l'obiettivo principale sia l'ottenimento dell'effetto Cher, ma non escludo che questo possa essere anche un pretesto per guadagnare, con l'occasione, anche l'aggiustamento dell'intonazione.

Per quanto mi riguarda, le mie orecchie trovano questo effetto ormai decisamente usurato: eppure sembra che molti giovani lo apprezzino e lo considerino quasi indispensabile per rendere ascoltabile una canzone.

Solo il tempo ci dirà se si tratta di una tendenza passeggera o di qualcosa di più. Nel frattempo, io provo piacere nel constatare che anche lì dentro c'è la matematica: e anche parecchia.