La percezione del suono

La struttura dell’orecchio


L’orecchio umano è uno strumento estremamente complesso, di cui non conosciamo appieno il funzionamento. Risulta quasi incredibile come, in pochissimi centimetri di spazio, esso racchiuda un potentissimo strumento di ricezioni di segnali dall’ambiente esterno che poi verranno analizzati dal cervello. La struttura è divisa in tre parti, ovvero l’orecchio esterno, medio ed interno.


Orecchio esterno 

La struttura dell’orecchio inizia col padiglione auricolare, il quale ha la funzione di incanalare i suoni, provenienti da un’area sufficientemente ampia, nel meato o condotto uditivo. I padiglioni assolvono anche un compito importante nello stabilire la direzione di provenienza di un suono. Infatti, essi, per via della loro struttura, ritardano in diversi modi le varie riflessioni di un suono, di modo che, il cervello, possa analizzare queste informazioni, diverse tra le due orecchie, per trarne conclusioni sulla direzione di provenienza degli stimoli. Quanto detto vale per i suoni di frequenza fino ai 1000 Hertz; per le frequenze al di sopra dei 4000 Hertz il metodo di individuazione della direzionalità è diverso. Infatti, per questi suoni, che hanno una capacità minore di aggirare gli ostacoli rispetto a onde di frequenza più bassa, il metodo usato è quello di analizzare le differenze d’intensità con cui i segnali arrivano, dovuti alla presenza della testa. Per i suoni compresi tra 1000 e 4000 Hertz entrambi i metodi d’analisi vengono attuati, ma non in maniera ottimale, dando come risultato una minore capacità d’individuazione della direzionalità. Il condotto uditivo termina con una membrana elastica, detta timpano, tesa dal muscolo timpanico. Il condotto uditivo forma così un tubo chiuso su un lato che risuona, in media, alla frequenza fondamentale di 3800 Hertz, e comunque ha una risposta ottimale per le frequenze comprese tra 2000 e 5000 Hertz. Il timpano vibra in accordo con gli stimoli sonori che riceve.


Orecchio medio

La membrana del timpano è collegata ad un sistema di ossicini che formano l’orecchio medio. Essi sono tre, ovvero: martello, che assomiglia più ad una mazza da golf, incudine, che assomiglia più ad un dente, e staffa, che ha proprio la forma di una staffa collegata alla finestra ovale, ovvero un’apertura che divide l’orecchio medio, nel quale è presente aria, dall’orecchio interno, riempito di fluido cocleare. L’amplificazione è essenziale, poiché altrimenti solo una piccola parte dell’energia dell’onda sonora sarebbe trasferita alla parte interna del sistema uditivo, a causa del cattivo adattamento d’impedenza dei materiali a contatto. Infine, sottolineiamo due misure di protezione agenti a questo livello. La prima riguarda i suoni ad alta intensità: quando il cervello recepisce suoni relativamente troppo intensi, la membrana timpanica si irrigidisce ed un muscolo allontana la staffa dalla finestra ovale. Questo meccanismo, detto riflesso acustico o riflesso di Strapedio, richiede un breve tempo per entrare in funzione e non è, quindi, efficace per i suoni istantanei. L’altro meccanismo è quello di riequilibrio della pressione statica interna con la pressione esterna, agente tramite la tuba di Eustachio, ovvero un condotto, normalmente chiuso ma attivabile per contrazione muscolare, che collega l’orecchio interno alla cavità orale.


Orecchio interno

Nell’orecchio interno troviamo i canali circolari, che però non sembrano svolgere una funzione nella percezione acustica, mentre sono di fondamentale importanza per l’equilibrio. L’organo di maggior interesse è la coclea, che traduce gli stimoli meccanici in impulsi elettrici che saranno mandati al cervello. Essa ha la forma di una chiocciola che, avvicinandosi verso il centro, restringe sempre più il proprio diametro. Inoltre è ripartita in più gallerie, ovvero il dotto cocleare, la rampa vestibolare e la rampa timpanica. Il dotto cocleare è separato dal comparto superiore tramite la membrana di Reissner e dal comparto inferiore tramite la membrana basilare. Lungo tale membrana corre l’organo dei Corti, una sottile massa gelatinosa nella quale sono immerse delle cellule ricoperte di ciglia. Le ciglia, circa 4000 e collegate sul lato superiore alla membrana tectoria, si flettono se stimolate da vibrazioni meccaniche. Da qui, le ciglia manderanno impulsi elettrici che saranno raccolti dalle terminazioni nervose, per essere convogliati al cervello. La coclea è munita di due finestre ricoperte di una sottile membrana, ovvero la finestra circolare e la finestra ovale. La finestra ovale, come già detto, viene messa in vibrazione dal movimento della staffa, che provoca un iniziale aumento di pressione del fluido nella coclea, nei pressi della or’detta finestra. La perturbazione del fluido si trasmetterà lungo la rampa vestibolare, comunicante con la rampa timpanica tramite un’apertura posta sul lato di diametro più stretto della chiocciola, detta elicotrema; la perturbazione si trasmetterà alla rampa inferiore che farà muovere la finestra circolare, evitando aumenti di pressione elevati all’interno della coclea. L’aumento di pressione creerà una deformazione sulla membrana basilare, la cui forma sarà simile a quella di una corda, subito dopo l’avvenuto pizzico; proprio come nel caso di una corda, ciò dà vita alla formazione ad un’onda vibrazionale lungo il corpo eccitato. L’onda aumenterà di intensità, spostandosi verso la parte terminale della coclea, fino a raggiungere un massimo, per poi decadere velocemente. La posizione del massimo sarà indice per l’altezza del suono nell’analisi effettuata dal cervello.
Quest’affermazione si rifà alla teoria posizionale o teoria tonotopica, esposta inizialmente da von Helmholtz, secondo la quale ogni punto della membrana basilare ha una sua frequenza di risonanza, dovuta al fatto che il diametro della membrana va crescendo, mentre la sua elasticità decresce. Quindi, essendo la membrana basilare ricoperta di ciglia, divise in bande e collegate a diverse terminazioni nervose, ogni punto della membrana darà un diverso stimolo al cervello. Per gli impulsi sonori, invece, il cervello estrae i valore dell’altezza dalla frequenza con cui si susseguono tali impulsi.


La teoria della banda critica

La banda critica è un insieme di ciglia sensibili ad un determinato gruppo di frequenze, corrispondente ad un terzo d’ottava: è proprio per questo che le frequenze vengono percepite su scala logaritmica, poiché ad ogni aumento d’ottava corrisponde lo stimolo di una banda critica equidistante dalla precedente. La presenza delle bande critiche fa sì che, nel caso in cui due suoni abbiano frequenze relativamente vicine, il potere discriminatorio per le frequenze da parte del cervello viene messo a dura prova. Accostando gradualmente due frequenze, il cervello percepirà un suono sempre più ruvido, fino a un quarto di banda, dove l’alterazione è massima. Al di sotto di questa soglia il fenomeno dei battimenti a livello della membrana basilare scompare, poiché le terminazioni nervose interessate saranno le medesime. Se i suoni sono eseguiti successivamente il potere discriminatorio per le frequenze aumenta.


Fenomeni psicoacustici

Nel campo della psicoacustica possiamo andare incontro a molti fenomeni, per così dire, illusori rispetto a ciò che accade nella realtà.

  • Volume e frequenza percepita Uno stesso evento sonoro può essere percepito come più acuto se ne viene aumentato in maniera considerevole l’intensità. Purtroppo le ragioni di questo fenomeno sono ancora oscure. 

  • MascheramentoUna frequenza ad intensità elevata può mascherare frequenze prossime e a minore intensità. Questo perché, tali frequenze stimoleranno la stessa banda di ciglia. 

  • Effetto DopplerCiò avviene quando ascoltatore e sorgente sonora sono in movimento, l’uno rispetto all’altro. Nel caso in cui ci sia un movimento di avvicinamento, il suono percepito sarà più acuto, nel caso contrario sarà percepito come più grave. Questo perché i fronti d’onda sono più ravvicinati nel primo caso e più distanziati nel secondo caso. 

  • Fusione binauraleLa fusione binaurale è la capacità del cervello di fondere due segnali simili, che arrivano alle due orecchie, creando un nuovo suono che in realtà non esiste. 

  • Effetto HaasL’effetto Haas, detto anche effetto precedenza, avviene quando due suoni successivi arrivano al cervello con un ritardo, l’uno rispetto all’altro, di meno di 35 ms. In questo caso il cervello percepisce un unico suono, proveniente dalla direzione del suono arrivato per primo all’apparato uditivo.


La legge di Fechner

La legge di Weber-Fechner, 1860, è stato il primo tentativo di esprimere matematicamente la relazione che sussiste tra stimolo e percezione umana di tale stimolo. L’esperimento condotto da E. H. Weber consistette nell’aumentare gradualmente il peso di un corpo sorretto da un uomo. Ebbene, il risultato fu che, a seconda del peso iniziale del corpo, l’aumento di peso veniva percepito in maniera differente. Cioè, un aumento di un 1 kg di un corpo il cui peso iniziale è 1 kg, veniva percepito come maggiore rispetto ad un analogo aumento di peso di un corpo di 30 kg. L’espressione matematica generale, trovata da G. T. Fechner, fu:

S = c * log R

dove S è la sensazione, R lo stimolo e c è una costante che varia da stimolo a stimolo. A parole la formula veniva così espressa:

Perché la sensazione cresca in progressione aritmetica, lo stimolo deve crescere in forma geometrica. 


Intensità oggettiva

I valori di intensità di un suono vengono percepiti dal corpo umano su scala logaritmica. Per questo si è pensato di utilizzare un scala di misura logaritmica di tali valori. Infatti, il raddoppio di intensità sonora percepita corrisponderà ad una decuplicazione del valore iniziale. Cioè, se facciamo in modo che un diffusore emetta un suono ad una unità di pressione, per avere la sensazione del raddoppio, dovremo moltiplicare per dieci il valore di pressione iniziale, ottenendo come risultato 10. Quindi diviene conveniente utilizzare l’unità di misura, detta Bel, ottenibile dalla relazione:
Bel = log (W1/W2)

dove W è la potenza sonora. Nel campo dell’audio si usa una sottomultiplo di
quest’unità di misura, ovvero il decibel, corrispondente ad un decimo di Bel, cosicché, alla formula precedente, debba essere aggiunto un fattore di moltiplicazione dieci. Nel caso in cui, invece, si vogliano confrontare valori di pressione, essendo la potenza proporzionale al quadrato della pressione la formula precedente diverrà:

Decibel = 20 log (P1/P2) 

Per misurare una lunghezza abbiamo bisogno di un valore di riferimento, che nel sistema di riferimento internazionale è il metro. Allo stesso modo, per misurare un valore di intensità sonora dobbiamo fissare un valore di riferimento, che in questo caso corrisponde alla soglia di udibilità umana, ovvero 20 μP (0,00002 Pascal). Questo valore viene messo al denominatore dell’espressione precedente per calcolare l’intensità di qualsiasi suono. Altri valori importanti sono:


  • Intensità acustica; W/m^2; corrisponde al flusso di potenza attraverso una superficie perpendicolare al moto vibratorio. 
  • Energia sonora; erg * cm^2/s; corrisponde all’energia sonora trasmessa nella unità di tempo attraverso la superficie unitaria. 
  • Pressione acustica; ∆p = p – p0; corrisponde alla variazione di pressione tra la pressione esercitata in un punto dal fenomeno vibratorio, e la pressione, esercitata nello stesso punto, in condizioni di assenza di perturbazione (ad esempio la pressione atmosferica).


Intensità soggettiva, son 

Il Son è l’unità di misura dell’intensità soggettiva, e viene definito come la sensazione data da un suono di 1000 Hertz a 40 Phon. Da qui notiamo che ogni 10 Phon ci sarà un raddoppio della percezione, e quindi del valore del son: questo vuol dire che la sensazione di raddoppio viene avvertita ad ogni aumento di circa 10 dB. Esiste, inoltre, una soglia differenziale per l’intensità, ovvero una minima variazione percepibile di tale valore. I dati variano dal 5% al 25%, o tra 2 e 3 dB; comunque tale caratteristica varia col variare della frequenza: l’incremento è massimo per i suoni gravi ed è minimo per quelli compresi tra 500 e 2000 Hertz.


Altezza oggettiva e soggettiva, Mel

L’altezza oggettiva è quella che misura i cicli al secondo di un suono, che esprime i propri valori in Hertz. Ma l’altezza percepita non sempre corrisponde a quella misurata. Per questo è stato introdotto il Mel; 1000 Mel corrispondono alla sensazione d’altezza provocata da un suono di 1000 Hertz a 40 dB. Di conseguenza 2000 Mel corrisponderanno ad un raddoppio della sensazione di frequenza e 500 Mel alla metà. Ma questi valori, misurati sperimentalmente, corrispondono, rispettivamente, a 3100 Hertz e 400 Hertz; ciò dimostra che l’altezza non è uguale alla frequenza. Anche per l’altezza esiste una soglia differenziale: per le frequenze comprese tra 500 e 2000 Hertz, i valori variano tra 2 e 10 cent, mentre per i suoni gravi si può arrivare anche a 50 cent.


Timbro

Il timbro è uno delle caratteristiche più complesse del suono, data la sua vasta possibilità di sfumature. Infatti ogni armonica ha una sua fluttuazione d’intensità, un suo inviluppo, che rendono in effetti ogni nota unica. Due note, suonate apparentemente allo stesso modo, presenteranno delle minuscole variazioni timbriche. Un’analisi del timbro può essere fatta attraverso la teoria formantica del timbro. Questa teoria volge la sua attenzione verso le zone dello spettro armonico, in cui si rileva un’emissione di maggiore intensità. Quindi si vengono ad individuare delle bande, più o meno larghe, dalla cui emissione, prevalentemente, dipende il timbro di un suono. Il timbro dipende anche dall’intensità di emissione di una nota e dall’altezza. Per l’intensità possiamo dire che al variare di essa, per via delle caratteristiche dello strumento e per la struttura dell’apparato uditivo, alcune zone di frequenze possono essere esaltate, mentre altre possono essere smorzate. Per l’altezza possiamo dire che, a causa della risposta in frequenza dell’orecchio e per alcune caratteristiche dello strumento, l’altezza può influire sul timbro, smorzando ad esempio gli armonici più alti (che cadrebbero verso i limiti del range frequenziale udibile). Infine, possiamo dire che anche i transitori d’attacco e di estinzione influiscono sul timbro. Infatti, registrando suoni di strumenti e trattando il loro inviluppo lasciando invariato il timbro, essi potranno sembrare altri strumenti, anche con timbri differenti.
L’orecchio non è svincolato dalle leggi inerziali ed infatti necessita di un intervallo di tempo (detto tempo d’integrazione) per raggiungere il regime stazionario. Questo è un transitorio soggettivo, al di sotto del quale non è possibile distinguere né altezza, né intensità. Mediamente, per frequenze comprese tra 500 e 2500 Hertz, occorrono non meno di 8/10 di secondo, affinché il timbro sia percepito integralmente.