Compressione
audioSe la tecnologia digitale ha comportato una sostanziale rivoluzione nel mondo dell'audio, determinando la nascita di aree applicative altrimenti impensabili, ha però indubbiamente portato con sé anche una serie di problematiche, legate essenzialmente a due fattori principali: la complessità delle operazioni di con versione A/D e D/A e, lavorando a risoluzione e sampling rate elevati, la grande quantità di dati necessaria per la descrizione del segnale sotto forma di numeri. Non di rado, proprio per queste ragioni, il passaggio alla tecnologia digitale nelle più importanti aree applicative dell'audio è spesso stato graduale e non del tutto indolore.
Il problema della grande quantità di dati numerici necessaria per l'accurata descrizione di un segnale analogico si fa sentire negativamente sia per quanto riguarda l'immagazzinamento del materiale su memoria di massa, sia nelle applicazioni che richiedono la trasmissione di dati a breve e/o lunga distanza. Se le problematiche relative all'archiviazione dell'audio digitale sono oramai in secondo piano, grazie alle nuove tecnologie e alla inarrestabile diminuzione dei costi di qualsiasi tipo di memoria di massa, l'altrettanto inarrestabile avanzare della necessità di comunicazione globale ha prepotentemente posto il problema di come si potesse trasmettere e/o distribuire audio in buona o ottima qualità tra località remote, attraverso linee telefoniche o comunicazioni via satellite.
I sistemi di compressione dei dati audio consentono di ridurre drasticamente la quantità di numeri necessaria per descrivere un segnale audio, senza determinare una importante perdita qualitativa del segnale; questo significa sostanzialmente due cose: poter moltiplicare anche di diverse volte la quantità di audio registrabile su qualsiasi tipo di media digitale e, soprattutto, poter trasmettere suono e/o musica a distanza senza significativa perdita qualitativa.
Quest'ultimo aspetto sta portando una vera e propria rivoluzione anche nel campo di chi lavora con l'audio: il trasferimento di informazioni sonore digitalizzate in alta qualità tra posti remoti, possibile grazie ai sistemi di compressione ed alle linee di comunicazione ad alta velocità, è destinato a creare nuove aree applicative nel campo della comunicazione e dello spettacolo.
I sistemi di compressione dei dati in generale (dunque anche quelli relativi all'audio) vengono genericamente chiamati CODEC, sigla che si gnifica molto semplicemente Coder / Decoder + Compression / Decompression.
Per comprimere l'audio è necessario eliminare la ridondanza dati
Per comprendere la enorme quantità di dati necessari a descrivere l'audio, basti pensare che alla frequenza di campionamento di 44.1 kHz (lo standard per il CD) un segnale audio, in un secondo, viene campionato 44.100 volte, ed ogni campione viene descritto, sempre per restare nello standard della qualità CD, con un numero di 16 bit. Questo significa (circa) 10 Megabyte di spazio occupato su memoria di massa per ogni minuto di registrazione in stereofonia e, soprattutto, un "data rate" di circa 1,4 Mbit al secondo.
Volendo ridurre tale quantità di dati, sostanzialmente si può operare in due modi: o campionare il segnale con una sampling rate inferiore, riducendo in questo modo la quantità di numeri necessaria a descrivere digitalmente il segnale stesso nell'unità di tempo, oppure campionare con una risoluzione in bit inferiore, riducendo in questo modo la "dimensione nu merica" di ogni campione. Per preservare una qualità audio elevata, non è possibile ridurre la frequenza di campionamento, poiché il teorema di Nyquist sancisce che è necessario carmpionare un segnale almeno al doppio della fre quenza più acuta che si intende riprodurre; dun que, 44.1 kHz è un valore adeguato, nel cam po dell'audio di alta qualità, per coprire tranquillamente l'intera banda delle frequenze udibili. La strada da seguire per una compressione audio efficiente è perciò quella di ridurre la risoluzione in bit dei campioni. La scelta dei 16 bit di risoluzione quale standard è stata effettuata anche perché in grado di garantire un ottimo rapporto segnale/rumore di quantizzazione (il rumore di quantizzazione è un disturbo, in qualche misura sempre presente nel digitale, determinato dal fatto che il campionamento riduce a valori discreti ciò che in origine, ovvero il segnale audio, è continuo. Ogni bit di risoluzione in più incrementa il rapporto segnale/ru more di 6 dB (+6 dB corrispondono al raddop pio del livello del segnale), dunque, riducendo il numero di bit di risoluzione, si peggiora anche il rapporto segnale/disturbo. Campionando ad 8 bit, per esempio, si introduce un notevole ru ore di quantizzazione, particolarmente udibi le nei momenti di silenzio o di basso livello sonoro; tale disturbo però scompare del tutto (o quasi) quando si è in presenza di un livello sonoro elevato. In effetti il rumore di quantizzazione esiste anche in presenza di un livello sonoro elevato, ma il nostro apparato uditivo non è in grado di percepirlo; il rumore viene dunque "mascherato" dai segnali di maggiore ampiezza.
Lo sfruttamento "intelligente" ditale mascheramento sta alla base di tutti gli algoritmi di compressione audio, i quali, basandosi su principi psicoacustici, previa analisi del segnale, rimuovono gran parte delle informazioni ridondanti, cioè quelle soggette all'effetto di mascheramento, consentendo di fatto l'impiego di una "bit rate" inferiore. L'operazione effettuata dai CODEC di compressione audio utilizza processi più o meno complessi in grado di fornire differenti prestazioni, sia in termini qualitativi che di compressione dei dati.
Per meglio comprendere il funzionamento generico dei CODEC, è utile vedere brevemente alcuni comportamenti dell'orecchio umano, comportamenti che rappresentano il fondamento dei modelli psicoacustici sui quali si basano tut ti i CODEC. Al di sotto di una certa soglia, l'orecchio non è in grado di percepire alcun suono (tale soglia è detta infatti "di udibilità"). La soglia di udibilità non è costante con la frequenza ma varia in relazione ad essa, ed è inoltre "dinamica", nel senso che varia anche istante per istante a seconda delle caratteristiche spettrali del segnale che viene percepito. Sostanzialmente, la soglia di udibilità si alza in presenza di componenti spettrali di livello elevato, in quanto queste fanno sì che altre componenti vicine ad esse in frequenza, ma di livello inferiore, vengano nascoste, dunque soggette all'effetto di "mascheramento". L'effetto di mascheramento non avviene solo quando la componente mascherante (quella di livello più alto) e quella mascherata arrivano all'orecchio simultaneamente (mascheramento simultaneo), ma anche quando il segnale mascherato arriva all'orecchio leggermente dopo (entro 15 milli secondi) la cessazione di quello mascherante (mascheramento temporale in avanti), oppure quando il segnale mascherato termina legger mente prima (entro 2 millisecondi) dell'arrivo del segnale mascherante (mascheramento temporale all'indietro). Tale "dinamicità comportamentale" del sistema di percezione uditivo ha di per sé rappresentato il presupposto basilare dell'esistenza e dello sviluppo dei CODEC.
Da un punto di vista concettuale il funzionamento base degli algoritmi di compressione audio è abbastanza semplice (ben altra cosa è la loro implementazione) e si basa sulle seguenti considerazioni: visto che in determinate condizioni, grazie all'effetto di mascheramento, l'orecchio umano non è in grado di percepire il rumore di quantizzazione che sarebbe generato dalla minor risoluzione in bit, perché sprecare in ogni istante e per tutti i tipi di segnale la stessa quantità di bit (e dunque di spazio)? Non si potrebbe dividere il segnale in più parti e, sulla base dei modelli psicoacustici, allocare più bit per descrivere le parti più critiche, ed un numero inferiore di bit (dunque una minor risoluzione) per le parti di segnali meno complesse da rappresentare? E visto che alcune parti di segnale, anche se presenti, sono del tutto inudibili in quanto soggette a mascheramento, non si potrebbero eliminare? Il funzionamento di base dei CODEC si basa proprio sulla risposta a questi quesiti: il segnale da comprimere viene sottoposto ad una analisi e ad una suddivisione in più sotto unità (ulteriori par ticolari in seguito); le diverse sotto unità poi ven gono "descritte" numericamente, in relazione al la loro tipologia (leggi contenuto spettrale) utiliz zando risoluzioni differenziate e distribuite in modo che il rumore di quantizzazione sia sempre mascherato dalla componente sonora vera e propria; tutto questo dopo aver rimosso completamente, in una prima fase, le parti di segnale non udibili. In questo modo la mole di numeri necessaria per descrivere il segnale viene drasticamente ridotta. Prima di approfondire il discorso è opportuna una considerazione: la compressione audio presuppone che una notevole parte del segnale originale venga di fatto eliminata, di conseguenza il segnale prima codificato e successivamente decodificato subisce inevitabilmente modifiche; tali modifiche possono essere più o meno udibili, a seconda del tipo di segnale audio originale e del tipo di compressione effettuata. I CODEC dell'ultima generazione consentono di mantenere una qualità audio molto elevata, specialmente in considerazione del rappor to di compressione che può raggiungere anche il valore di 12:1 e oltre. Un esempio: durante esperimenti effettuati da tecnici del Moving Picture Expert Group (MPEG), ascoltatori esperti posti in condizioni ottimali di ascolto, nessuno è riuscito a distinguere i segnali audio originali (16 bit/48 kHz) da quelli compressi (rapporto di compressione 6:1, owero 256 kb/s).