Come funziona il formato MP3

MP3 - Tutto quello che c'è da sapere...

Il fenomeno del MP3 ha rivoluzionato il mondo di Internet che non è più stato lo stesso.

Un formato che riduceva un file audio da 40Mb a 4 non si era mai visto prima di allora.

A dire il vero qualcosa di simile c'era, ma la qualità non era neanche lontanamente paragonabile a quella

che l' mp3 riusciva a raggiungere. Ma come diamine funziona questo popolare formato chiamato MP3?

Questa tecnologia che ha fatto perdere miliardi alle industrie discografiche e risparmiare decine

(centinaia) di euro a noi utenti?

La magia del formato MP3.

Bene, la maggior parte di questa "magia" risiede in una scienza chiamata psicoacustica e una serie di

complicatissimi calcoli matematici.

L'audio non compresso così come quello dei CD, memorizza più dati di quanti il nostro cervello

possa elaborare e percepire. Ad esempio, se due note sono molto simili e vicine tra loro, il tuo cervello

percepirà solo una di queste. Se c'è un suono forte ed uno debole il tuo cervello percepirà quello più forte.

il tuo cervello allora non riuscirà ad ascoltare il suono più piccolo.

Lo studio di questi fenomeni e della nostra percezione sonora è chiamato psicoacustica.

La tecnologia di compressione MP3 analizza il suono e lo divide, confrontandolo con dei modelli

sonori compresi nel compressore stesso. Eliminerà la maggior parte dei suoni che non corrispondono

ai modelli sonori e manterrà quelli che coincidono.

La persona che effettua la compressione può specificare il numero di bit che verranno allocati per ogni

secondo di musica: maggiore sarà il numero di bit e meno dati verranno cancellati; con pochi bit invece

dovranno essere cancellati un maggior numero di suoni.

Questo genere di compressione è definita lossy, ovvero una compressione con perdità di qualità.

I file MP3 sono composti da una serie di frame (fotogrammi) molto corti, come accade nel video, ed

ogni frame è preceduto dall' header, contenente informazioni aggiuntive sui dati a venire.

All' inizio o alla fine di un file MP3 ci sono le informazioni aggiuntive sul file come nome dell' artista,

titolo della traccia, album, anno, genere e commenti: queste informazioni sono chiamate dati ID3 (tag).

Come avviene la compressione.

Come è noto, il formato MP3 elimina ciò che l'orecchio umano non riesce a sentire.

Questi suoni vengono eliminati ma ne viene lasciata una piccola parte in modo da non rendere

"drastico" il taglio.

Ma questa è soltanto una parte delle tecniche usate per la compressione... innanzitutto :

il segnale è analizzato e viene deciso in che modo distribuire i bit a disposizione, dopodichè diviso

in sotto-bande, elaborate separatamente da algoritmi.

Il bitrate a disposizione viene calcolato, ottenendo il numero di bit da allocare per ogni frame.

Questa procedura determina la quantità di audio che verrà mantenuta e quanto invece verrà tagliato.

Le frequenze di ogni frame vengono confrontate con i modelli della psicoacustica contenuti nel

compressore. A partire da questi modelli viene determinato quali frequenze elaborare accuratamente,

poichè percepibili dall' orecchio umano, e quali potranno essere eliminate o tagliate parzialmente,

poichè non saremo in grado di ascoltarle comunque. Perchè mantenere ciò che non serve?

Successivamente entrano in gioco gli effetti di mascheramento: se c'è un suono forte e un suono

debole è possibile eliminare quest'ultimo, calcolando i millisecondi durante i quali non sarà audibile.

Allo stesso modo due suoni che si sovrappongono (perchè di forte intensità) o parti del suono statiche

(silenzio, fruscio del suono) vengono intelligentemente mascherate.

I Bitrate.

Il modo nel quale le porzioni sonore sono eliminate dipende anche dal bitrate, stabilito dall' utente al

momento della compressione. Il bitrate corrisponde al numero di bits per secondo usati per la

memorizzazione del file. Più alto sarà il bitrate e più alta la risoluzione sonora.

Immaginate un filmato: con più fotogrammi l'immagine sarà fluida, allo stesso modo ad un bitrate

maggiore corrisponderà un suono più completo, fedele all' originale.

Come vedete nella figura, la codifica a 128kbps ha già un segnale più "pieno" rispetto a 64.

Nota che il bitrate si riferisce ai "kilobyte al secondo".

Su un mp3 stereo di 160kbps verrà usata la metà del bitrate per ciascun canale.

( 160 : 2 = 80kbps).

Codifica stereo a 160kbps: 80kbps allocati per ogni canale.

Quanti kilobyte occuperà un secondo di musica a 128kbps?

Il calcolo da fare è > Bitrate : 8 = Kylobite al secondo

Dunque un secondo di musica a 128kbps occuperà 16 kylobite. ( 128 : 8 = 16 kylobite al secondo ).

La maggior parte dei file è compressa col metodo CBR, ovvero del Bitrate costante.

Con questo metodo l'mp3 avrà lo stesso bitrate durante tutta la compressione: se il suono sarà semplice

suonerà bene, ma se diverrà complicato i bit a disposizione potrebbero non essere sufficienti

e il compressore sarà costretto a tagliare più suoni.

La risposta a questo problema si ha col VBR (Bitrate Variabile), dove i passaggi del suono semplici

(come voce e pochi strumenti) verranno codificati con meno bit, mentre nei punti complicati si ricorrerà

ad un bitrate maggiore, allo scopo di mantenere alta la qualità senza tagliare frequenze.

Nel metodo CBR si sceglie il bitrate mentre nel metodo VBR si sceglie un livello di qualità.

Un livello alto sceglierà bitrate come 160 nei punti del suono facili e salirà a 256/320 in quelli difficili ;

un livello medio/basso invece userà bitrate come 128/160, salendo a 192/256 nei punti complessi.

(Nel Lame, l'impostazione VBR 0 corrisponde alla massima qualità e 10 alla minima).

Col sistema CBR capita di codificare un mp3 a 160 e ascoltandolo si scopre che il bitrate non basta,

col sistema VBR invece ci pensa l'encoder a trovare il bitrate giusto per mantenere la qualità.

Fonti varie: "Mp3 the definitive guide" di Scott Hacker.

Glossario MP3 - I termini e la loro spiegazione.

Joint Stereo.

Questa modalità sfrutta la somiglianza tra il canale destro e sinistro per aumentare la qualità ai bassi bitrate.

Il canale destro e sinistro vengono uniti in un unico canale, memorizzando le differenze in un canale chiamato laterale.

Durante la decodifica il segnale stereo viene ricostruito riposizionando i suoni nel canale esatto dove si

trovavano.

Questa codifica è utile ai bassi bitrate dove è importante coprire le frequenze; agli alti bitrate è

consigliabile lo stereo.

Il compressore LAME ha un metodo Joint Stereo che preserva la qualità, ma comunque è possibile

notare artefatti nel suono: a volte infatti i canali vengono "uniti" anche quando sono totalmente differenti,

facendo perdere parte del suono stereofonico; oppure i suoni non vengono "ricostruiti" come si deve.

Gli effetti del joint stereo si notano nelle canzoni Rock e Techno e anche nei suoni 3D.

Usate Joint Stereo a 96/128kbps, mentre da 160 in su vi consiglio il metodo Stereo "originale".

Intensity Stereo.

E' una specie di Joint Stereo utile ai bassi bitrate. Unisce maggiormente i canali destro e sinistro,

facendo perdere molto in termini di qualità ma aumentando i bit disponibili.

Questa tecnica è usata solo ai bassi bitrate ( da 96kbps in giù ).

Stereo (modalità "originale").

Questa modalità elabora separatamente i due canali assicurando la fedeltà sonora.

Per ciascun canale viene usato metà del bitrate. Se un canale ha dei suoni più complessi allora il 60%

viene usato per quello e il restante 40 per l'altro; non viene unito nè alterato nessun canale.

Questa modalità usata agli alti bitrate (da 160 in su) garantisce una qualità maggiore e senza perdite

di qualità .

Lowpass.

Il filtro lowpass taglia le frequenze.

Un lowpass di 18khz taglia le frequenze da 18khz in su.

Consideriamo che:

1) Le frequenze contengono il suono;

2) Le frequenze vanno da 1 a 22 khz (Kappa hertz);

3) La maggior parte del suono è contenuto nelle frequenze al di sotto dei 18khz;

4) Le frequenze al di sopra di 18khz non sono udibili dall' orecchio umano.

Quindi se tagliamo le frequenze sopra i 18khz:

il compressore avrà meno frequenze da gestire e potrà usare i bit a disposizione per le basse, che

come detto prima contengono la maggior parte del suono.

Dunque miglioreremo la qualità senza aumentare il bitrate.

Ecco una spiegazione sulle frequenze :

Un file WAVE a 44khz avrà una frequenza di campionamento di 44khz, ma la frequenza di risposta

è di 22khz : significa che il suono più alto che si avrà raggiungerà i 22khz.

Gli umani non riescono a sentire le frequenze sopra i 20khz, in questo caso non sentiranno le frequenze che vanno da 20 a 22khz.

Di solito la massima frequenza che un adulto riesce a sentire è 17 khz; i bambini e i giovani fino all' età

di 20 anni riescono a sentire le frequenze fino a 18-19khz; crescendo la loro capacità uditiva diminuisce.

Percezione delle frequenze.

Una curiosità: solo i cani riescono a sentire frequenze alte come 21 o 22khz.

Abbiamo detto che la maggior parte dei suoni si trova sotto i 18khz. Ma che si trova più sopra?

Al di sopra buona parte delle frequenze contengono fruscii e ronzii acuti.

Il lowpass cambia a seconda del bitrate: lo impostiamo noi utenti o il compressore in automatico.

A 128kbps si usa un lowpass di 17khz (17.500 hz);

A 160kbps si usa un lowpass di 18,5 khz (18.500 hz).

A 192 e 224 si usa un lowpass di 19,5 e 20khz.

Ai bitrate più alti si usa e con il VBR alta qualità l' ideale è un lowpass di 20khz.

A 320kbps il lowpass non occorre più: infatti il compressore potrà elaborare le frequenze alte e avere

ancora abbastanza bit per le basse. Se comunque lo usiamo aumenteremo la qualità e non farà certo

male.

Come agisce un lowpass di 18khz.

Nota che...

Gli impianti CD Stereo effettuano sempre un lowpass di 20khz al fine di eliminare le alte frequenze:

essendo costituite da frusci e suoni inutili potrebbero causare distorsioni negli amplificatori.

Da aggiungere è che la musica digitale (in questo caso i CD Audio) contengono una gamma di frequenze da 0 a 22khz, mentre nei suoni della vita reale e nei Super CD Audio ci sono anche frequenze più alte.

Frame.

Il frame è un "fotogramma", e contiene una parte di suono. Un frame dura qualche millisecondo;

in un secondo ci sono circa 40 frame, indipendentemente dal bitrate.

Frame corti.

I frame corti sono durano meno dei frame tradizionali. In questo modo il suono compresso viene

diviso in più frame assicurando una maggiore risoluzione e completezza del suono.

Di solito nel formato MP3 vengono usati i frame lunghi (tradizionali), in alcuni passaggi del suono però

si rende necessario l'utilizzo di quelli corti. Attenzione però! Gran parte dei problemi del formato MP3

è legata al fatto che il compressore deve trovare il momento opportuno per usare i frame corti!

Se i frame corti aiutano ad aumentare la risoluzione del suono d'altro canto però causano imperfezioni

ed artefatti nel suono: sta all' encoder decidere quando usarli.

Il LAME ha un sistema automatico che permette di usare nel modo giusto i frame corti e per il resto

usa quelli lunghi. Tutti i compressori MP3 usano i frame lunghi e dove necessario quelli corti

(eccetto Xing). I frame si chiamano lunghi, ma la loro durata è calcolata in millisecondi!

Bitrate ABR.

Il sistema ABR è un sistema VBR che è "costretto" ad usare per la maggior parte il bitrate scelto.

ABR significa Average Bitrate, ovvero Bitrate Medio. Un Mp3 ABR 192 userà per la maggior parte

il bitrate 192, usando poco 128/160 e 256/320.

Checksum CRC.

Il Checksum CRC è un valore che viene assegnato ad un file, se questo valore cambia significa che il

file è danneggiato. Il sistema CRC calcola e assegna un valore ad ogni frame, così da verificarne

l'integrità segnalando eventuali errori.

Il problema è che se usiamo CRC sprechiamo parte dei bit riducendo (anche se un pò) il bitrate a

disposizione.

Il Checksum CRC non serve per riparare gli errori e l'integrità del file MP3 si può verificare anche

senza (usando programmi come MP3 Utility).

Artefatti.

Con questo termine si definisce un alterazione del suono. Può essere un fruscio (bzzz), un glitch,

un dropout (il rumore di una goccia) o il flange (un rumore come swish o di un suono sciolto).

Gli artefatti sono causati da un basso bitrate e da errori nella tecnologia del codec. Xing è il codec

che riesce a causare tutti gli artefatti spiegati in precedenza e anche altri (per non parlare del Blade..).

Altre artefatti sono le distorsioni del suono; avvengono principalmente quando il volume è troppo alto o quando ci sono artefatti nelle alte frequenze (capita a 128-160-192kbps

quando non viene usato alcun lowpass)

Ath

Ath è il livello di udibilità (Absolute Treshold of Hearing).

Determina la quantità di suoni da mantenere perchè udibili, e quelle da scartare (eliminare).

Header

L'header contiene i dati sui frame mp3. Ogni header contiene informazioni su un certo numero di frame.

Bene, per adesso è tutto. In seguito aggiungerò qualche altra cosa e correggero ciò che non va bene.

Se avete letto tutta questa pagina e ne siete usciti indenni... che dire, complimenti per il coraggio!

A parte gli scherzi, spero che anche questa guida sia utile.

Alla prossima!

Torna alla pagina precedente