MP3 - Tutto quello che c'è da sapere... |
Il fenomeno del MP3 ha rivoluzionato il mondo di Internet che non è più stato lo stesso. |
Un formato che riduceva un file audio da 40Mb a 4 non si era mai visto prima di allora. |
A dire il vero qualcosa di simile c'era, ma la qualità non era neanche lontanamente paragonabile a quella |
che l' mp3 riusciva a raggiungere. Ma come diamine funziona questo popolare formato chiamato MP3? |
Questa tecnologia che ha fatto perdere miliardi alle industrie discografiche e risparmiare decine |
(centinaia) di euro a noi utenti? |
La magia del formato MP3. |
Bene, la maggior parte di questa "magia" risiede in una scienza chiamata psicoacustica e una serie di |
complicatissimi calcoli matematici. |
L'audio non compresso così come quello dei CD, memorizza più dati di quanti il nostro cervello |
possa elaborare e percepire. Ad esempio, se due note sono molto simili e vicine tra loro, il tuo cervello |
percepirà solo una di queste. Se c'è un suono forte ed uno debole il tuo cervello percepirà quello più forte. |
il tuo cervello allora non riuscirà ad ascoltare il suono più piccolo. |
Lo studio di questi fenomeni e della nostra percezione sonora è chiamato psicoacustica. |
La tecnologia di compressione MP3 analizza il suono e lo divide, confrontandolo con dei modelli |
sonori compresi nel compressore stesso. Eliminerà la maggior parte dei suoni che non corrispondono |
ai modelli sonori e manterrà quelli che coincidono. |
La persona che effettua la compressione può specificare il numero di bit che verranno allocati per ogni |
secondo di musica: maggiore sarà il numero di bit e meno dati verranno cancellati; con pochi bit invece |
dovranno essere cancellati un maggior numero di suoni. |
Questo genere di compressione è definita lossy, ovvero una compressione con perdità di qualità. |
I file MP3 sono composti da una serie di frame (fotogrammi) molto corti, come accade nel video, ed |
ogni frame è preceduto dall' header, contenente informazioni aggiuntive sui dati a venire. |
All' inizio o alla fine di un file MP3 ci sono le informazioni aggiuntive sul file come nome dell' artista, |
titolo della traccia, album, anno, genere e commenti: queste informazioni sono chiamate dati ID3 (tag). |
Come avviene la compressione. |
Come è noto, il formato MP3 elimina ciò che l'orecchio umano non riesce a sentire. |
Questi suoni vengono eliminati ma ne viene lasciata una piccola parte in modo da non rendere |
"drastico" il taglio. |
Ma questa è soltanto una parte delle tecniche usate per la compressione... innanzitutto : |
il segnale è analizzato e viene deciso in che modo distribuire i bit a disposizione, dopodichè diviso |
in sotto-bande, elaborate separatamente da algoritmi. |
Il bitrate a disposizione viene calcolato, ottenendo il numero di bit da allocare per ogni frame. |
Questa procedura determina la quantità di audio che verrà mantenuta e quanto invece verrà tagliato. |
Le frequenze di ogni frame vengono confrontate con i modelli della psicoacustica contenuti nel |
compressore. A partire da questi modelli viene determinato quali frequenze elaborare accuratamente, |
poichè percepibili dall' orecchio umano, e quali potranno essere eliminate o tagliate parzialmente, |
poichè non saremo in grado di ascoltarle comunque. Perchè mantenere ciò che non serve? |
Successivamente entrano in gioco gli effetti di mascheramento: se c'è un suono forte e un suono |
debole è possibile eliminare quest'ultimo, calcolando i millisecondi durante i quali non sarà audibile. |
Allo stesso modo due suoni che si sovrappongono (perchè di forte intensità) o parti del suono statiche |
(silenzio, fruscio del suono) vengono intelligentemente
mascherate.
I Bitrate. |
Il modo nel quale le porzioni sonore sono eliminate dipende anche dal bitrate, stabilito dall' utente al |
momento della compressione. Il bitrate corrisponde al numero di bits per secondo usati per la |
memorizzazione del file. Più alto sarà il bitrate e più alta la risoluzione sonora. |
Immaginate un filmato: con più fotogrammi l'immagine sarà fluida, allo stesso modo ad un bitrate |
maggiore corrisponderà un suono più completo, fedele all' originale. |
Come vedete nella figura, la codifica a 128kbps ha già un segnale più "pieno" rispetto a 64. |
Nota che il bitrate si riferisce ai "kilobyte al secondo". |
Su un mp3 stereo di 160kbps verrà usata la metà del bitrate per ciascun canale. |
( 160 : 2 = 80kbps). |
Codifica stereo a 160kbps: 80kbps allocati per ogni canale. |
Quanti kilobyte occuperà un secondo di musica a 128kbps? |
Il calcolo da fare è > Bitrate : 8 = Kylobite al secondo |
Dunque un secondo di musica a 128kbps occuperà 16 kylobite. ( 128 : 8 = 16 kylobite al secondo ). |
La maggior parte dei file è compressa col metodo CBR, ovvero del Bitrate costante. |
Con questo metodo l'mp3 avrà lo stesso bitrate durante tutta la compressione: se il suono sarà semplice |
suonerà bene, ma se diverrà complicato i bit a disposizione potrebbero non essere sufficienti |
e il compressore sarà costretto a tagliare più suoni. |
La risposta a questo problema si ha col VBR (Bitrate Variabile), dove i passaggi del suono semplici |
(come voce e pochi strumenti) verranno codificati con meno bit, mentre nei punti complicati si ricorrerà |
ad un bitrate maggiore, allo scopo di mantenere alta la qualità senza tagliare frequenze. |
Nel metodo CBR si sceglie il bitrate mentre nel metodo VBR si sceglie un livello di qualità. |
Un livello alto sceglierà bitrate come 160 nei punti del suono facili e salirà a 256/320 in quelli difficili ; |
un livello medio/basso invece userà bitrate come 128/160, salendo a 192/256 nei punti complessi. |
(Nel Lame, l'impostazione VBR 0 corrisponde alla massima qualità e 10 alla minima). |
Col sistema CBR capita di codificare un mp3 a 160 e ascoltandolo si scopre che il bitrate non basta, |
col sistema VBR invece ci pensa l'encoder a trovare il bitrate giusto per mantenere la qualità. |
Fonti varie: "Mp3 the definitive guide" di Scott Hacker.
Glossario MP3 - I termini e
la loro spiegazione.
|
Joint Stereo. |
Questa modalità sfrutta la somiglianza tra il canale destro e sinistro per aumentare la qualità ai bassi bitrate. |
Il canale destro e sinistro vengono uniti in un unico canale, memorizzando le differenze in un canale chiamato laterale. |
Durante la decodifica il segnale stereo viene ricostruito riposizionando i suoni nel canale esatto dove si |
trovavano. |
Questa codifica è utile ai bassi bitrate dove è importante coprire le frequenze; agli alti bitrate è |
consigliabile lo stereo. |
Il compressore LAME ha un metodo Joint Stereo che preserva la qualità, ma comunque è possibile |
notare artefatti nel suono: a volte infatti i canali vengono "uniti" anche quando sono totalmente differenti, |
facendo perdere parte del suono stereofonico; oppure i suoni non vengono "ricostruiti" come si deve. |
Gli effetti del joint stereo si notano nelle canzoni Rock e Techno e anche nei suoni 3D. |
Usate Joint Stereo a 96/128kbps, mentre da
160 in su vi consiglio il metodo Stereo "originale".
|
Intensity Stereo. |
E' una specie di Joint Stereo utile ai bassi bitrate. Unisce maggiormente i canali destro e sinistro, |
facendo perdere molto in termini di qualità ma aumentando i bit disponibili. |
Questa tecnica è usata solo ai bassi bitrate ( da 96kbps
in giù ).
|
Stereo (modalità "originale"). |
Questa modalità elabora separatamente i due canali assicurando la fedeltà sonora. |
Per ciascun canale viene usato metà del bitrate. Se un canale ha dei suoni più complessi allora il 60% |
viene usato per quello e il restante 40 per l'altro; non viene unito nè alterato nessun canale. |
Questa modalità usata agli alti bitrate (da 160 in su) garantisce una qualità maggiore e senza perdite |
di qualità .
|
Lowpass. |
Il filtro lowpass taglia le frequenze. |
Un lowpass di 18khz taglia le frequenze da 18khz in su. |
Consideriamo che: |
1) Le frequenze contengono il suono; |
2) Le frequenze vanno da 1 a 22 khz (Kappa hertz); |
3) La maggior parte del suono è contenuto nelle frequenze al di sotto dei 18khz; |
4) Le frequenze al di sopra di 18khz non sono udibili dall' orecchio umano. |
Quindi se tagliamo le frequenze sopra i 18khz: |
il compressore avrà meno frequenze da gestire e potrà usare i bit a disposizione per le basse, che |
come detto prima contengono la maggior parte del suono. |
Dunque miglioreremo la qualità senza aumentare il bitrate.
|
Ecco una spiegazione sulle frequenze : |
Un file WAVE a 44khz avrà una frequenza di campionamento di 44khz, ma la frequenza di risposta |
è di 22khz : significa che il suono più alto che si avrà raggiungerà i 22khz. |
Gli umani non riescono a sentire le frequenze sopra i 20khz, in questo caso non sentiranno le frequenze che vanno da 20 a 22khz. |
Di solito la massima frequenza che un adulto riesce a sentire è 17 khz; i bambini e i giovani fino all' età |
di 20 anni riescono a sentire le frequenze fino a 18-19khz; crescendo la loro capacità uditiva diminuisce. |
Percezione delle frequenze. |
Una curiosità: solo i cani riescono a sentire frequenze alte come 21 o 22khz. |
Abbiamo detto che la maggior parte dei suoni si trova sotto i 18khz. Ma che si trova più sopra? |
Al di sopra buona parte delle frequenze contengono fruscii e ronzii acuti. |
Il lowpass cambia a seconda del bitrate: lo impostiamo noi utenti o il compressore in automatico. |
A 128kbps si usa un lowpass di 17khz (17.500 hz); |
A 160kbps si usa un lowpass di 18,5 khz (18.500 hz). |
A 192 e 224 si usa un lowpass di 19,5 e 20khz. |
Ai bitrate più alti si usa e con il VBR alta qualità l' ideale è un lowpass di 20khz. |
A 320kbps il lowpass non occorre più: infatti il compressore potrà elaborare le frequenze alte e avere |
ancora abbastanza bit per le basse. Se comunque lo usiamo aumenteremo la qualità e non farà certo |
male. |
Come agisce un lowpass di 18khz. |
Nota che... |
Gli impianti CD Stereo effettuano sempre un lowpass di 20khz al fine di eliminare le alte frequenze: |
essendo costituite da frusci e suoni inutili potrebbero causare distorsioni negli amplificatori. |
Da aggiungere è che la musica digitale (in questo caso i
CD Audio) contengono una gamma di frequenze da 0 a 22khz, mentre nei suoni
della vita reale e nei Super CD Audio ci sono anche frequenze più alte.
|
Frame. |
Il frame è un "fotogramma", e contiene una parte di suono. Un frame dura qualche millisecondo; |
in un secondo ci sono circa 40 frame, indipendentemente dal
bitrate.
|
Frame corti. |
I frame corti sono durano meno dei frame tradizionali. In questo modo il suono compresso viene |
diviso in più frame assicurando una maggiore risoluzione e completezza del suono. |
Di solito nel formato MP3 vengono usati i frame lunghi (tradizionali), in alcuni passaggi del suono però |
si rende necessario l'utilizzo di quelli corti. Attenzione però! Gran parte dei problemi del formato MP3 |
è legata al fatto che il compressore deve trovare il momento opportuno per usare i frame corti! |
Se i frame corti aiutano ad aumentare la risoluzione del suono d'altro canto però causano imperfezioni |
ed artefatti nel suono: sta all' encoder decidere quando usarli. |
Il LAME ha un sistema automatico che permette di usare nel modo giusto i frame corti e per il resto |
usa quelli lunghi. Tutti i compressori MP3 usano i frame lunghi e dove necessario quelli corti |
(eccetto Xing). I frame si chiamano lunghi, ma la loro
durata è calcolata in millisecondi!
|
Bitrate ABR. |
Il sistema ABR è un sistema VBR che è "costretto" ad usare per la maggior parte il bitrate scelto. |
ABR significa Average Bitrate, ovvero Bitrate Medio. Un Mp3 ABR 192 userà per la maggior parte |
il bitrate 192, usando poco 128/160 e 256/320.
|
Checksum CRC. |
Il Checksum CRC è un valore che viene assegnato ad un file, se questo valore cambia significa che il |
file è danneggiato. Il sistema CRC calcola e assegna un valore ad ogni frame, così da verificarne |
l'integrità segnalando eventuali errori. |
Il problema è che se usiamo CRC sprechiamo parte dei bit riducendo (anche se un pò) il bitrate a |
disposizione. |
Il Checksum CRC non serve per riparare gli errori e l'integrità del file MP3 si può verificare anche |
senza (usando programmi come MP3 Utility).
|
Artefatti. |
Con questo termine si definisce un alterazione del suono. Può essere un fruscio (bzzz), un glitch, |
un dropout (il rumore di una goccia) o il flange (un rumore come swish o di un suono sciolto). |
Gli artefatti sono causati da un basso bitrate e da errori nella tecnologia del codec. Xing è il codec |
che riesce a causare tutti gli artefatti spiegati in precedenza e anche altri (per non parlare del Blade..). |
Altre artefatti sono le distorsioni del suono; avvengono principalmente quando il volume è troppo alto o quando ci sono artefatti nelle alte frequenze (capita a 128-160-192kbps |
quando non viene usato alcun lowpass)
|
Ath |
Ath è il livello di udibilità (Absolute Treshold of Hearing). |
Determina la quantità di suoni da mantenere perchè
udibili, e quelle da scartare (eliminare).
|
Header |
L'header contiene i dati sui frame mp3. Ogni header contiene informazioni su un certo numero di frame. |
Bene, per adesso è tutto. In seguito aggiungerò qualche altra cosa e correggero ciò che non va bene. |
Se avete letto tutta questa pagina e ne siete usciti indenni... che dire, complimenti per il coraggio! |
A parte gli scherzi, spero che anche questa guida sia
utile.
Alla prossima! |
Torna alla pagina precedente |