Come primo passo si è deciso di realizzare un prototipo unicast che prevedesse la possibilità di sfruttare appieno la scalabilità offerta dal codec permettendo di variare il bit-rate, come protocollo di trasporto si è scelto di utilizzare RTP su UDP. Mentre UDP e TCP sono implementati direttamente nel sistema operativo e quindi le loro funzioni sono accessibili tramite primitive di sistema (le socket), RTP è un protocollo di livello applicazione e quindi deve essere implementato dall'applicazione che lo vuole utilizzare. Dopo una serie di ricerche in rete si è scelto di utilizzare la libreria JRTPLIB4.2 per la sua semplicità d'utilizzo, la disponibilità su diverse piattaforme e la comprensibilità del codice di sorgente.
Sono state realizzate due applicazioni, un server ed un client, il primo si occupa di leggere le frame non codificate da disco, codificarle e trasmetterle sulla rete, il client invece riceve queste frame le decodifica e le visualizza in una finestra, riproducendo quindi la sequenza video. Per motivi di semplicità si è deciso di trasmettere ogni frame codificata in un unico pacchetto, mentre le frame di tipo (k - 1)*4 + 1 e (k - 1)*4 + 3 vengono spedite insieme in un unico pacchetto in quanto appartenenti allo stesso layer temporale4.3.
Per il client è stata realizzata l'interfaccia grafica mostrata in figura .
Sulla destra si possono vedere tre menu a scomparsa tramite i quali è possibile impostare i parametri di codifica. Si è deciso, infatti, di scegliere i parametri dal client (che in questo modo può decidere la qualità della sequenza che riceverà). In basso invece è possibile inserire l'indirizzo IP del server (per semplicità il numero di porto sul quale il server si mette in ascolto è fisso) nella classica notazione decimale puntata. Si può notare inoltre una casellina recante la scritta Attiva Zoom, selezionandola le dimensioni dell'immagine visualizzata vengono raddoppiate, senza però richiedere ulteriori layer codificati, in altre parole attivando questa casella si raddoppiano semplicemente le dimensioni dell'immagine (effettuando anche una semplice interpolazione dei pixel) senza modificare il tasso. Nella tabella sono mostrati i valori che i parametri di codifica possono assumere.
|
Una volta inseriti questi parametri cliccando sul pulsante Start si avvia la comunicazione tra client e server. In un primo momento viene stabilita una connessione TCP grazie la quale il client comunica al server i parametri di codifica, il server inizia a codificare la sequenza assecondando i parametri ricevuti e spedisce le frame codificate al client, questa volta però in pacchetti RTP. Il server quindi costruisce i pacchetti RTP apponendo i giusti timestamp e numeri di sequenza. Il marker bit contenuto nell'header di RTP viene usato per segnare le frame con codifica intra.
Il client riceve questi pacchetti ne decodifica il payload e mostra le frame decodificate in una nuova finestra, mentre nella finestra principale viene diagrammato l'andamento del tasso istantaneo impegnato dalla trasmissione.
Il tasto Vedi Info, permette di accedere alle informazioni sull'altro host partecipante alla sessione, in particolare sono mostrate tutte le informazioni trasmesse tramite i pacchetti SDES del protocollo RTCP (vedi figura ). Delle informazioni mostrate solo il CNAME è obbligatorio, quindi possono capitare situazioni nelle quali tutti i campi sono vuoti tranne quello del CNAME.
Alla fine della trasmissione, nelle console in cui si sono stati lanciati gli eseguibili (il client ed il server) appaiono le informazioni riassuntive sulla sessione. I dati sono estratti dai report ottenuti grazie al protocollo RTCP, per cui mentre nel form di info venivano mostrati i dati SDES, in queste schermate vengono mostrati i dati dei sender report e dei receiver report. In particolare, essendo in questo caso ben distinti il ruolo di trasmettitore e ricevitore, si può vedere come dal lato server siano giunti sono receiver report mentre dal lato client solo sender report. Di seguito si mostra ad esempio un report ottenuto dal lato server.
* Informazioni sulla sorgente *
- - - - - - - - - - - - - - - - - - - - -
SSRC :1652890298
Ci sono pacchetti accodati :NO
TimeStamp unit :4e-05
- - - - - - - - - - - - - - - - - - - - -
Non ci sono SenderReport
- - - - - - - - - - - - - - - - - - - - -
Ci sono ReceiverReport
Fract. lost :0
Packet lost :0
Highest sn :41941
Jitter :12967 tsu
Last SR Timestamp :1515784184
SR Delay :63069
- - - - - - - - - - - - - - - - - - - - -
CNAME :ant@Nemesis
- - - - - - - - - - - - - - - - - - - - -
Info locali
Pacchetti ricevuti:0
Base seq. num. :0
Highest seq. num. :0
Jitter :0 tsu
- - - - - - - - - - - - - - - - - - - - -
RoundTripTime :13606.4 ms
*****************************************
Mentre dal lato client si è ottenuto il seguente report:
* Informazioni sulla sorgente *
- - - - - - - - - - - - - - - - - - - - -
SSRC :1788247824
Ci sono pacchetti accodati :NO
TimeStamp unit :4e-05
- - - - - - - - - - - - - - - - - - - - -
Ci sono SenderReport
Last Timestamp :2860123955
Packet Count :541
Byte Count :921959
- - - - - - - - - - - - - - - - - - - - -
Non ci sono ReceiverReport
- - - - - - - - - - - - - - - - - - - - -
CNAME :ant@Nemesis
- - - - - - - - - - - - - - - - - - - - -
Info locali
Pacchetti ricevuti:542
Base seq. num. :41399
Highest seq. num. :41941
Jitter :12967 tsu
*****************************************
Di seguito vengono illustrate le tecniche che sono state impiegate nella progettazione del client e del server per la gestione della sincronizzazione, il recupero dalle perdite, ecc.
Il codec utilizzato prevede due modalità di codifica, la codifica intraframe, secondo la quale l'immagine viene codificata esclusivamente mediante la quantizzazione vettoriale, e la codifica interframe, che si ottiene applicando il conditional replenishment. La prima frame deve necessariamente essere codificata in modo intra, visto che le successive frame codificate in modo inter la usano come riferimento.
Tuttavia non è sufficiente codificare una sola frame in modalità intra, infatti con l'andare del tempo la qualità della sequenza riprodotta tende a decadere a causa del fatto che, ad esempio, le zone in cui i cambiamenti dell'immagine sono ridotti (lo sfondo), in dipendenza dalla soglia del CR, potranno essere non aggiornate per lunghi periodi.
Per questo motivo si è deciso di produrre periodicamente (ogni 4 secondi, ma questo parametro può essere variato in modo semplice) una frame con codifica intra, che ripristini la qualità massima della riproduzione. In particolare la frame con codifica intra ha sempre un indice del tipo k - 1*4 + 4 con k = 25, 50, 75.... La scelta è ricaduta sulle frame del tipo k - 1*4 + 4 perché sono le uniche ad essere sempre ricevute, indipendentemente dal livello di scalabilità a cui ci si pone.
A tal proposito in figura viene mostrato un esempio dell'andamento del PSNR, dove si può notare come in corrispondenza della ricezione delle frame con codifica intra (sono quelle numerate 50, 100 e 150, in quanto in questo caso il frame rate era quello medio, ovvero la metà di quello massimo) si hanno dei picchi nel valore del PSNR.
Avere delle frame con codifica intra inoltre aiuta nella realizzazione di altri due compiti che sono l'error concealment e la sincronizzazione, che vengono spiegati di seguito. É chiaro che tutto questo ha un costo, ovvero il tasso risulterà incrementato e soprattutto mostrerà una variabilità notevole (come si può vedere in figura , dove viene mostrato l'andamento del tasso istantaneo prodotto dal codec nel caso di frame rate minimo risoluzione enhanced e 8 bit per gli indici)
Per quanto si possa regolare il tasso, inevitabilmente in una sessione si avrà la possibilità di perdere dei pacchetti, e il client deve essere quindi preparato per questa evenienza. Bisogna inoltre considerare che le frame sono codificate secondo un preciso schema sequenziale mostrato in figura , un'analogo schema ovviamente è deducibile anche per la decodifica.
Il problema sta nel fatto che non tutte le frame sono codificate allo stesso modo, ci sono le frame con codifica intra e quelle con codifica inter, inoltre queste ultime a loro volta si distinguono in frame con CR unidirezionale (le frame del tipo k - 1*4 + 4 e con k = 1, 2, 3...) e quelle con CR bidirezionale (quelle del tipo k - 1*4 + 1, k - 1*4 + 2 e k - 1*4 + 3 con k = 1, 2, 3...). Quindi ogni frame va indirizzata al giusto blocco di decodifica.
La tecnica implementata è molto semplice: se indichiamo con numseq il numero di sequenza del pacchetto appena ricevuto e con oldnumseq quello dell'ultimo pacchetto ricevuto in ordine, bisogna verificare se numseq = oldnumseq + 1, nel qual caso non ci sono state perdite e quindi il payload può essere correttamente decodificato. Se invece la condizione non è verificata vuol dire che c'è stata una perdita oppure è arrivata una frame fuori ordine, quindi il payload non viene decodificato ma semplicemente si utilizza come frame l'ultima decodificata con successo. A questo punto si avanza di un unità oldnumseq e ci si sposta sul successivo blocco di decodifica, se era arrivata una frame fuori ordine questa viene scartata e si riceve una frame nuova, si ripete il controllo e si continua in questo modo finché il controllo non risulta verificato, il che significa che la frame può essere correttamente decodificata.
Bisogna osservare che per la decodifica delle frame con CR si deve ricorrere alle frame precedenti (alcuni blocchi vengono sostituiti con quelli di queste frame di riferimento), questo implica che quando si verifica una perdita verranno usate come frame di riferimento delle frame sbagliate e quindi, anche avendo ricevuto correttamente un nuovo pacchetto, la frame decodificata sarà caratterizzata da una scarsa qualità. Tuttavia proprio grazie al funzionamento del conditional replenishment questo effetto tende ad attenuarsi se si ricevono nuove frame, infatti le zone in cui si è avuta attività sono presenti nella frame codificata e non richiedono il riferimento e quindi la loro decodifica è corretta, l'errore persiste in quelle zone in cui l'attività non è così forte da richiedere la trasmissione del blocchetto codificato.
Questo porta ad una sorta di effetto memoria, cioè anche se si continua a ricevere correttamente i pacchetti alcune zone resteranno ``sporche''. Però c'è anche da dire che non appena sarà ricevuta una frame con codifica intra questo errore sarà azzerato in quanto tutti i blocchetti verranno codificati. Da una parte quindi aumentare il periodo di trasmissione delle frame intra consente di contenere il tasso di trasmissione, dall'altra però ridurre tale periodo consente di avere una qualità media superiore.
La figura mostra una situazione in cui si è verificata una perdita di pacchetti (questa evenienza è evidenziata dalle linee verticali tratteggiate), è evidente la caduta verticale del PSNR in questi casi, tuttavia le cose migliorano nettamente alla ricezione di frame con codifica intra (linee verticali continue). Tuttavia, si può notare che buona parte della qualità viene recuperata anche senza la ricezione di frame con codifica intra, questo è probabilmente imputabile al funzionamento stesso del conditional replenishment, come accennavamo sopra. Le zone in cui c'è una forte attività sono quelle sulle quali il CR fallisce e che quindi devono essere trasmesse, la loro ricezione permette di annullare i disturbi dovuti alle perdite, almeno nelle zone in movimento. Si può quindi affermare che già il solo conditional replenishment fornisce una certa robustezza nei confronti delle perdite, le zone in cui l'attività è bassa (laddove quindi il CR ha successo) resteranno però corrotte, il loro corretto ripristino è possibile solo ricevendo una frame con codifica intra, che quindi permette di ristabilire pienamente la qualità della riproduzione.
Nel prototipo unicast la trasmissione inizia quando il server riceve un opportuno segnale di start da parte del client, quindi si potrebbe pensare che i due host siano già sincronizzati, in realtà ci sono almeno due situazioni in cui questo non è vero.
Anche in questo caso quindi risulta determinante il fatto di spedire periodicamente una frame con codifica intra; risulta inoltre evidente che quanto minore è il periodo di trasmissione di queste frame tanto meno tempo sarà necessario per la sincronizzazione, ma allo stesso tempo tanto più alto sarà il tasso di trasmissione.
Come visto in precedenza, il prototipo unicast permette di scegliere praticamente qualsiasi combinazione possibile dei parametri di codifica, questo ci ha permesso di sottoporlo ad una serie di prove sul campo per cercare di capire i modi migliori per sfruttare l'algoritmo di codifica.
Il codec è dotato di tre diversi tipi di scalabilità. Questo lo rende, in teoria, adattabile a diversi tipi di linea, infatti, note le caratteristiche di banda del collegamento sarà possibile scegliere il valore dei parametri caratteristici al fine di ottenere il bit-rate più adeguato.
In una prima serie di prove è stato semplicemente valutato l'andamento del tasso istantaneo del PSNR e il valore del tasso medio al variare dei parametri di codifica. In questo caso le prove sono state effettuate trasmettendo su un collegamento con la capacità di 2 Mbit/s.
In una seconda serie di prove invece si è agito in modo differente, il sistema è stato testato su una linea della quale era possibile variare la capacità, e quindi per diversi valori fissati si è cercato di determinare quali valori dei parametri di codifica dessero il migliore compromesso in termini tasso e qualità, in questo caso è stato rilevato anche il numero di pacchetti persi.
La configurazione utilizzata è mostrata in figura .
Sul computer altair.router-test.cnit.it è stato installato il server, mentre su corcaroli.labnet.cnit.it il client. Il percorso che collega le due macchine passa attraverso gli switch LAN, i router e lo switch ATM. Come si vede dalla figura quest'ultimo è collegato ai router mediante delle linee seriali a 2Mbit/s. Il protocollo di comunicazione usato su questi collegamenti è in realtà Frame Relay, infatti lo switch ATM è in grado di gestire tanto Frame Relay che ATM (salvo poi effettuare internamente comunque una conversione verso ATM).
Tramite il software di controllo dello switch è possibile modificare le caratteristiche del collegamento, in particolare è possibile fissare il bit-rate4.4. Partendo quindi da un massimo di 2053 kbit/s (4844 celle/s) è possibile diminuire tale valore fino ad arrivare a 73 kbit/s (173 celle/s) con passi di 73 kbit/s (173 celle/s).
La riduzione della capacità del collegamento è resa possibile dal fatto che internamente lo switch ATM scarterà alcune celle (nel caso in cui il flusso di ingresso dovesse avere un bit-rate superiore a quello fissato) abbassando di fatto il bit-rate in uscita. E' chiaro che se il flusso ha un tasso medio al disotto del limite, ma presenta dei picchi nel bit-rate che superano quest'ultimo, subirà comunque delle perdite in quanto ovviamente il controllo viene fatto sul bit-rate istantaneo.
Agendo sui router è invece possibile cambiare la MTU (Maximum Transmission Unit), cioè la dimensione massima di un pacchetto IP che viaggia su quel link. Quindi se un pacchetto IP dovesse avere dimensione maggiore della MTU verrà frammentato in tanti pacchetti IP4.5 ciascuno di dimensione al massimo pari alla MTU. Qualora anche uno solo di questi ``frammenti'' si dovesse perdere, tutto il pacchetto IP iniziale andrà perso (è noto che IP è un protocollo best-effort, non gestisce le ritrasmissioni). Questo fenomeno a parità di capacità del collegamento può influenzare il numero di pacchetti persi end-to-end, e quindi è da tenere in conto. Tuttavia per non introdurre troppe variabile si è preferito mantenere questo parametro fisso al valori di 1500 byte.
In questo caso si è cercato di studiare il comportamento del codificatore al variare dei parametri di codifica. La capacità della linea è stata fissata al valore massimo possibile e cioè 2053 kbit/s ( 2 Mbit/s). Per ogni coppia di valori [frame rate , risoluzione] si è fatto variare il numero di bit usato per gli indici tra 4 e 8 bit. Utilizzare meno di 4 bit produce dei risultati molto scadenti da un punto di vista qualitativo e per questo tali combinazioni non sono state prese in considerazione.
Per ogni possibile combinazione sono stati calcolati il tasso istantaneo (medio, minimo, massimo e deviazione standard) il PSNR (medio, minimo, massimo e deviazione standard) e l'overhead (percentuale dello spazio del pacchetto occupato dagli header) medio dovuto alla pacchettizzazione. I primi due valori sono di chiara interpretazione, di seguito invece viene spiegato in che modo è stato calcolato l'overhead.
Le frame codificate, prima di essere spedite a destinazione, vengono inserite in un pacchetto RTP dal livello applicazione, al livello trasporto tale pacchetto viene incapsulato in uno UDP che a sua volta è incapsulato in un pacchetto IP al livello rete. Ogni livello quindi aggiunge un proprio header al pacchetto producendo quindi un incremento dell'overhead. L'header di RTP (nel caso in cui ci sia un'unica sorgente, cioè nel caso in cui il pacchetto non sia prodotto da un mixer) è costituito da 12 byte, quello di UDP da 8 byte, e quello di IP da 20 byte. Quindi saremmo portati a pensare che per ogni pacchetto c'è un overhead di 12+8+20 = 40 byte. In realtà non è così semplice, infatti bisogna tener conto anche del fatto che a livello IP può avvenire una frammentazione del pacchetto se quest'ultimo ha dimensioni maggiori della MTU.
In questo caso avremo il primo frammento che avrà un header RTP uno UDP ed uno IP, mentre i successivi frammenti avranno solo l'header IP4.6, la figura mostra un esempio. La somma dei payload degli N pacchetti restituisce il payload originario.
É chiaro quindi che solo il primo frammento avrà un overhead di 40 byte mentre gli altri avranno un overhead di 20 byte. Quindi per valutare l'overhead (in percentuale sul numero totale di byte ricevuti) medio sui pacchetti ricevuti si è usata la seguente espressione:
Tenere conto della frammentazione fa sì che l'andamento dell'overhead non sia necessariamente monotono con le dimensioni del pacchetto (e quindi ad esempio con il numero di bit) come ci si potrebbe aspettare.
I dati relativi al PSNR, ottenuti a risoluzione base sono riportati nelle tabelle , , .
|
|
|
In figura sono riassunti i dati relativi all'andamento del PSNR medio nel caso di risoluzione base. Si può notare che il PSNR risulta ovviamente decrescente al diminuire del numero di bit utilizzati per gli indici, inoltre il passaggio da 5 bit a 4 bit porta un peggioramento più sensibile rispetto agli altri casi.
É anche interessante notare che il PSNR, anche se lievissimamente, risulta crescente al decrescere del frame rate, questo fenomeno è dovuto probabilmente al fatto che l'utilizzo del CR bidirezionale produce immagini ricostruite di qualità peggiore rispetto a quelle ricostruite con il CR unidirezionale (ovviamente però si ha un guadagno in termini di fattore di compressione). Infatti a frame rate min si utilizza un unico layer temporale, e le immagini sono tutte codificate con CR unidirezionale, il passaggio a frame rate med e max lo si ottiene aggiungendo gli altri due layer temporali, in questi layer si utilizza esclusivamente il CR bidirezionale. Oltre a questo va anche tenuto in conto che, a frame rate min, la percentuale di frame con codifica intra è maggiore.
Nelle tabelle , e
sono riportati i dati relativi al valore del tasso rispettivamente nel caso
di frame rate massimo, medio e minimo. Si può notare che il traffico prodotto
ha una notevole variabilità, e quest'ultima risulta crescente con il tasso come
si può capire dall'andamento della deviazione standard.
|
|
|
I dati relativi al tasso medio per i tre valori di frame rate sono riassunti nella figura , questa mostra che ovviamente al diminuire del numero di bit il tasso medio decresce, tuttavia si può anche notare che la pendenza della curva è più marcata nel caso di frame rate massimo che non negli altri due casi. In altre parole, la variazione percentuale del tasso medio al variare del numero di bit è più piccola nel caso di frame rate medio o minimo, questo rende di fatto poco conveniente agire sul numero di bit in tale situazione
Per concludere l'analisi delle prestazioni a livello base riportiamo i dati
relativi all'overhead nelle tabelle ,
e .
|
|
|
I dati dell'overhead sono riassunti in via grafica nella figura .
Di seguito vengono analizzati i dati relativi al livello di risoluzione enhanced.
Le tabelle , e
riportano i valori assunti dal PSNR per i tre valori possibili del frame rate.
|
|
|
|
|
|
Per concludere vengono mostrati i dati relativi all'overhead (tabelle , e ). Dalla lettura dei dati si nota un differente andamento rispetto a quello osservato a livello base, questo comportamento è ancora più evidente osservando la figura .
|
|
|
In questa seconda serie di prove si è cercato di stabilire quale fosse il modo migliore di agire sui parametri di codifica al fine di adattare il tasso alla capacità della linea.
Sono stati adottati cinque diversi valori di capacità corrispondenti ai valori disponibili su alcune reti di accesso comuni (tabella )
|
Inoltre si è potuto osservare che agire sul numero di bit è poco efficace in quanto la riduzione del tasso è tutto sommato contenuta. Molto più efficace risulta invece agire sul frame rate, considerando anche che il PSNR medio in questo modo risulta praticamente invariata, è ovvio che la scelta dipende anche dall'applicazione a cui ci rivolgiamo, nel caso di videoconferenza anche il frame rate minimo risulta più che sufficiente per avere una buona comprensibilità della sequenza, se invece si vuole riprodurre una sequenza più dinamica probabilmente avere un frame rate basso è troppo limitante.
Per ogni valore della capacità della linea si è cercato di determinare una o più combinazioni che ottimizzassero la trasmissione, ovvero che minimizzassero le perdite tenendo conto anche della qualità della sequenza. La qualità (spaziale) delle singole frame può essere valutata in modo oggettivo tramite il PSNR, ed il PSNR medio rappresenta quindi efficacemente la sola qualità spaziale, non tiene in conto in alcun modo della qualità temporale della sequenza, ovvero della diversa gradevolezza che si può riscontrare aumentando o riducendo il frame rate. Il modo migliore per valutare questo qualità è attraverso parametri soggettivi, e questo è quanto è stato fatto anche se nella tabella , dove vengono riassunti i risultati, viene riportato esclusivamente il PSNR medio. In ogni scelta si è cercato di dare un peso eguale tanto al valore del PSNR (quindi misura oggettiva) che alla gradevolezza riscontrata nella riproduzione (misura soggettiva).
|
Per confermare ulteriormente queste sensazioni si è misurato il PSNR della sequenza zoomata (in confronto all'immagine originale di 360×288 pixel) per poterlo confrontare con quello dell'immagine di livello enhanced. Per garantire le stesse condizioni questo calcolo è stato effettuato utilizzando il frame rate minimo (tabella ).
|
|