txt2sound :: a new audio interaction with the written words by e.g.ø

txt2sound
una nuova interazione sonora con la parola scritta basata sulla forma grafica delle lettere.

::introduzione::

::funzionamento::

::concetto::

::algoritmo::

::conclusione::

::bibliografia::

Introduzione

Il lavoro svolto da egø per con|text è un algoritmo per produrre suoni partendo da un testo scritto (in formato immagine). L'algoritmo si basa sul funzionamento dell'optophone¹ ripreso successivamente da P.B.L. Meijer (si veda [4]). egø, quando ha pensato l’algoritmo, non conosceva l’esistenza dell’optophone e del lavoro dell’ing. Mejer, comunque per questa occasione lo ripropone nel contesto di questa mostra senza volersi appropriare di idee altrui.

A work by e.g.ø for con|text at stasisfield.com.
Contacts
Artspace
Copyleft info
May 2002.

Il funzionamento

Si parte da un'immagine che contiene il testo scritto: l'algoritmo svolge una mappa dell'immagine dal dominio delle frequenze spaziali a quello delle frequenze udibili secondo la relazione mostrata in figura. L'asse verticale è l'asse delle frequenze audio udibili (qui va da 0 a 11Khz) mentre l'asse orizzontale è il tempo.

Consideriamo una colonna dell'immagine: essa sarà composta da valori tra 0 ed 1 a seconda che i pixel siano bianchi (zero) o neri (uno)². Il pixel più in basso nella colonna corrisponderà alla frequenza più bassa mentre il pixel più in alto alla più alta. L'algoritmo quindi, partendo dalla colonna dell'immagine considerata, effettua una somma delle varie sinusoidi relative ad ogni pixel associando a ciascuna sinusoide l'ampiezza del corrispondente pixel (da zero ad uno). Ad esempio in una barra verticale | la colonna è costituita da tutti pixel uguali ad uno: si tratterà quindi di una sovrapposizione di tutte le sinusoidi con le frequenze utilizzate secondo la formula:

che produrrà quindi un rumore bianco (il rumore bianco infatti è costituito dalla sovrapposizione incorrelata di tutte le frequenze). Se invece l'immagine contenesse una riga orizzontale _ si sentirebbe solo la frequenza corrispondente a quella riga. La mappa creata tra il testo e i suoni è una mappa lineare e ciò è dovuto alle proprietà della trasformata di Fourier utilizzata nell'algoritmo (l'operatore sommatoria è lineare; [6]). Pertanto, dal suono generato dal testo, siamo in grado di riacquisire il suo originario significato, di recuperare quindi le informazioni codificate in questo nuovo modo attraverso l'uso di uno spettrografo ³.

Come funziona l'algoritmo.

Il concetto

Solo l'aspetto "grafico" delle parole, le singole lettere, il segno, determinano una diversa percezione uditiva intendendo questo metodo di codifica come una specie di codice morse non più limitato al pulsare di una singola frequenza, ma esteso a tutte le frequenze udibili. Se già Gadamer diceva che "nello scritto si afferma il distacco del linguaggio dal suo effettivo esser parlato" [1], ora le parole, le lettere non sono più legate ai suoni della cultura passata [3], non esistono più i suoni "labiali", "gutturali", "dentali" ecc... il tutto si sposta verso un suono, che Perniola definirebbe inorganico ("i suoni gli spazi gli oggetti le parole: quando sono sottratti all’utilità essi acquistano un aspetto indeterminato e più fresco, più splendente" [2]). Un suono quindi calcolato, ragionato, al di fuori della persona, riducendo le singole parole a suoni puri, a sovrapposizioni di sinusoidi. L'ascolto di parole come MAMA [mp3], LOVE [mp3], SEX [mp3], ART [mp3], KILL [mp3] trasformate nel loro nuovo suono può lasciarci disorientati; non siamo più in grado di riconoscere tali parole, tali suoni a noi ben noti e immediatamente associati a delle particolari sensazioni. Anche i segni matematici antipodali carichi di infiniti simbolismi come il "+" [mp3] ed il "-" [mp3] ora diventano praticamente identici. Paradossalmente solo lo spazio vuoto, il nulla, con tutto il suo simbolismo, rimane tale con il suo significato immutato e riesce quindi ad indicarci ancora una via, riesce ad orientarci nell'ascolto di questi nuovi suoni.

"Nello scritto si afferma il distacco del linguaggio dal suo effettivo esser parlato".

Hans-Georg Gadamer

L'algoritmo

Vediamo ora come funziona l'algoritmo utilizzando uno pseudocodice [5] (le implementazioni funzionanti ovviamente cambiano a seconda del linguaggio utilizzato):



1. col[] = getColumnFromImage();  // col[] is a vector containing the pixels 
				  // values of the column.

2. a[] = [flip(col[]), col[]];    // the column is extended with even symmetry 
				  // to be computed in the FFT algorithm.

3. a[] = randomComplexNumbers[]*a[];  // the element in the vector for the FFT
				      // computation must have random phases
				      // (randomComplexNumber[] is a vector of random 
				      // complex numbers whose absolute value is one). 
				      // Random phase is needed because we want the 
				      // different sines to be uncorrelated (otherwise, for 
				      // example, white noise can't be built).

4. x[] = iFFT(a[]);	// inverse fft algorithm (from frequency to time domain).
			// now x contains the audio signal.

...e questi quattro passi sono ripetuti per ogni colonna dell'immagine.

Conclusione

Infine, un famoso aforisma del poeta Paul Claudel scelto per questo contesto, riassume e conclude quest'opera di egø.

The poem is not made from these letters that I drive in like nails,
but of the white which remains on the paper.

Paul Claudel ^mp3

(Traduzione inglese trovata sul web. L'originale francese era: "O mon âme! Le poème n’est point fait de ces lettres que je plante comme des clous, mais du blanc qui reste sur le papier", in italiano: "O anima! Non sono poesia le lettere che pianto come chiodi, ma il bianco che rimane sulla carta").

"Non sono poesia le lettere che pianto come chiodi, ma il bianco che rimane sulla carta".

Paul Claudel

Bibliografia

[1]. Hans-georg Gadamer "Verità e metodo" ed. Studi Bompiani 1983 (pp. 441-490).
[2]. Mario Perniola "Il Sex appeal dell’inorganico" ed. Einaudi 1994, pp. 82-89 (pp. 162-168).
[3]. Adrian Frutiger "Segni & Simboli" ed. Stampa alternativa/Graffiti 1998 (pp. 121-133).
[4]. P.B.L. Meijer, "An Experimental System for Auditory Image Representations", IEEE Transactions on Biomedical Engineering, Vol. 39, No. 2, pp. 112-121, Feb 1992. Available on the web here. Check also his project "the vOICe".
[5]. homas H. Cormen, Charles E. Leierson, Ronald L Rivest "Algorithms" MIT press 1990(pages 1-20, 776-800).
[6]. Alan V. Oppenheim, Ronald W. Schafer "Discrete-Time Signal Processing" Prentice Hall1999 (pages 541-575, 629-650).

All work by e.g.ø. 2002. Copyrighted come dichiarato nella GNU General Public License che in questo caso significa:
nessun copyright, ma citate la fonte se intendete usare il materiale.

¹ L'idea dell'optophone (per mostrare le immagini attraverso i suoni) è nata all'inizio del 1900 e il primo optophone funzionante fu costruito nel 1912. Maggiori informazioni possono essere trovate qui.
² Normalmente un'immagine codifica lo zero con il nero e l'uno col bianco, qui la codifica e' stata ribaltata per ovvie ragioni.
³ uno spettrografo permette di visualizzare il suono come nell'immagine sopra. Se vai qui trovi puoi scaricare uno spettrografo shareware per windows.