L'istruction per la sostituzione di stringa

Inizio Sezione

Concetti generali

Prima di vedere l'istruction per la sostituzione delle stringhe conviene definire alcuni concetti generali.

La stringa è una sequenza finita di caratteri.
La riga caricata nel pattern space può quindi essere considerata, nella sua interezza, come una stringa.
La riga può essere suddivisa, arbitrariamente, in parti; ciascuna parte è a sua volta una stringa, o meglio una sottostringa della stringa principale
L'istruction di sostituzione consente di sostituire l'intera riga, o solo una sua porzione, con un altra sequenza di caratteri e quindi con un altra stringa.
L'istruction di sostituzione deve almeno fornire un modo per definire quale sia la stringa di caratteri da sostituire e quale sia la stringa di caratteri con cui sostituire.
L'istrucrions di sostituzione manipola la riga caricata nel pattern space.
Le manipolazioni sono effettuate solo se la riga sul pattern space corrisponde all'eventuale adress dello script a cui l'istruction appartiene.

Inizio Sezione

L'istruction s/pattern/replacement/flag: sintassi generale

La sintassi generale dell'istruction di sostituzione è la segunete:

Sintassi generale dell'istruction di sostituzione

s/pattern/replacement/flag

Il carattere s rappresenta il simbolo dell'istruction di sostituzione.

I caratteri / rappresentono i simboli di delimitazione delle varie parti dell'istructions.

Il pattern serve per individuare quale sia la stringa da sostituire (l'intera riga del pattern space o una qualsiasi sottostringa di essa).

Il replacement rappresenta la sequenza di caratteri che sostituisce la stringa individuata con pattern.

flag sono delle opzioni facoltative che definiscono particolari modalità di ricerca o di sostituzione delle stringhe, oppure particolari modalità di comportamento di SED quando la sostituzione è andata a buon fine.

Inizio Sezione

L'istruction s/pattern/replacement/flag: i delimitatori

La scelta del carattere / come delimitatore delle varie parti dell'istruction è convenzionale: il carattere di delimitazione può, quindi, essere cambiato.

Il carattere scelto come delimitatore è quello che compare immediatamente dopo al simbolo s; i delimitatori devono essere necessariamente tre:

quello subito dopo il simbolo s
quello che conclude il pattern
quello che conclude il replacement

Esempio: Usare il simbolo % come delimitatore

s%pattern%replacement%flag

In questo caso come delimitatore si è utilizzato il simbolo %.

Inizio Sezione

L'istruction s/pattern/replacement/flag: il pattern

Il pattern è un modello regexp; le regular expression consentono di individuare e selezionare delle sottostringhe da una stringa ricevuta come input.

La stringa di input è l'intera riga caricata sul pattern space.

Attraverso il linguaggio simbolico delle regular expression è possibile descrivere un modello con il quale sarà selezionata la sequenza di caratteri da sostituire.

La sequenza di caratteri trovata attraverso il modello regexp può corrispondere all'intera riga memorizzata nel pattern space, oppure solo ad una parte di essa, cioè ad una sottostringa della stringa di input.
Nel primo caso la sostituzone comporterà la modifica dell'intera riga nel pattern space, la quale sarà quindi completamente diversa da quella esistente prima della sostiuzione.
Nel secondo caso invece la sostituzone riguarderà solo la sequenza di caratteri parziale corrispondente al modello e quindi la riga nel pattern space, dopo le sostituzioni, avrà delle parti modificate e delle parti non modificate.

Quando il modello regexp è progettato per selezionare solo sottostringhe della riga nel pattern space, l'invio allo standard output, dopo la sostituzione delle parti selezionate, coinvolge in ogni caso l'intera riga nel pattern space, comprese le parti non modificate.

Di questo comportamento bisognerà tener conto quando si progetta il pattern dell'istruction s, in quanto, se si ha la necessità di selezionare e sostituire l'intera riga nel pattern space, si dovranno utilizzare il metacarattere ^ e il metacarattere $ per ancorare la corrispondenza all'inizio e alla fine della riga nel pattern space.

Esempio: Selezionare e sostituire l'intera riga nel pattern space

s/^.\{1,\}$/raplacement/

Con questa istruction sono selezionate interamente le righe non vuote, che saranno sostituite con replacement; la sostituzione non riguarda il terminatore di riga, che sarà automaticamente aggiunto quando il pattern space è inviato allo standard output.

Esempio: Selezionare e sostituire una sottostringa della riga nel pattern space

s/"[^"]\{1,\}"/replacement/

Questa istruction individua, seleziona e sostiuisce una sottostringa del pattern space; la sottostringa sarà selezionata e sostituita se è composta da un carattere ", seguito da uno o più caratteri qualsiasi che non siano un ", a sua volta seguiti da un secondo carattere "; l'invio allo standard output, invece, riguarderà l'intero pattern space e quindi anche delle parti non sostituite.

Ovviamente se nessuna sottostringa con quelle caratteristiche esiste nel pattern space, nessuna sostituzione sarà effettuata e l'invio allo standard output riguarderà l'intero pattern space (salva la soppressione dell'aoutput automatico).

Inizio Sottosezione

Il pattern di ricerca e l'adress di tipo regexp: relazioni

L'utilizzo dell'istruction s, con il relativo pattern regexp, può convivere con un adress di tipo regexp.

In tal caso, l'azione di ricerca, selezione e sostituzione è operata solo sulle righe del pattern space che, preliminarmente, realizzano una corripondenza con l'adress di tipo regexp dello script che contiene l'istruction s

Esempio: Adress espressione regolare e istruction di sostituzione

/^#/s/"[^"]\{1,\}"/rplacement/

Lo script SED sopra riportato ha un adress di tipo regexp /^#/ e una istructions di sostituzione di stringa s/"[^"]\{1,\}"/rplacement/.

La ricerca e la sostituzione della sottostringa corrispondente a "[^"]\{1,\}" viene iniziata solo se la riga caricata nel pattern space corrisponde all'adress di tipo regexp /^#/, cioè in tal caso, solo se la riga ha come primo carattere un #.

Quello che è importante capire è la differente funzione dell'adress di tipo regexp rispetto alla regexp del pattern di una istructions di sostituzione.

La regexp di un adress serve per selezionare la riga su cui saranno applicati le istructions collegate al medesimo adress (che possono essere istructions di sostituzione, ma anche istructions di altro tipo).

La regexp di una istructions di sostituzione serve per individuare quale porzione della riga caricata sul pattern space sarà sostituita con la stringa di replacement.

Inizio Sezione

L'istruction s/pattern/replacement/flag: il replacement

La parte replacement dell'istruzione di sostituzione rappresenta la stringa con cui sostitutuire la sottostringa trovata con il pattern.

Esempio: Una semplice sostituzione

sed -e 's/ UNIX /Unix system/' miofile.txt

In questo caso la prima occorrenza di una sottostriga composta dalla sequenza di caratteri ' UNIX ' (i singoli apici non fanno parte della sottostringa) viene sostitutita con la stringa Unix system.

In generale i caratteri della stringa di raplacement corrispondono a se stessi, anche se SED mette a disposizione dei metacaratteri che hanno dei significati speciali.

Inizio Sottosezione

Il metacarattere &

Il metacarattere & corrisponde all'intera sottostringa trovata con il pattern di ricerca.

In pratica SED nella stringa di replacement, al posto del simbolo &, inserisce l'intera sottostringa trovata con il pattern regexp.

Tale metacarattere è utile per realizzare una sostituzione che comporta un inserimento di una stringa arbitraria prima o dopo la stringa trovata con il pattern.

Esempio: Aggiungere una stringa dopo la stringa selezionata con il pattern

sed -e 's/ [Uu]nix /&system/' miofile.txt

Nell'esempio il pattern di ricerca trova le stringhe ' Unix ' o ' unix ' (i singoli apici non fanno parte della sottostringa); su di esse SED opera una sostituzione ripetendo la stringa trovata grazie al metacarattere & ed aggiungendo subito dopo di essa la stringa system; quindi se la stringa trovata è ' Unix ', la sostituzione di essa avverrà con la stringa Unix system, mentre se la stringa trovata è ' unix ', la sostituzione avverrà con la stringa unix system.

Inizio Sottosezione

Il metacarattere di escape \

Il metacarattere di escape \ serve per due scopi fondamentali:

il primo è quello di togliere il significato speciale agli altri metacaratteri, per cui, se sono precduti dall'escape, essi corrisponderanno solo a se stessi;
il secondo è quello di consentire l'utilizzo, all'interno del pattern e della stringa replacement, dei caratteri che sono stati utilizzati come delimitatori.

Esempio: Togliere il significato speciale agli altri metacaratteri

sed -e 's/Mengucci e C/Mengucci \& C/' miofile.txt

Nell'esempio il simbolo &;, proprio perchè preceduto da uno \, perde il suo significato speciale e corrisponde solo a se stesso.

Esempio: Utilizzare il carattere di delimitazione all'interno del pattern o del replacement

sed -e 's/\/tizio\//\/caio\//' miofile.txt

Il delimitatore predefinito dell'istruction s è il carattere /; se si ha bisogno di ricercare la stringa /tizio/ per sostituirla con la stringa /caio/ si devono prefissare i caratteri / della stringa nel pattern e nel replacement, con il simbolo di escape \, altrimenti SED li interpreterà come caratteri di delimitazione.

Inizio Sottosezione

Il metacarattere \N (N è un valore numerico)

Il metacarattere \N, dove N è una cifra intera, serve per ripetere nella stringa di replacement una porzione della stringa trovata grazie al pattern espressione regolare.

La cifra N indica quale porzione ripetere nella sostituzione.

L'ordine delle porzioni è determinato dall'utilizzo dei metacaratteri di raggruppamento nel pattern regexp di ricerca.

I metacaratteri di raggruppamento sono $ e $ e servono per racchiudere una parte del modello regexp utilizzato per la ricerca; la stringa corrispondente alla parte del modello regexp racchiusa dentro i metacaratteri di raggruppamento è una sottostringa dell'intera stringa trovata dall'intero modello regexp.

Esempio: Selezionare e ripetere una porzione di stringa

sed -e 's/"$[^"]*$"/@\1@/' miofile.txt

L'intero pattern di ricerca dell'esempio è "$[^"]*$" che serve a selezionare una sequenza di caratteri qualsiasi delimitata all'inizio e alla fine da doppi apici.

La parte raggruppata all'interno dei metacaratteri $ e $ è [^"]* che serve a selezionare solo l'insieme di caratteri all'interno dei doppi apici.

In tal caso la sequenza dei caratteri interna ai doppi apici è una sottostringa della medesima sequenza aggiunti i doppi apici all'inizio e alla fine.

Con il replacement del esempio, l'intera stringa trovata viene sostituita da una sequenza composta dal carattere @, seguito dalla stringa catturata dal primo raggrupamento (rappresentata dal simbolo \1), a sua volta seguita da un altro carattere @.

In concreto si sono cambiati i delimitatori di una sequenza di caratteri.

Esempio: Selezionare e ripetere due porzioni di stringa

sed -e 's/$on$ *$off$/\1-\2/' miofile.txt

In tal caso il pattern di ricerca è $on$ *$off$ e contiene due raggruppamenti: il primo contiene il modello on il secondo contiene il modello off.

Il pattern serve a selezionare la sequenza di caratteri on off, qualunque sia il numero degli spazi che separano le due parole.

Il primo raggruppamento serve per trovare e selezionare la parola on; il secondo raggruppamento serve per trovare e selezionare la parola off.

Con il replacement, l'intera stringa trovata viene sostituita con una sequenza composta dalla prima sottostringa selezionata con il primo raggruppamento (rappresentato dal simbolo \1), seguita dal carattere -, a sua volta seguito dalla sottostringa selezionata con il secondo raggruppamento (rappresentato dal simbolo \2).

Il valore di N, quindi, è scelto in relazione alla posizione nel pattern del reggruppamento a cui si vuole far riferimento.

Con il metacarattere \1 si ripete, nella stringa sostituente del replacement, la sottostringa individuata e selezionata dal primo raggruppamento nel pattern; con il metacarattere \3 si ripete, nella stringa sostituente del replacement, la sottostringa individuata e selezionata dal terzo raggruppamento nel pattern e così via.

Ovviamente se si utilizza il metacarattere \3 nel replacement, nel pattern devono esistere almeno 3 raggruppamenti, cioè tre sequenze di caratteri racchiuse fra i metacaratteri $ e $.

Inizio Sottosezione

I metacaratteri \l - \L - \u - \U - \E (GNU SED)

Il metacarattere \L attiva la conversione automatica in minuscolo dei caratteri che formano la stringa di replacement; la conversione automatica riguarda solo i caratteri che si trovano dopo il simbolo \L e non quelli prima; la conversione automatica cessa quando nella stringa di replacement è inserito il metacarattere \E oppure il metacarattere \U.

Esempio: Conversione automatica in minuscolo di parti della stringa sostituente

sed -e 's/"$[^"]*$"/@\L\1\E@/' miofile.txt

Con questo comando l'intera stringa selezionata dal pattern regexp, viene sostituita da una sequenza composta dal carattere @, seguito dalla sottostringa catturata dal primo raggrupamento del pattern regexp (rappresentata dal simbolo \1), a sua volta seguita da un altro carattere @.

La particolarità dell'esempio sta nel fatto che il metacarattere \1, che inserisce nella stringa di sostituzione i caratteri selezionati con il primo raggruppamento del pattern regexp, è preceduto dal metacarattere \L e quindi la sostituzione avverrà in ogni caso con caratteri minuscoli, anche se la stringa selezionata con il primo raggruppamento conteneva caratteri maiuscoli.

Il metacarattere \E dopo il metacarattere \1 sta ad indicare che da quel punto in poi la conversione automatica in minuscolo è disattivata.

Il metacarattere \U è speculare al metacarattere \L, soltanto che con esso viene attivata la conversione automatica in maiuscolo.

La conversione automatica, anche in tal caso, cessa quando nlla stringa di replacement viene incontrato il metacarattere \E, oppure il metacarattere \L.

Il metacarattere \E dovrebbe essere ormai chiaro, esso disattiva la conversione automatica, in minuscolo o in maiuscolo, in precedenza attivata con il metacarattere \L oppure \U.

Il metacarattere \l sta ad indicare che il carattere successivo, nella stringa di replacement, deve essere in ogni caso convertito in minuscolo; la conversione riguarda solo un carattere, cioè quello che immediatamente segue il metacarattere \l.

Esempio: Conversione automatica in minuscolo di un carattere della stringa sostituente

sed -e 's/"$[^"]*$"/@\l\1@/' miofile.txt

Subito prima del metacarattere \1, che inserisce nella stringa di replacement la porzione di stringa selezionata con il primo raggruppamento del pattern regexp, è resente il simbolo \l; ciò comporta che il primo carattere della porzione di stringa rappresentata da \1 sarà in ogni caso convertito in minuscolo, anche se esso, per ipotesi, fosse stato un carattere mauiscolo.

Il simbolo \u è speculare al simbolo \l, con l'unica differenza che il successivo carattere sarà convertito in maiuscolo.

Inizio Sottosezione

Inserire caratteri di newline nel replacement

Altra questione collegata al rplacement dell'istruction s, attiene al modo in cui si possono inserire caratteri di newline nella stringa che sostitiuisce quella trovata con il pattern.
Anche in tal caso entra in gioco il simbolo \.

Gli script che seguono nei due successivi esempi sono alternativi ed hanno come scopo quello di inserire un newline dopo un carattere . che conclude una frase della riga caricata nel pattern space; si può dire che un . conclude una frase quando dopo di esso vi siano 0 o più caratteri di spaziatura e successivamente una lettera maiuscola qualsiasi (lo spazio e la lettera maiuscola dopo il punto, sono presi come indice del fatto che sulla medesima riga riprende una frase diversa, che noi invece vogliamo portare sulla riga successiva inserendo un newline).

Esempio: Inserire un newline con SED non GNU

sed -e 's/$[^.]\{1,\}$\. *$[A-Z]$/\1.\ \2/g'

In questo script il newline viene inserito attraverso il simbolo \, che deve essere l'ultimo carattere della riga di comando; tale comando viene poi completato sulla riga successiva.

In pratica ogni volta che nel replacement c'è da indicare un newline, bisogna inserire il carattere \, andare a capo e continuare la digitazione dell'istructions sulla riga successiva.

Esempio: Inserire un newline con SED GNU

sed -e 's/$[^.]\{1,\}$\. *$[A-Z]$/\1.\n\2/g'

In questo script, invece, il newline viene inserito attraverso il simbolo \n ed è possibile continuare la digitazione dell'istructions sulla medesima riga di comando.

Quest'ultimo modo di inserire il newline è funzionante per GNU SED, ma non è detto che sia funzionante per i programmi SED non GNU.

Inizio Sezione

L'istruction s/pattern/replacement/flag: i flag

I flag sono tutti facoltativi e definiscono particolari modalità di ricerca o di sostituzione delle stringhe, oppure particolari modalità di comportamento di SED quando la sostituzione è andata a buon fine.

Inizio Sottosezione

I flag g e il flag N (N valore numerico)

Per capire la funzione dei flag g ed N (N valore numerico) è necessario fare una premessa su come SED esegue la ricerca e la sostituzione sulla riga caricata nel pattern space.

Il modello regexp del pattern serve a ricercare una sottostringa della riga caricata nel pattern space; tale sottostringa viene sostituita con la stringa di replacement.

Non è infrequente che la sottostringa corrispondente al modello di ricerca esiste più volte sulla riga caricata nel pattern space.

Esempio: Sostituire solo la prima corrispondenza al pattern

sed -e 's/"$[^"]*$"/@\1@/' miofile.txt

Questo comando sostituisce il delimitatore " di una sequenza di caratteri con il delimitatore @; in pratica, se sulla riga nel pattern space esiste una sequenza del tipo "Giacomo", essa sarà sostituita con @Giacomo@.

Ma cosa succede se sulla riga nel pattern space esistono più sequenze di caratteri delimitate dal simbolo "?

Per default SED ricerca e sostituisce solo la prima corrispondenza, cioè in tal caso, solo la prima sequenza di caratteri delimitata dal carattere ".

Se si ha l'esigenza di sostituire tutte le sottostringhe corrispondenti al modello di ricerca è necessario utilizzare il flag g.

Esempio: Sostituire tutte le corrispondenze al pattern

sed -e 's/"$[^"]*$"/@\l\1@/g' miofile.txt

In tal caso vengono sostituite tutte le sequenze di caratteri delimitate da " presenti sulla riga nel pattern space.

Se, invece, si vuole sostituire solo una specifca corrispondenza esistente sulla riga caricata nel pattern space, ad esempio solo la seconda o solo la terza, si potrà utilizzare un valore numerico N.

Il valore numerico N consente di specificare quale corrispondenza, se esiste, deve essere sostituita con la stringa di replacement.

Esempio: Sostituire solo l'ennesima corrispondenza al pattern

sed -e 's/"$[^"]*$"/@\l\1@/3' miofile.txt

In tal caso se esistono, nella riga caricata nel pattern space, almeno tre sequenze di caratteri delimitate dal simbolo ", la terza sequenza e solo questa, viene sostituita con la stringa di replacement.

Se, invece, esistono solo due sequenze di quel tipo, SED non opererà alcuna sostituzione.

Inizio Sottosezione

Il flag p e il flag w

I flag p e w definiscono un azione supplementare che SED dovrà eseguire nel caso in cui la sostituzione di stringa vada a buon fine.

Il flag p invia sullo standard output la riga caricata nel pattern space se ed in quanto le sostituzioni sono state effettuate.

Se l'invio automatico allo standard output non è stato disabilitato, la riga caricata nel pattern space viene in ogni caso stampata, nel senso che sarà mandata in output anche se su di essa non è stata eseguita alcuna sostituzione; se invece le sostituzione sono state eseguite, la riga nel pattern space viene stampata due volte.

Il flag w scrive su un file le righe caricate nel pattern space, se ed in quanto le sostituzioni sono state effettuate; se nessuna sostituzione è effettuata, perchè non c'è una sottostringa corrisponde all'adress dello script, oppure sulla riga non vi è una corrispondenza con il pattern dell'istruction s, quella riga non sarà scritta sul file.

Il path completo del file su cui scrivere le righe viene indicato dopo il simbolo w, separato da uno spazio; se il file esiste già esso viene sovrascritto, se non esiste viene creato ex novo.

Esempio: Scrivere il pattern space su un file

sed -e 's/"$[^"]*$"/@\l\1@/gw ../new.txt' old.txt

In questo esempio le righe su cui sono state eseguite le sostituzioni previste dall'istruction s, oltre che essere inviate sullo standard output per il comportamento predefinito di SED, sono anche scritte sul file il cui path è ../new.txt; il nome del file è new.txt, creato nella directory immediatamente precedente a quella corrente (salvo il possesso dei permessi di scrittura su quella directory).

Da questo esempio si può anche notare che i flag di una istruction di sostituzione possono essere più di uno ed in tal caso essi vanno indicati uno di seguito all'altro, senza separarli con spazi.

Inizio Sottosezione

Il flag i

Il flag i rende la ricerca delle corrispondenze case insensitive.

Infatti, di default, lettere maiuscole e lettere minuscole sono da considerare come caratteri diversi; con il flag i, SED assume l'uguaglianza fra una lettera in minuscolo e la stessa lettera in maiuscolo.

É nececessario precisare che il flag i agisce solo sulle ricerche collegate al pattern dell'istruction s, e non anche sulle ricerche collegate agli adress di tipo regexp

Inizio Sottosezione

Il flag e (GNU SED)

Il flag e fa si che la riga nel pattern space, così come risultante dopo le sostituzioni di stringa, sia considerata da SED come un comando eseguibile dalla shell predefinita del sistema (normalmente Bash).

In pratica, eseguite le sostituzioni, SED invia la riga esistente nel pattern space alla shell Bash, che considera l'input ricevuto da SED come un comando esguibile.

Lo standard output di Bash è automaticamente rediretto a SED, cosicché i risultati dell'esecuzione del comando sono memorizzati nel pattern space al posto del suo contenuto originario.

Se l'input passato da SED a Bash non è un comando eseguibile, Bash reagirà con un messaggio di errore, che, normalmente, è inviato sullo standard error; lo standard error, non è rediretto su SED e quindi i messaggi di errore non saranno memorizzati nel pattern space.

É il caso di ricordare che, qualora dopo l'istructions di sostituzione con il flag e ci siano altre istructions da applicare sul medesimo pattern space, queste agiranno sulla sequenza di caratteri restituita da Bash come risultato dell'esecuzione del comando.

Inizio Sottosezione

Il flag m (GNU SED) - Rinvio

Il flag m agisce sul modo in cui i metacaratteri ^ e $ eventualmente contenuti nel pattern sono valutati, qualora l'istruction s agisca su un pattern space multiriga.

Per una spiegazione più dettagliata del funzionamento del flag m, si rimanda alla sezione che tratta dei pattern space multi riga (Ancora non completata).

Guida sistematica a SED - parte 01