Agli Arabi viene attribuito il merito di aver scoperto la tecnica
della crittoanalisi statistica : in ciascuna lingua la
distribuzione statistica delle lettere dell'alfabeto non é uniforme
Nell'ambito delle analisi crittografiche
rivestono,quindi, grande importanza gli studi di statistica per
caratterizzare gli aspetti quantitativi di una lingua:la decrittazione dei sistemi classici,(sistemi a sostituzione,a
trasposizione,etc), si basa su informazioni statistiche ; queste sono fondamentali anche nei moderni sistemi.
Nella lingua italiana
- ci sono lettere che compaiono nei
testi con maggiore frequenza e, i, a ed altre più raramente;
- la maggior parte delle parole termina con una delle vocali
a,e,i,o;
- le lettere consecutive identiche, necessariamente devono
essere consonanti;
- ci sono caratteri che non si trovano mai
consecutivamente ('aa', 'ee', 'ii', 'qq'...)
- ci sono caratteri che si trovano con frequenza
molto alta subito dopo altri (dopo 'bb' segue con alta
frequenza una 'r', dopo 'pp' segue solitamente 'l').
Nel testo criptato si ricavano le frequenze dei caratteri e si
ordinano i caratteri in ordine decrescente di frequenza: il carattere
più frequente della lingua italiana corrisponderà al carattere più
frequente trovato nel testo criptato. Procedendo per frequenze
decrescenti si riduce il numero di tentativi da eseguire per il
decriptaggio.
L'analisi delle frequenze ha permesso ai crittoanalisti, nel
corso dei secoli ,di
distruggere la sicurezza dei sistemi crittograficii che utilizzano parole come chiave
oppure quelli
polialfabetici, basati sul principio di cambiare
alfabeto cifrante per ogni lettera del testo chiaro, come il
cifrario di
Vigenère , definito , per anni,"il cifrario
indecifrabile".
Tra i molti indici statistici che si utilizzano in crittografia
l'indice di coincidenza introdotto da Friedman nel 1920 consente di
determinare la lunghezza della chiave per molti sistemi di cifratura.
Sia
ni
la distribuzione delle lettere di un alfabeto di r simboli:
A B C D ... Z
n1 n2 n3 n4 ... nr
e
ove la sommatoria è estesa al numero delle lettere
dell'alfabeto (21 per l'italiano, 26 per quello internazionale).
L'indice di coincidenza, Ic , è così
definito:
Osservazioni
-L'indice di coincidenza può essere
considerato una stima del parametro
ossia delle probabilità che, scegliendo a
caso ,due lettere esse siano uguali
- Ic
è minimo se le lettere hanno la stessa
frequenza
- Ic è
massimo se una sola lettera ha frequenza
N e tutte le
altre
frequenza 0.
-
il tempest attack è una
tecnica di crittoanalisi che consiste nel rilevare
i segnali elettromagnetici, prodotti dalla pressione di
ogni tasto della tastiera del computer, per poi
decrittare il messaggio, sfruttando le proprietà
statistiche
Applicazioni con
Excel: ricorrenza delle lettere in italiano;
Applicazioni con
Excel:frequenze;
Applicazioni con
Excel:
frequenze con codice affine
|