|
I valori ASCII standard (American Standard Code for Information Interchange) sono quelli fra 0 e 127 (esadecimale 00-7F, cioè i valori ottenibili con 7 bit). L'ASCII standard è uguale fra le diverse lingue e le diverse macchine (mac, unix, win...) per i valori fra 32 e 127, rappresentando lettere dell'alfabeto inglese, numeri e alcuni caratteri speciali; mentre quelli fra 0 e 31 sono riservati ai diversi sistemi operativi. Inizialmente l'HTML usava solo l'ASCII standard fra 31 e 127 per evitare problemi di comunicazione fra sistemi diversi. Infatti, i valori fra 128 e 255 (quelli dell'intero byte di 8 bit, detti sempre ASCII, o meglio ASCII esteso) variano sia fra le diverse lingue occidentali (poi codificate in ISO 8859-1...n) sia nelle diverse macchine. Un documento HTML (Hypertext Markup Language) contiene caratteri e marcatori (tag) che vengono «spediti nella rete» codificati come sequenze di byte. La codifica di ciascuna sequenza, allora, può essere diversa per i valori sopra 127. Un esempio per chiarire: il codice 224 (esadecimale E0) in una macchina con set di caratteri europei (Western Europe o ISO 8859-1) vale 'à' (a minuscola con accento grave), ma con un set ebraico (ISO 8859-8) vale la lettera 'aleph', con quello greco (ISO 8859-7: il greco moderno non usa più gli spiriti iniziali e ha semplificato l'uso degli accenti) vale 'ipsilon minuscola con diaresi e accento', con quello cirillico (ISO 8859-5) vale 'er minuscola', e così via. Mentre nella codifica giapponese o cinese il valore di un byte dipende da quello che lo precede, cioé si usano due byte per individuare i caratteri. Ecco che i caratteri HTML, per assicurare la compatibilità e per poter scrivere nello stesso documento le parole con lettere accentate, hanno adottato, dopo all'ASCII standard, anche i valori ASCII 128-255 dell'ISO 8859-1 o latin-1 (già standard ECMA, European Computer Manufacturers Association) che però non usava i valori fra 128 e 159 né quelli fra 0 e 31 [nel codice HTML si può scrivere direttamente il carattere come da tabella]; perciò si sono ricodificati alcuni caratteri e aggiunti valori ASCII più alti. |
esad. | caratt. | esad. | [Non usare] | ||||||||||||||||
00 | ASCII | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 0F | |
caratt. | |||||||||||||||||||
10 | ASCII | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 1F | |
caratt. | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / | [Standard] | |||
20 | ASCII | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 2F | |
caratt. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? | |||
30 | ASCII | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 3F | |
caratt. | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | |||
40 | ASCII | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 4F | |
caratt. | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ | |||
50 | ASCII | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 5F | |
caratt. | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o | |||
60 | ASCII | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 6F | |
caratt. | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | | |||
70 | ASCII | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 7F | |
caratt. | | | | | | | | | | | | | | | | [Non usare] | |||
80 | ASCII | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 | 8F | |
caratt. | | ‘ | ’ | « | » | • | | | | | | | | | | | |||
90 | ASCII | 144 | 145 | 146 | 147 | 148 | 149 | 150 | 151 | 152 | 153 | 154 | 155 | 156 | 157 | 158 | 159 | 9F | |
caratt. | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | | ® | ¯ | [Latin-1] | |||
A0 | ASCII | 160 | 161 | 162 | 163 | 164 | 165 | 166 | 167 | 168 | 169 | 170 | 171 | 172 | 173 | 174 | 175 | AF | |
caratt. | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ | |||
B0 | ASCII | 176 | 177 | 178 | 179 | 180 | 181 | 182 | 183 | 184 | 185 | 186 | 187 | 188 | 189 | 190 | 191 | BF | |
caratt. | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï | |||
C0 | ASCII | 192 | 193 | 194 | 195 | 196 | 197 | 198 | 199 | 200 | 201 | 202 | 203 | 204 | 205 | 206 | 207 | CF | |
caratt. | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß | |||
D0 | ASCII | 208 | 209 | 210 | 211 | 212 | 213 | 214 | 215 | 216 | 217 | 218 | 219 | 220 | 221 | 222 | 223 | DF | |
caratt. | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï | |||
E0 | ASCII | 224 | 225 | 226 | 227 | 228 | 229 | 230 | 231 | 232 | 233 | 234 | 235 | 236 | 237 | 238 | 239 | EF | |
caratt. | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ | |||
F0 | ASCII | 240 | 241 | 242 | 243 | 244 | 245 | 246 | 247 | 248 | 249 | 250 | 251 | 252 | 253 | 254 | 255 | FF | |
caratt. | Œ | œ | Ÿ | ƒ | ˆ | ˜ | Α | Β | Γ | Δ | Ε | Ζ | Η | Θ | Ι | Κ | |||
Unicode | 338 | 339 | 376 | 402 | 710 | 732 | 913 | 914 | 915 | 916 | 917 | 918 | 919 | 920 | 921 | 922 | [Esempi Unicode] |
Nei documenti elettronici i caratteri sono memorizzati come codice numerico esadecimale (a base 16), poi gestito dai computer in formato digitale, cioé nello 0/1 di ciascun bit: per questo si usano sempre potenze di due (come 16, 256, 65536). L’insieme di codici più comune è il cosiddetto ASCII incluso nell’intervallo da 0 a 255, quindi in tutto sono 256 (un unico byte di 8 bit, che vale come misura di riferimento). - Primo problema: i codici ASCII non sono sempre uguali, lo sono solo per pochi caratteri (circa cento). - Secondo problema: il World Wide Web è un oggetto globale, ma l'ASCII non può rendere tutti i caratteri accentati delle lingue europee e men che meno quelli dell'arabo, del bengalese, dell'ebraico, del tailandese... - Terzo problema: il supporto di Unicode non è ancora completo nelle diverse piattaforme e ancor meno quello di UCS, dunque, in pratica, i documenti vengono scritti col set di caratteri locali (in cui magari i singoli editor di testo usano ancora i codici ASCII estesi) quindi convertiti nei codici Unicode. Oppure, nel caso dell'HTML, si usano direttamente i codici sopra il 255 o le entità [disponibili in un file a parte, con cui si può anche verificare quanto il proprio browser supporti questi set di caratteri]. Sono disponibili molti altri set di caratteri: per un elenco più completo si può vedere il sito dell’agenzia IANA (Internet Assigned Numbers Authority). --- nota personale ---
Non so quanto tutto questo contribuisca a risolvere, o aggravare, il dato della crisi e futura morte di idiomi patrimonio di ristrette comunità di persone (un po' quel che da noi di fatto sta avvenendo per i dialetti). |
Minuscola sitografia: le lingue in Internet |
|
Aggiornato: Venerdì, 11 luglio 2003