Molti linguaggi di programmazione forniscono
un tipo di
dato i cui valori rappresentano
caratteri, cioè
lettere
dell'alfabeto (sia maiuscole che minuscole), cifre
decimali
(0, 1, ..., 9), segni di interpunzione, parentesi,
...
Di norma i caratteri vengono rappresentati come
numeri interi utilizzando
un'opportuna codifica. Ad esempio, in C e C++, il tipo di dati
char usa
8 bit, e usa il codice
ASCII (American Standard Code for
Information
Interchange) per la codifica dei
caratteri.
Il codice
ASCII in realtà fissa
il
codice di soli 128 caratteri. I rimanenti
128 valori rappresentabili con 8 bit sono usati per
codificare altri
caratteri (ad esempio, le lettere accentate),
ma con codifiche diverse
in
sistemi/linguaggi
diversi!!
Esperimento: Avete mai provato a
leggere sotto Linux un file di solo
testo scritto in italiano sotto
Windows?
In Java, il tipo di dati
char usa 16 bit per
ogni
carattere,
e usa il codice UNICODE, che permette di
rappresentare
216 = 65535 caratteri:
questo permette
di fissare in modo univoco la codifica di tutte le
lettere
usate negli alfabeti occidentali, nonchè di
ideogrammi
e segni usati in altre lingue.
|