table of contents
other languages
other sections
UNICODE(7) | Linux Programmer's Manual | UNICODE(7) |
NOME¶
Unicode - l'insieme universale di caratteriDESCRIZIONE¶
Lo standard internazionale ISO 10646 definisce l' Insieme universale di caratteri (Universal Character Set). UCS contiene tutti i caratteri di tutti gli altri standard per insiemi di caratteri. Garantisce anche compatibilità ad andata e ritorno, cioè è possibile costruire tavole di conversione in modo tale da non perdere nessuna informazione passando da una qualsiasi altra codifica a UCS e viceversa.Caratteri combinanti¶
Alcuni codici di UCS sono stati assegnati a caratteri combinanti. Simile ad un tasto accentato che non avanza in una macchina da scrivere, un carattere combinante aggiunge un accento al carattere precedente. I caratteri accentati più importanti hanno un loro codice in UCS, ma questo meccanismo permette di aggiungere accenti a altri segni diacritici a qualsiasi carattere. I caratteri combinanti seguono sempre il carattere che modificano. Ad esempio, il carattere tedesco Ä («A maiuscola romana con dieresi») può essere rappresentato sia col codice UCS precomposto 0x00c4, oppure come combinazione di una normale «A maiuscola romana» seguita da una «dieresi combinante»: 0x0041 0x0308. I caratteri combinanti sono essenziali per esempio nella codifica dei caratteri Thai o per la composizione matematica e per gli utenti dell'alfabeto internazionale fonetico.Livelli di implementazione¶
Siccome non ci si aspetta che tutti i sistemi possano supportare meccanismi avanzati come i caratteri combinanti, ISO 10646-1 specifica tre livelli d'implementazione per UCS:- Livello 1
- I caratteri combinanti Hangul Jamo (una codifica variante dell'alfabeto coreano, dove le sillabe Hangul sono codificate come trio o coppia di codici vocale/consonante) non sono supportati.
- Livello 2
- Come il livello 1, ma alcuni caratteri combinanti sono permessi in alcuni alfabeti (per es., ebraico, arabo, devangari, bengalese, gurmuco, gugiarato, oriya, tamil, telugo, kannada, malese, tailandese e laotiano).
- Livello 3
- Tutti i caratteri UCS sono supportati.
Unicode sotto Linux¶
Sotto GNU/Linux, il tipo C wchar_t è un tipo intero 32-bit con segno. I suoi valori sono sempre interpretati dalla libreria C come valori del codice UCS (in tutte le localizzazioni), una convenzione che è segnalata alle applicazioni dalla libreria C di GNU definendo la costante __STDC_ISO_10646__ come specificato nello standard ISO C 99.Area privata¶
L'intervallo da 0xe000 a 0xf8ff nel BMP, non verrà mai assegnato dallo standard a nessun carattere ed è riservato per uso privato. Per la comunità Linux questo intervallo è stato ulteriormente suddiviso nell'intervallo da 0xe000 a 0xefff, che può essere usato dall'utente finale, e nell'area Linux nell'intervallo da 0xf000 a 0xf8ff, le cui estensioni sono coordinate fra tutti gli utenti di Linux. Il registro dei caratteri assegnati all'area Linux è al momento mantenuto da H. Peter Anvin <Peter.Anvin@linux.org>.Bibliografia¶
- *
- Information technology — Universal Multiple-Octet
Coded Character Set (UCS) — Part 1: Architecture and Basic
Multilingual Plane. International Standard ISO/IEC 10646-1, International
Organization for Standardization, Geneva, 2000.
- *
- The Unicode Standard, Version 3.0. The Unicode Consortium, Addison-Wesley, Reading, MA, 2000, ISBN 0-201-61633-5.
- *
- S. Harbison, G. Steele. C: A Reference Manual. Fourth
edition, Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.
- *
- Unicode Technical Reports.
- *
- Markus Kuhn: UTF-8 e Unicode FAQ per Unix/Linux.
http://www.cl.cam.ac.uk/~mgk25/unicode.html
Fornisce informazioni sulla sottoscrizione alla mailing list linux-utf8
che è il miglior posto in cui guardare per consigli sull'uso di Unicode
sotto Linux.
- *
- Bruno Haible: Unicode HOWTO.
BACHI¶
_Al momento dell'ultima revisione di questa man page, la libreric GNU C di supporto per le localizzazioni UTF-8 era matura e il supporto XFree86 era ad uno stadio avanzato, ma il lavoro per rendere le applicazioni (specialmente gli editor) adatte all'uso con le localizzazioni UTF-8 era ancora in corso. Il supporto generale corrente a UCS sotto Linux di solito fornisce caratteri per CJK a doppia ampiezza, e talvolta anche semplici caratteri combinanti, ma solitamente non include il supporto per alfabeti con direzione da destra a sinistra o requisiti per la sostituzione della legatura come negli alfabeti ebraico, arabo, o Indic. Questi alfabeti attualmente sono supportati solo in certe aplicazioni GUI (visualizzatori HTML, word processor) con motori sofisticati di disegno del testo.AUTORE¶
Markus Kuhn <mgk25@cl.cam.ac.uk>VEDERE ANCHE¶
setlocale(3), charsets(7), utf-8(7)11 maggio 2001 | GNU |