other languages
other sections
UNICODE(7) | Manual do Programador Linux | UNICODE(7) |
NOME¶
Unicode - o superconjunto unificado de caracteres de 16 bitsDESCRIÇÃO¶
O padrão internacional ISO 10646 define o Universal Character Set (UCS). UCS contém todos os caracteres de todos os outros padrões de conjuntos de caracteres. Ele também garante a compatibilidade retroativa ,isto é, as tabelas de conversão podem ser construídas de forma que nenhuma informação seja perdida quando uma string é convertida de qualquer outra codificação para UCS e vice-versa.COMBINANDO CARACTERES¶
Alguns pontos de código no UCS têm sido atribuídos aos caracteres combinantes. Estes são similares às chaves de acento de não-espaçamento em uma máquina de escrever. Um caractere combinante apenas acrescenta um acento a um caractere anterior. Os caracteres acentuados mais importantes têm seus próprios códigos em UCS, porém o mecanismo de caracteres combinantes permitem acrescentar acentos e outras marcas diacríticas a qualquer caractere. Os caracteres combinantes sempres seguem o caractere que eles modificam. Por exemplo, o caractere alemão Umlaut-A ("letra A maiúscula com trema") pode ser representada por um código UCS pré-composto 0x00c4, ou alternativamente como a combinação de uma "letra A maiúscula" normal seguida de um "trema combinante": 0x0041 0x0308.NÍVEIS DE IMPLEMENTAÇÃO¶
Como nem todo sistema suporta mecanismos avançados, como caracteres combinantes, a ISO 10646 especifica os três seguintes níveis de implementação da UCS:- Nível 1
- Caracteres combinantes e caracteres Hangul Jamo (uma codificação especial e mais complicada da escrita coreana, onde as sílabas Hangul são codificadas como dois ou três subcaracteres) não são implementados.
- Nível 2
- Como o nível 1, porém em algumas escritas, alguns caracteres combinantes são permitidos (por exemplo, para hebraico, árabe, devangari, bengali, gurmukhi, gujarati, oriya, tamil, telugo, kannada, malaio, thai e lao).
- Nível 3
- Todos os caracteres UCS são suportados.
UNICODE SOB LINUX¶
Sob o Linux, somente o nível de implementação 1 do BMP deve ser usado no momento, de forma a manter a complexidade de implementação dos caracteres combinantes baixos. Os níveis de implementação mais altos são mais confiáveis para formatos especiais de formatação de palavras, mas não como um conjunto de caracteres de um sistema genérico. O tipo do C wchar_t é, em Linux, um tipo inteiro de 32 bits com sinal, e seu valor é interpretado como um código UCS4ÁREA PRIVATIVA¶
No BMP, a faixa de 0xe000 a 0xf8ff nunca será atribuída a qualquer caractere pelo padrão, e é reservada para uso privativo. Para a comunidade Linux, esta área privativa foi dividida nas faixas: x0e000 a 0xefff pode ser usada individualmente por algum usuário final; e a zona Linux da faixa de 0xf000 a 0xf8ff onde as extensões são coordenadas entre todos os usuários Linux. O registro dos caracteres atribuídos à zona Linux é mantido atualmente por H. Peter Anvin <Peter.Anvin@linux.org>, Yggdrasil Computing, Inc. Ele contém alguns caracteres gráficos do VT100 da DEC, perdidos no Unicode, dá acesso direto aos caracteres no buffer de fontes do console, e contém os caracteres usados por escritas um pouco avançadas, como o Klingon.LITERATURA¶
- *
- Tecnologia da informação - Conjunto Universal de
Caracteres Codificados em Múltiplos Octetos (UCS) - Parte 1:
Arquitetura e Plano Multilingual Básico. Padrão Internacional
ISO 10646-1, Organização Internacional para
Padronização, Genebra, 1993.
- *
- O Padrão Unicode - Codificação Mundial de
Caracteres Versão 1.0. O Consórcio Unicode, Addison-Wesley,
Reading, MA, 1991.
- *
- S. Harbison, G. Steele. C - Um Manual de Referência.
Quarta edição, Prentice Hall, Englewood Cliffs, 1995, ISBN
0-13-326224-3.
PROBLEMAS¶
No momento em que esta página de manual foi escrita, o suporte da libc do Linux para o UCS estava longe de estar completo.AUTOR¶
Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>VEJA TAMBÉM¶
utf-8(7)TRADUZIDO POR LDP-BR em 21/08/2000.¶
Rubens de Jesus Nogueira <darkseid99@usa.net> (tradução) André L. Fassone Canova <lonelywolf@blv.com.br> (revisão)27/12/1995 | Linux |