NAZWA¶
konwert - interfejs do różnych konwersji kodowań znaków
UŻYCIE¶
konwert FILTR [
PLIK]... [
-o WYNIK |
-O]
OPIS¶
Konwert pozwala filtrować wiele plików przez wiele filtrów.
Filtruje podane
PLIKI, albo stdin jeśli żadnych nie
określono.
Prosty
FILTR jest nazwą pliku wykonywalnego z katalogu
~/.konwert/filters albo z ogólnosystemowego, normalnie
/usr/share/konwert/filters. Taki program sam filtruje stdin na stdout.
Reguła filtrowania może być bradziej skomplikowana:
konwert FILTR1+FILTR2 znaczy
konwert
FILTR1 |
konwert FILTR2.
konwert FORMAT1-FORMAT2, o ile taki filtr nie
istnieje, próbuje znaleźć wspólny
FORMAT3, taki
że oba filtry
FORMAT1-FORMAT3 i
FORMAT3-FORMAT1 istnieją.
konwert FILTR/ARG/... przekazuje filtrowi
argumenty. Argumenty mogą być też podane tutaj:
FORMAT1/ARG-FORMAT2. Znaczenie
arguentów zależy od konkretnego filtru.
konwert '(KOMENDA ARG...)' wykonuje dane polecenie
powłoki. Jest to przydatne z opcjami
-o albo
-O. Komenda
nie może zawierać łańcucha
)+, który
zakończy specyfikację tego filtru.
OPCJE¶
- -o WYNIK
- wyjście idzie do tego pliku/katalogu zamiast na
stdout
- -O
- każdy plik źródłowy jest
zastępowany swoim tłumaczeniem
- --help
- wyświetla opis i wychodzi
- --version
- wyświetla informację o wersji i wychodzi
Przekierowanie wyjścia do jednego z plików źródłowych
przez
-o albo
> zamiast
-O zniszczy ten plik! Opcja
-O tworzy tymczasowy plik w
/tmp i później kopiuje go
z powrotem na źródło.
KONWERSJE KODOWAŃ ZNAKÓW¶
Można konwertować tekst między dowolnymi dwoma zestawami
znaków, na przykład
konwert cp437-iso2.
Znaki niedostępne w docelowym zestawie będą zastąpione
przybliżeniami dostępnymi znakami. Przybliżenia nie muszą
być pojedynczymi znakami.
Filtry obsługują teraz następujące zestawy znaków:
- ascii
- siedmiobitowe ASCII
- utf8 = unicode
- Unikod (Unicode) w UTF-8
- iso1 = isolatin1
- ISO-8859-1 albo ISO Latin 1 (zachodnioeuropejskie)
- iso2 = isolatin2
- ISO-8859-2 albo ISO Latin 2 (środkowoeuropejskie)
- iso3 = isolatin3
- ISO-8859-3 albo ISO Latin 3 (Esperanto)
- iso4 = isolatin4
- ISO-8859-4 albo ISO Latin 4 (bałtyckie)
- iso5 = isolatincyr
- ISO-8859-5 (cyrylica)
- iso6 = isolatinarabic
- ISO-8859-6 (arabskie)
- iso7 = isolatingreek
- ISO-8859-7 (greckie)
- iso8 = isolatinhebrew
- ISO-8859-8 (hebrajskie)
- iso9 = isolatin5 = isolatintur
- ISO-8859-9 albo ISO Latin 5 (tureckie)
- iso10 = isolatin6 = isolatinnordic
- ISO-8859-10 albo ISO Latin 6 (nordyckie)
- iso12 = isolatin7 = isolatinceltic
- ISO-8859-12 albo ISO Latin 6 (celtyckie) - Draft
- iso13 = isolatin8 = isolatinbaltic
- ISO-8859-13 albo ISO Latin 6 (bałtyckie) - Draft
- iso14 = isolatin9 = isolatinsami
- ISO-8859-14 albo ISO Latin 6 (Sámi) - Draft
- iso15
- ISO-8859-15 - Draft
- koi8r
- KOI8-R (rosyjskie)
- koi8u
- KOI8-U (ukraińskie, białoruskie)
- koi8uni
- KOI8-Uni (cyrylica)
- cp1250 = wince = winlatin2
- Windows CP-1250 albo Win Latin 2
(środkowoeuropejskie)
- cp1251 = wincyr
- Windows CP-1251 (cyrylica)
- cp1252 = winwest = winlatin1
- Windows CP-1252 albo Win Latin 1
(zachodnioeuropejskie)
- cp1253 = wingr
- Windows CP-1253 (greckie)
- cp1254 = wintur
- Windows CP-1254 (tureckie)
- cp1255 = winhebrew
- Windows CP-1255 (hebrajskie)
- cp1256 = winarabic
- Windows CP-1256 (arabskie)
- cp1257 = winbaltic
- Windows CP-1257 (bałtytckie)
- cp1258 = winviet
- Windows CP-1258 (wietnamskie)
- cp437 = icmeng
- DOS CP-437 (angielskie)
- cp737 = dosgreek
- DOS CP-737 (greckie)
- cp775 = dosbaltic
- DOS CP-775 (bałtyckie)
- cp850 = doswest = doslatin1
- DOS CP-850 aka DOS Latin 1 (zachodnioeuropejskie)
- cp852 = dosce = doslatin2
- DOS CP-852 aka DOS Latin 2 (środkowoeuropejskie)
- cp855 = doscyr
- DOS CP-855 (cyrylica)
- cp857 = dostur
- DOS CP-857 (tureckie)
- cp860 = dosportugal
- DOS CP-860 (portugalskie)
- cp861 = dosiceland
- DOS CP-861 (islandzkie)
- cp862 = doshebrew
- DOS CP-862 (hebrajskie)
- cp863 = doscanadfr
- DOS CP-863 (kanadyjskie - francuskie)
- cp864 = dosarabic
- DOS CP-864 (arabskie)
- cp865 = dosnordic
- DOS CP-865 (nordyckie)
- cp866 = dosrussian
- DOS CP-866 (rosyjskie)
- cp869 = dosgreek2
- DOS CP-869 (greckie 2)
- cp874 = dosthai
- DOS CP-874 (tajskie)
- mac
- Macintosh Roman (zachodnioeuropejskie)
- macce
- Macintosh Central European (wschodnioeuropejskie)
- maccyr
- Macintosh Cyrillic (cyrylica)
- macgreek
- Macintosh Greek (greckie)
- maciceland
- Macintosh Icelandic (islandzkie)
- mactur
- Macintosh Turkish (tureckie)
- csk,
- cyfromat,
- dhn,
- fidomazovia,
- iea,
- logic,
- mazovia,
- microvex
- DOSowe zestawy znaków do polskiego
- amigapl,
- fat,
- xjp
- Amigowe zestawy znaków do polskiego
- kamenicky
- DOSowy zestaw znaków do czeskiego i
sĽowackiego
- wingreek
- WinGreek (kodowanie dla starożytnej greki według
windowsowego fontu)
- babelpl
- TeX [polish]{babel}:
"a"c"e"l"n"o"s"z"r
- ciachy
- TeX \prefixing: /a/c/e/l/n/o/s/x/z
- xmetodo
- Esperanto: cx gx hx jx sx ux (vx w)
- hmetodo
- Esperanto: ch gh hh jh sh u
- antauxcxap
- Esperanto: ^c ^g ^h ^j ^s ^u (~u)
- postcxap
- Esperanto: c^ g^ h^ j^ s^ u^ (u~)
- apostrofoj
- Esperanto: c' g' h' j' s' u'
- malapostrofoj
- Esperanto: c` g` h` j` s` u`
- viscii
- VISCII (wietnamski)
- viqri
- Vietnamese Quoted Readable Implicit
- htmldec
- SGMLowe/HTMLowe numery znaków (dziesiątkowo):
Æ ě →
- htmlhex
- SGMLowe/HTMLowe numery znaków (szesnastkowo)
Æ ě →
- htmlent
- SGMLowe/HTMLowe encje (nazwy znaków): Æ
&ecaron →
- html
- Wszystkie trzy powyżej (tylko jako format
wejściowy)
- tex
- TeX wraz z niektórymi rozszerzeniami LaTeXa albo
AMS-TeXa. Nie ma rozróżnienia między normalnym trybem a
matematycznym - prawdopodobbie będziesz musiał ręcznie
podostawiać trochę znaków $.
- mnemonic
- Mnemoniki RFC 1345 poprzedzone przez &
- mnemonic1
- Mnemoniki RFC 1345 poprzedzone przez `
- any/JĘZYK (np. any/pl-iso2)
- Ten specjalny format wejściowy rozpozna kodowanie
automatycznie, na podstawie częstości znaków znalezionych w
tekście. Z każdym językiem jest skojarzony zbiór
możliwych kodowań używanych dla niego i średnie
częstości jego liter (wyłączając litery ASCII).
Użyte zostanie najlepiej pasujące kodowanie. Filtr
obsługuje teraz języki cs (czeski), de
(niemiecki), el (grecki), eo (Esperanto), es
(hiszpański), fr (francuski), he (hebrajski), it
(włoski), pl (polski), pt (portugalski), ru
(rosyjski) i sv (szwedzki).
- varpl
- Wymieszane polskie ISO-8859-2, CP-1250 i UTF-8. W polskich
warunkach sugeruję podpięcie tego jako filtr w czytniku
newsów (dla szybkości lepiej wołać bezpośrednio,
a nie przez konwerta).
- vareo
- Wymieszane różne kodowania Esperanta.
OPCJE KONTROLUJĄCE POWYŻSZE KONWERSJE¶
- /1 (np. konwert iso2-ascii/1)
- Każdy niedostępny znak będzie
zastąpiony przez pojedynczy przybliżający znak, a nie przez
napis. Przydatne dla programu filterm albo dla preformatowanego tekstu. Ta
opcja jest automatycznie włączana jeśli filtr jest
używany jako wyjście filterma.
- /html
- Zakłada, że tekst jest HTMLem. Znaki "
& < > wynikłe z przybliżeń innych znaków
będą prawidłowo wyeskejpowane do " &
< >. Nagłówek <META
http-equiv="content-type" content="text/html;
charset=..."> będzie poprawiony jeśli
wystąpi.
- /htmldec
- Konwertuje META jak wyżej. Niedostępne znaki
będą zakodowane w &#Unikodzie;.
- /htmlhex
- Konwertuje META jak wyżej. Niedostępne znaki
będą zakodowane w szesnastkowym &#xUnikodzie;.
- /tex
- Niedostępne znaki będą opisane w TeXu. Znaki
# $ % & \ ^ _ { | } ~ wynikłe z przybliżeń
niektórych znaków będą prawidłowo wyeskejpowane
do \# \$ \% \& $\backslash$ \^{} \_ \{ $|$ \}
\\~{}.
- /asciichar
- Rozpoznaje niektóre reprezentacje znaków w ASCII,
np. (c) ... 1/2 >=.
- /rosyjski
- Rosyjski tekst będzie oddany w polskiej transkrypcji
fonetycznej.
Niektóre filtry wyjściowe mogą użyć informacji o
języku do lepszego przybliżenia niedostępnych liter, np. w
/de (niemieckim):
ä →
ae zamiast
a.
INNE FILTRY¶
- any/JĘZYK-test
- Rozpoznaje kodowanie, ale zamiast konwersji tekstu pokazuje
tylko nazwę kodowania. Dodatkowa opcja /all pokazuje wszystkie
możliwe kodowania, posortowane od lepszych do gorszych.
- cr
- lf
- crlf
- Wymusza określoną konwencję oznaczenia
końców linii. cr = Macintosh, lf = Unix i Amiga,
crlf = Windows i DOS. Konwencja wejściowa jest rozpoznawana
automatycznie.
- expand
- Rozwija tabulacje na spacje (używa programu expand z
textutils).
- unexpand
- Kompresuje spacje na początku linii do tabulacji
(używa programu unexpand z textutils).
- rmspacesateol
- Usuwa spacje i tabulacje z końców linii.
- qp-8bit
- 8bit-qp
- Kodowanie MIME Quoted Printable: =A3=F3d=BC.
- rtf-8bit
- 8bit-rtf
- Rich Text Format: \\'a3\\'f3d\\'9f.
- txt-htmlchar
- Eskejpuje " & < > w SGMLowe/HTMLowe
encje " & < >. Wygodne do
włączania pliku tekstowego w HTMLowych tagach <PRE>
</PRE>.
- htmlchar-txt
- W drugą stronę.
- rot13
- Gb wrfg qrzbafgenpwn ebg13.
- toupper
- tolower
- Zamienia tekst na duże / małe litery. Na razie
tylko ASCII.
- prn7pl
- Konwertuje polskie znaki na sekwencje sterujęce
drukarki zgodnej z EPSON wykorzystując jedynie podstawowe znaki
7-bitowe, cofając głowicę drukarki i drukując na
odpowiedniej wysokości ,.'` dające w sumie pseudo- polskie
znaki. Przyjmuje opcje: /nlq (domyślne) optymalizowane do
drukarek o lepszej rozdzielczości i /draft - np. dla trybu
draft 9-igłówki.
PLIKI¶
- /usr/share/konwert/filters/*
- ~/.konwert/filters/*
ZOBACZ TEŻ¶
trs(1),
filterm(1)
BŁĘDY¶
Znak APPLE i zestawach mac* oraz znaki CH i ch w koi8cs nie są zachowywane
przy konwersji nawet kiedy są dostępne. Również nie
przestrzegają opcji /1. Powód: nie ma ich w Unikodzie.
COPYRIGHT¶
Konwert jest pakietem służącym do konwersji między
różnymi kodowaniami znaków.
Copyright (c) 1998 Marcin 'Qrczak' Kowalczyk
Niniejszy program jest oprogramowaniem wolnodostępnym; możesz go
rozprowadzać dalej i/lub modyfikować na warunkach Powszechnej
Licencji Publicznej GNU, wydanej przez Fundację Wolnodostępnego
Oprogramowania - według wersji 2-giej tej Licencji lub którejś
z późniejszych wersji.
Niniejszy program rozpowszechniany jest z nadzieją, iż będzie on
użyteczny - jednak BEZ JAKIEJKOLWIEK GWARANCJI, nawet domyślnej
gwarancji PRZYDATNOŚCI HANDLOWEJ albo PRZYDATNOŚCI DO
OKREŚLONYCH ZASTOSOWAŃ. W celu uzyskania bliższych informacji -
Powszechna Licencja Publiczna GNU.
Z pewnością wraz z niniejszym programem otrzymałeś też
egzemplarz Powszechnej Licencji Publicznej GNU; jeśli nie - napisz do
Free Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA
02111-1307 USA
AUTOR¶
__("< Marcin Kowalczyk * qrczak@knm.org.pl http://qrczak.home.ml.org/
\__/ GCS/M d- s+:-- a21 C+++>+++$ UL++>++++$ P+++ L++>++++$ E->++
^^ W++ N+++ o? K? w(---) O? M- V? PS-- PE++ Y? PGP->+ t
QRCZAK 5? X- R tv-- b+>++ DI D- G+ e>++++ h! r--%>++ y-