Scroll to navigation

KONWERT(1) Podręcznik użytkownika Linuxa KONWERT(1)

NAZWA

konwert - interfejs do różnych konwersji kodowań znaków

UŻYCIE

konwert FILTR [PLIK]... [-o WYNIK | -O]

OPIS

Konwert pozwala filtrować wiele plików przez wiele filtrów. Filtruje podane PLIKI, albo stdin jeśli żadnych nie określono.

Prosty FILTR jest nazwą pliku wykonywalnego z katalogu ~/.konwert/filters albo z ogólnosystemowego, normalnie /usr/share/konwert/filters. Taki program sam filtruje stdin na stdout.

Reguła filtrowania może być bradziej skomplikowana:

konwert FILTR1+FILTR2 znaczy konwert FILTR1 | konwert FILTR2.

konwert FORMAT1-FORMAT2, o ile taki filtr nie istnieje, próbuje znaleźć wspólny FORMAT3, taki że oba filtry FORMAT1-FORMAT3 i FORMAT3-FORMAT1 istnieją.

konwert FILTR/ARG/... przekazuje filtrowi argumenty. Argumenty mogą być też podane tutaj: FORMAT1/ARG-FORMAT2. Znaczenie arguentów zależy od konkretnego filtru.

konwert '(KOMENDA ARG...)' wykonuje dane polecenie powłoki. Jest to przydatne z opcjami -o albo -O. Komenda nie może zawierać łańcucha )+, który zakończy specyfikację tego filtru.

OPCJE

wyjście idzie do tego pliku/katalogu zamiast na stdout
każdy plik źródłowy jest zastępowany swoim tłumaczeniem
wyświetla opis i wychodzi
wyświetla informację o wersji i wychodzi

Przekierowanie wyjścia do jednego z plików źródłowych przez -o albo > zamiast -O zniszczy ten plik! Opcja -O tworzy tymczasowy plik w /tmp i później kopiuje go z powrotem na źródło.

KONWERSJE KODOWAŃ ZNAKÓW

Można konwertować tekst między dowolnymi dwoma zestawami znaków, na przykład konwert cp437-iso2.

Znaki niedostępne w docelowym zestawie będą zastąpione przybliżeniami dostępnymi znakami. Przybliżenia nie muszą być pojedynczymi znakami.

Filtry obsługują teraz następujące zestawy znaków:

siedmiobitowe ASCII
Unikod (Unicode) w UTF-8
iso1 = isolatin1
ISO-8859-1 albo ISO Latin 1 (zachodnioeuropejskie)
ISO-8859-2 albo ISO Latin 2 (środkowoeuropejskie)
ISO-8859-3 albo ISO Latin 3 (Esperanto)
ISO-8859-4 albo ISO Latin 4 (bałtyckie)
ISO-8859-5 (cyrylica)
ISO-8859-6 (arabskie)
ISO-8859-7 (greckie)
ISO-8859-8 (hebrajskie)
ISO-8859-9 albo ISO Latin 5 (tureckie)
ISO-8859-10 albo ISO Latin 6 (nordyckie)
ISO-8859-12 albo ISO Latin 6 (celtyckie) - Draft
ISO-8859-13 albo ISO Latin 6 (bałtyckie) - Draft
ISO-8859-14 albo ISO Latin 6 (Sámi) - Draft
ISO-8859-15 - Draft
koi8r
KOI8-R (rosyjskie)
KOI8-U (ukraińskie, białoruskie)
KOI8-Uni (cyrylica)
cp1250 = wince = winlatin2
Windows CP-1250 albo Win Latin 2 (środkowoeuropejskie)
Windows CP-1251 (cyrylica)
Windows CP-1252 albo Win Latin 1 (zachodnioeuropejskie)
Windows CP-1253 (greckie)
Windows CP-1254 (tureckie)
Windows CP-1255 (hebrajskie)
Windows CP-1256 (arabskie)
Windows CP-1257 (bałtytckie)
Windows CP-1258 (wietnamskie)
cp437 = icmeng
DOS CP-437 (angielskie)
DOS CP-737 (greckie)
DOS CP-775 (bałtyckie)
DOS CP-850 aka DOS Latin 1 (zachodnioeuropejskie)
DOS CP-852 aka DOS Latin 2 (środkowoeuropejskie)
DOS CP-855 (cyrylica)
DOS CP-857 (tureckie)
DOS CP-860 (portugalskie)
DOS CP-861 (islandzkie)
DOS CP-862 (hebrajskie)
DOS CP-863 (kanadyjskie - francuskie)
DOS CP-864 (arabskie)
DOS CP-865 (nordyckie)
DOS CP-866 (rosyjskie)
DOS CP-869 (greckie 2)
DOS CP-874 (tajskie)
mac
Macintosh Roman (zachodnioeuropejskie)
Macintosh Central European (wschodnioeuropejskie)
Macintosh Cyrillic (cyrylica)
Macintosh Greek (greckie)
Macintosh Icelandic (islandzkie)
Macintosh Turkish (tureckie)
csk,
DOSowe zestawy znaków do polskiego
amigapl,
Amigowe zestawy znaków do polskiego
DOSowy zestaw znaków do czeskiego i sĽowackiego
WinGreek (kodowanie dla starożytnej greki według windowsowego fontu)
babelpl
TeX [polish]{babel}: "a"c"e"l"n"o"s"z"r
TeX \prefixing: /a/c/e/l/n/o/s/x/z
xmetodo
Esperanto: cx gx hx jx sx ux (vx w)
Esperanto: ch gh hh jh sh u
Esperanto: ^c ^g ^h ^j ^s ^u (~u)
Esperanto: c^ g^ h^ j^ s^ u^ (u~)
Esperanto: c' g' h' j' s' u'
Esperanto: c` g` h` j` s` u`
VISCII (wietnamski)
Vietnamese Quoted Readable Implicit
htmldec
SGMLowe/HTMLowe numery znaków (dziesiątkowo): Æ ě →
SGMLowe/HTMLowe numery znaków (szesnastkowo) Æ ě →
SGMLowe/HTMLowe encje (nazwy znaków): Æ &ecaron →
Wszystkie trzy powyżej (tylko jako format wejściowy)
TeX wraz z niektórymi rozszerzeniami LaTeXa albo AMS-TeXa. Nie ma rozróżnienia między normalnym trybem a matematycznym - prawdopodobbie będziesz musiał ręcznie podostawiać trochę znaków $.
mnemonic
Mnemoniki RFC 1345 poprzedzone przez &
Mnemoniki RFC 1345 poprzedzone przez `
Ten specjalny format wejściowy rozpozna kodowanie automatycznie, na podstawie częstości znaków znalezionych w tekście. Z każdym językiem jest skojarzony zbiór możliwych kodowań używanych dla niego i średnie częstości jego liter (wyłączając litery ASCII). Użyte zostanie najlepiej pasujące kodowanie. Filtr obsługuje teraz języki cs (czeski), de (niemiecki), el (grecki), eo (Esperanto), es (hiszpański), fr (francuski), he (hebrajski), it (włoski), pl (polski), pt (portugalski), ru (rosyjski) i sv (szwedzki).
Wymieszane polskie ISO-8859-2, CP-1250 i UTF-8. W polskich warunkach sugeruję podpięcie tego jako filtr w czytniku newsów (dla szybkości lepiej wołać bezpośrednio, a nie przez konwerta).
Wymieszane różne kodowania Esperanta.

OPCJE KONTROLUJĄCE POWYŻSZE KONWERSJE

/1 (np. konwert iso2-ascii/1)
Każdy niedostępny znak będzie zastąpiony przez pojedynczy przybliżający znak, a nie przez napis. Przydatne dla programu filterm albo dla preformatowanego tekstu. Ta opcja jest automatycznie włączana jeśli filtr jest używany jako wyjście filterma.
/html
Zakłada, że tekst jest HTMLem. Znaki " & < > wynikłe z przybliżeń innych znaków będą prawidłowo wyeskejpowane do &quot; &amp; &lt; &gt;. Nagłówek <META http-equiv="content-type" content="text/html; charset=..."> będzie poprawiony jeśli wystąpi.
/htmldec
Konwertuje META jak wyżej. Niedostępne znaki będą zakodowane w &#Unikodzie;.
/htmlhex
Konwertuje META jak wyżej. Niedostępne znaki będą zakodowane w szesnastkowym &#xUnikodzie;.
/tex
Niedostępne znaki będą opisane w TeXu. Znaki # $ % &  ^ _ { | } ~ wynikłe z przybliżeń niektórych znaków będą prawidłowo wyeskejpowane do \# \% \& $\backslash$ \^{} \_ \{ $|$ \} \\~{}.
/asciichar
Rozpoznaje niektóre reprezentacje znaków w ASCII, np. (c) ... 1/2 >=.
/rosyjski
Rosyjski tekst będzie oddany w polskiej transkrypcji fonetycznej.

Niektóre filtry wyjściowe mogą użyć informacji o języku do lepszego przybliżenia niedostępnych liter, np. w /de (niemieckim): äae zamiast a.

INNE FILTRY

Rozpoznaje kodowanie, ale zamiast konwersji tekstu pokazuje tylko nazwę kodowania. Dodatkowa opcja /all pokazuje wszystkie możliwe kodowania, posortowane od lepszych do gorszych.
cr
Wymusza określoną konwencję oznaczenia końców linii. cr = Macintosh, lf = Unix i Amiga, crlf = Windows i DOS. Konwencja wejściowa jest rozpoznawana automatycznie.
Rozwija tabulacje na spacje (używa programu expand z textutils).
Kompresuje spacje na początku linii do tabulacji (używa programu unexpand z textutils).
Usuwa spacje i tabulacje z końców linii.
qp-8bit
8bit-qp
Kodowanie MIME Quoted Printable: =A3=F3d=BC.
rtf-8bit
8bit-rtf
Rich Text Format: \\'a3\\'f3d\\'9f.
Eskejpuje " & < > w SGMLowe/HTMLowe encje &quot; &amp; &lt; &gt;. Wygodne do włączania pliku tekstowego w HTMLowych tagach <PRE> </PRE>.
W drugą stronę.
Gb wrfg qrzbafgenpwn ebg13.
toupper
Zamienia tekst na duże / małe litery. Na razie tylko ASCII.
Konwertuje polskie znaki na sekwencje sterujęce drukarki zgodnej z EPSON wykorzystując jedynie podstawowe znaki 7-bitowe, cofając głowicę drukarki i drukując na odpowiedniej wysokości ,.'` dające w sumie pseudo- polskie znaki. Przyjmuje opcje: /nlq (domyślne) optymalizowane do drukarek o lepszej rozdzielczości i /draft - np. dla trybu draft 9-igłówki.

PLIKI

/usr/share/konwert/filters/*
~/.konwert/filters/*

ZOBACZ TEŻ

trs(1), filterm(1)

BŁĘDY

Znak APPLE i zestawach mac* oraz znaki CH i ch w koi8cs nie są zachowywane przy konwersji nawet kiedy są dostępne. Również nie przestrzegają opcji /1. Powód: nie ma ich w Unikodzie.

COPYRIGHT

Konwert jest pakietem służącym do konwersji między różnymi kodowaniami znaków.

Copyright (c) 1998 Marcin 'Qrczak' Kowalczyk

Niniejszy program jest oprogramowaniem wolnodostępnym; możesz go rozprowadzać dalej i/lub modyfikować na warunkach Powszechnej Licencji Publicznej GNU, wydanej przez Fundację Wolnodostępnego Oprogramowania - według wersji 2-giej tej Licencji lub którejś z późniejszych wersji.

Niniejszy program rozpowszechniany jest z nadzieją, iż będzie on użyteczny - jednak BEZ JAKIEJKOLWIEK GWARANCJI, nawet domyślnej gwarancji PRZYDATNOŚCI HANDLOWEJ albo PRZYDATNOŚCI DO OKREŚLONYCH ZASTOSOWAŃ. W celu uzyskania bliższych informacji - Powszechna Licencja Publiczna GNU.

Z pewnością wraz z niniejszym programem otrzymałeś też egzemplarz Powszechnej Licencji Publicznej GNU; jeśli nie - napisz do Free Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA

AUTOR


__("< Marcin Kowalczyk * qrczak@knm.org.pl http://qrczak.home.ml.org/
\__/ GCS/M d- s+:-- a21 C+++>+++$ UL++>++++$ P+++ L++>++++$ E->++
^^ W++ N+++ o? K? w(---) O? M- V? PS-- PE++ Y? PGP->+ t QRCZAK 5? X- R tv-- b+>++ DI D- G+ e>++++ h! r--%>++ y-
30 Jul 1998 Konwert