Obcojęzyczne dokumenty są coraz powszechniejsze w polskim Internecie. I to nie tylko angielskie, które nie wymagają żadnych specjalnych zabiegów, ale i inne zachodnioeuropejskie, a także dokumenty, w których korzystamy z innych alfabetów. W końcu trudno nie zauważyć choćby takiego faktu, że nasze interesy ekonomiczne nie ograniczają się do krajów zachodnioeuropejskich - rosnąca ostatnio w niebywałym tempie rosyjska gospodarka powinna być "obsłużona" przez nasze firmy także w Internecie. Business is business!
Pisanie w językach obcych właściwie nie powinno sprawiać większych kłopotów. W Windows dysponujemy narzędziami i komercyjnymi, i darmowymi, zaś dostępne w systemie klawiatury ułatwią nam tworzenie dokumentów w jezyku rosyjskim, greckim, hebrajskim czy arabskim.
Oczywiście pisanie w językach posługujących się innymi alfabetami wymaga posiadania przystosowanych do nich klawiatur (sprzętu), a przynajmniej jakichś nakładek na klawisze normalnej łacińskiej klawiatury, aby nie zgadywać, co kryje się pod konkretnym klawiszem.
Przede wszystkim trzeba się zastanowić nad wyborem kodowania. Mamy tutaj dwa kierunki działania:
Deklaracja strony kodowej w części nagłówkowej dokumentu:
<meta http-equiv="content-type" content="text/html; charset=wartość">
alfabet (wartość charset) | języki |
---|---|
windows-1250 środkowoeuropejski | polski, czeski, słowacki, słoweński, chorwacki, węgierski, rumuński, albański |
windows-1251 cyryliczny | rosyjski, bułgarski, serbski, ukraiński, białoruski, macedoński |
windows-1252 zachodnioeuropejski | angielski, niemiecki, włoski, portugalski, hiszpański, francuski, baskijski, kataloński, galicyjski, niderlandzki, fiński, duński, islandzki, irlandzki, norweski, szwedzki, afrykanerski |
windows-1253 grecki | grecki |
windows-1254 turecki | turecki |
windows-1255 hebrajski | hebrajski |
windows-1256 arabski | arabski |
windows-1257 bałtycki | estoński, litewski, łotewski |
windows-1258 wietnamski | wietnamski |
alfabet (wartość charset) | języki |
---|---|
iso-8859-1 zachodnioeuropejski | angielski, niemiecki, włoski, portugalski, hiszpański, francuski, baskijski, kataloński, galicyjski, retoromański, niderlandzki, fiński, duński, islandzki, irlandzki, norweski, szwedzki, afrykanerski |
iso-8859-2 środkowoeuropejski | polski, czeski, słowacki, słoweński, chorwacki, węgierski, rumuński, albański |
iso-8859-3 południowoeuropejski | maltański, esperanto |
iso-8859-4 północnoeuropejski (bałtycki) | estoński, litewski, łotewski, grenlandzki, lapoński |
iso-8859-5 cyryliczny | rosyjski, bułgarski, serbski, ukraiński, białoruski, macedoński |
iso-8859-6 arabski | arabski |
iso-8859-7 grecki | grecki |
iso-8859-8 hebrajski | hebrajski |
iso-8859-9 turecki | turecki |
Lista popularnych języków, oznaczeń językowych i stron kodowych
(zaczerpnięta ze strony http://www.w3.org/International/O-charset-lang.html)
Aby tworzyć dokumenty obcojęzyczne - jednojęzyczne, trzeba je pisać z użyciem odpowiedniej klawiatury i deklaracji strony kodowej (tabela).
Aby tworzyć dokumenty obcojęzyczne - wielojęzyczne, możemy się posługiwać kodowaniem unikodowym, podając jednocześnie deklarację strony kodowej UTF-8. Możliwe jest jednak użycie jednej z narodowych stron kodowych i zapisywanie znaków danego języka w tradycyjny sposób, podczas gdy znaki w innych językach są zapisywane unikodowo - vide: Word, FrontPage.
Deklaracja strony kodowej w części nagłówkowej dokumentu:
<meta http-equiv="content-type" content="text/html; charset=utf-8">
Pisanie w wielu językach jednocześnie wymaga użycia programów pracujących w trybie graficznym - popularne edytory HTML pracujące w trybie tekstowym, jak Pajączek 4.8 czy Homesite, nie wyświetlają graficznej postaci znaków w trybie edycji (Homesite 4.5 wyświetla je w trybie Design). Trudno jest więc pisać "na ślepo".
Spośród popularnych narzędzi najlepiej sprawują się takie programy, jak komercyjne Word i FrontPage czy darmowe FrontPage Express (był dostarczany z Internet Explorerem 4) i Netscape Composer (jest cały czas dostępny w Netscape Communicatorze).
Word koduje znaki unikodowo. Wystarczy zmienić klawiaturę w Windows, aby pisać w danym języku.
Gotowy dokument z Worda 2002 zapisujemy jako plik HTML, wybierając albo jego większą wersję XML-ową (Zapisz jako, Strona sieci web) albo zwykłą (Zapisz jako, Strona sieci web, przefiltrowana). W Wordzie 2000 możemy się posłużyć specjalną wtyczką Office 2000 HTML Filter (265 KB), dostępną na stronie Microsoftu - wtyczka ta czyści kod HTML z dodatków. Word automatycznie wstawia oznaczenia językowe, które sterują wyświetlaniem znaków, np. <span lang=RU>.
Przykład dokumentu niefiltrowanego:
word.htmPrzykład dokumentu filtrowanego:
wordfiltr.htmW podobny sposób działa FrontPage. Warto jednak zauważyć, że jeśli jakiś język dominuje w tekście, można wybrać jego stronę kodową, natomiast fragmenty w innych językach będą zapisywane unikodowo z oznaczeniem języka przy tekście - lang=. Zmniejszy to wielkość pliku HTML. Dotyczy to i Worda, i FrontPage'a.
Fragment ekranu obrazuje podgląd źródła dokumentu we FrontPage'u 2002. Grecka strona kodowa powoduje, że znaki greckie są zapisywane za pomocą alfabetu greckiego, natomiast znaki z innych języków - w sposób unikodowy.
Tworząc nową stronę, wybierz Plik - Właściwości strony i wskaż opcję Wielojęzykowy UTF-8 w opcjach wyświetlania i zapisywania strony. Pisanie w wielu językach wymaga jedynie zmiany klawiatury w Windows.
Przykład dokumentu:
fpexpress.htmPo utworzeniu nowej strony zapisz ją od razu w standardzie Unicode - File - Save as charset - Unicode (UTF-8). Wpisuj tekst, zmieniając jedynie klawiaturę.
Przykład dokumentu:
composer.htmDostępny jest także darmowy (do użytku niekomercyjnego) edytor UniPad - http://www.unipad.org. W marcu 2002 roku dostępna jest wersja beta 0.97 i na razie nie została podana data wypuszczenia wersji finalnej 1.0. Plik ma 1,78 MB, zaś wersja 0.97 ma wygasnąć 31 sierpnia 2002 roku. Wtedy powinna być już dostępna następna wersja programu.
Plik jest zapisywany z rozszerzeniem .utx, ale de facto jest to dokument tekstowy, który można przetworzyć do postaci dokumentu HTML.