Kapitel 8. I18N och L10N

Innehållsförteckning

Flerspråkighet (M17N) eller modersmålsstöd för en applikationsprogramvara görs i två steg.

Internationalisering (I18N): Att göra en programvara potentiellt hanterbar för flera lokala språk.
Lokalisering (L10N): Att få en programvara att hantera en specifik lokal.

	Tips
	Det finns 17, 18 eller 10 bokstäver mellan ”m” och ”n”, ”i” och ”n” eller ’l’ och ”n” i flerspråkighet, internationalisering och lokalisering, vilket motsvarar M17N, I18N och L10N. Se Internationalisering och lokalisering för mer information.

8.1. Lokalen

Beteendet hos program som stöder internationalisering konfigureras av miljövariabeln "$LANG" för att stödja lokalisering. För att libc-biblioteket faktiskt ska stödja lokalberoende funktioner krävs att paketen locales eller locales-all installeras. Paketet locales måste initialiseras på rätt sätt.

Om varken paketen locales eller locales-all är installerade förloras stödet för locale-funktioner och systemet använder meddelanden på US-engelska och hanterar data som ASCII. Detta beteende är på samma sätt som "$LANG" ställs in av "LANG=", "LANG=C" eller "LANG=POSIX".

De moderna programvarorna som GNOME och KDE är flerspråkiga. De internationaliseras genom att de hanterar UTF-8-data och lokaliseras genom att de översatta meddelandena tillhandahålls via infrastrukturen gettext(1). Översatta meddelanden kan tillhandahållas som separata lokaliseringspaket.

Debians nuvarande GUI-system för skrivbordet ställer normalt in locale under GUI-miljön som "LANG=xx_YY.UTF-8". Här är "xx" ISO 639 språkkoder och "YY" ISO 3166 landskoder. Dessa värden ställs in av GUI-dialogen för skrivbordskonfiguration och ändrar programmets beteende. Se även Avsnitt 1.5.2, ”Variabeln "$LANG"”

8.1.1. Motivering för UTF-8-lokal

Den enklaste representationen av textdata är ASCII som är tillräckligt för engelska och använder mindre än 127 tecken (representerbara med 7 bitar).

Även vanlig engelsk text kan innehålla icke-ASCII-tecken, t.ex. finns inte vänster- och högercitationstecken i ASCII.

“double quoted text” is not "double quoted ASCII"
‘single quoted text’ is not 'single quoted ASCII'

För att kunna stödja fler tecken har många teckenuppsättningar och kodningssystem använts för att stödja många språk (se Tabell 11.2, ”Lista över kodningsvärden och deras användning”).

Unicodes teckenuppsättning kan representera praktiskt taget alla tecken som människan känner till med 21 bitars kodpunktsintervall (dvs. 0 till 10FFFF i hexadecimal notation).

Textkodningssystemet UTF-8 passar Unicode-kodpunkter i en förnuftig 8-bitars dataström som är mestadels kompatibel med ASCII-databehandlingssystemet. Detta gör UTF-8 till det moderna förstahandsvalet. UTF står för Unicode Transformation Format. När ASCII-data i klartext konverteras till UTF-8 har de exakt samma innehåll och storlek som den ursprungliga ASCII-datan. Så du förlorar ingenting genom att distribuera UTF-8 locale.

Under UTF-8-läge med det kompatibla programmet kan du visa och redigera textdata på alla främmande språk så länge som nödvändiga teckensnitt och inmatningsmetoder är installerade och aktiverade. Till exempel under "LANG=fr_FR.UTF-8" locale kan gedit(1) (textredigerare för GNOME-skrivbordet) visa och redigera textdata med kinesiska tecken samtidigt som menyerna visas på franska.

Tips

Både den nya standarden ”en_US.UTF-8” och den gamla standarden ”C”/”POSIX” använder standardmeddelanden på amerikansk engelska, men det finns små skillnader i sorteringsordning etc. Om du vill hantera inte bara ASCII-tecken utan också alla UTF-8-kodade tecken på ett smidigt sätt och samtidigt behålla det gamla ”C”-beteendet, använd den icke-standardiserade ”C.UTF-8”-lokaliseringen på Debian.

	Notera
	Vissa program förbrukar mer minne efter stöd för I18N. Detta beror på att de är kodade för att använda UTF-32 (UCS4) internt för att stödja Unicode för hastighetsoptimering och förbrukar 4 byte per varje ASCII-teckeninformation oberoende av vald locale. Återigen, du förlorar ingenting genom att distribuera UTF-8 locale.

8.1.2. Omkonfigurering av lokal

För att systemet ska kunna komma åt en viss locale måste locale-data sammanställas från locale-databasen.

Paketet locales levereras inte med förkompilerade locale-data. Du måste konfigurera det som:

# dpkg-reconfigure locales

Denna process omfattar 2 steg.

Välj alla nödvändiga lokala data som ska sammanställas till binär form. (Se till att inkludera minst en UTF-8-lokal)

Ange det systemomfattande standardvärdet för locale genom att skapa "/etc/default/locale" för användning av PAM (se Avsnitt 4.5, ”PAM och NSS”).

Det systemomfattande standardvärdet för locale som anges i "/etc/default/locale" kan åsidosättas av GUI-konfigurationen för GUI-applikationer.

	Notera
	Det faktiska traditionella kodningssystemet kan identifieras med "`/usr/share/i18n/SUPPORTED`". Således är "`LANG=en_US`" "`LANG=en_US.ISO-8859-1`".

Paketet locales-all levereras med förkompilerade locale-data för alla locale-data. Eftersom det inte skapar "/etc/default/locale", kan du fortfarande behöva installera locales-paketet också.

	Tips
	Paketet `locales` i vissa Debian-distributioner kommer med förkompilerade locale-data för alla locale-data. Du måste installera både `locales-` och `locales-all-paketen` på Debian för att emulera en sådan systemmiljö.

8.1.3. Kodning av filnamn

För datautbyte mellan plattformar (se Avsnitt 10.1.7, ”Flyttbar lagringsenhet”) kan du behöva montera vissa filsystem med särskilda kodningar. Exempelvis förutsätter mount(8) för vfat-filsystem CP437 om det används utan alternativ. Du måste ange ett explicit mount-alternativ för att använda UTF-8 eller CP932 för filnamn.

	Notera
	Vid automatisk montering av ett USB-minne under en modern skrivbordsmiljö, t.ex. GNOME, kan du tillhandahålla ett sådant monteringsalternativ genom att högerklicka på ikonen på skrivbordet, klicka på fliken "Drive", klicka för att expandera "Setting" och ange "utf8" i "Mount options:". Nästa gång minnesstickan monteras är montering med UTF-8 aktiverad.

	Notera
	Om du uppgraderar systemet eller flyttar hårddiskar från ett äldre system som inte har UTF-8 kan filnamn med icke-ASCII-tecken vara kodade i historiska och föråldrade kodningar som ISO-8859-1 eller eucJP. Ta hjälp av textkonverteringsverktyg för att konvertera dem till UTF-8. Se Avsnitt 11.1, ”Verktyg för konvertering av textdata”.

Samba använder Unicode för nyare klienter (Windows NT, 200x, XP) men använder CP850 som standard för äldre klienter (DOS och Windows 9x/Me). Denna standard för äldre klienter kan ändras med hjälp av "dos charset" i filen "/etc/samba/smb.conf", t.ex. till CP932 för japanska.

8.1.4. Lokaliserade meddelanden och översatt dokumentation

Översättningar finns för många av de textmeddelanden och dokument som visas i Debian-systemet, såsom felmeddelanden, standardprogramutdata, menyer och manualer. GNU gettext(1) command tool chain används som backend-verktyg för de flesta översättningsaktiviteter.

Under "Tasks" → "Localization" tillhandahåller aptitude(8) en omfattande lista över användbara binära paket som lägger till lokaliserade meddelanden i program och tillhandahåller översatt dokumentation.

Du kan t.ex. få det lokaliserade meddelandet för manpage genom att installera paketet manpages-LANG. Om du vill läsa den italienskspråkiga manpagesidan för programnamn från "/usr/share/man/it/", gör du så här.

LANG=it_IT.UTF-8 man programname

GNU gettext kan hantera en prioriterad lista över översättningsspråk med miljövariabeln $LANGUAGE. Till exempel:

 $ export LANGUAGE="pt:pt_BR:es:it:fr"

För mer information, se info gettext och läs avsnittet "Variabeln LANGUAGE".

8.1.5. Effekter av lokal

Sorteringsordningen för tecken med sort(1) och ls(1) påverkas av lokal. Export av LANG=en_US.UTF-8 sorterar i ordlistan A->a->B->b...->Z->z ordning, medan export av LANG=C.UTF-8 sorterar i ASCII binär A->B->...->Z->a->b...ordning.

Datumformatet i ls(1) påverkas av språkvalet (se Avsnitt 9.3.4, ”Anpassad visning av tid och datum”).

Datumformatet i date(1) påverkas av språkvalet. Ett exempel:

 $ unset LC_ALL
 $ LANG=en_US.UTF-8 date
Thu Dec 24 08:30:00 PM JST 2023
 $ LANG=en_GB.UTF-8 date
Thu 24 Dec 20:30:10 JST 2023
 $ LANG=es_ES.UTF-8 date
jue 24 dic 2023 20:30:20 JST
 $ LC_TIME=en_DK.UTF-8 date
2023-12-24T20:30:30 JST

Interpunktionerna för siffror är olika i olika länder. Till exempel, på engelska visas ett tusen komma ett som "1,000.1" medan det på tyska visas som "1.000,1". Du kan se den här skillnaden i kalkylbladsprogram.

Varje detaljfunktion i miljövariabeln "$LANG" kan åsidosättas genom att ställa in variablerna "$LC_*". Dessa miljövariabler kan åsidosättas igen genom att ställa in variabeln "$LC_ALL". Se locale(7) manpage för mer information. Om du inte har starka skäl att skapa komplicerade konfigurationer bör du undvika dem och endast använda variabeln "$LANG" som är inställd på en av UTF-8-domänerna.

8.2. Inmatning med tangentbordet

8.2.1. Tangentbordsinmatning för Linux-konsolen och X Window

Debian-systemet kan konfigureras för att fungera med många internationella tangentbordsarrangemang med hjälp av paketen keyboard-configuration och console-setup.

# dpkg-reconfigure keyboard-configuration
# dpkg-reconfigure console-setup

För Linux-konsolen och X Window-systemet uppdateras konfigurationsparametrarna i "/etc/default/keyboard" och "/etc/default/console-setup". Detta konfigurerar också Linux-konsolens teckensnitt. Många icke-ASCII-tecken, inklusive accentuerade tecken som används av många europeiska språk, kan göras tillgängliga med dead-tangenten, AltGr-tangenten och compose-tangenten.

8.2.2. Tangentbordsinmatning för Wayland

För skrivbordssystemet GNOME på Wayland kan Avsnitt 8.2.1, ”Tangentbordsinmatning för Linux-konsolen och X Window” inte stödja europeiska språk som inte är engelska. IBus skapades för att stödja inte bara asiatiska språk utan även europeiska språk. Paketberoendet för GNOME-skrivbordsmiljön rekommenderar "ibus" via "gnome-shell". Koden för "ibus" har uppdaterats för att integrera funktionerna setxkbmap och XKB-alternativ. Du måste konfigurera ibus från "GNOME Settings" eller "GNOME Tweaks" för flerspråkig tangentbordsinmatning.

	Notera
	Om ibus är aktivt kan din klassiska X-tangentbordskonfiguration med `setxkbmap` åsidosättas av `ibus` även i en klassisk X-baserad skrivbordsmiljö. Du kan inaktivera installerad `ibus` genom att använda `im-config` för att ställa in inmatningsmetod till "None". För mer information, se Debian Wiki om tangentbord.

8.2.3. Stöd för inmatningsmetod med IBus

Eftersom skrivbordsmiljön GNOME rekommenderar "ibus" via "gnome-shell" är "ibus" ett bra val som inmatningsmetod.

Flerspråkig input till ansökan behandlas som:

Keyboard                                       Application
   |                                                 ^
   |                                                 |
   +-> Linux kernel ->  Input method (ibus)  -> Gtk, Qt, X, Wayland
                          +-- Engine--+

Förteckningen över IBus och dess motorpaket är följande.

Tabell 8.1. Lista över IBus och dess motorpaket

paket	popcon	storlek	lokal som stöds
ibus	V:215, I:260	1857	ramverk för inmatningsmetod med hjälp av dbus
ibus-mozc	V:2, I:3	980	Japanska
ibus-anthy	V:0, I:1	8900	, ,
ibus-skk	V:0, I:0	243	, ,
ibus-kkc	V:0, I:0	211	, ,
ibus-libpinyin	V:1, I:4	2768	Kinesiska (för zh_CN)
ibus-chewing	V:0, I:0	288	, , (för zh_TW)
ibus-libzhuyin	V:0, I:0	41008	, , (för zh_TW)
ibus-rime	V:0, I:0	78	, , (för zh_CN/zh_TW)
ibus-cangjie	V:0, I:0	235	, , (för zh_HK)
ibus-hangul	V:0, I:2	261	Koreanska
ibus-libthai	V:0, I:0	84	Thai
ibus-table-thai	I:0	58	Thai
ibus-unikey	V:0, I:0	286	Vietnamesisk
ibus-keyman	V:0, I:0	191	Flerspråkig: Keyman-motor för över 2000 språk
ibus-table	V:0, I:1	2271	tabellmotor för IBus
ibus-m17n	I:1	448	Flerspråkigt: indiska, arabiska och andra
plasma-widgets-addons	V:66, I:113	5132	ytterligare widgetar för Plasma 5 som innehåller tangentbordsindikator

	Notera
	För kinesiska kan "`fcitx5`" vara ett alternativt ramverk för inmatningsmetoder. För Emacs-entusiaster kan "`uim`" vara ett alternativ. I båda fallen kan du behöva göra extra manuell konfiguration med `im-config`. Vissa gamla klassiska inmatningsmetoder som "`kinput2`" kan fortfarande finnas i Debians arkiv men rekommenderas inte för den moderna miljön.

8.2.4. Ett exempel för japanska

Jag tycker att den japanska inmatningsmetoden som startas under engelsk miljö ("en_US.UTF-8") är mycket användbar. Här är hur jag gjorde detta med IBus för GNOME på Wayland:

Installera det japanska inmatningsverktygspaketet ibus-mozc (eller ibus-anthy) med dess rekommenderade paket, t.ex. im-config.
Välj "Inställningar" → "Tangentbord" → "Inmatningskällor" → klicka på "+" i "Inmatningskällor" → "Japanska" → "Japanska mozc (eller anthy)" och klicka på "Lägg till" om det inte har aktiverats.
Du kan välja hur många ingångskällor som helst.
Logga in på nytt på användarens konto.
Konfigurera varje ingångskälla genom att högerklicka på ikonen i GUI:s verktygsfält.
Växla mellan installerade ingångskällor med SUPER-SPACE. (SUPER är normalt Windows-tangenten)

	Tips
	Om du vill ha tillgång till en tangentbordsmiljö med enbart alfabet med det fysiska japanska tangentbordet där `shift-2` har " `(` dubbla citattecken) ingraverat, väljer du "Japanese" i proceduren ovan. Du kan skriva in japanska med hjälp av "Japanese mozc (or anthy)" med det fysiska "US"-tangentbordet där `shift-2` har `@` (at-mark) ingraverat.

GUI-menyalternativet för im-config(8) är "Input method".
Alternativt kan du köra "im-config" från användarens shell.
im-config(8) beter sig olika om kommandot körs från root eller inte.
im-config(8) aktiverar den bästa inmatningsmetoden i systemet som standard utan några åtgärder från användaren.

8.3. Displayens utgång

Linux-konsolen kan bara visa ett begränsat antal tecken. (Du måste använda ett speciellt terminalprogram som jfbterm(1) för att visa icke-europeiska språk på en konsol som inte är en GUI-konsol)

GUI-miljön (Kapitel 7, GUI-system) kan visa alla tecken i UTF-8 så länge som nödvändiga teckensnitt är installerade och aktiverade. (Kodningen av de ursprungliga teckensnittsdata tas om hand och är transparent för användaren)

8.4. Östasiatiska tvetydiga tecken bredd tecken

Under den östasiatiska lokalen kan boxtecknen, grekiska och kyrilliska tecken visas bredare än önskad bredd för att orsaka ojusterad terminalutmatning (se Unicode Standard Annex #11).

Du kan komma runt detta problem:

gnome-terminal: Inställningar → Profiler → Profilnamn → Kompatibilitet → Tvetydiga breda tecken → Smala
ncurses: Ställ in miljöexport NCURSES_NO_UTF8_ACS=0.