利用者:Omotecho/sandbox/言語コード

言語コード（げんごｰ）は、言語識別子または分類子として文字または数字を割り当てるコード。これらを使うとデータのライブラリ集またはデータ表示を整理したり、地域化および翻訳において言語の選択を正しく関連付けて選択したり、長い形式の言語名を省略できる。

分類の難しさ

言語コード体系は、人間の言語や地方語、さらに綴りや発音の異形（variants）の複雑な世界を分類しようとする試みである。ほとんどのスキームは標準語か、特定の地方語のみのサポートには足りるものの、ここではいくつかの妥協が求められる。

たとえばスペイン語は中央アメリカと南アメリカのほとんどの人々がしゃべるものの、メキシコのスペイン語とペルーで話されるそれとは少し異なる。また同じメキシコ国内でも地域によってアクセントが違ったり、異なるスペイン語地方語を用いたりもする。これらはすべて言語コードのスキームにより「スペイン語」にグループ化し、キーボード配列が対応づけされる。このようにほとんどの場合、通常の使用法では「●●語」として代表的にグループ化するか、もしくは地方語や地域固有のイディオムを使えるように、各地方語ごとに言語コードを分離する。

一般的なスキーム

一般的に使われる言語コードスキームを紹介する。

スキーム	備考	英語の例語	スペイン語の例語
グロットログコード	少数言語に対応するため理論的に作成。対象は工業規格ISO 639‑3 標準に記載がない言語。意図的に略号化しない。	stan1293 – 標準英語 macr1271 – マクロ英語（現代英語でクレオール語も対象） midd1317 – 中世英語 English merc1242 – Mercian（中世 – 現代英語） olde1238 – 古英語 angl1265 – アングリア語 (古英語 – 現代英語、スコットランド語も対象）	stan1288 – 標準スペイン語 olds1249 – 古スペイン語 cast1243 – カスティリャ語 (古スペイン語 – 現代スペイン語、エストレマドゥーラ語とクレオールも対象）
IETF言語タグ	IETF の最善慣行では現状でRFC 5646およびRFC 4647の規定により、コンピュータの処理しやすさが言語タグ設定で考慮される。タグの方式により地域固有語や地方語への対応もしくは私的に指定が可能。	en – 英語。ISO 639 コードの最短形 en-US – アメリカ合衆国で使われる英語（ISO 3166‑1ではエストレマドゥーラ語の国コード対応する）出典：IETFの記録	es – スペイン語。ISO 639 コード。 es-419 – ラテンアメリカとカリブ海地域に対応。 UN M.49地域コードを採用
ISO 639-1	2文字のコード形式で、2002年に正式に発行、136件。多くのシステムは2文字のISO 639‑1コードを採用し、足りない場合にISO 639‑2コードから3文字コードを借用する。 →「ISO 639-1コード一覧」も参照	en	es – スペイン語
ISO 639-2	3文字コード、464件。 →「ISO 639-2コード一覧」も参照	eng – 3文字コード enm – Middle English, c. 1100–1500 ang – Old English, c. 450–1100 cpe – other English-based creoles and pidgins	spa – Spanish
ISO 639‑3	An extension of ISO 639‑2 to cover all known, living or dead, spoken or written languages in 7,589 entries. See: List of ISO 639-3 codes	eng – three-letter code enm – Middle English, c. 1100–1500 aig – Antigua and Barbuda Creole English ang – Old English, c. 450–1100 svc – Vincentian Creole English	spa – Spanish spq – Spanish, Loreto-Ucayali ssp – Spanish sign language
Linguasphere Register code-system	Two-digit + one to six letter Linguasphere Register code-system published in 2000,^[1] containing over 32,000 codes within 10 sectors of reference, covering the world's languages and speech communities. Navigate also the hierarchy of the Linguasphere Register code-system published online by hortensj-garden.org ^[2]	Within hierarchy of Linguasphere Register code-system: 5= Indo-European phylosector 52= Germanic phylozone 52-A Germanic set 52-AB English + Anglo-Creole chain 52-ABA English net 52-ABA-c Global English outer unit 52-ABA-ca to 52-ABA-cwe (186 varieties) Compare: 52-ABA-a Scots + Northumbrian outer unit & 52-ABA-b "Anglo-English" outer unit (= South Great Britain traditional varieties + Old Anglo-Irish)	Within hierarchy of Linguasphere Register code-system: 5= 印欧 phylosector 51= Romanic phylozone 51-A ロマンス語セット 51-AA Romance chain 51-AAA West Romance net 51-AAA-b Español/Castellano 外部ユニット 51-AAA-baから 51-AAA-bkkまで (58 の異形) 比較例： 51-AAA-a ポルトガル語 + ガリシア語対応の外部ユニットと51-AAA-c アストゥリアス語 + レオン語外部ユニット
エスノローグ（SILコード、第10–14版）	言語統計を表示するエスノローグ用のコード。国際SIL発行。現在ではISO 639‑3コードを使用して発行する。	ENG	SPN
Verbix 言語コード	構築したコード。旧SILコードに情報を付加。^[3]	ENG	SPN

出典

^ “The Linguasphere Register in PDF”. l’Observatoire linguistique (Linguasphere Observatory). 27 April 2015時点のオリジナルよりアーカイブ。20 April 2015閲覧。
^ “Linguasphere Register hierarchy”. 8 June 2016閲覧。
^ Verbix language codes Archived 2009-04-01 at the Wayback Machine., Verbix

外部リンク

[[Category:国際化と地域化]] [[Category:識別子]]

[1] “The Linguasphere Register in PDF”. l’Observatoire linguistique (Linguasphere Observatory). 27 April 2015時点のオリジナルよりアーカイブ。20 April 2015閲覧。

[2] “Linguasphere Register hierarchy”. 8 June 2016閲覧。

[3] Verbix language codes Archived 2009-04-01 at the Wayback Machine., Verbix

[1]

[2]

[3]

分類の難しさ

一般的なスキーム

関連項目

出典

外部リンク