大規模文字セット
大規模文字セット(だいきぼもじセット)、大規模文字集合(だいきぼもじしゅうごう)とは、(符号化)文字集合(文字セット)のうち、一般に通用している規格より多くの文字を含むものをいう。
たとえば日本においては、JIS X 0208には約6000の文字が含まれていたが、過去の文学作品や現代の日本でも使われている地名、人名等の固有名詞を表すのに十分ではなく、使いたい文字が含まれていないことを不満に感じる人達が少なからずいた。
「大規模文字セット」[1][2][3]のほか「多漢字文字コード」[4]や「大文字セット」[5]などと呼ばれることもある。
大規模文字セットに必要な文字数
[編集]どのくらいの文字種の数があれば大規模文字セットと呼べるのかについては明確な基準があるわけではなく、その時々の普及している文字セットの文字数やどのくらいの文字数が必要であると考えられているのかといったことによって決まる。
実際に流通している漢字コードの規格が約6000の文字を収容しているJIS X 0208しかなかった時代には、1万を超える文字数があれば大規模と呼ばれた。また、諸橋大漢和辞典の収容文字数が約5万4千であることから、16ビットの限界である65536個のコードがあれば、なんとか必要な文字を収容できるという考え方もあり、16ビットの文字集合で全ての文字を網羅することを目指して開発された当初のUnicode(バージョン1.0)はこのような考え方を元にしている。
その後Unicodeおよびそれを元にしたISO/IEC 10646 (JIS X 0221)、JIS X 0213等の含まれる文字数の多い規格がいくつも制定された。
主な大規模文字セット
[編集]以下に、主な大規模文字セットを挙げる。(字数は2007年5月時点。(諸)とあるものは、諸橋大漢和相当の部分集合、約5万4000字を持つ。(住)とあるものは、住基ネット統一文字相当の部分集合、約1万9000字を持つ。(戸)とあるものは、戸籍統一文字相当の部分集合、5万6044字(2012年時点)[6]を持つ。)
- Unicode - 現在約11万字 (うち漢字約8万字、ほか異体字約1万字)。
- 今昔文字鏡 - 現在約18万字 (うち漢字16万字)。(諸)
- e漢字 - 現在約24万字。中華字海の約8万6000字を含む。(諸)
- GT - 現在約7万9000字。(諸)(住)[7]
- JIS X 0213 - 現在約1万1000字。
- Adobe-Japan1 - 現在約2万3000字。
- MJ文字情報 - 現在約6万字収録。(住)(戸)
- 登記統一文字 - 約6万8000字。(戸)
大規模文字セットを実装したフォント
[編集]電子書籍が普及した現在、多くのフォントはDTP用に開発された文字セットであるAdobe-Japan1-6を実装している。人名/地名用のフォントでは、経済産業省所管独立行政法人の情報処理推進機構(IPA)が、MJ文字情報に対応するIPAmj明朝フォントをオープンソースで頒布している。
他に、今昔文字鏡のindexfontや、GT書体プロジェクトによるGT書体及びTフォント[8]、UnicodeのCJK統合漢字拡張A~Fに完全対応する花園フォントなどが使われている。
脚注
[編集]- ^ 美崎薫「大規模文字セット」『超漢字超解説 BTRON仕様革命的OSの全貌』工作舎、2000年10月、pp. 31-32。 ISBN 978-4-87502-334-0
- ^ 加藤弘一「大規模文字セットのデファクト標準」『図解雑学 文字コード』ナツメ社 2002年8月、pp. 212-213。 ISBN 4-8163-3243-X
- ^ 福田忍「コンピュータにない漢字」の利用について--「大規模文字セット」とマクロによる、データの再利用と共有」『年報いわみざわ』、北海道教育大学岩見沢校、第24号(2002年度)、pp. 59-69。
- ^ 清水哲郎「5万字規模の漢字を収録した多漢字文字コード」『図解でわかる文字コードのすべて : 異体字・難漢字からハングル・梵字まで』日本実業出版社 2001年4月、pp. 88-98。 ISBN 4-534-03224-2
- ^ 永瀬唯「漢字消費者に贈る弁」小池和夫『漢字問題と文字コード』太田出版、1999年10月、pp. 229-325 特にp. 322。 ISBN 4-87233-486-8
- ^ 安岡孝一「日本の文字とUnicode 第10回」、大修館、2012年11月24日参照。
- ^ パーソナルメディア、Windows上で動作するTRON OS「超漢字V」 Impress Watch 2006年
- ^ Tフォントプロジェクト GT書体について