コンテンツにスキップ

利用者:A perfect fool/文字に関する諸問題

ウィキペディア日本語版では、UTF-8エンコードされたUnicodeを使用しています。しかしながら、多言語テキストの実現を目的としたUnicodeと言えども、全ての文字を網羅したフォントは、存在するとしても一般的ではありませんし、少なくとも、それを標準で添付しているOSは皆無に等しいでしょう。ですから、あなたのコンピュータの「文字コード表」に載っていても、一般的でない文字の使用は避けるべきです ― たとえ、それがUnicodeの一般の領域に割り当てられているものであっても。

機種依存文字に関しては、Suisuiさんの利用者:Suisui/機種依存文字テストページにリストアップされていますので、参考にして下さい。

ブラウザによっては表示できない文字

(黒丸白抜き数字)
❶❷❸❹❺❻❼❽❾
(括弧付き数字)
⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀⒁⒂⒃⒄⒅⒆⒇
(点付き数字)
⒈⒉⒊⒋⒌⒍⒎⒏⒐
(括弧付きアルファベット)
⒜⒝⒞⒟⒠⒡⒢⒣⒤⒥⒦⒧⒨⒩⒪⒫⒬⒭⒮⒯⒰⒱⒲⒳⒴⒵

上記の文字は、Windows 2000に標準で添付されている「インターネット・エクスプローラ 5.0」(以下、IE5)では表示できないことを確認しています。同じOSの上でも、Netscape 7.1 や Opera 7.22 では表示することができます。インストールされているフォントや設定によって結果は異なるかも知れませんが。

(制御文字用シンボル)
␀␁␂␃␄␅␆␇␈␉␊␋␌␍␎␏␐
␑␒␓␔␕␖␗␘␙␚␛␜␝␞␟␠␡␤
(IE5: ×, Netscape7.1: ○, Opera7.22: ○)

問題がありそうな文字

(濁点付きひらがな・全角カタカナ う ワヰヱヲ)
ゔ ヷヸヹヺ (IE5: ○, Netscape7.1: ○, Opera7.22: ○)
(上付き小数字 123)
¹²³ (IE5: ○, Netscape7.1: ○, Opera7.22: ○)
(上付き小数字 0456789)
⁰⁴⁵⁶⁷⁸⁹ (IE5: ×, Netscape7.1: ○, Opera7.22: ○)
(ラテン文字)
ß(U+00DF: Small Sharp S)
(その他の記号)
µ(U+00B5: Micro Sign)(U+2109: Degree Fahrenheit)(U+2113: Script Small L)(U+2126: Ohm Sign)(U+212A: Kelvin Sign)
(漢字)
(U+4E02)(U+4EB9)(U+4F8C)(U+9F9E)

形の似た文字

(中点)
·(U+00B7: Middle Dot) ·(U+0387: Greek Ano Teleia)(U+2022: Bullet)(U+2027: Hyphenation Point)(U+2219: Bullet Operator)(U+22C5: Dot Operator)(U+30FB: Katakana Middle Dot)(U+FF65: Halfwidth Katakana Middle Dot)
(波線)
(U+301C: Wave Dash)(U+FF5E: Fullwidth Tilde)
環境によっては、編集時に勝手に変換されるなどすることもあるかも知れません。
(横棒)
-(U+002D: Hyphen-Minus)(U+2043: Hyphen Bullet)

半角カタカナ

UTF-8エンコードしたUnicodeを使用しているウィキペディアでは、半角カタカナも比較的安全です。しかしながら、Shift_JISでは1バイトで表せるこれらの文字も、UTF-8では3バイトになり、利点は少ないでしょう。

Unicodeと従来の文字集合

Unicodeと従来の文字集合の関係は一意なものではなく、幾つかの文字は環境によっては、異なる文字に変換されることが知られています。従って、ソフトウェアによっては、内部処理にUnicodeを使用していない場合などには、編集の前と保存の後とで、自動的に別のコードに変換されてしまうこともあるかも知れません。

シフトJIS 8160h

「~」として知られているShift_JISの8160hの文字は、WindowsではU+FF5Eに、MacintoshではU+301Cに変換されます。