コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

Wikipedia:井戸端/subj/ページのバイト数の増減他

何を表しているのでしょうか

[編集]

写真好き少年といいます。最近更新したページやウォッチリストで、項目名と時刻のあとに、緑または赤で(+275)とか(-3685)などと表示されているのですが、これは何を表しているのでしょうか。是非教えてください。--写真好き少年 2007年5月12日 (土) 10:10 (UTC)[返信]

データとして増減した容量だと思われます。飽く迄もウィキとしての内部的データ量なので、目に見えるテキスト上の容量とは異なる事もあるようです。--٢١٩.١٧٤.١٥٨.٢٢٥ 2007年5月12日 (土) 10:13 (UTC)[返信]
この質問、私が気づいた範囲で3回目なのですが……。解説ページを作って、わかりやすいところからリンクすべきではないでしょうか。--Tamago915 2007年5月12日 (土) 10:45 (UTC)[返信]
この質問する方、本当に多いですね。見てれば何となく分かりそうなもんですけど。あくまで直前の版から増減したバイト数なので UTF-8 だと基本的な日本語文字が 3byte など、視覚的な文字数と異なるので気づきにくいんでしょうか。 --Mzm5zbC3 2007年5月12日 (土) 14:15 (UTC)[返信]

全角文字? 2バイト文字?

[編集]

話はそれますが「全角という言葉はおかしい」という指摘を避けるためによく使われる「2バイト文字」という表現も、ここではおかしいんですね。Goodmoon

個人的には「2バイト文字」よりも「全角」の方が相当であると考えています。BTRON環境(TRONコード)に触れていると尚の事、そう感じます。--٢١٩.١٧٤.١٥٨.٢٢٥ 2007年5月12日 (土) 16:14 (UTC)[返信]
ASCII 文字列とそれ以外を区別する用語なら 非 ASCII 文字列 という言い方もありますね。ただし、この場合半角記号類などは ASCII 文字列に含まなかったりするでしょうし、難しいところかな。 --Mzm5zbC3 2007年5月12日 (土) 19:17 (UTC)[返信]
採用している文字コード系によって2バイトとは限らないというのが大きいのでしょうね。Windows Vistaで採用されたJIS2004だと4バイト文字がShiftJISで飛んでくるということもあります。いわゆる半角カナ文字だって、文字コード系によって1バイトではなく2バイト文字になることもあります。マルチバイト文字2バイト言語という記事が作成されてますね。--KoZ 2007年5月16日 (水) 05:44 (UTC)[返信]
Shift_JIS-2004のすべての文字は2バイト以下です。Shift_JIS-2004参照。サロゲートペアの話と混同していませんか?--emk 2007年5月18日 (金) 14:06 (UTC)[返信]

うーん、fj時代にさかのぼりしたような議論ですね。Unicodeの体系で全角・半角といってしまっていますからそれで問題ないとは思いますが、正確さを期するなら文字コードセット名であるJIS X 0208JIS X 0201を使うことになるのでしょうか。念のために書いておきますと、全角・半角の表現が適切でないという主張は、文字幅が一定でないプロポーショナルフォントが存在する(全角のAが半角のAの2倍の文字幅であるという前提が崩れている)にもかかわらず、文字幅で分類しようとしていることからきています。--Tamago915 2007年5月16日 (水) 22:31 (UTC)[返信]

同じ基本形をもちながら符号の解釈において全角用・半角用の区別のある文字をそれぞれ指すには問題ないかもしれませんが、かつて「全角」「半角」と総称してきた区分はかなり崩れている(あるいは、元々崩れていたが通用しなくなった)と言わざるを得ないのではないでしょうか。Mulukhiyya 2007年5月17日 (木) 09:58 (UTC)[返信]
UnicodeなのにJIS X 0208とかJIS X 0201という名前が出てくることの方が正確さに疑問があるような。基本日本文字集合とか互換用全角英数字集合とか互換用半角片仮名集合ならともかく。ちなみに3つともJIS X 0221で定義された用語です。--emk 2007年5月18日 (金) 14:15 (UTC)[返信]
いや。Unicode (ISO/IEC 10646) 自体が各国規格やベンダ標準の折衷なので、日本語環境でレパートリを確定しようとおもったら「原典」である JIS X 0208 などをもちだしてくるしかないでしょう。
ところで、全角半角ならUAX11にあります (全角とも半角ともつかないものもあるので、wide / narrow / fullwidth / halfwidth / ambiguous / neutral となっています)。が、実際のフォントの調査によっているようで、バグまみれではあります。あと、JIS X 4051:2004 (1995年版も内容的にはおなじ) では字間のアキもふくめて全角、二分(半角)、その他の幅について定義されています。 --Hatukanezumi 2007年5月18日 (金) 14:59 (UTC) 補記 --Hatukanezumi 2007年5月19日 (土) 04:17 (UTC)[返信]
そこでTRONコード(UnicodeもJISコードも存在するも、スクリプト(面)を別にしてそれぞれを持つ)の出番ですよ、と、TRON厨を出張ってみたり。--٢١٩.١٧٤.١٥٨.٢٢٥ 2007年5月19日 (土) 15:33 (UTC)[返信]
うーん、全角半角に関してはUnicodeの中だけで完結した定義ができるのに原規格までさかのぼる必然性が感じられません。むしろJIS X 0201では片仮名が「HALFWIDTH KATAKANA LETTER **」であるとは定めていない (定めているのはJIS X 0208の附属書5) とか、かえって話がややこしくなると思います。
それに「原典」を持ち出してレパートリを確定する作業は日本文字部分レパートリの制定の際にも行われているはずで、車輪の再発明ではないでしょうか。--emk 2007年5月22日 (火) 11:29 (UTC)[返信]
あ、「原典」の話は本題ではなかったです (というか JIS X 0201 等は文字の「幅」を規定していない。例示字形にはなにやらそれらしい枠線が引いてあるものもあるけど、全角に見えたり半角に見えたりするのは気の迷いなんです。そうですよね)。
UAX11策定者の示した結論は、ワイドだからといって fullwidth variant ではないし、ナローだからといって halfwidth variant ではない、というものだ、というのが本題でした。しかし、どんなにあいまいだろうと、全角半角といった個々のグリフの「見た目」の区別は厳然として存在します。その根拠はコンピュータ上のフォントメトリックではなく、印刷技術の伝統のなかに求めるべきでしょう。ということで、日本語組版に関するJIS X 4051を挙げました。全角半角という区別は、たしかに日本語テキストには存在するのだけれど、それは組版規則という文脈のなかで決まるものなのであります。したがって、同じ文字に全角と半角があるなどと言うべきではないっ。特定の幅をもった compatibility forms などというものはっ、あっこら何をする離せ (舞台袖からあわてた様子で出てきた数人に引きずられるようにして退場)。 --Hatukanezumi 2007年5月22日 (火) 12:39 (UTC)[返信]

ぶっちゃけてしまえば、別に何と呼んでも良いとは思いますが、誰もが判る表現にすべきですよね、少なくとも口語に於いては。百科事典としての項目内の記述は正確さを重視しますが、ノートや井戸端での対話に於いて、そこまで正確的な表現が必要なのかどうか…、それってDHMO然りではないの? 要は、Wikiって略すなと言われても、文脈からその意味は判るよね、判り難いならば略さずに使い分けるべきだよね、というものと同じである訳でして。そのような訳で、少なくともノートや井戸端では「半角」「全角」でも良いのではないか、と思うのです。--٢١٩.١٧٤.١٥٨.٢٢٥ 2007年5月27日 (日) 04:20 (UTC)[返信]