Wikipedia‐ノート:すべての言語版にあるべき項目の一覧
過去ログ一覧 |
---|
|
進捗度表記について
[編集]リスト部分についての案を書いておきます。現在のリストはmetaとの照合用としての性格が強く、一般的な基準とは異なりますので英語版と{{CI}}を参考に考えたのですが、これぐらいでどうでしょうか。
: - 秀逸な記事 : - 良質な記事 : - 元秀逸な記事 : - 元良質な記事 : - A:30kバイト以上 : - B:10kバイト以上30kバイト未満 : - C:5kバイト以上10kバイト未満 : - スタート:2kバイト以上5kバイト未満 : - スタブ:2kバイト未満 : - 記事無し : - 現在リダイレクト
A/B/Cはmetaの3種類をそのままの数値で流用し、C以下をC/スタート/スタブに分けたものです。--Open-box(会話) 2019年7月2日 (火) 13:51 (UTC)
- スタートとスタブの追加に賛成します。バイト数はメタウィキのList of Wikipedias by sample of articlesで採用されている、英語の1.9倍とする基準を採用したいところですが、こちらはもう少しほかの方からの意見が欲しいところです。(英語の1.9倍という基準は、聖書のバベルの塔に関する記述の文字数比を由来としています。聖書を採用した理由はある程度の長さがあり、世界中の言語でおそらく最も多く翻訳されて、多くの言語で採用できるからです。1倍とした場合、英語版よりやや甘めの基準になりますが、他言語版との比較を重要視するかどうかで意見が分かれるでしょう。)--ネイ(会話) 2019年7月3日 (水) 12:49 (UTC)
- 文学的記述を適用できるのか以前に、それ実験してみましたけど変じゃないですか? Windowsのメモ帳でコピーして行頭の数字を削って確認したのですが、日本語が1,714バイト、英語が1,179バイトなので1.45。数値は多少前後するとしても、実際には言語差がないコード部分が入るので差はもっと少ないはずです。他言語を試していないのですが、1バイト文字前提の判断でGoogle翻訳に入れて文字数だけカウントしてると思われます。日本語の1978年版をコピーしてGoogle翻訳に入れると597ですし、行頭の数字が入ってしまうんです。一方英語の2002年版をコピーしても数字は入らない。これは恐らく他の言語でも同様のミスを侵していると思われます。倍率かけるなら補正入れて1.4ぐらいですが判りやすく45/30/15/7/3(スタートとスタブは半分にして切り捨て)ぐらいでしょうか。--Open-box(会話) 2019年7月3日 (水) 23:46 (UTC)
- コメントメタのは正確にはテンプレートやマークアップ等を除いた「文字数」なので1.9倍は文字をカウントして掛けないとだめです。この文書の「バイト数」は私が昔、統計的に求めた近似値なので正確には一致しません(それぞれの境界値の記事のバイト数を抽出して決めています)。バイト数ならすでにあるツールでちゃっちゃと調べられるので、まあ、そうしたのですけどね。メタに正確に合わせたかったらメタのコードをもとにツールを作ったほうがよいと思います。(聖書の文は「敬体」なので「常体」の百科事典の場合2.2倍ぐらいのほうがより正確ではありますが)--Afaz(会話) 2019年7月4日 (木) 00:08 (UTC)
- (被ったけどほとんどそのまま)Wikipediaなのでコード無視したらだめですね。さてどうしましょう。一応バベルの塔の日本語部分を再チェックしたのですがこれ、1162(英語)/598(日本語)=1.95でやってますね。日本語版の10K記事は英語版の19K記事に相当する? というのであれば30/20/10の判定を日本語版に移入するならA/B/C判定は逆に16K/12K/8Kになりますし、これが単純に記事サイズのみ減少している時点で式の運用がおかしいです。多分metaがやりたかったのは、各言語の記事サイズx英語版に直す比率→A/B/Cを英語版基準値で分析です。バイト的に違いがないイタリア語で1162/1078=1.07→切り上げて1.1。この基準をバイト数(日本語版から数値を削り解説は残したまま)でやると1179/1714=0.68→切り上げて0.7です。これなら実感に近い(小さい記事の翻訳時にサイズの増減が半減するほどではないどころか増えることもある)ですし、medianもこれに近い日→英が0.77なので、weightの計算がコピペミスかつバイト差の考察落ちで異常値になっていると考えます。--Open-box(会話) 2019年7月4日 (木) 00:29 (UTC)
- あ、medianが補正後の中央値と勝手に考えてましたが、これ単純な中央値? だとすると平均と比較しても無意味ですよね。--Open-box(会話) 2019年7月4日 (木) 01:06 (UTC)
- コメントメタのは正確にはテンプレートやマークアップ等を除いた「文字数」なので1.9倍は文字をカウントして掛けないとだめです。この文書の「バイト数」は私が昔、統計的に求めた近似値なので正確には一致しません(それぞれの境界値の記事のバイト数を抽出して決めています)。バイト数ならすでにあるツールでちゃっちゃと調べられるので、まあ、そうしたのですけどね。メタに正確に合わせたかったらメタのコードをもとにツールを作ったほうがよいと思います。(聖書の文は「敬体」なので「常体」の百科事典の場合2.2倍ぐらいのほうがより正確ではありますが)--Afaz(会話) 2019年7月4日 (木) 00:08 (UTC)
- 文学的記述を適用できるのか以前に、それ実験してみましたけど変じゃないですか? Windowsのメモ帳でコピーして行頭の数字を削って確認したのですが、日本語が1,714バイト、英語が1,179バイトなので1.45。数値は多少前後するとしても、実際には言語差がないコード部分が入るので差はもっと少ないはずです。他言語を試していないのですが、1バイト文字前提の判断でGoogle翻訳に入れて文字数だけカウントしてると思われます。日本語の1978年版をコピーしてGoogle翻訳に入れると597ですし、行頭の数字が入ってしまうんです。一方英語の2002年版をコピーしても数字は入らない。これは恐らく他の言語でも同様のミスを侵していると思われます。倍率かけるなら補正入れて1.4ぐらいですが判りやすく45/30/15/7/3(スタートとスタブは半分にして切り捨て)ぐらいでしょうか。--Open-box(会話) 2019年7月3日 (水) 23:46 (UTC)
- Afazさんの2.2倍案で検討しますとこうなります。220(英語)/100(日本語)=2.2。面倒なので制御コードを無視し、英語の空白、日本語の結合文字も無視します。すると日本語は1文字3バイトなのでバイト数に変換しますと220/300=0.733になりますので、聖書の場合と比較すると0.5ほど増加しています。日本語記事にはラテン文字表記、数字などが入るため差は縮まりますので、0.75から0.8でしょうか。0.8で24/16/8、0.78で23.4/15.6/7.8、0.75で22.5/15/7.5。こんなところの合意をとるのは面倒だから30/20/10でいいような気もします。--Open-box(会話) 2019年7月28日 (日) 01:31 (UTC)
十の項目を募集します
[編集]日本語版でも十の項目を運用するために案を募集します。最初に十の項目を日本語版で選ぶ参考として各言語版の項目を抽出しました。英語版の旧版の影響で、芸術の種類(芸術)・地球・世界の歴史・言語・生命・数学・哲学・科学・文化・テクノロジーのセットが多いのですが、当の英語版が文化とヒトを差し替えているようにこれに限定する必要はありません。原則として千の項目の太字から選択が行われる予定ですが、他言語版で頻出する世界の歴史は千の項目にすら入っていませんし、芸術の種類に至っては千の項目どころかこの文章を書いている時点で日本語版がありません。また、一部の言語版は言語と密接に関連する項目を選出しています。ですからあなたの考える十の項目としてよりふさわしいと考えるのであれば、範囲外から選択しても構いません。--Open-box(会話) 2019年7月28日 (日) 06:01 (UTC)
- 1週間以上経過して特にコメントがつかなかったため、当方から「芸術、歴史、文化、ヒト、言語、生命、地球、科学、数学、テクノロジー」の案を推してみます。千の項目の太字から選出する上で無難な選び方ではないかと思います。--ネイ(会話) 2019年8月7日 (水) 15:15 (UTC)
長期間放置されていましたが百の項目の整備案が上がってきたので、こちらに悪影響を及ぼさないためにネイさんの案を仮に適用しました。--Open-box(会話) 2024年8月23日 (金) 03:21 (UTC)
凡例は不用かどうか
[編集]分野別に分類していただき、とても使いやすいです。そこで分類後の子リストごとに凡例があると便利かと思いました。
以下、サンプルを試みましたのでご参照ください。Wikipedia:すべての言語版にあるべき項目の一覧/1万の項目より転写、たとえば「項目の数」の太字部分を除去、あるいは総数を指す項目をコメントアウトしました。 <!-- コメントアウト。*'''記事数''' - すでに記事のある項目。 -->
<!-- *'''作成率''' - 記事のある項目の割合。記事数/項目数×100 (%) -->
- 秀逸 - 秀逸な記事の項目。
- 良質 - 良質な記事の項目。
- A - 39,000バイト以上の記事。評価基準はWikipedia:すべての言語版にあるべき項目の一覧#How to use this list - この一覧を何に使うか参照。
- B - 13,000バイト以上39,000未満の記事。
- C - 13,000バイト未満の記事。
かえって煩雑になるかとも思ったのですが、携帯端末で親項目まで遡及したところ、なにを調べていたのかわからなくなってしまい、上記を思いつきました。もっとよくできる点を修正いただけるとありがたいです。 --Omotecho(会話) 2020年1月22日 (水) 14:30 (UTC)
Wikidataと異なる項目
[編集]英語版 - 言語間リンクによる日本語版 - このページに書かれた項目
- en:God - 唯一神 - 神
- en:Constitution - コンスティチューション (法学) - 憲法
- en:Mythology - 神話学 - 神話
- en:Nut (fruit) - 堅果 - 種実類
- en:Force - 力 (物理学) - 力
- en:Radioactive decay - 放射能 - 放射性崩壊
- en:Addiction - 嗜癖 - 依存症
- en:Algae - 藻類 - (なし)
- en:Epilepsy - てんかん - (なし)
- en:manufacturing - 製造業 - 産業
- en:Electromagnetic force - 電磁相互作用 - 電磁気学
- en:Electromagnetic radiation - 電磁放射線 - 電磁放射
リダイレクトになっている項目
- en:Great Barrier Reef - グレートバリアリーフ - グレート・バリア・リーフ
- en:Primate - 霊長目 - サル目
- en:Peter the Great - ピョートル1世 (ロシア皇帝) - ピョートル1世
- en:Ashoka - アショーカ - アショーカ王
- en:Alzheimer's disease - アルツハイマー病 - アルツハイマー型認知症
- en:Mental disorder - 精神障害 - 精神疾患
- en:Time zone - 等時帯 - 時間帯 (標準時)
- en:Sexually transmitted infection - 性感染症 - 性行為感染症
- en:Umm Kulthum - ウンム・クルスーム - ウム・クルスーム
--FlatLanguage(会話) 2024年3月7日 (木) 14:36 (UTC)
- 注釈付きで反映させました。--FlatLanguage(会話 / 投稿) 2024年4月14日 (日) 06:30 (UTC)