コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

プロジェクト‐ノート:索引

ページのコンテンツが他言語でサポートされていません。

議論はサブページを使用します。


自動索引の提案について

[編集]

Wikipedia‐ノート:索引#全自動索引にて、TETRAさんによる自動索引が提案されました。本プロジェクトで検討していただいて、実用化を図れればと思っています。--Yas 2006年9月14日 (木) 19:45 (UTC)[返信]

利用者:TETRA/索引テスト/アイア-アイソを拝見しました。素晴らしいと思います。同じ語を含むものをまとめて表示するので見通しがよいところが気に入りました。ただ、気になる点がありますので箇条書きします。

  • 記号「〜」(波ダッシュ)は環境によっては表示できない可能性があります(Windowsでは~の方が入力しやすい)。代わりに全角ハイフン「‐」やマイナス「-」などを使用してはどうでしょうか。あるいは「あいあいパラソル」のように強調してみてもいいかもしれません(googleのサイト検索で検索しやすくなる)。
  • 「日本」を含む語のような数が多いものについて、どのような形になるのかちょっと心配です。
  • リダイレクトは明示したほうがよいかもしれません。

--Michey 2006年9月17日 (日) 15:37 (UTC)(追記Michey 2006年9月17日 (日) 15:53 (UTC)[返信]

ご意見ありがとうございます。ツリー状の表示について価値を認めていただけたようで幸いです(今回の試案の肝なので)。リダイレクトの明示や省略方法といった表示周りについてはご意見を参考にしていただき改良に努めます。

ご指摘の登場数が多すぎる単語については、確かに今回の掲載法だと索引の利便性を下げることになるかもしれません。しかし、「それを全部掲載するのが索引」の役目という面もあるかと思います。掲載すべきかどうか、するとしたらどのように掲載すべきか、どなたかご意見をお願いします

私個人の意見では、一ページに収まる程度であれば全て掲載するのもありかなと思っています。(後で登場数を数えておきます)

2006年8月のダンプを元に数えてみました。User:TETRA/scrap/タイトル頻出単語をご覧下さい。「日本」 は2062件含まれていました。分野と無関係に出現する単語としては一番出現数が多かったです。

それより数が大い単語として"駅"、"線"、"号"、"線"があったのですが、こちらは実際に全国の駅や道路の記事がヒットしているので、索引での「駅」の見出しであれば、「Category:鉄道駅をご覧下さい」とできる気がします。(Categoryへのまとめかたは一考。またそれとは別に、「東京」の項目には「ー. 駅」を入れるなどする)

しかし挙げられた「日本」は掲載時にどうすればよいか見通しがつきません。別に何もせずそのまま記述することもできますが、2000件ってどうなんでしょう。

こんにちは。気になる点をいくつか質問させてください。

  • 読み自体も自動判別だそうですが、判別結果に誤りがあった場合に個々の項目に対して修正は可能ですか。例えば「相内 (アイウチ) 」で拾っている項目は、正しくは「あいのない」と読むようです。
  • キーワードは五十音順になっていますが、一段下に列挙されている項目は五十音順になっていません。「愛子 (アイコ) 」以下など、これ以上多くなると目指す項目を探せなくなります。上で話されている「日本」などは絶望的と思われます。逆に、ここが五十音順になっていれば、2000項目でも索引として成立するかもしれません。
  • 本格運用するとなった場合に、TETRAさんしかメンテナンスできない状況だとすると、TETRAさんがいなくなった時に困ります。TETRAさんの作成したプログラムを公開して、誰でも作業を引き継げるような形にすることは可能ですか。「誰でも」というのは、「何か特定の(データベースの?)スキルのある人」でもよいですが。
  • 読みが括弧付きで明記されているものと、そうではないものがあります。かなのみの項目は除いて、できるだけ読みが付けばと思います。

以下、細かな点ですが。

  • 「藍色細菌」があったので気が付いたのですが、藍色が取得されていないようです。なぜでしょうか。(「藍」の欄にあるのでしょうか?)
  • 「アイアン」において、「アイアン」部分が省略されている単語と、省略されていない単語があります。なぜでしょうか。
  • 「アイコ・アイコ」は、二度並べられています。これは理由はわかりますが(^^)。

--Yas 2006年10月2日 (月) 13:26 (UTC)[返信]

遅レスすみません。読み仮名については記事に記入されている情報をもとに補正できればと考えています。プログラムの公開は行うつもりでして、このためにダラダラと時間を使わせていただいています。最終的にできたのが結局人様にお見せできないような汚いプログラムになっても、やはり……
一段下の並び順、アイアンの省略・非省略、「アイコ・アイコ」の重複は設計ミス or バグですので今後の参考にさせていただきます。「藍色」が抜けているのは色々な誤魔化し故なのですが、これについても読み仮名補正が機能すれば掲載可能かと考えています。なかなか作業が進まないのですが気長にお待ちいただければ…… ― TETRA 2006年10月8日 (日) 16:26 (UTC)[返信]
了解しました。もとより急ぐ必要はありませんので、どうぞよろしくお願い致します。--Yas 2006年10月8日 (日) 18:27 (UTC)[返信]

MeCabによる全自動索引

[編集]

すごい間があいてますが、User:Suisui/索引のネタをもらって、形態素解析ツールMeCabを利用した全自動索引をつくってみました。 --Tietew 2007年4月20日 (金) 12:18 (UTC)[返信]

メモ

  • 辞書の関係で誤読、読めない漢字、単語分解がおかしい箇所がたくさんあります。
  • 記号のソートがうまくいっていません。
  • それぞれのページには一万項目程度収録してあり、1MB近くあります。アルファベットページは更に十万項目、8.6MBもありますので、閲覧の際はご注意ください。

このプロジェクトについての質問

[編集]

このプロジェクトは、索引のbot編集に賛同(協力)するという名目になっているのですが、botがまだ索引に表示させていないページを索引に人手にて載せるのは索引掲載率100%には近ずきますが、索引の自動生成ということには反しています。私は、プロジェクトには参加できるのでしょうか。 --科学部の大野智 2009年12月18日 (金) 10:00 (UTC)[返信]

ウィキプロジェクト用名前空間「プロジェクト」新設のお知らせ

[編集]

先日行われた、ウィキプロジェクト用名前空間新設に関する投票の結果に基づき、ウィキプロジェクト用名前空間「プロジェクト」が新設されます。その際、以下の点にご注意ください。

  • ウィキプロジェクトのページ(サブページも含む)は、Botを用いて全て新名前空間へ移動されます。
  • 元ページはリダイレクトとしてすべて残されます。
  • プロジェクト名前空間のタブ表記は「プロジェクト」となります。
  • Wikipedia名前空間のタブは、「プロジェクトページ」から「ウィキペディア」に変更されます。

なお、具体的な日程などについては、『編集者向けsitenotice』などで告知される予定です。--W.CC 2010年7月31日 (土) 12:17 (UTC)[返信]

カテゴリ機能を利用した新索引(総目次)提案のお知らせ

[編集]

過日、井戸端/subj/索引の存在の意味ありますか? が提起されました。これへの反応として、カテゴリ機能を利用した新索引(総目次)を提案しました(user:akaniji/Wikipedia:総目次)。標準名前空間の全ページに __HIDDENCAT__ [[Category:総目次]] を貼り付け、ソートキーに従って並び替え、それを ?from=ほげほげ で頭出しするものです。別ウィキでのテストはこちら[1]をご覧ください。よろしければご意見を賜りたく、お願い申しあげます。--Akaniji会話2012年8月12日 (日) 23:26 (UTC)[返信]

ウィキデータを活用した索引作成自動化のアイデアについて

[編集]

表題について、Wikipedia:井戸端/subj/ウィキデータを活用した索引の整備の実現可能性についてにて、ご意見を募集しています。--Doraemonplus会話2017年12月19日 (火) 07:07 (UTC)[返信]