Wikipedia:データベースダウンロード
ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。
より詳しい解説はmeta:Data dumps を参照してください。
入手方法
[編集]- 全プロジェクトのダンプ:dumps
.wikimedia .orgおよびインターネットアーカイブ - ウィキペディア日本語版のダンプはSQLのテーブル形式およびXMLのデータ形式で提供されます:dumps
.wikimedia .org /jawiki /およびインターネットアーカイブ - 日付を選択した後、下記のファイルがダウンロードできます。
- pages-articles.xml.bz2 - 最新版のみ、かつノートページと利用者ページを除外したダンプ。2023年3月時点で解凍前約3.7 GB・解凍後約15.8 GB。
- pages-meta-current.xml.bz2 - 最新版のみ、かつノートページなども含むダンプ。
- abstract.xml.gz - 各ページの要約(ページの最初の段落とリンクのみ)。
- all-titles-in-ns0.gz - 記事名前空間のページ名一覧(リダイレクトページも含む)。
- XML形式のほか、SQL形式のダンプもダウンロードできます。
- 全ページの履歴を含むダンプはdumps.wikimedia.org/jawiki/latest/において、名前に「pages-meta-history」が含まれる7zファイルをすべてダウンロードすることで入手できますが、解凍後は最新版のダンプより遥かに巨大なファイルになります。
- 特定のカテゴリに含まれるページ、もしくはいくつかのページをダウンロードする程度の場合は特別:データ書き出しが手軽に利用できます。詳しくはHelp:データ書き出しを参照してください。
- 画像などのマルチメディアファイル:#メディアファイルを参照
ウィキペディアは、主なソフトウェアとしてMediaWikiに、データベースソフトウェアにMySQLで動作しています。文字エンコーディングはUTF-8です。
メディアファイル
[編集]メディアファイルのダンプは現在、ウィキメディアのサーバーからは直接提供されていませんが、ダンプのミラーサイトの中にはメディアファイルのダンプを提供しているものもあります。メディアファイルのダンプを使用する場合、まずrsyncを利用してミラーサイトからダンプをダウンロードします。ダンプにないファイルはupload
- MediaWiki APIでチェックサムを取得して、ダウンロードしたファイルを検証します。
- 1秒内に生じるキャッシュミスを最大1回に限定します(レスポンスヘッダーからキャッシュミスを検出したら一時停止します)。
- 同時に3つ以上のHTTPコネクションを確立しないようにします。
- ユーザーエージェントに連絡手段(メールアドレス)を記入して、ウィキメディアの運用チームからの連絡を受けられるようにします。
- APIエチケットを守るようにします。
メディアファイルはテキストと違い、GFDLおよびCC BY-SA 3.0のデュアルライセンスで提供されているとは限らず、フリーライセンスで提供されているもの、パブリックドメインにあるもの、アメリカ合衆国におけるフェアユースで利用制限があるもの、著作権侵害で削除すべきものがあります。特にアメリカ合衆国におけるフェアユースの法理で使用しているものはウィキペディア以外での利用に制限があるものがほとんどです。フリーライセンスでもクレジット表示などの要件があるものがほとんどであり、いずれも詳細はファイルページ(テキストダンプに含まれる)にあります。著作権侵害で削除すべきものは、あくまでも誰も気づいていないため除去されていないだけです。著作権侵害に気づいた場合は、私たちに知らせてください。
結論としては、テキストとメディアファイルのダンプ利用は自己責任で行ってください(Wikipedia:免責事項#コンテンツの2次利用についてとdumps.wikimedia.orgのライセンスページも参照)。
その他のテーブル
[編集]その他の補助テーブルは、MySQLダンプで提供されます。
- page.sql.gz
- user_groups.sql.gz
- logging.sql.gz
- interwiki.sql.gz
- langlinks.sql.gz
- externallinks.sql.gz
- templatelinks.sql.gz
- imagelinks.sql.gz
- categorylinks.sql.gz
- pagelinks.sql.gz
- oldimage.sql.gz
- image.sql.gz
- site_stats.sql.gz
データベース・スキーマについてはMediaWiki配布物に含まれるtables.sqlを参照してください。
コンテンツの二次利用に関して
[編集]ウィキペディア日本語版のテキストを再利用する際は、Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA) の下で配布してください(詳しくはWikipedia:著作権および利用規約を参照)。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。
メディアファイルのダンプにはCC BY-SA で利用可能でないものが含まれています。それぞれのファイルに関して、テキストのダンプに含まれている、ファイルページでライセンス等の著作権情報を確認してください(詳しくはWikipedia:アップロードされたファイルのライセンスを参照)。
クローラを使わない
[編集]記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。
ウィキペディアのデータベースから自動的にデータの収集がなされた場合、システム管理者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。
ダンプの使い方
[編集]- XMLダンプをMySQLデータベースにインポートする方法についてはmw:Manual:Importing XML dumps/jaとm:Data dumps/jaを参照してください。
- XMLダンプを利用して、オフラインでウィキペディアを閲覧できます。例としてKiwix、XOWAがあります。Kiwixの使い方はGIGAZINEの記事も参照してください。
- XMLダンプをスクリプトで利用するにはまず構文解析が必要です。XMLダンプの構文解析ライブラリには下記のものがあります。
- WikiExtractor.py - Pythonのスクリプト
- WikiDumpParser - .NET Coreのライブラリ
- Dictionary Builder - Rustのライブラリ
- parse-mediawiki-sql - Rustのライブラリ
- tozd/go/mediawiki - Goのパッケージ
- WikiPrep - Perlのスクリプト