Wikipedia‐ノート:大規模言語モデルの利用

ガイドライン化を目指した議論

昨今のChatGPTなど、大規模言語モデルの普及を念頭に、これを活用したWikipedia記事の執筆についてのルールについてコメントを募集いたします。先行する議論についてはWikipedia‐ノート:信頼できる情報源#AIアルゴリズムが生成した文章の取り扱いについてもご確認いただきたいのですが、提案者のあずきごはんは一定の規制が必要と考えていることは予めお断りしておきます。取り急ぎ、たたき台として英語版のen:Wikipedia:Large language modelsを@YellowSmileyFaceさんに翻訳していただきました。この場を借りて感謝いたします。日本語版へのローカライズなど文面も含めたコメントをお願いいたします。なおこの文章のガイドライン化も念頭に置いていることも考慮していただけるとありがたいです。ひとまず1月程度を目途にコメントを募集したいと思います。--あずきごはん（会話） 2023年5月30日 (火) 11:34 (UTC)[返信]

質問文面について、@あずきごはんさんさんはご意見等ございますでしょうか。もしそうであれば、共有していただければ幸いです。--YellowSmileyFace（会話） 2023年5月30日 (火) 12:07 (UTC)[返信]

返信 (YellowSmileyFaceさん宛) ありがとうございます。しっかりと考えを纏めてからコメントさせていただきたく思っています。よろしくお願いいたします。--あずきごはん（会話） 2023年5月30日 (火) 12:09 (UTC)[返信]

返信 (@あずきごはんさん宛) ご返信ありがとうございます。承知致しました。--YellowSmileyFace（会話） 2023年5月30日 (火) 12:29 (UTC)[返信]

済: コメント 翻訳お疲れ様でした。ガイドラインにすべきかどうかは、特段意見はないのでおまかせしたいと思います。

その一方で、英語版からの問題でもあるのですが、「AI生成の文章をどのように使うことができるのか」という具体的な指針に踏みこめておらず、この基準を別途定めないと利用者の混乱が解消できないと思われます。

転記部分の長短、事実の有無にかかわらず、AIが生成した文章をそのまま転記することは一切禁じる
AIが生成した文章から、Wikipediaに利用できる情報を抽出し、必要な出典を伴って編集することは容認される

例えば上のように、基準を言語化することはできますでしょうか。 --Tamago915（会話） 2023年5月30日 (火) 18:21 (UTC)[返信]

返信 (Tamago915さん宛) コメントありがとうございます。ご指摘の部分は「基本的な指針節」に相当すると考えますが、もっと具体的に踏み込んだ表記が必要という御意見でよろしいでしょうか？--あずきごはん（会話） 2023年6月1日 (木) 14:53 (UTC)[返信]

返信 (あずきごはんさん宛) - 「具体的に踏みこんだ表記が必要」という表現に含まれているかわかりませんが、Wikipedia:大規模言語モデルの利用#基本的な指針の文章、とくに1番と2番が、持って回った言い方で意味が取りづらいです。「LLMに（略）文章や出典の生成を求める」「LLMに（略）感想を求める」というのを、「LLMが生成した文章や出典を利用者が○○する」「LLMが生成した感想（この言葉も言い換えられるかも）を利用者が△△する」のように言い換えられないでしょうか。自分も最適な表現が見つけられず、伏せ字状態で提案してしまいすみませんが、ご検討お願いします。 --Tamago915（会話） 2023年6月1日 (木) 15:25 (UTC)[返信]

コメント（実質は@Tamago915さんへのご返信になります）1番と2番を要約すると「LLMの使用は避けてほしい。だけど、新聞社のデスクみたいなポジションでLLMを使うのは構わないよ」みたいな意味だと私は解釈しております。1番をご提示の言い方に置き換えればストレートに「LLMが生成した文章や出典を、そのままウィキペディアに投稿しないでください」のような感じになると思います（英語版の表記も翻訳開始後に変更されたようです）が、2番については私もあいにく適切な表現が思い浮かびませんでした。なお、具体的な指針に関しましては「LLMを使う場合」という説が設けられているのでどちらかと言えば「AIが生成した文章から、Wikipediaに利用できる情報を抽出し、必要な出典を伴って編集することは容認される」側になると考えますが、同時にLLM生成っぽい内容は疑ってかかるべきとも書いてあります（「LLMによって生成されたとみられるコンテンツは、事実であることが証明されない限り、捏造された情報として扱われます」）。この辺の表現をもっと直接的にできたら良いかもしれません。--YellowSmileyFace（会話） 2023年6月2日 (金) 12:47 (UTC)[返信]

返信 Tamago915さん・YellowSmileyFaceさん　- ご意見ありがとうございます。「基本的な指針節」についてのご懸念については同意いたしますが、その部分は全体の要約になりますので、先に内容の精査を進めた方が良いように思います。--あずきごはん（会話） 2023年6月2日 (金) 21:58 (UTC)[返信]

コメント Tamago915さん・YellowSmileyFaceさんへ。随分とお待たせして申し訳ありませんでした。Tamago915さんからお寄せいただいたご意見について、いったん本文の内容の精査をさせていただきたく保留とさせていただきましたが、これ以上の大きな変更もなさそうなので、変更案を提案させていただきます。

ウィキペディアに投稿する目的をもって、LLMにオリジナルの文章や出典の生成を求めないでください。 その記事が多く編集されるとしても、機械生成に頼らないような方法を模索してください。

LLMに執筆の「感想」を求めるのは問題ありません。これには、文章に対する批評や、改善方法などが含まれます。ですが、生成される情報が誤りであるかもしれないことを心に留めておいてください。

↓

LLMが生成した文章や出典を、そのままウィキペディアに投稿しないでください。LLMに参考文献を与えて生成した文章も同様です。 相当量の編集をする際にも、機械生成に頼らないような方法を模索してください。

自分が作成した文章をウィキペディアに投稿する前に、LLMに校正させることは問題ありません。これには、文章に対する批評や、改善方法などが含まれます。ですが、LLMの校正が誤りであるかもしれないことを心に留めておいてください。

ご意見をお待ちしております。--あずきごはん（会話） 2023年7月11日 (火) 13:19 (UTC)[返信]

報告特にご意見がなかったので、提案通り変更を実施しました。--あずきごはん（会話） 2023年7月30日 (日) 13:55 (UTC)[返信]

済* コメント おおまかな方針は良いと思いますが、一部気になる点がありました。

「建設的に節」に「百科事典の作成へ貢献する意思をもって、利用者名前空間にてLLMに関する実験を行うことを禁止するものではありません」とありますが、LLMのテストって具体的にどういうものなんでしょうか？ちょっと想像できないのですが、プロジェクト:ウィキ技術部関連でコード作成などでしょうか？私が保守的なのかもしれませんが、具体的な要望が上がるまではいったんは禁止の方針にして運用を始めても良いように思います。
上に関連するかもしれませんが、最新の英語版ではボット利用の禁止が明記されています。これも取り入れるべきと思います。
「記事の執筆節」にLLMを利用した編集をする場合の出典表記について記述すべきと思います。例えば最後の文を「LLMが出力した文章などを無出典で記事に書いてはいけません。LLMが出典を提示する場合は、その資料が実在し信頼できることを確認して出典を明記してください。LLMが出典を提示しない場合は、利用者が適切な資料を探し出し、出典をつけてください」などに変更してはどうでしょうか。

その他、体裁に関わる部分です。

「LLMを使う場合節」の冒頭文にあるLLMを利用できる利用者について、小節に分けた方が良いように思います。「編集者は、LLM固有の制限を理解し（中略）特定の名前空間への編集をブロックされます。」までです。
「除去と削除節」ですが、将来的には削除の方針に「LLMの利用に問題がある場合」などの項目で「ケースH」を作るべきだと思いますが、取り急ぎケースZでの削除依頼を案内した方が良いように思います。
「記事の執筆節」に、「要約欄にLLMを利用したことを明記してください。」を付け加えた方が良いと思います。

以上になります。--あずきごはん（会話） 2023年6月2日 (金) 23:00 (UTC)[返信]

返信 (@あずきごはんさん宛) ご返信遅れたことお詫び申し上げます。そのうえで、

私も英語版からそのまま持ってきただけなので何とも言えないのですが、いったん禁止とすることに賛成します。
実は、その箇所は日本語版にen:WP:MEATBOTに類似したページが無かったので翻訳を飛ばしましたが、「LLMを使って編集間隔を縮めるようなことはあってはなりません」にBotについての文言を入れることは可能と思います。
「記事の執筆」節の文言の変更については賛成ですが、最後の文の後に「資料とLLMが生成した文章の内容に関連性があるかを確認してください」などを入れられたら良いと思います。
「LLMを使う場合」節の冒頭について。例えば「LLMを濫用する場合」節を作り、そこにLLMを間違った形で使っている利用者への対応について記述することが良いかもしれません。
「除去と削除」節については、ご指摘の通りケースZの案内が必要だと思います。
「記事の執筆」節に「要約欄で、LLMを利用したことを明記してください。この際、どのモデルを試用したかも明記してください。」を付け加えることに賛成します。--YellowSmileyFace（会話） 2023年6月14日 (水) 11:46 (UTC)[返信]

返信 (YellowSmileyFaceさん宛) ご返信ありがとうございます。私が議論を進行しないことを返信待ちと思われ、気を悪くされていたのならば申し訳ありません。ゆっくり進めていこうと思っているだけなのでお気になさらないでください。これからも無理のない範囲で、議論に参加いただければありがたいです。いただいたご意見を加味して近日中に文案を提示いたします。よろしくお願いいたします。--あずきごはん（会話） 2023年6月16日 (金) 09:30 (UTC)[返信]

返信 (@あずきごはんさん宛) いえいえ、あずきごはんさんに非は全くありませんので、どうか謝らないでください。私も特に議論を急ぐ気はないので、気長に行きましょう。--YellowSmileyFace（会話） 2023年6月16日 (金) 13:33 (UTC)[返信]

コメント お待たせしておりましたが、2023年6月2日 (金) 23:00 (UTC)にて私が提案させていただいた内容の具体的な修正案になります。10日間程度様子を見て、御意見がなければ本文を修正したいと思っています。

1.LLMに関する実験　および　2.ボット利用の禁止　について除去と加筆。

建設的に

LLMを使って編集間隔を縮めるようなことはあってはなりません。狭い編集間隔内でLLMを使いながらそのコンテンツを厳密に精査することは無理なため、そのような編集姿勢は利用者としての責任を果たしていないと受け取られてもおかしくありません。

ウィキペディアは、LLMをテストする場所ではないため、ウィキペディア上で何らかの実験行為を行うことはできません。ウィキペディアの編集は科学ではなく、百科事典の進展に貢献するものであるべきです。ただし、百科事典の作成へ貢献する意思をもって、利用者名前空間にてLLMに関する実験を行うことを禁止するものではありません。当該利用者は、利用者名前空間のみであってもLLMを利用した編集についてはすべての責任を負います。

↓

ボットによる編集、あるいはそれに類する編集にLLMを利用することはできません。短い編集間隔内でLLMを使いながらそのコンテンツを厳密に精査することは無理なため、そのような編集姿勢は利用者としての責任を果たしていないと受け取られてもおかしくありません。

ウィキペディアは、LLMをテストする場所ではないため、ウィキペディア上で何らかの実験行為を行うことはできません。ウィキペディアの編集は科学ではなく、百科事典の進展に貢献するものであるべきです。当該利用者は、利用者名前空間のみであってもLLMを利用した編集についてはすべての責任を負います。

3.出典表記　について解説を加筆。

LLMを使う場合

（冒頭文最後）

↓

LLMが出力した文章などを無出典で記事に書いてはいけません。LLMが生成した文章と矛盾のない、かつ信頼できる資料を探し出して、出典をつけてください。また、信頼できる情報源とLLM生成の情報が矛盾している場合は、常に信頼できる情報源が発信している情報を優先してください。

4.「LLMを使う場合」節の冒頭部を小節に分ける　LLMを利用するユーザーに求められる能力について「必要とされる知識と経験」節を追加。文章に変化はありません。

LLMを使う場合

LLMはあくまでも補助道具であり、人間の代わりとなることはできません。LLMを利用する場合は、本当にその道具が目的に見合っているかを気を付けて判断しなければなりません。編集者は、LLM固有の制限を理解し、ウィキペディアの方針・ガイドラインに合致するため、適切な対応をとることが求められます。LLMを利用する編集者は、同様のタスクを、LLMの補助を受けずに行った豊富な経験を積んでいるべきです。

↓

LLMを使う場合

LLMはあくまでも補助道具であり、人間の代わりとなることはできません。LLMを利用する場合は、本当にその道具が目的に見合っているかを気を付けて判断しなければなりません。

必要とされる知識と経験

編集者は、LLM固有の制限を理解し、ウィキペディアの方針・ガイドラインに合致するため、適切な対応をとることが求められます。LLMを利用する編集者は、同様のタスクを、LLMの補助を受けずに行った豊富な経験を積んでいるべきです。

5.削除依頼の案内　ケースZへの案内を加筆。

除去と削除

もし、LLM生成の除去によって記事全体が空白となるのなら、削除依頼を提出してください[注釈 3]。記事全体が事実無根か認められない情報源に頼っているならば、全般3（「荒らしに分類される投稿」）での即時削除が妥当かもしれません。

↓

もし、LLM生成の除去によって記事全体が空白となるのなら、削除依頼を提出してください[注釈 3]。削除の要件はWikipedia:削除の方針の「ケース Z: その他の問題がある場合」になります。また、記事全体が事実無根か認められない情報源に頼っているならば、全般3（「荒らしに分類される投稿」）での即時削除が妥当かもしれません。

6.要約欄での記述　要約欄での明記について加筆。

記事の執筆

LLMは原稿の記事を整理や加筆したり、新しい記事を作成したり、執筆のアイデアを生成できるかもしれません。全ての編集は方針・ガイドラインを厳守しなければならず、編集者はLLＭが出力する情報源を確認し、文章の検証可能性、中立性、独自研究の有無、著作権の問題がないことなどを確認する必要があります。中立的な観点を守るため、無関係な事実や少数意見に不当な重み付けを与えるべきではありません。全ての情報源の著作権のライセンスを尊重してください。出典が生成された場合は、提示されている出典が実在し、信頼できることを確認しなければなりません。

↓

LLMは原稿の記事を整理や加筆したり、新しい記事を作成したり、執筆のアイデアを生成できるかもしれません。全ての編集は方針・ガイドラインを厳守しなければならず、編集者はLLＭが出力する情報源を確認し、文章の検証可能性、中立性、独自研究の有無、著作権の問題がないことなどを確認する必要があります。中立的な観点を守るため、無関係な事実や少数意見に不当な重み付けを与えるべきではありません。全ての情報源の著作権のライセンスを尊重してください。出典が生成された場合は、提示されている出典が実在し、信頼できることを確認しなければなりません。要約欄で、LLMを利用したことを明記してください。この際、どのモデルを使用したかも明記してください。

以上になります。--あずきごはん（会話） 2023年6月23日 (金) 11:05 (UTC)YellowSmileyFaceさんの提案を受けて修正--あずきごはん（会話） 2023年6月25日 (日) 14:34 (UTC)[返信]

あずきごはんさんの修正例にいずれも賛成します。ただ、3.の言い方だとLLMの情報は変えるべきでない、という風にも見えるため「信頼できる情報源とLLM生成の情報が矛盾している場合は、常に信頼できる情報源が発信している情報を優先してください」などの文言の追加が必要だと考えます。他については異論ありません。--YellowSmileyFace（会話） 2023年6月24日 (土) 12:37 (UTC)[返信]

返信 (YellowSmileyFaceさん宛) ご確認ありがとうございます。仰る通りです。ご提案を反映しました。--あずきごはん（会話） 2023年6月25日 (日) 14:34 (UTC)[返信]

報告提案を修正したのち、他のご意見がなかったため、修正案を反映させました。--あずきごはん（会話） 2023年7月11日 (火) 12:42 (UTC)[返信]

済*「LLMを使って編集間隔を縮める」だと対象範囲が広すぎるように思います。気にするべきなのは相対的に「縮める」かどうかより、限度を越えた高速な編集 (high-speed editing) や、自分で内容をチェックせずに次々と投稿していそうかどうかではないでしょうか。英語版のYou must not use LLMs for unapproved bot-like editing以下も、どちらかというとそういう意味だと思います。たとえば、通常10週間に1回のペースで編集する人が5週間に1回まで「編集間隔を縮め」たとしても、縮めたこと自体に特に問題はないように思います。 --whym（会話） 2023年6月22日 (木) 11:48 (UTC)[返信]

返信 (Whymさん宛) コメントありがとうございます。コメントいただきました趣旨については賛同します。ただ、具体的に〇〇回/日のような具体的・絶対的な数値化には反対します。これはWhymさんの仰ることと矛盾しないと思うのですが、ルールの趣旨は「ウィキペディアのコミュニティが許容できる範囲を超える頻度の編集は受け入れられない」という意味であり、許容できる範囲はさまざまな要因によって変動すると思うからです。たとえば「LLMを使ってコミュニティが精査できるキャパシティを超える編集をしてはいけません」ぐらいの変更で如何でしょうか？--あずきごはん（会話） 2023年6月23日 (金) 11:20 (UTC)[返信]

コメント Whymさんから頂いたご意見に対して、変更案を提示いたします。

建設的に

ボットによる編集、あるいはそれに類する編集にLLMを利用することはできません。短い編集間隔内でLLMを使いながらそのコンテンツを厳密に精査することは無理なため、そのような編集姿勢は利用者としての責任を果たしていないと受け取られてもおかしくありません。

↓

ボットによる編集、あるいはそれに類する編集にLLMを利用することはできません。LLMを使いながら短期間に大量の編集を行うと、利用者が厳密な精査を行っていないと見なされ、必要な責任を果たしていないと受け取られてもおかしくありません。

ご意見をお待ちしております。--あずきごはん（会話） 2023年7月11日 (火) 13:55 (UTC)[返信]

報告特にご意見がなかったので、提案通り変更を実施しました。--あずきごはん（会話） 2023年7月30日 (日) 13:55 (UTC)[返信]

コメント 議論提起から相当の時間が経過しました。いただいたご意見の反映も済みましたので、議論を終了したいと思います。しかるのちに改めてガイドライン化を提案したいと思います。ご意見いただき感謝いたします。--あずきごはん（会話） 2023年7月30日 (日) 13:55 (UTC)[返信]

OpenAIのAI Classifier(判別用ツール)が利用できなくなった件

皆様こんにちは。本文中に紹介されている『OpenAIが提供しているAI Classifier』ですが、もう利用できないようです。リンク先のページ冒頭には『2023年7月20日の時点で、AI分類器は精度が低いため利用できなくなった』(原文は英語)と記述があったことから、おそらく撤回されたものと思います。そこで本来なら、このWikipediaのガイドのために代わりのサービスを紹介したいのですが、あいにく役に立つ代替品が見つからなかったので、本ノートで共有します。--YasuakiH（会話） 2023年12月29日 (金) 12:15 (UTC)[返信]

ガイドライン化の提案

WP:LLMのガイドライン化を提案します。理由はWikipedia:コメント依頼/Shohei KIMURAで判りますように、生成AIを利用して大量にデマ記事を立ち上げる利用者が出現したためです。今後も同様の案件が予想されるため、対策のために正式なガイドライン化が必要ではないでしょうか。自称個人事業主代表（会話） 2024年9月30日 (月) 11:41 (UTC)[返信]

コメント 声を大きくしてガイドライン化に反対するつもりはありませんが、使用を前提としたこのページをガイドライン化してもあまり意味は無いのかなと思います。

今回の件はchatGPTに全幅の信頼を置く利用者が暴走してしまったかなり特殊ケースですので、仮にガイドライン化されていたとしても防げなかったのではないかなと思います。つまり対策、再発防止にはあまり役に立たないと思います。

あくまでもルールを積極的に理解しようとする善意の利用者が閲覧する事が前提であり、今回の利用者の場合、Wikipediaについてあれも知らないこれも知らないという状態で、いくつかのガイドラインは無視しており（このページに関していえば「存在する事すら知らなかった」と発言しています）、そういうガイドラインを知ろうとしない、無視する利用者は今回のケースだけでなく、いくらでもいるでしょう。ガイドライン化すればWikipedia:方針とガイドラインの一覧に掲載されるため、少しは見つけやすくなるでしょうが、事前に少し検索するだけで見つかるものを見つけていないというのは、事前に何らかのルールがあるか調べると言う行動パターンを持たないわけで、前述の通りそういう人は多いかと思います。

「ガイドライン化したい」「少しでも何か対策をとりたい」は別の話とした方がよくないでしょうか？これをガイドライン化するハードルよりは何らかの対策を取るハードルの方が低いと思いますので。

対策という点でいえば、英語版の信頼できる情報源のように、閲覧する率が高そう、かつ関連のある個所に”信頼性が低く使用を推奨しない”旨、記述追記も有効でしょう。そしてそれはこの「大規模原語モデルの利用」のノートでする事でもなく、特定のどこかのノートというのは厳しいので、まずは井戸端か何かで行った方がいいかもしれません。--田村悠（会話） 2024年10月4日 (金) 00:44 (UTC)[返信]

賛成

保留文案としてはよく練られており、LLMの問題点を把握せずに、LLMに過度に依存した記事を書かれる利用者に注意を喚起するものとして、よくできています。ガイドライン化により、周知されやすくなるので賛成します。現状、機械翻訳とLLMのハイブリッドでの大量立項が疑われる事例（例えば、Wikipedia:コメント依頼/Yukimaru11や、Wikipedia‐ノート:メインページ新着投票所/新しい項目候補#エマヌエーレ・ペッサーニョ_(駆逐艦)など）が出てきています。常識的には、複数言語からの翻訳というのは困難であるにもかかわらず、それが増えてきているので、対策をとるのがトータルのコミュニティのコストは低減するものと思います。機械翻訳にせよ、LLMにせよ、うまく付き合えば記事の質の向上に大きく寄与するものではあると思いますが。--Anesth Earth（会話） 2024年10月9日 (水) 07:23 (UTC)[返信]

コメント 発議から一ヶ月を経過しました。一般的な合意形成期間が1週間、WP:PGLIFEに照らして手続き上は問題がありませんから、ガイドライン化でよろしかろうと思います。田村悠さんの仰る対策に関しては、Wikipedia:信頼できる情報源の文案改定ということになりますが、そちらで発議いただければ幸いです。--Anesth Earth（会話） 2024年11月6日 (水) 02:28 (UTC)[返信]

コメント今更ではあるのですが、賛成意見を引き下げて「保留」としました。ガイドライン化の実務作業を行おうとしたのですが、その一歩を踏み出そうとして、踏み出せなくなった、というところです。先行事例として英語版の議論を読んだのですが、英語版でもまだガイドライン化がなされていないのと、そちらでは否定的な論調ではあったものの、AIを用いたbotやツールの導入可能性が議論されていました。いったんガイドライン化されますと、その時点で有用性が高いと判断されていても、このガイドラインによってそれらの導入が阻害される可能性もあるかな、と思えました。そういうわけで、この文案はWikipedia:信頼できる情報源 (医学)と同様、私論では無いけれども「ガイドラインとして提案中」というファジーな状態がいいのかな、と考えています。ルールの追加は一つ一つはたいしたことないのですが、多ければ多いほどWikipediaの参入障壁を挙げてしまうのも事実なので。とはいうものの、ガイドライン化には反対しません。ここまでの議論を御覧になられたどなたかが、イニシアチブをとられるのもまた、総意の一つのあらわれと思いますので。--Anesth Earth（会話） 2024年11月11日 (月) 13:11 (UTC)[返信]

横から失礼 ChatGPTに限らず、検索機能が搭載された同じくOpenAIが開発中のSearchGPTや現在、提供が開始されたChatGPT searchなどの利用方法などについても考慮しなければならないのではと考えます。

文章、情報源の羅列、画像や動画など、その種類を問いません。技術の進歩によって何らかのLLMがこの文書の適用外であるという主張は、無効です。
多くの場合、LLMによって生成されたコンテンツは架空の出典を根拠とした不正確な情報を含みます。つまり、それらは、検証できない独自研究であるということです。それらのコンテンツが偏見的であったり、存命人物の名誉を毀損していたり、著作権を侵害していたりいる可能性もあります。

特に、ここの部分では「検証できない独自研究である」となっていますが、ChatGPT searchでは文章が常に完全に正しいとは言えない部分はありますが架空の出典ではなく（少なくともChatGPTよりは）検証可能なURL、検証元が表示されます。この場合、検索エンジンとして定義するのかLLMとするのかという点についても考える必要があるかと思います。--Kocgs（会話） 2024年11月11日 (月) 14:53 (UTC)[返信]