コンテンツにスキップ

利用者:Omotecho/Transkribus

Transkribus(トランスクライバス)は歴史的文書の光学文字認識(OCR)とレイアウト解析、構造認識に用いるプラットフォーム。

概要[編集]

Transkribus 無料で利用できるオンラインプラットフォーム・サービスで、100 を超えるソフトウェアと連携ができる。EUのプロジェクト「トランスクリプトリウム」(TranScriptorium 2013年–2015年)ならびにアーカイブ文書のOCRデータ化と充実を提言する「READ」(2016年–2019年)[1]に準拠して創設された。インスブルック大学 bzw が中心となり、デジタル化グループと電子アーカイブを統合し、2019年7月1日以降もEU向けの後継のプラットフォーム(Gruppe Digitalisierung)が「READ-COOP」として引き続き運営されている。登録利用者は9万人超(2022年9月時点)。

当「プラットフォーム」はツールをヨーロッパ全土の技術系グループに統合、バレンシア工科大学のパターン認識・人類言語技術グループ(PRHLT)が主宰となり、PyLaia(無料の OCR ソフトウェア[2])、ロストック大学の CITlab グループ、独自のプロプライエタリなOCR ソフトウェア「HTR+」が中核に置かれている。

Transcribus はテキスト認識モデルに PyLaia が組み込まれており、テキスト認識の利点も、自由にエクスポートすることもできなくなったが、eスクリプトリウム(EScriptorium)を当てて[3]代替のトランスクリバスを表示し、プラットフォーム内の研修用のデータとモデルを他のユーザーが使えるように、簡単に無料でエクスポートさせる。

技術面[編集]

Transkribus は人工知能(AI)を用いて手書きの文字列をデジタル・テキストに変換する。過去 10 年間の AI 研究の進歩を反映し、画像認識と自然言語処理を組み合わせたものである。まず個々の行と文字列ではない要素を分け、テキストの構造とレイアウトを認識する。次に AI を活用したテキスト認識モデルを適用し、手書き文字をデジタル・テキストに変換。ドイツ語ではすでに幅広いモデルが公開され、筆記体リポジトリ「カレントシュリフト」(Deutsche_Kurrentschrift)やベンサム写本など、特定の言語や時代の特定の種類の写本がデータ化された。

ディープラーニングの原理に基づいて、ユーザーは独自のモデルを交互に使ってTranskribusをトレーニングできる。ソフトウェアはどの手書き文書がデジタル化され、どの文書を出力したか学習するので、特定の文字列や文が文書内で確実に記述されたかどうか、確認が重要となる。問題がある場合、文字列の転写機能「Transkription」はきちんと機能しても、転送処理により転送するべき文字列が空になるため、テキスト認識モデルは正しく機能しなくなる。

デジタル化されたテキストからメタデータを取得し、キーワードやタグ(zuzuweisen)を再生して使用できる。デジタル・テキストは正確に翻訳ソフトウェアに渡せることから焦点を絞って訳文を見つけることはできても、100%正しいわけではない。将来的には文書を整理してコレクションにまとめ、PDFXML(ALTO)またはTEI データとしてエクスポートを提供する計画である。

代替策[編集]

eスクリプトリウムならびにOCR4All以降、カスタマイズ可能な機能を備え、コストのかからないプログラムがある[4]

脚注[編集]

出典

  1. ^ Objective”. 2022年12月10日時点のオリジナルよりアーカイブ。2023年9月2日閲覧。
  2. ^ "PyLaia Wiki" (英語). 2022年6月30日閲覧
  3. ^ "Moving from Transkribus to eScriptorium" (英語). 2022年6月30日閲覧
  4. ^ "OCR4all | forTEXT". 2023年6月20日閲覧

外部リンク[編集]

公式ウェブサイト

[[Category:光学文字認識]]