第2回CODHセミナー
くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

テーマ

過去の日本文化を知るには過去の文字が読めなくてはなりませんが、例えば江戸時代の本がすらすら読めるのは日本人でも少ないため、過去の日本文化が知られることなく埋もれているのが現実です。そうした現実を変えるには、古典籍をデジタル化して誰でもアクセスできるオープンデータとして公開するだけでなく、書籍に何が書かれて/描かれているのかという内容も検索/活用できる「ディープアクセス」技術の研究も進めていく必要があります。

そこで今回のセミナーでは、くずし字を読むというチャレンジに対して、機械によるアプローチと人間によるアプローチを用いた研究を紹介します。まず機械によるアプローチとは、パターン認識や機械学習などのいわゆる「人工知能」を用いて、機械を賢くして文字認識を自動化しようというアプローチです。一方人間によるアプローチとは、市民参加型翻刻やモバイルアプリなどを用いて、人間を賢くして多数の人間が協力しながら文字を読むというアプローチです。これら二つのアプローチは、どちらか一つを選択せねばならないものではありません。くずし字チャレンジの未来は、人間と機械がライバルとしてではなくチームを組んで、お互いに協力しながらくずし字を読み進めていくものになることでしょう。

今回のセミナーは、関連する研究テーマに取り組む研究者の方々をお招きして、これまでの研究の紹介と今後の展望について語っていただきます。これを機会に、くずし字へのチャレンジについて考えてみませんか?

基本情報

日時 2017年2月10日(金) 13:00-15:20
会場 国立情報学研究所 1208/1210会議室
参加登録 参加費は無料、定員は約40名です。参加ご希望の方は、2月9日(木)までに参加登録をお願いします。
言語 講演はすべて日本語です。
主催 情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)
研究プロジェクト デジタル史料批判:エビデンスベース人文情報学のための連結指向型研究基盤, 科学研究費補助金 基盤研究(B)
検索機能の高度化に係る総合的研究, 日本語の歴史的典籍の国際共同研究ネットワーク構築事業 研究開発系共同研究, 国文学研究資料館

プログラム

発表概要

発表資料:doi:10.20676/00000009

現在3年目を迎えた大型プロジェクトについて紹介し、プロジェクトで取り組むくずし字とはそもそもどういうものでなぜ読むのが難しいのか、それが判読可能となることで拓ける世界について紹介したい。

発表資料:doi:10.20676/00000004

2016年11月に公開した「日本古典籍字形データセット」(くずし字1,521文字種の字形データ86,176文字)について、データセットの特徴と利用方法を紹介するとともに、機械と人間を賢くするためのデータセットとしての期待を述べる。

発表資料:doi:10.20676/00000005

東京大学史料編纂所は2006年より電子くずし字字典データベースを公開している.本報告では該当データベースの開発経緯,システム概要およびシステム運用等の現状,さらに今後の展望についても述べる.

発表資料:doi:10.20676/00000006

手書き文字認識で利用される技術を活用した字形検索Webサービス「MOJIZO」について紹介する。古文書情報検索を目標とした取り組みの一つとしてご覧いただきたい。

発表資料:doi:10.20676/00000007

くずし字で書かれた大量の文献をテキスト化する「人間の力を利用したアプローチ」として、くずし字の学習支援アプリケーション「KuLA」と、市民参加型の歴史地震史料翻刻プロジェクト「みんなで翻刻」を紹介する。

講演者概要

関連記事

過去のCODHセミナー

2024-06-06

第22回CODHセミナー - デジタル時代の変体仮名:日本の文字文化の継承と新たな展開

2024-03-04

21th CODH Seminar - Digital History: Concepts and Practices

2023-02-27

20th CODH Seminar - The end of lexicography, welcome to the machine: On how ChatGPT can already take over all of the dictionary maker's tasks

2023-03-01

19th CODH Seminar - Collective Intelligence and Creative AI: A framework for augmenting creative human expression

2023-01-22

第18回CODHセミナー - マイクロ類型論とデジタルアーカイブ構築:バントゥ諸語と日琉諸語の事例から

2022-07-01

DH 2022東京 記念レクチャーシリーズ/第17回CODHセミナー - 歴史ビッグデータ - THE DARK MATTER OF HISTORY

2022-03-28

第16回CODHセミナー - 「まち」や都市のデジタルアーカイブ - 歴史ビッグデータと実世界での利活用

2021-07-29

第15回CODHセミナー - IIIFとAIで変わる美術史研究 - 大規模顔貌データの様式分析から読み解く日本中世絵巻

2021-02-18

第14回CODHセミナー - IIIF Curation Platform利活用レシピ100連発

2021-01-22

第13回CODHセミナー - 歴史ビッグデータ研究の現在と未来

2020-08-05

12th CODH Seminar (Online) - AI for Culture: From Japanese Art to Anime

2020-02-21

12th CODH Seminar - AI for Culture: From Japanese Art to Anime

2019-09-25

第11回CODHセミナー - Text Mining for Analyzing Research Communities: Sociological Topics and Socio-Technical Imaginaries

2019-03-11

10th CODH Seminar - Document Analysis and Character Recognition

2019-01-08

9th CODH Seminar - Computer Vision with Limited Labeled Data

2018-11-22

8th CODH Seminar - Exploring Deep Learning for Classical Japanese Literature, Machine Creativity, and Recurrent World Models!

2018-07-31

7th CODH Seminar - Manifold Mixup: Encouraging Meaningful On-Manifold Interpolation as a Regularizer

2018-03-12

第6回CODHセミナー - 歴史ビッグデータ〜過去の記録の統合解析に向けた古文書データ化の挑戦〜

2017-12-04

第5回CODHセミナー - 信頼できるデータリポジトリ 〜CoreTrustSeal認証に関する実践的情報共有の場〜

2017-07-27

第4回CODHセミナー - デジタルアーカイブにおける画像公開の新しいトレンド~IIIFが拓く画像アクセスの標準化と高度化~

2017-05-30

第3回CODHセミナー - 人文学でのDOI活用 〜研究データや所蔵品など研究資源へのDOI付与〜

2017-02-10

第2回CODHセミナー - くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜

2017-01-23

第1回CODHセミナー - Big Data and Digital Humanities