CH128
◆第128回 人文科学とコンピュータ研究会発表会†
主査: 耒代誠仁
幹事: 鹿内菜穂、中村覚、西岡千文、橋本雄太
※重要・ご注意※
第128回研究会は、新型コロナウイルスの影響に鑑み、オンラインで実施することにいたしました。
【参加費(聴講)】
種別 | 金額 |
研究会登録会員 | 無料 |
学会正会員 | 2000円 |
学会会員学生 | 500円 |
学会非会員学生 | 1000円 |
非会員 | 3000円 |
情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第128回研究会発表会の開催を予定しております。歴史、地理、芸術、民俗、文学、言語、社会などなど、様々な人文科学の諸領域での情報資源の記録、蓄積、分析、提供や応用に関わる研究発表をお考えの方はぜひ奮ってご応募ください。
********************
日時 2022年2月19日(土)
会場 オンライン開催
発表申込締切 2022年1月5日(水) 2022年1月12日(水)
原稿提出締切 2022年1月26日(水)
********************
(1)募集内容†
- 口頭発表のみ 8件程度
- ショート:15~20分程度の持ち時間(質疑を含む)
- ロング:20分~25分程度の持ち時間(質疑を含む)
※ロング/ショートいずれも2~8pの予稿の提出が必要となります(この範囲であれば枚数は自由です)。
※予稿のフォーマットは情報処理学会のページをご参照ください。
※今回は一般口頭発表のみの募集と致します。
(2)申込方法†
- 申込書のページをご利用ください(なお、原稿提出はこちらのページから行っていただきます)。
- 「研究会への連絡事項」欄に「ロング」「ショート」の別を、必ずご記入ください。
- 投稿システムで申込後、「講演申込完了のお知らせ」という件名のメールが自動配信されます。
- 担当幹事より、「講演申込受理のお知らせ」という件名のメールで、整理番号とパスワード、原稿執筆の詳細が届き、正式受理となります。
- 正式受理の連絡がない場合は照会先までご連絡ください。
- 先着順にて、定足数に達し次第、締め切りとさせていただきます。
- お申込み後、原稿提出時の発表ご辞退はお控えいただくようにお願いします。
(3)参加方法†
参加申込を2月9日に開始しました。研究発表会当日(2月19日)までお申し込み頂けます。
参加者はマイページへの参加登録が必要です。
プログラム†
2022年2月19日(土)
10:00-10:10 開会挨拶
10:10-12:00 セッション1
10:10-10:35 (ロング)
(1) 日本における医療・介護従事者と高齢者との 方言コミュニケーションを支援する アプリケーション構築
○唐自鵬(上智大学理工学研究科理工学専攻情報学領域)
・鈴木大悟(SYM ケアサポート)
・二見茜(東京医科歯科大学大学院)
・上里彰仁(国際医療福祉大学医療福祉学部)
・高岡詠子(上智大学理工学部)
方言によるコミュニケーション問題は、日本にいる医療従事者にとって大きな障壁となっている。方言による医療コミニュケーション障害は、問診時間の長時間化、患者満足度の低下や誤診リスクの増加などの問題を引き起こしている。外国人の医療従事者にとって、方言は更に難しい問題である。標準日本語と大きな違いがあるので、方言の習得は外国人医療従事者にとって大きな負担になっている。本研究室では、医療機関に所属する医師や看護師とともに,沖縄と和歌山の方言による問題を緩和するアプリケーションを構築した。本アプリケーションはローマ字付きの方言辞書、方言フレーズの照会、人体図付きの医療用語と翻訳などの機能を含み、医療従事者により良い医療環境を提供することを目的としている。
10:35-11:00 (ロング)
(2) 部品と画数で漢字を検索するためのUnicode入力支援ツール
○劉冠偉(東京大学史料編纂所)
・中村覚(東京大学史料編纂所)
・山田太造(東京大学史料編纂所)
近年、符号化文字集合Unicodeの更新とともに、中国や日本など東アジアで書かれた史料のテキストデータベースに利用できる漢字符号が大幅に増加しており、現在は合計9万以上の漢字が使用できる。その一方、史料の翻刻において、使用したい漢字の検索と入力補助が課題となる。CHISEやGlyphWikiなどのツールは漢字検索に利用できるが、翻刻支援を前提とした文字入力ツールはまだない。本発表では、Unicode漢字符号を構成する部品と画数で検索し、検索結果を任意のフォーマットで出力できるツールについて報告する。また、入力した異体字の正字を自動的に推薦するシステムの検討も報告する。
11:00-11:20 (ショート)
(3) 石仏情報学:石造物のデータ化およびデータに基づく石造物研究の推進に向けて
○大塚恒平(Code for History)
・小池隆(合同会社ミドリアイティ)
石造物のオープンデータを作成して公開するとともに、データ分析に基づく石造物研究に取り組んできた。本発表では、これまでの取り組みにおける課題を明らかにし、人文情報学の一分野としての石仏情報学の推進に向けて今後を展望する。
11:20-11:40 (ショート)
(4) 共通カテゴリを用いたロールプレイングゲームの物語における複合的構造の分析
○中村祥吾(公立はこだて未来大学)
・村井源(公立はこだて未来大学)
物語の自動生成は,人工知能における大きな課題の一つである.これまで,様々なアプローチが試みられてきたが,物語の計量的な構造分析結果に基づく自動生成などもその一つである.しかしこれまで対象とされてきたのはほとんどが短い物語展開のパターンのみであり,複数の起承転結のパターンを複合するような複合的構造の分析とその応用は,ロールプレイングゲーム(RPG)のジャンルを除きほとんど行われてこなかった.また,複合的構造の多様性や時系列的変化は未だ十分には明らかになっていない. そこで本研究では,他ジャンルと比較可能な精細な物語の複合的構造の分析手法を確立することを目的とした.具体的には,物語共通カテゴリ分類への対応を行うことで他ジャンルとの比較を可能とし,また分析対象データの増強を行うことで,より精細な特徴抽出を実現した.分析結果にカイ二乗検定を用いた結果,RPG作品全体の特徴抽出と,シリーズ毎の特徴比較を実現した. 今後の課題としては,構造記述における解釈の客観性の向上,サブクエストも含めた分析などが挙げられる.また,他ジャンルでの同様の複合的構造分析に基づき比較を実施することも重要と考えられる.
11:40-12:00 (ショート)
(5) ハイパースペクトルスキャナを用いた各種画像の分光計測とその比較
○榎本翔悟(早稲田大学大学院基幹理工学研究科)
・坂井滋和(早稲田大学理工学術院)
・馮琳(早稲田大学大学院基幹理工学研究科)
一般的にデジタル画像ではRGBの3原色情報が用いられるが、色彩情報を用いた様々な解析ではより多くの波長が含まれるマルチスペクトル画像が用いられることが多い。本研究では波長340nm~830nmを1nm毎に計測することが可能なハイパースペクトルスキャナを試作し、これを用いて絵画のスキャンを行った。そして比較のために、油絵を通常のRGBカメラで撮影・印刷したもの、ディスプレイ上に表示したものを測定した。その結果、絵画本体のスペクトルデータと比較してその他の方法では特定の波長でデータが失われていることが確認された。
12:00-13:30 休憩
13:30-15:00 セッション2
13:30-13:50 (ショート)
(6) 文体特徴を用いた物語テキストにおける登場人物の話者推定
○逢坂駿也(公立はこだて未来大学)
・村井源(公立はこだて未来大学)
近年,物語を計量的に分析する種々の研究が行われてきている.物語研究の中には,登場人物と会話の特徴に着目したものがあり,研究遂行には発話者と発話文を紐付けたデータが必要となる.発話者と発話文を紐付けたデータは基礎研究以外にも人工知能による物語の自動生成やチャットボットなど様々な分野での応用が可能であり,重要度が高いと考えられる.しかし,発話者と発話文を紐付けたデータの作成はこれまで手作業で行われてきており,作成にコスト面での問題があった.そのため発話者と発話文の対応を自動的に推定し,コスト削減を目指した研究が行われてきているが,これまで日本語文を対象とした研究では十分な精度は得られていない. 本研究では,従来の話者推定手法で用いられてこなかった文体特徴に着目し,機能語を用いた文体推定アルゴリズムを話者推定に応用することで,日本語の物語テキストにおける発話文の話者推定を行なった. 話者推定の結果,従来の話者交代を用いた推定手法よりは相対的に高い精度での推定が可能であることが明らかとなった.また登場人物の人数と話者同士の文体の類似度を用いた重回帰分析により,推定率を予測することが可能であることが判明した.登場人物の人数と話者同士の文体の類似度を閾値としてテキストを限定することで実用的な精度での推定も実現可能であることが明らかとなった. 今後の課題としては,文体推定アルゴリズムの改善による精度向上,推定対象データの拡大などが挙げられる.
13:50-14:15 (ロング)
(7) Transformersと国語研長単位による日本語係り受け解析モデルの製作
○安岡孝一(京都大学)
Universal Dependencies 2.9に国語研長単位コーパスUD_Japanese-GSDLUWが追加されたのに合わせて、Transformers向けBERT/RoBERTaモデルをファインチューニングする形で、日本語係り受けモデルを製作した。結果として、各言語モデルのサイズのみならず、トークナイザの選択が、モデルの解析精度を左右することが判明した。ただし、最終的な解析精度の評価は、令和4年度大学入学共通テスト【国語】問題文を用いておこなう予定であり、当日の発表を期待されたい。
14:15-14:35 (ショート)
(8) 日本中世古記録を対象としたトピック抽出自動化システムの構築
○鳥居克哉(東京大学新領域創成科学研究科)
・中村覚(東京大学史料編纂所)
・山田太造(東京大学史料編纂所)
・稗方和夫(東京大学新領域創成科学研究科)
本研究では、日本史学者の史料研究支援のために、史料群に対する可用性と有用性を高めるトピック抽出を自動で行うシステムの開発を行った。ルールベースにより抽出した人名及びSentencepieceなどによる分割した用語からBag-of-Wordを生成し、LDA(Latent Dirichlet Allocation)を適用することでトピック分析を行った。さらに、史料と人物索引表を入力としてこの一連の分析を行うWebシステムをクラウド上に構築した。また、鎌倉時代の公卿である藤原(勘解由小路)経光が記した『民経記』を対象にこのシステムを利用し、トピック分析の結果が史実に整合していることが確認でき、有効性が示された。
14:35-15:00 (ロング)
(9) デジタル法寶義林における研究データの共同構築
・渡邉要一郎(東京大学史料編纂所)
○永崎研宣(一般財団法人人文情報学研究所)
・大向一輝(東京大学大学院人文社会系研究科)
・井野雅文(東京大学大学院博士課程)
・村瀬友洋(大蔵経研究推進会議)
・朴賢珍(日本印度学仏教学会)
・下田正弘(東京大学大学院人文社会系研究科)
デジタル法寶義林は、2021年11月に公開された、フランス学士院碑文・文芸アカデミー(Académie des inscriptions et belles-lettres) 及び SAT大蔵経データベース研究会による共同プロジェクトの成果であり、それまで紙媒体として流通してきた仏教に関する様々な情報を、デジタルデータとして共有可能な形で公開されたものである。データはTEI P5ガイドラインに準拠しており、閲覧インターフェイスとしてはテキスト検索のみならず、地図・年表上にデータがマッピングされる仕組みとなっている。本発表では、この構築にあたって行った共同作業の手法について報告する。
15:00-15:10 休憩
15:10-16:55 セッション3
15:10-15:30(ショート)
(10) 前近代と近代以降の地震カタログの統合検索ツールの開発
○加納靖之(東京大学地震研究所/地震火山史料連携研究機構)
前近代に発生した地震の震源位置やマグニチュードは,歴史資料の記述をもとに推定され年表形式のカタログが作成されてきている.前近代に発生した地震についてより詳細に調べるにあたって,明治以降の観測に基いて作成された地震カタログや震度分布を参照するのが有効である。前近代と近代以降で別々の地震カタログとして整備されているものを統合的に検索し,簡易的な分析ができるツールを開発している.前近代の地震に関しては,震度の推定値の根拠となる史料の記述まで遡れるようにすることを目指している.
15:30-15:50(ショート)
(11) 地域理解のための素材に着目した郷土料理オントロジーの設計
○河村郁江(名古屋工業大学)
・白松俊(名古屋工業大学)
本研究では,食を通じた地域の文化・環境の理解支援や,郷土料理データの保存を目指して,Webマップ「もちマップ」を作成している.本システムでは,特にもちのデータによって,地域の特色を可視化している.しかし,これまでは,「地域理解を支援するために,どのような観点でどのようなもちをデータ化すべきか」を明確に定義できていなかった.そこで本稿では,地域の文化や環境に深い関係がある素材に着目し,既存のデータやオントロジーの調査やオントロジーの設計を試みた.具体的には,先行研究の関連オントロジーを参考にしつつ,地域別にもちの素材情報を記述した.その際,分類基準が曖昧だったり,地域によって素材名の定義に揺れがあるといった課題が明らかになった.
15:50-16:10(ショート)
(12) 圏論に基づく漢字構造記述のモデル化の試み
○守岡知彦(京都大学)
RDF や IPLD のような有向非循環グラフに基づくデータモデルは人文学で扱われる多様な対象を表現する上で有用であり人文情報学分野のさまざまなデータセットで用いられている。構造や関係を扱うための数学である圏論はこうしたデータの構造を扱う上で有用な道具であるといえるが、白須裕之氏の先駆的な仕事などのいくつかの事例はあるものの現状では人文情報学での応用例は少ないといえる。著者は漢字の構造記述のためのモデルとして『多粒度漢字構造モデル』を提案しているが、これは文字と部品間の関係とそれぞれの漢字構造の対応関係の対応に基づくモデルであり自然変換の一種とみなすことができる。ただし、現実にはこうした綺麗な係がほつれる場合もあり、大部分相似であるが似て非なる多量なデータを扱う必要が生じているのが現状である。しかしながら、自然変換の観点からモデル化することにより、何が対応し何が例外なのかをはっきりさせることにより例外に注力した簡潔な記述が可能になるかもしれない。本項ではこうした圏論の利用の可能性について議論したい。
16:10-16:30(ショート)
(13) デジタル源氏物語(AI画像検索版):くずし字OCRと編集距離を用いた写本・版本の比較支援システムの開発
○中村覚(東京大学)
・田村隆(東京大学)
・永崎研宣(人文情報学研究所)
今日多くの機関から古典籍の写本・版本のデジタル画像が公開されている。しかし、これらの伝本からある一つの場面を確認したいとき、多数(『源氏物語』の場合、桐壺巻から夢浮橋巻まで約2,000枚)の画像から目当ての場面を探し出すにはコストがかかる。この課題に対して、本研究ではくずし字OCRと編集距離を用いた写本・版本の比較支援システムを開発する。また『源氏物語』を対象とした実験を行い、本システムの有用性を検証する。
16:30-16:55(ロング)
(14) 人文系学部向け人文情報学/デジタル・ヒューマニティーズ教育のためのカリキュラムについて
○永崎研宣(一般財団法人人文情報学研究所)
・長野壮一(千葉大学)
・小風尚樹(千葉大学)
人文情報学/デジタル・ヒューマニティーズは近年日本においても徐々に広がりを見せており、データサイエンス教育への文科系からの対応という観点からも期待を集めつつある。大学院教育においては人文学の意義や内容を前提とした教育が可能であるためデジタル技術やそれについての認識を主眼とすることが可能だが、学部教育においては同様の前提を立てられないために授業の構成として人文学の意義や内容をも含む必要がある。本発表では、学部教育において実施したカリキュラムの事例について報告する。
16:55-17:10 閉会
お問い合わせ先†
ch-madoguchi■jinmoncom.jp(@を■に変更しています )