CH119

◆第119回 人文科学とコンピュータ研究会発表会

主査: 山田太造
幹事: 上阪彩香、曽我麻佐子、松村敦、堤智昭
共催: 大阪大学大学院言語文化研究科、大阪大学データビリティフロンティア機構

会場情報

日時  2019年2月16日(土)
会場  大阪大学豊中キャンパス 南部陽一郎ホール
    詳細はこちらの地図をご確認ください(Googlemapにリンクします)

【参加費(聴講)】

種別金額
研究会登録会員無料
学会正会員2000円
学会会員学生500円
学会非会員学生1000円
非会員3000円

募集内容

◆第119回 人文科学とコンピュータ研究会発表会

情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第119回研究会発表会の開催を予定しております。 皆様、どうぞ奮ってご参加下さい。 詳細は追ってウェブサイト(http://www.jinmoncom.jp/?CH119 )およびMLでお知らせさせていただきます。 皆様のお越しを心よりお待ちしております。

  発表申込締切 2019年1月10日(木)
  原稿提出締切 2019年1月24日(木)

・一般口頭発表 5-10件
ショート:15~20分程度の持ち時間(質疑を含む)
ロング:20分~25分程度の持ち時間(質疑を含む)

※ロング/ショートいずれも2p~8pの予稿の提出が必要となります(この範囲であれば枚数は自由です)。
※予稿のフォーマットは情報処理学会のページ(https://www.ipsj.or.jp/kenkyukai/genko.html)をご参照ください。

申込方法

申込書のページ(https://ipsj1.i-product.biz/ipsjsig/CH/ )をご利用ください (なお、原稿提出はこちらのページから行っていただきます)。
*「研究会への連絡事項」欄に「一般(ロング)」「一般(ショート)」「企画(IDS)」「企画(言文)」の別を、必ずご記入ください。
* 投稿システムで申込後、「講演申込完了のお知らせ」という件名のメールが自動配信されます。
* 担当幹事より、「講演申込受理のお知らせ」という件名のメールで、  整理番号とパスワード、原稿執筆の詳細が届き、正式受理となります。  正式受理の連絡がない場合は照会先までご連絡ください。
* 先着順にて、定足数に達し次第、締め切りとさせていただきます。
* お申込み後、原稿提出時の発表ご辞退はお控えいただくようにお願いします。

なお、CH119では、データビリティフロンティア機構(IDS)、言語文化研究科(言文)による2件の企画セッションを実施します。

詳しい情報は下記URLをご覧ください. http://www.ipsj.or.jp/kenkyukai/sanka.html

プログラム

2019年2月16日(土)

10:00-10:05 開会の挨拶

10:05-11:00 一般セッション1

10:05-10:20 ショート
(01)係り受け解析を用いた比喩生成支援システム
○須堯 大喜(公立はこだて未来大学)
・寺井 あすか(公立はこだて未来大学)

比喩は聞き手に詩的・審美的効果を喚起する効果があるが,その機能を十全に発揮する適切な喩辞の選択がでない場合がある.そこで本研究では,青空文庫コーパスから比喩を含む文を抽出し,係り受け解析を行うことで単語間の係り受け関係を明らかにした比喩表現データベースを作成した.さらに,比喩を含む入力文に対して係り受け解析を行い,入力文における被喩辞,表現したい特徴を抽出し,データベースから同様の被喩辞,あるいは表現したい特徴をもつ比喩文を検索することで,その文における喩辞を入力文に含まれる喩辞の代替案,比喩文を例文として出力するシステムを提案した.さらに,提案したシステムを用いて与えられた画像から比喩を含む文章を生成する評価実験を実施した.事後アンケートの結果により,提案したシステムの有用性が示唆された.

10:20-10:40 ロング
(02)石造遺物画像の文字解析のためのノイズ除去手法の開発
○上椙 英之(国文学研究資料館)
・上椙 真之(高輝度・光科学研究センター)
・多仁 照廣(若狭路文化研究センター)

斜光撮影による影のみを抽出する光拓本技術により作成された画像は、石碑に刻みこまれた文字の抽出が可能である。一方で石造遺物表面には、文字以外の凹凸が存在することが多く、その形状・大きさも様々である。これらの文字以外の陰影と文字の陰影との分離は、拓本画像の判読性向上の為に必要な処理であり、且つ状況に応じた処理方法が求められる。本発表では文字の陰影サイズより小さな凹凸を、画像処理技術の一つであるクラスターラベリングを用いて除去した結果を報告する。

10:40-11:00 ロング
(03)Text Segmentation for Japanese Historical Documents using Fully Convolutional Neural Network
○Nguyen Hung Tuan(Tokyo University of Agriculture and Technology)
・Nguyen Cuong Tuan(Tokyo University of Agriculture and Technology)
・Nakagawa Masaki(Tokyo University of Agriculture and Technology)
・Kitamoto Asanobu(Research Organization of Information and Systems (ROIS) / National Institute of Informatics (NII)

We propose to use a Fully Convolutional Network (FCN) for text segmentation from Japanese historical document images. The trained FCN model has the ability to segment the text pixels from the raw images with various background styles and image sizes. However, the demerit of FCN is the requirement of pixel-level ground-truth which is expensive in time and cost, especially for historical documents. By employing the local binarization Otsu method on each isolated characters, we label every pixel of all document images belonging to the Pre-Modern Japanese Text (PMJT) database. Another problem is the imbalance between the number of background pixels and the number of text pixels. Thus, we multiply a weighted parameter to gradients based on the ratio between the number of background pixels and the number of text pixels during the training process.

11:00-11:10 休憩

11:10-12:00 一般セッション2

11:10-11:25 ショート
(04)日本古典籍くずし字文書の文字列認識
○佐藤 旭(東京農工大学)
・小林 心(東京農工大学)
・Ly Nam Tuan(東京農工大学)
・Cuong Nguyen Tuan(東京農工大学)
・北本 朝展(国立情報学研究所)
・中川 正樹(東京農工大学)

日本古典籍に書かれた「くずし字」の解読は難易度が高い.未だに解読されていない古典籍も数多く,人力の解読には多大な時間と労力を伴う.先行研究では、かなのみを対象としていたものを、LSTMを用いた高精度の文字認識によって,かな漢字混じり文字の翻刻を行うことができると考えた.第21回PRMUアルゴリズムコンテストで優勝した認識モデルに改良を行い、精度の向上を図った.

11:25-11:40 ショート
(05)本の日&サン・ジョルディの日デジタルアーカイブの構想 ―祭の「接続」の解明に向けて―
○菊池 信彦(関西大学アジア・オープン・リサーチセンター)

本研究の目的は、スペインの、特にカスティーリャ地方における「本の日」と、カタルーニャ地方における「サン・ジョルディの日」の祭という、2つの読書文化ナショナリズムの発露を対象に、第二共和政期(1931-1936)における両祭典の「接続」を検証することにある。そして、本研究においては、2つの祭典の史料のデジタルアーカイブ化とそこで蓄積されたデータに対するデジタルヒストリーの観点からの分析という手法を採用する想定であるが、まずその最初の段階として、本報告ではデジタルアーカイブ構築の構想について議論したい。

11:40-12:00 ロング
(06)地域の記憶と記録を結びつけることを目的とした三陸地方の震災関連アーカイブ資料のリンキング
○三枝 はるか(筑波大学)
・三原 鉄也(筑波大学)
・杉本 重雄(筑波大学)

2011年の東日本大震災以後、震災の記録を残すため、様々な震災関連資料がデジタルアーカイブとして提供されるようになった。これまで地震や津波による震災被害は同一の地域で周期的に発生してきたため、異なる時期に作成された災害の記録を紐付けて比較することは、地域の震災被害の歴史を記憶し伝える上で有用である。しかし、地域を識別する手段の1つである地名は時と共に変化する。そのため、ある共通する地域に関する異なる時期に作成された災害の記録を、実際に地名を用いたテキスト検索で発見することは容易ではない。そこで本研究では、震災関連アーカイブ資料ならびにそのメタデータに含まれる地名と地名の変遷を表すデータセットのリンキングを行ったのち、地域に関する異なる時期に作成された資料を時代を超えてまとめて提供するシステムを開発した。

12:00-13:30 昼休憩

13:30-14:30 企画セッション1

「人文科学×データビリティサイエンス」

13:30-13:40 IDSおよび企画趣旨説明
長原 一(大阪大学)
13:40-14:05 企画セッション講演1-1
(07)Faces in an Archive of Buddhism Pictures
○Renoust Benjamin(Osaka University)
・Uesaka Ayaka(Osaka University)
・Nakashima Yuta(Osaka University)
・Nagahara Hajime(Osaka University)
・Fujioka Yutaka(Osaka University)

We introduce a project aiming at capturing the evolution of Buddhism among time, schools and places, with the support of Computer Vision and Data Analysis. We introduce a first methodology to explore a large archive that includes 50,000 pictures collected by our expert in Art History, raising the different challenges in analyzing this archive.

14:05-14:30 企画セッション講演1-2
(08)多国間法律の比較と統計分析のための多言語機械翻訳
○Chu Chenhui(大阪大学)
・梶原 智之(大阪大学)
・中島 悠太(大阪大学)
・長原 一(大阪大学)
・渡辺 理和(大阪大学)
・大久保 規子(大阪大学)

環境法の参加指標を作成するために、対象国の法律を翻訳する必要がある。 その数は膨大であり、多言語機械翻訳システムの導入が望ましい。本研究では 高精度な法律ドメインの多言語機械翻訳システムの実現を目指し、法律ドメイン 対訳コーパスの構築やローリソース言語対への適応を行い、その有効性を検証した。

14:30-14:40 休憩

14:40-15:40 企画セッション2

「Digital Literary Stylisticsの現在」

14:40-15:00 企画セッション講演2-1
(09)Emily Dickinsonの詩における二人称代名詞の使用について
○岡部 未希(大阪大学)

アメリカの詩人Emily Dickinson(1830-86)は、自然、愛、死、永遠などの伝統的なテーマを、短い詩の中で独特の感性を持ってうたいあげた。その詩の多くは一人称代名詞Iを用いており、「わたし」が語り手として登場する。一方、二人称代名詞としては、youとthouの両方が使われており、その使い分けについてはあまり研究の対象となっていない。本発表では、Dickinsonが詩の中で二人称代名詞をどのように使い分けているのか考察する。

15:00-15:20 企画セッション講演2-2
(10)19世紀の推理小説:機械学習アプローチによる文体分析
○黒田 絢香(大阪大学)

本発表は,Arthur Conan Doyleの作品を中心として構築した同時代の推理小説コーパスを分析対象とし,機械学習手法の一つであるトピックモデル(LDA)を用いて,推理小説というジャンルにおける言語的特徴を探るものである。計量的・統計的なアプローチから作品ごと,あるいは作家ごとの特徴語を抽出し,作品群がどのようなトピックを持っているか,周辺作品との共通点や相違点,関係性がどのようなものか論じる。

15:20-15:40 企画セッション講演2-3
(11)Body Language in Classic British Fiction: Words, n-grams, and topics
○Tabata Tomoji(GSLC, University of Osaka)

This paper takes a stylometric approach to "body language" in classic British fiction. The specific research questions are how body-part words are distributed across registers, whether frequency patterns of body language make it possible to classify texts into meaningful sets as well as what stylistic functions body-part expressions lend themselves to in fiction. To answer the questions, stylometric analysis is carried out in conjunction with topic modelling and qualitative interpretation of stylistics effects by paying close attention to individual words, n-grams, and topics.

15:40-15:50 休憩

15:50-17:10 一般セッション3

15:50-16:05 ショート
(12)東アジア絵葉書データベースのシステム設計
○亀田 尭宙(京都大学)
・貴志 俊彦(京都大学)
・原 正一郎(京都大学)

京都大学東南アジア地域研究研究所では,戦前戦中に発行された東アジアの絵葉書をデータベースとして整理・公開している.これまで国際連携のために, Linked Open Data や International Image Interoperability Framework に対応した公開を進めてきた.また,それぞれの弱点である,ドメイン研究者によるデータの簡便な登録と更新や応答の早い検索APIについて,当研究所が構築してきたMyデータベースやElasticsearchとの連携によって補っている.本稿では,データの具体的な形式やシステム間の連携について詳述し,活用に至るまでの課題について議論する.

16:05-16:20 ショート
(13)研究データ共有における研究成果および利用者の時系列的分析
○中渡瀬 秀一(国立情報学研究所)
・加藤 文彦(国立情報学研究所)
・大向 一輝(国立情報学研究所)

本研究は研究データ共有が研究活動に与える影響を調査することを目的としている。 本稿ではそのような事例として情報学研究データリポジトリ(IDR)に注目し、IDRが配布するデータセット(Yahoo! 知恵袋データ)を用いた研究の成果文献を対象に文献発表量の経年推移や科研情報を用いて影響のあった研究分野に関して分析を試みたのでその結果について報告する。

16:20-16:35 ショート
(14)文字資料を対象とするデータベース構築に適した言語学的記述のあり方について
○永井 正勝(東京大学)
・和氣 愛仁(筑波大学)
・高橋 洋成(東京外国語大学)

一般言語学的なスタンスで様々な時代や地域の言語を統一的に扱おうとした場合に、どのような言語学的データの整理の仕方が必要なのかという観点は、データベース構築の際のプラクティカルな問題であると同時に、その整理行為そのものが、言語のあり方を記述する記述言語学の一形態としての価値を有する。本発表では、このような問題意識のもと、文字の直線的な羅列のみを見ていても言語構造が見え難いような文字資料をも対象としつつ、文字資料が持つ情報の、何を、どのように、整理・構造化して、それらを情報処理に結びつけていくべきなのか、という点について言語学の立場から提案を行う。

16:35-16:50 ショート
(15)アノテーション付与型画像データベースプラットフォームのIIIF対応
○和氣 愛仁(筑波大学)
・永井 正勝(東京大学附属図書館)
・高橋 洋成(東京外国語大学)

筆者らはこれまで、「アノテーション付与型画像データベースプラットフォーム」と称して、様々な言語資料画像上の任意の領域に言語学的データを配置可能な、画像=テキスト連携データベースシステムを開発してきた。本システムは、内部のデータベース構造に言語学的な知見を反映させつつ、汎用的なユーザインターフェイスを実装することによって、様々な時代や地域の言語資料に適用可能なデジタルアーカイブシステムとなることを目指している。現在のところ本システムには、古代エジプト語神官文字、近代日本語文字、古代アッカド語楔形文字の各資料画像が言語学的データとともに保存されている。本発表では、最近本システムにおいて行ったIIIF(International Image Interoperability Framework)への対応ほかいくつかの機能強化について報告する。本システムでは、IIIF画像サーバとしてCantaloupeを、画像ビューアとしてZoomifyを、CMSとしてDrupalをそれぞれ採用している。この構成により、(1)IIIF画像に対するアクセス認可設定、(2)IIIF画像情報(info.json)への著作権情報の付加、(3)Mirador等の外部ビューア上での言語学的データ表示と、そこから本システム内の検索ページへのリンク、(4)google等の検索エンジンに対する資料内テキストの提供と、検索結果ページから資料画像内の特定ページへのリンク、等の機能を実装した。これらにより、IIIFを利用しながら、著作権保護に配慮した上で、よりインタラクティブな形で外部システムと連係することが可能になった。

16:50-17:10 ロング
(16)コンテンツ共有のためのマンガの構造記述を利用したIIIFに基づく閲覧環境の構築
○加藤 夕稀(筑波大学)
・久行 智恵(筑波大学)
・三原 鉄也(筑波大学)
・永森 光晴(筑波大学)
・杉本 重雄(筑波大学)

近年、マンガはWeb上で広く掲載・閲覧され、その中身であるコマやページを引用し共有する、ということが一般的に行われている。しかし、ディジタル環境でのマンガの多くは単一ないし複数のビットマップ画像データで提供されている。そのためマンガコンテンツの部分的な参照や共有を行う際には、ユーザが各自で画像データを複製、加工して利用する必要があり、マンガに関する情報共有の煩雑化や不適切な複製利用の要因となっている。これらを解決するためには、ユーザが画像データを直接加工、複製することなくマンガ画像の一部に対してアクセスできる環境が求められる。本研究では、Web上での画像共有のための国際規格International Image Interoperability Framework (IIIF) を利用し、ユーザの要求に応じてマンガコンテンツの部分を提供するシステムを構築した。このシステムはマンガコンテンツの構造を記述したメタデータを用い、URIが付与されたマンガコンテンツ中の要素と対応する画像の箇所を関連づけて提供するとともに、既存のIIIF対応ビューワを拡張したビューワ上でそれらを表示する。

17:10-17:15 閉会の挨拶

18:00~ 懇親会

会場:日常酒飯事 わこう
費用: 一般6000円・学生1000円
地図: GoogleMapが開きます


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2019-01-28 (月) 13:29:36 (206d)