公益財団法人 新聞通信調査会 様

貴重な史資料の可能性を広げる
「新聞通信調査会」のWeb公開用データベース

戦中期の日本を代表する国際通信社「同盟通信社」の貴重な史資料を所蔵する、公益財団法人 新聞通信調査会の事例をご紹介します。

同盟通信社 資料公開サイト 新聞通信調査会デジタルアーカイブ トップページの画像

概要

所蔵資料をデジタル化し、共有知として広く発信することができるWeb公開用のデータベースは、デジタルアーカイブの活用例として高いニーズがあります。
今回、公開の対象となる史資料は、同盟通信社*が編纂し、全国の新聞社などに配信した「同盟旬報」と「同盟時事月報」となります(1937年7月発行の第1号から1945年3月発行の225号まで、合計約2万6千ページ・30万記事を掲載)。太平洋戦争へ突入する激動の時代を“同時代人の目線”で伝えた、貴重な史資料となりますが、冊子形態のため新聞通信調査会の図書室でしか閲覧することができませんでした。
この貴重な情報を、データベース化し、WEB公開することで、多くの方に研究資料として活用していただけるようになりました。

  • *同盟通信社 : 共同通信社と時事通信社の前身組織として1936年~1945年10月に活動した日本を代表する国際通信社で、国内の新聞社などに毎日約10万字の記事や多数の写真を配信していた。

激動の時代を“同時代人の目線”で伝えた「同盟通信社」の膨大な記事情報をデータベース化

2017年11月、最初にデータベース化のご相談を受けた大日本印刷(株)出版イノベーション事業部の営業担当・松田浩一は、次のように振り返ります。

松田:「ボリューム面の問題もさることながら、政治・経済・外交・軍事・社会・文化など、さまざまな分野に及ぶ多様な文書表記には、当時の旧字体や呼称・略称が数多く使われており、検索性の高い仕組みが鍵になることがひと目でわかりました。すぐに関係部門へ連絡し、最適な制作体制の検討に入りました」

松田の依頼のもと、プロジェクトチームとして招集されたのは、DNPグループ内で学術系情報の収集・出版・販売に豊富な実績がある丸善雄松堂株式会社。活版印刷時代から、数多くの辞事典制作や伝統書体「秀英体」の開発に携わり、文字の専門知識を有した株式会社DNPメディア・アート。そして開発の概要設計をまとめる出版イノベーション事業部事業開発部の各担当者でした。検討の結果、基本システムはDNPと丸善雄松堂が共同開発し、全国の大学、図書館等に導入されている「J-DAC(ジャパン デジタル アーカイブズ センター)」を採用することになりました。

本件のために集められたプロジェクトチームの面々。後列右から大日本印刷 出版イノベーション事業部の抜井 英昭、同・松田 浩一、DNPメディア・アートの三上 聖、前列右から丸善雄松堂の加藤 めぐみ、澤田 宏美。

AIでは処理できない独自の辞書編纂ノウハウ

プロジェクトの方向性が定まったところで、すぐに「J-DAC」に実装するデータ作成のフェイズが始まりました。ひとくちにデータベースと言っても、そこには“品質”があります。ただ情報を詰め込めばよいというわけではなく、利用者が求める情報をいかに手早く引き出すことができるか、その検索性を左右するのが、「キーワード」の選定と記事情報を紐付ける「辞書データ」の精度です。掲載年月日や号数など時系列の情報検索は明確な数値で判断できますが、辞書データが検索対象にするキーワード(新聞記事)には、新聞特有の呼称や略称、表現方法があり、このルールに配慮した検索条件を策定しなければいけません。

澤⽥:「辞書データには、検索用キーワードをまとめた『キーワードテーブル』、用語の相関関係をまとめた『⽤語テーブル』、旧字や異体字の対照関係をまとめた『異体字テーブル』などがあります。利用者の意見をもとに、これらのテーブルに新たな要素を追加していくことで、運用しながら独自の検索サービスを構築することが可能になります」

原本のデジタルデータを出力した資料。名寄せと紐づけ作業のため、必要な箇所ひとつひとつにマーキングされている。

加藤:「例えば、『スイス』というキーワードで検索する場合、当時の新聞表記には『瑞西』『スウイス』といった表現があります。他にも検索要素として『瑞斯児蘭』『雪際亜』といった漢字表記にも配慮する必要があり、これらが全て『スイス』という検索ワードのもとにピックアップされてこなければいけません。また、米国関連の記事を検索する場合、記事の文書に『米国』や『アメリカ』というキーワードが存在せず、発信元の『ワシントン支局』を対象に検索したほうが、目的の記事にたどり着けることも多く、『米国』『アメリカ』『ワシントン』といったグループ化も必要になります。こうした相関関係をまとめた、精度の高い用語テーブルが必要になるのです。特に今回のような専門性の高い情報については、相関関係の定義も複雑になってくるため、得意先様とのご相談も大切になります」

さらに検索性を向上させるポイントは、旧字や異体字の存在です。異体字テーブルの作成を担当した、DNPメディア・アート書籍組版センターの三上聖は次のように説明します。

三上:「今回は戦前から戦後の資料が対象になるため、固有名詞(人名・地名)が当時の名称のまま記載されていました。検索性を考えると、大量の旧字や異体字(渡辺、渡邉など)に配慮する必要があり、この調査や作業には大変な労力を要します。しかし、弊社には辞事典や名簿の業務に長年従事してきた『文字のスペシャリスト』が多数在籍しています。この知見とノウハウを今回の仕事に活かすことができたと思います」

こうした専門分野の担当者がコンテンツの内容を調査し、辞書テーブルが完成したのは、作業開始から約半年後の2018年11月のこと。第一期分として、1940年までの4年間の記事を格納し、今後も順次情報を追加していく予定です。

辞書データに含まれるテーブルの一例

「用語テーブル」のイメージ

「異体字テーブル」のイメージ

“共有知”として所蔵品の価値を向上するデジタルアーカイブ

こうして公開された「新聞通信調査会デジタルアーカイブ」は、関係者から高い評価をいただくとともに、国内外の学術機関から多数の問い合わせが寄せられました。今後のロードマップについて、出版イノベーション事業部で事業開発を担当する抜井英昭が説明します。

抜井:「初回納品が終わったところで、改めて新聞通信調査会様や関係者・利用者の皆様にご意見をいただき、そこから得られるフィードバックをもとに、さらに辞書データの精度を向上させ、検索性を高めていきたいと考えています。今後も順次貴重な史資料を公開していく予定ですが、対象によって検索要素は変わってくるため、内容をしっかりと理解しながらご要望に応じたサービスを提供していきます」

「さらに」と抜井は続けます。

「今回は新聞通信調査会様が所蔵する史資料が対象でしたが、調査会様のお声がけもあり、一橋大学様など他の学術機関にもご協力をいただけることになりました。今後は分散された貴重な情報を一元管理できる総合データベースを目標に、大学研究者や通信関係者の皆様に有益に活用いただけるサービスを目指していきたいと思います」

様々なアナログ情報をデジタル化し、公開プラットフォームにより情報発信することで“共有知としての広がり”をもたらすことができるデジタルアーカイブ。所蔵品の価値を高めるソリューションとして、大学等の学術機関をはじめ、特定分野の貴重な史資料を管理している各種団体等から多数の引き合いをいただいています。

公開された「新聞通信調査会デジタルアーカイブ」の画面イメージ

キーワードに該当する記事タイトル・巻数・掲載年などが表示される検索結果画面

表示される誌面画像

新聞通信調査会「新聞通信調査会デジタルアーカイブ」はこちらからご利用いただけます
https://www.chosakai.gr.jp/archive/

未来のあたりまえをつくる。®