artscape
artscape English site
プライバシーステートメント
ミュージアムIT情報
掲載/歌田明弘|掲載/影山幸一
図書館の全蔵書がタダで電子化されるグーグルのプロジェクト
歌田明弘
 年末に「ニューズウィーク」誌が、「戦争やテロ、大統領選挙といったことがなければ2004年は検索の年として記憶されただろう」と書いていたが、検索の年というばかりでなく、2004年は、検索会社が始めたプロジェクトによって、長く人類の文化の基盤だった印刷本が本格的にデジタル化されはじめた年として記憶されることになるかもしれない。
 米グーグルは、12月半ば、英米の著名な図書館の本をデジタル化してネットで検索できるようにすると発表した。800万冊のスタンフォード大学の蔵書すべて、700万冊のミシガン大学の蔵書すべて、ハーバード大学は実験的に、オックスフォード大学は1900年以前の本、ニューヨーク公立図書館の蔵書は著作権保護期間が過ぎて破損しやすく研究者の関心の高い本とそれぞれ対象となる蔵書は異なるが、いずれにしても大量の本がスキャンされデジタル化される。そして、グーグルの検索に応じて、著作権のないものは本の全文を表示、著作権のあるものは、出版社の許可がないかぎり検索語を含む3行ほどが1冊の本について3個所表示される。
 グーグルは、電子化の作業を担当するばかりでなく、コストも負担する。経済的負担なしに各図書館は蔵書のデジタル・データが手に入り、検索システムの利便性を格段に高めることができる。グーグルは「グーグル・プリント」と名づけた本の横断全文検索をすでに始めているが、その検索結果画面に表示する広告収入の増加で、電子化の経費をまかなえると算段したようだ。
 デジタル化したくても経費の捻出に苦心していた大学は大喜びだ。たとえばさしあたりもっとも多い冊数を電子化する予定のスタンフォード大学の図書館員は、「検索してアクセス可能にするためにもう何年もテキストのデジタル化をしてきたが、定期刊行物はともかく、本については技術的・経済的両方の理由でそうとうに限定的にやるしかなかった。グーグルとの取り決めは、デジタル化の作業を、家内工業から産業のレベルへと飛躍させる」と、電子化の作業がいかに促進されるかを熱っぽく語っている。
 スタンフォード大学のサイトでは、いまやっている作業のデモ・ビデオを見ることができる。これを見ればわかるとおり、分厚い本も機械が自動的にページをめくってスキャンしていく。スタンフォード大学の装置はスイスの4DigitalBooks社のDigitizing Lineという製品だが、同大学は2002年から作業をしているという。
 自動めくりができるスキャナーということで4DigitalBooks社と争っているニューヨークのKirtas社の装置は、ライバルのものより値段は半額、重さは10分の1で、大きさも小さく、性能も上回っていると同社のホームページで宣伝している。Kirtas社は、条件によって変わるものの、ページあたり3セント以下で電子化できるそうだ。サイトではやはりビデオ映像が見れるが、本を完全に開かずとも90度ぐらいの角度でスキャンできるので、本を傷めずにすむ。この装置は日本ではプロダクトテクノロジーという会社が扱い、昨年秋には国内でデモもしたようだ。
「グーグルの作業はいまやられている高速の電子化よりもずっと本にやさしいと思う」と、ハーバード大学のQ&Aページには書かれているので、グーグルはこの2社とはまた別のシステムを考えている可能性もあるが、いずれにしてもグーグルはこうした装置をずらっと並べて効率的にスキャンし、OCRソフトを使って文字認識していくつもりなのだろう。
 スタンフォードに次いで電子化する冊数の多いのはミシガン大学だが、同大学の図書館はアメリカで6番目に大きいそうで、デジタル化にも積極的だ。南北戦争に関する文献11000冊330万ページのコレクションのデジタル化をすでにコーネル大学と共同で始めている。“Making of America”と名づけたデジタル・ライブラリーとしてネットでアクセスできるようになっている。ミシガン大学はこのデジタル化を始めるにあたって、コストやOCRの精度などについて検討し、仔細をそのサイトで公開しているが、それを見ると、電子化の精度を「かなり正確」と感じられるレベルにすると目標を設定し、そのうえで、誤植が1パーセント以下ならばそう感じられると判定した。使用するOCRソフトは文字認識するとともに、その正確さをみすがら測定し表示するようになっている。サンプル調査をしてどれぐらいの値の自己評価のときにどの程度の誤植が実際に出るかを確かめ、作業の効率化とレベルアップを図っている。
 ミシガン大学の電子化作業のスピードはほかの図書館よりも速いそうだが、それでも年に5000冊。このスピードで700万冊の本のデジタル化をすると1000年以上かかってしまう。しかし、グーグルはそれを6年で終わらせるつもりだという。ミシガン大学は、グーグルとの話し合いを2002年から始めており、実験的な作業をすでに開始しているという。
 こんどの提携事業の発表では、スタンフォード大学やミシガン大学は本格的に作業を始めるが、ほかの図書館は限定的である。これまでの準備的な作業のレベルが異なっているからだろう。破損しやすい本は機械によるスキャンにまわさないようにしておく必要があるが、どういった本が無理なのかを見きわめなければならない。そうした具体的な作業のほかにも著作権の問題についても検討する必要がある。ミシガン大学の学長は、このプロジェクトに関して「著作権の問題をあらゆる角度から深く検討し」「知識の発達や普及を図るという合衆国憲法に書かれた著作権法の目的にまさに沿っている」と判断したと言う。そして、先に書いたように、著作権の切れたものなどパブリック・ドメインのものは全文を表示し、著作権のあるものについても検索語を含む3行ほどを表示する予定だ。著作権保護の適用がない前者についてはどの図書館でも問題はないだろうが、後者については微妙である。出版社や著者からクレームがつく可能性がある。図書館やグーグルは著作権者にことわりなく表示する権利があるのかといった原則論についても疑義が出る恐れがある。
 1500万冊の蔵書のあるハーバード大学はさしあたり4万冊だけを実験的に進める。実験プロジェクトによって十分な判断材料を得られれば蔵書の大部分のデジタル化を始めるそうだが、著作権のあるものについては「テキストをまったく表示しない」と言っている。「著作権のある本から短い抜粋を表示する可能性については、グーグルと引き続き時間をかけて検討していきたい」と留保し、ミシガン大学との違いをのぞかせている。
 こうした法的な問題などの成り行きによってはプロジェクトの先行きに暗雲が立ちこめないともかぎらないが、スタンフォード大学の図書館員が言うとおり、本のデジタル化は不可逆的なプロセスだ。グーグルは「英語以外の本についても広げていきたい」と言っているから、世界中のほとんどの本がどこからでもアクセスできるようになる日はいずれ来るのだろう。
[ うただ あきひろ ]
前号 次号
掲載/歌田明弘|掲載/影山幸一
ページTOPartscapeTOP 
DNP 大日本印刷 ©1996-2007 DAI NIPPON PRINTING Co., Ltd.
アートスケープ/artscapeは、大日本印刷株式会社が運営しています。
アートスケープ/artscapeは、大日本印刷株式会社の登録商標です。
artscape is the registered trademark of DAI NIPPON PRINTING Co., Ltd.
Internet Explorer5.0以上、Netscape4.7以上で快適にご利用いただけます。