山田祥平のRe:config.sys

紙がAIにかける橋のたもとで

 AIがインターネットを根こそぎクロールして、そこにある有象無象のものを含むあらゆる知識をすべからく吸収し、学習しつくしてしまうまでに、もう、そう長い時間はかからないだろう。その先には、いったいどんな世界が待ち受けているのだろう。

紙からテキストデータを抽出して構造化

 PFUがイメージスキャナの新フラグシップ機としてScanSnap iX2500を発売した。iX1600の後継となるモデルで7年ぶりの刷新となる。

 新たなコンセプトは「時・場所・デバイス、自由自在」だ。デスク上で個人が使用するものとしてのスキャナの概念を再定義、常置場所のみならず、オフィス、パブリックスペース、コワーキングスペースなど、さまざまな場所に設置してあるパブリックなスキャナも、まるで自分の専用機のように使える仕組みを導入しようとしている。

 発表会に登壇した宮内康範氏(株式会社PFU取締役常務執行役員)は、今AIのための良質な学習データが枯渇しようとしていると指摘する。おそらく2028年、早ければ26年にはなくなるかもしれないという。

 学習すべきデータがなくなってしまうと、AIをさらに賢くしようとしても賢くならないという事態に陥る。それではまずい。ならばリアルを高品質な学習データとしてとらえてみたらどうかというのが同社の考えだ。つまり、リアル=アナログ情報ととらえ、リアルを着実にAIに渡せればいい。

 それを媒介するのが紙だ。ただ、アナログ情報はそのままではAIには見えない。そこにScanSnapのビジネスチャンスがあると宮内氏は言う。

 紙の上のインクのシミを読み取り、AIが活用できる構造化データとして取り出すことができればいろんなことに役に立つ。多くの紙は構造化されたデータを印刷したものだ。

 ところが、たくさんの紙が世の中にあるものの、それをただスキャンしてOCRにかけるだけではAIが正しく判断できるデータにはならない。分析して構造化データに仕立てることが大事だ。それをPFUはやっていくつもりだと宮内氏。

 今回のフラグシップ機は、そんな背景を持つ製品だ。そのために、さらなる高画質、スピード向上をめざしてきた。

 また、南萌々夏氏(同社ドキュメントイメージング事業本部販売推進統括部)は、AIの急速な進化によって、そのパーソナライズ化が加速するという。AIは個人一人一人に最適な提案をするようになるし、人々もそれを求めるようになる。その双方向の関係を成立させるためには、リアルとデジタルの境界を超えることが必須だと南氏。

 会話、音声、視覚情報、バイタル値のようなデータにはそれぞれを収集するための便利なデバイスがいろいろとある。トレンドのAI録音デバイスやスマートグラス、スマートウォッチ等がパーソナルデータを四六時中収集することがすでにできている。スマートフォンが収集する位置情報のタイムラインも役に立つ。

 でも紙はどうか。だからScanSnapなのだ。ScanSnapが紙の上のインクのシミをAIが扱いやすいデータにし、なんらかのロジックがそれを構造化して蓄積し、AIがそれを学習する。リアルとAIの架け橋としての新ScanSnap。それが同社の提示する新しいビジョンだ。

検索できてこそのテキストデータ

 スキャナが、今よりもずっと身近な存在だった時期がある。どの家庭にもインクジェットプリンタ、しかも、1台数役をこなす複合機として印刷、コピー、スキャンを一手に担っていた時代だ。概ね2000年代だったと思う。当時のプリンタは写真高画質をアピールし、複合機としてフラットベッドのスキャン機能を有していた。

 ScanSnapは高速ドキュメントスキャナとしての機能性を追求することで、厚みがある原稿や立体物のスキャンはそれほど想定されていない。

 もっとも厚みのある原稿としてはプラスチックカード(厚み: 0.76mm以下(エンボス付き可) (ISO7810 ID-1タイプ準拠))程度のものしかスキャンできない。いわゆるクレジットカードならスキャンできるが、パスポートや運転免許証は難しい。これらを読み取って構造化データが得られればどんなに便利かとも思うが、とりあえず、それはかなわない。

 ScanSnapがすごいのは、紙から読み取ったデータを元に、単なる画像データとしてのPDFを生成するだけではなく、画像データの上に、透明な文字としてOCR処理後のテキストデータを重ね合わせるPDFの透明テキスト機能を20年以上前に積極的に利用したことだ。

 スキャンしたデータをOCR処理し、文字データを抽出することで、その印刷物は、そこにインクのシミとして書着込まれた「文字のようなもの」が検索可能な「文字そのもの」の状態になる。この時点でインクのシミはテキストとしての意味を持つようになり、人間にとっても機械にとっても文字として機能するようになる。

 この見かけと中身の双方のデータが格納された透明テキストつきの検索可能なPDFを20年前の時点で積極的に使おうとしていたのはすごい。

 個人的にScanSnapを使い始めたのは2005年頃だったと思うが、紙の書類をアッという間にスキャンできて、それが検索可能になるという現実を目の当たりにしたときの感動は今も忘れない。

コンテナとしてのPDFが積むデータ

 現在のPDFはこうした検索可能なPDFとしての機能に加え、構造化されたデータのコンテナとしての機能も併せ持つようになっている。構造化PDFはタグ付きPDFとも呼ばれている。

 たとえば名刺をスキャンしたとしよう。ScanSnapはスキャンした名刺から検索可能なPDFを生成するが、それとは別に名刺内の文字情報の構造を推測し、構造化されたメタデータとして記録する。名刺には、名前、会社名、部署名、電話番号、メールアドレスなどが記載されているが、名刺をスキャンしたことを認識し、それぞれのデータをタグ付きで構造化するようになっている。

 単にイメージとしての文字を読み取るだけではなく、そのOCR処理によるテキスト抽出に加え、文書の構造を分析して、正しいであろうタグをつけてデータを抽出する。

 買い物をしたレシートをスキャンしたときも同様だ。いつ、どこで、何を買ったのか、合計金額はいくらだったのかといった要素をメタデータとして構造化する。店ごとにバラバラのレイアウトのレシートを、文字通り十把一絡げにすることができる。これならレシートごとに日付の印字位置を探すのに困ることがない。

 コンテナとしてのPDFは、これらの構造化メタデータを、1つのファイル内に埋め込むことができる。

 ところが、現時点ではScanSnapが構造化したメタデータは、PDFとは分離されたデータとして別の場所に保存される仕組みになっているようだ。また、その在処や内容についてはエンドユーザーには明確に示されない。だから構造化データが含まれると思いこんでPDFファイルを持ち出しても、そこにはメタデータが含まれていないということにもなりかねない。

 PFUではメタデータ連携を同社のクラウドサービスであるScanSnap Cloudの制御下に置き、各社のクラウドサービスへの連携を実現している。こうしておけば、PDF内のメタデータには対応できないサービスもメタデータを活用できるといったことを考えているのかもしれない。

 標準化された仕様としてのPDFなのだから、それにしたがって単一のファイル内にメタデータを埋め込む選択肢を残しておいてほしかった。AIにとってもそのほうが嬉しいだろうと思うのだが、どうなんだろう。