画像内の文字情報のテキスト抽出の可能性

公開日 : 2009年7月12日 (2011年1月11日更新)
カテゴリー : アクセシビリティ

「SEMリサーチ」というサイトで、「Googleは将来、画像上のテキストを認識できるようになるか？」という興味深い記事がありました。

Googleのスタッフが「Will Google find text in images someday ?」という質問に答える形で、画像内の文字情報のテキスト抽出の可能性について、見解を示しているのですが、「実現するためのアイデアは思い浮かぶものの、作業が大変で、近い将来での実現は難しい」ようです。

やはり難しいか...と思いますが、もし仮に実現したら、とても素晴らしいですね。ユーザーにとっては検索行動の幅がぐんと広がるので、より充実したユーザーエクスペリエンスの実現につながるかもしれません。

また、アクセシビリティの観点で考えると、たとえば動画には聴覚障害者向けにキャプション（字幕）を付加することが望ましいのですが、検索技術サイドからの後押しがあれば（静止画像内の文字はもちろん、動画の字幕などもテキスト抽出できるようになれば...）、結果的に、こうしたキャプション付けが「当たり前」になることが期待できるような気がします。Google Audio Indexing（GAudi）において、動画中の音声（人の言葉）の内容を検索しようという実験は行なわれていますが、画像内文字のテキスト認識も、いつかGoogle Labs（グーグルラボ）でお目見えすることがあれば、と想像すると楽しみですね。

とはいえ、やはりWebにおける表現の基本はテキストでしょう。どんなに検索技術が向上しても、画像には「確実に代替テキストを付加する」ようにマークアップすべき（<img>要素へのalt属性など）です。上述のGAudiが「音声」を「テキスト」に変換しているように、結局のところテキストデータが検索技術の拠り所である以上、テキストベースでのセマンティック（何を意味するかを表す情報）を維持することの重要性は、将来にわたっても変わることはないと思います。

前の記事
オープンソースの無料スクリーンリーダー「NVDA」

次の記事
パスワードは隠すべきか？