音声認識ユーザーインターフェース「Siri」

公開日 : 2011年10月9日 (2012年11月6日更新)
カテゴリー : アクセシビリティ

アップルの iPhone 4S で、「Siri (シリ)」という音声認識ユーザーインターフェースが搭載されるようになりました。

これは、ユーザーが喋った内容 (質問だったり指示だったりの発話) について、システム (iPhone などのデバイス) が音声を認識し、その意味を理解 (解析) し、音声 (＋画面表示など) によって適切な結果を返す...というものです。

百聞は一見にしかず。アップルのサイトにある Siri の紹介ページに、「See how Siri works (Siri がどう機能するのか見てみよう)」というデモビデオがあるので、ぜひ一度ご覧ください (同じビデオを下記でもご覧いただけます)。

人間 (ユーザー) の側が、ある決まったフォーマット (たとえば「Weather, San Fransisco, October 9」といった具合) で喋るのではなく、自然な言葉 (「Is it going to be chilly in San Fransisco this weekend ?」といった具合) で喋って、それに対してシステム側が的確なリアクションをしてくれます。現時点ではベータ版での提供になりますが、自然言語の解析能力の高さには、驚かされます。

日本語には未対応のようですが、VoiceOver 音声合成エンジンの各国語版を開発してすでに iOS や Mac OS X Lion に組み込んでいるアップルのこと、恐らく将来的には、あらゆる言語に対応した「Siri」が登場すると思います。

ユーザーインターフェースの進化は、様々な IT 端末に広がる可能性がある

それにしても、IT 端末のユーザーインターフェース (UI) は、ここ数年ものすごいスピードで進化していますね。「パソコンをマウスで操作する」という時代が長く続きましたが、スマートフォンやタブレットの普及によって「タッチジェスチャによる操作」が急速に一般化しつつあり、そして今回ご紹介する「Siri」のような「音声による操作」が実用化されています。

もともとモバイル機器向けに導入された「タッチジェスチャによる操作」がパソコンのユーザーインターフェースにも採り入れられ始めているように (たとえば Mac OS X Lion ＋マルチタッチトラックパッドを搭載した MacBook シリーズや、マルチタッチ対応の液晶ディスプレイを搭載したネットブックなど)、音声認識によるユーザーインターフェースも、iPhone のようなモバイル機器だけでなく、PC など多くの IT 端末に当たり前のように採用されてゆくことでしょう。

ユーザーインターフェースの進化は、アクセシビリティの裾野の広がりにつながる

こういったユーザーインターフェースの進化は、「変化」というよりは「バリエーションが増える」という感じになると思います。マウスやキーボードによる操作を好む人も、タッチジェスチャによる操作を好む人も、音声による操作を好む人も、みんなが等しく情報にアクセスし、利用できる状況。つまり、アクセシビリティの裾野が広がることを意味します。

音声認識ユーザーインターフェースは、「見えない状態」や「両手が使えない状態」でもデバイスのコントロールができるという点で、下記のようなケースでアクセシビリティの恩恵を受けることができます。

上肢に障害がある
手指などを怪我している
視覚に障害がある
荷物を持っていたり、小さな子供と一緒だったり、自動車を運転中だったり、料理をしていたり...などで手が (目が) 離せない

Web サイトを利用する場合も、たとえば見出しの拾い読み、スクロール、リンク先へのジャンプ、動画やオーディオファイルの再生、といった操作を口頭でデバイスに指示したり、音声による発話でテキストを入力したり...といったことができるでしょう。

新しいユーザーインターフェースに対応できる Web サイトやコンテンツのありかた、というのもぜひ意識したいところです。Web 標準に基づいてアクセシビリティに配慮した制作をしていれば、そんなに難しくないと思います。逆に、アクセシビリティに配慮できていない Web サイトは、新しいユーザーインターフェースの時流に乗れない...これからは、そんな時代になりそうです。

前の記事
Mac OS X における音声読み上げ (VoiceOver) (その2) : 「クイックナビ」と「トラックパッドコマンダー」

次の記事
IBM のデザイン原則