ユーザーの意思をコンピュータに伝える方法いろいろ

先日、アップルの iOS がバージョン5.1にアップデートし、音声認識ユーザーインターフェース「Siri」が日本語にも対応したことで話題になりました。iPhone 4S をお持ちの方は、試された方も多いのではないでしょうか。

音声による「文字入力」であれば、たとえば「Dragon Dictation」のように、認識精度の高いポピュラーなアプリが以前からありましたが、Siri の日本語対応化によって、「コンピュータ (いわゆる PC だけでなく、スマートフォンをはじめとするモバイルデバイスなども含む) を音声でコントロールする」という行為が、私たちにとってより身近なものになってくるのは間違いないでしょう。

(もっとも、Siri は単なる音声入力/音声コマンドではなく、「パーソナルアシスタント」としてユーザーの自然な、あたかも人に対してするような問いかけに応対するアプリなので、アップルとしてはもっと高いレベル、つまりユーザー体験から「コンピュータをコントロールする」感覚すら排除すること、までを狙っているかもしれませんが...)。

従来であれば手指を使ってのコントロール (マウスのクリックやドラッグ、キーボードのタイピング、タッチインターフェースのタップやスワイプといったジェスチャ) が、ユーザーの意思をコンピュータに伝えるための主だった方法であったところに、まったく別の新しい方法でのコントロールが可能 (実用的) になったという意味で、音声認識ユーザーインターフェースの出現は興味深い事象だと言えます。今後はもしかしたら、他にも様々なコントロール手段が実用化されるかもしれません。現時点で垣間見える可能性を、いくつか挙げてみたいと思います。

身振り手振り

デバイスのある部分 (キーボードやマウス、画面など) に接触しない形でのジェスチャ、いわば「身振り手振り」によって、ユーザーの意思を伝える、という方法が考えられます。すでにマイクロソフトが「Kinect (キネクト)」で実用化しているので、ご存知の方も多いことでしょう。

身振り手振りによってユーザーの意思がコンピュータに伝わるようにするには、アプリ側とユーザー側との間で共通言語となるオリジナルなジェスチャーを、ボキャブラリーやイディオムとしてあらかじめ作っておくという手法もありますし、自然言語の一形態として「手話」を利用することも考えられます (聴覚障害者をターゲットユーザーに想定する場合は、こちらのほうが当然馴染みやすいでしょう)。

実際、Kinect を応用して手話を認識するプログラムも研究されているようです。

また、Android に接続して手話を認識するグローブ、という実験もあるようです。

目線の動き

目線を動かすことで、ユーザーの意思をコンピュータに伝える、という方法も考えられます。

アイトラッキング(eye tracking)調査用機器で有名な Tobii 社が、ユーザーの目線を追尾する技術を応用して、MyTobii P10 という製品を開発しています。また Tobii 社は「Gaze」というインタラクション技術を開発中で、 その一環として、Windows 8 を目線によってコントロールするといったことも可能になっています。

目線を動かしてコントロールするには、デバイス側にカメラが装備されていることが必須条件になりますが、その意味でスマートフォンやタブレット機器は (あらかじめカメラが内蔵されているので) 目線によるコントロールと親和性が高いと言えそうです。たとえば、Android 用に開発されている「Senseye」や、iPad 用に開発されている「MagicReader」など、面白いソフトウェアが登場しています。

息の吹きかけ

音声入力に比べると若干地味な印象かもしれませんが、息を吹きかけることによって、ユーザーの意思をコンピュータに伝達することもできます。

iPad 用のツイッター入力支援アプリ「息鳥 (いきどり)」が例として挙げられますが、デバイス内蔵マイクに吹きかけられた息の強さを検知する機能によって、キーボード操作/テキスト入力ができるようになっています。

息によるコントロールは、自由度の高い表現をするというよりは、ある項目を選択し実行する、という使いかたがメインになると思いますが、技術の発達によって息の強さの違いを表現に反映できるようになれば、入力できる情報の幅がぐんと広がるかもしれません。

手書き文字

キーボードによる文字入力 (タイピング) は、5本の指が使えて、キー配列を (ある程度) 理解していることが前提です (1本指でも、キー配列を覚えていなくても、不可能ではありませんが…)。怪我や障害で5本指を同時に使えない、PC キーボード配列を覚えられない、といった事情を持つ人にとっては、一本指でささっと文字を手書きすることによって、意思を伝えられると便利かもしれません。

手書き文字の認識は、タッチインターフェースによって可能になっています。iPhone (iPod touch) および iPad 用のアプリ「手書きトーク」が例として挙げられますが、カタカナをタッチパネル上で手書きする (指で書く) と、音声で読み上げてくれる、というものです。音声読み上げができるということは、何らかの形で描画情報が文字情報に変換されているということだと思うので、様々な意思伝達 (コマンドの生成) に応用できそうです (技術の発達によって認識精度が向上すれば、平仮名や漢字などを扱えることも期待できますね)。

(2012年11月8日追記)

現在では、Google のモバイルサイトで、手書き文字入力による検索が可能になっています (平仮名や漢字の入力もできます)。詳しくは「Google の手書き文字入力」をご覧ください。


ユーザーの意思をコンピュータに伝える方法は、上記以外にも他にもいろいろありそう (出てきそう) ですね。

利便性向上の度合い (インパクトの大小) はあると思いますが、どれがよい/悪い、という話ではなく、大事なのはユーザーインターフェースの選択肢が増えることだと思います (多くの人が、それぞれ好みのやりかたで使いこなせるように)。アクセシビリティの観点で見ても、このようなコントロール手段の多様化はユーザーにとってメリットがあることなので、注目したいところです。