動画キャプションを聴覚障害者の UX として考える

聴覚障害者向けの情報保障として、ウェブサイトで音声を伴う動画コンテンツを扱う場合は、キャプション (字幕) も併せて提供することが求められます (参照 : WCAG 2.0 解説書「達成基準 1.2.2 を理解する」)。このキャプションの制作作業は、単なる「文字起こし」程度に捉えられがちですが、実際に手を動かしてキャプションを制作してみると、ちょっとした工夫で聴覚障害者の動画体験を大きく左右する可能性に気づかされます。

以下、私自身がいくつかの案件を通じて得ることができた気づきを、簡単にまとめてみました。

発話 (セリフ) 以外の補完的な情報をどう表現するか

キャプションは、発話 (セリフ) だけではなく、状況の説明や、効果音である旨 (何の音かの説明) といった補完的な情報も含みます。こうした補完的な情報は一般的に角括弧 (bracket) で表記されますが、動画の持つ雰囲気や空気感をより的確に想像するための手掛かりとして重要な情報となります。

この補完的な情報をどこまで詳細に書くかについては、言葉を尽くしても完全に書ききれるものではないですし、記述が長くなるとその分キャプションを読む側の負荷も大きくなるので、バランスを勘案しつつということになりますが、ちょっとした一言を加えることでユーザーがより具体的に想像しやすくなるという側面はありそうです。たとえば :

...といった具合です。「もう一歩、細かな粒度で書く」ことを意識するだけで、情報の豊かさを大きく増すことができると思います。

キャプションをどうまとめて提示するか

キャプション制作では、字幕を表示させるタイミング (タイムコード) とその文面を、時系列で設定することができます。これはつまり、ある発話 (セリフ) について「センテンス単位でまとめて提示する」こともできれば「センテンスの途中で (文節単位で) 区切って順次小出しにする」こともできることを意味します。

細かく区切りすぎると、その分、字幕表示の切り替わりも頻繁になるため、文意を理解するのにユーザーの短期記憶負荷を大きくしてしまう恐れがあります。一方、ひとまとめにすると、一度に提示される字幕が長くなる (映像の上に重なる字幕表示領域が大きくなる) ことで、映像を見る妨げになってしまう恐れがあります。

これもバランスを勘案しつつということになりますが、小出しのしかた (提示する字幕の区切りかた) によっては、発話 (セリフ) が伝えたいことを視覚的にも効果的に印象付けることができるので、いろいろと工夫してみるとよいと思います。

文法的に正しくない発話をどう扱うか

動画コンテンツの発話 (セリフ) は多くの場合、話し言葉です。台本が無いトークなどでは、文法的に正しくない発話も多いことでしょう。その場合キャプションは、書き言葉として違和感がないように正しく書き換えるべきか、あくまでも発話内容を忠実に再現するべきか、判断に迷うかもしれません。キャプションの意義が音声トラックの代替コンテンツであることを考えるとなるべく後者 (発話内容を忠実に再現する) でありたいところですが、視覚的に字幕を読んだときに文意をスムーズに理解できないとしたら、それはそれで問題です。

発話における文法的な正しさの崩れは、何かを言いかけてやめたり、改めて言い換えたりしたときに生じることが少なくありません。そのような場合は、上記「キャプションをどうまとめて提示するか」で言及した「センテンスの途中で区切って順次小出しにする」テクニックを応用するのも一考です。発話者の言いよどみや言い換えを、字幕表示の切り替えによって視覚的にもリセットすることで、発話内容を忠実に再現しつつも、文法的な誤りをマスキングしたキャプションにすることができます。

会話のテンポ感をどこまで再現するか

動画の中に会話 (複数人による相互の言葉のやりとり) が含まれる場合、相槌 (合いの手) が入ることが多いでしょう。これらは大抵、無くても文意 (会話内容) の理解には支障がないため、キャプション制作においては省略されてしまうことが少なくありません。

しかし、細かな相槌も併せて字幕化することで、会話のテンポ感やその場の空気感を、視覚的にも生き生きと再現することができます。字幕表示の切り替わりが相応に頻繁になるため、どの程度相槌を忠実に字幕化するかはバランスを勘案しつつということになりますが、聴覚障害者に対して単に会話の内容だけでなく、より豊かに会話の雰囲気をも含めて伝えるために、(多少リソースはかかりますが) 相槌や合いの手をキャプションに含めることを積極的に検討したいものです。

読点をどう打つか

キャプションの制作において、読点 (、) をどこで打つかは案外重要な要素です。読点の打ちかたによってチャンク (情報の塊) が異なって映るので、字幕を見ることを通じて伝わるニュアンスが変わるからです。

あまり深く考えずに、発話中のポーズ (一呼吸入れたところ) に読点を入れてしまうケースがありますが、そのようにしてできたキャプションを視覚的に見てみると、文意がわかりにくいことがしばしばあります。あくまでも読点は、聴覚的なポーズの再現としてではなく、意味的な区切りとして入れるのが合理的かなと思います。

外国語の発話をどう扱うか

動画の中に外国語の発話が含まれる場合、その部分の字幕を原語で提示するか、あるいは訳すかは、悩ましいところです。外国語がわからないユーザーでも発話内容を理解できるようにすることを考えると、訳すのがよいと言えますが、その一方で原語でどう発話しているのかを知りたいというニーズもあるかもしれません。

クローズドキャプションであれば、字幕を多言語展開する (複数の言語のキャプションファイルを並行して動画再生と同期させる) ことができるので、外国語による発話部分ではユーザーが任意で字幕言語を切り替えられるようにする、という手もあります。


聴覚障害者に対して、動画視聴の結果もたらされるユーザー体験 (UX) に少なからず影響を与えるという意味で、キャプションの制作は、実にクリエイティブな仕事であると言えます。トレードオフを伴う判断が多く唯一無二の正解は無いかもしれませんが、「動画の持つ生き生きとした魅力を、どう聴覚障害者にも訴求するか」を突き詰めて考えると、できる細かい工夫はいろいろとあると思うので、制作リソースの許す限りブラッシュアップしたいものです。