アマゾン・アレクサがKindle本を読む

amazon-echo-lead-582x437アマゾンは、Echoで提供するサービスに、ユーザーがクラウド上に保管するKindleコンテンツを音読する “Kindle Books by Alexa”を追加した。オーディオブックとは別物だが、なんとか我慢できる合成音声でタダで読んでくれる。音声技術の一般化は、「声」メディアとしてのA-Bookに何をもたらすだろうか。

アンドロイドは朗読ロボットの夢を見る

robit reading2「アレクサ、『xxx=書名』を読んで」とEchoに命令するだけで、ユーザーのKindle本を読んでくれる機能が、実際に使える(つまり聴くに堪える)かどうかは、音声合成(SS)技術のレベルに依存するが、ZDnetのケヴィン・トフェル氏の記事(01/15)が参考になる。それによると、彼の200点以上のKindle本のほとんどで使え、半ロボット的な合成音声も、数分で気にならなくなったという。Whispersync 技術を使っているので、読みかけの部分を記憶している。しかし、音声コマンドは章を指定するナビゲーションにはまだ対応しておらず、30秒刻みの早戻しか一時停止しかできない(早送り・巻戻しや章の指定はタップで行う)。

トフェル氏はアレクサ・ロボットの声を「許せる」と判断したようだ。これはWebの読み上げにも使われるので、Echo/AlexaのSS技術は実用に十分なレベルと思われる。そしてこれはKindle本の音読機能として、Echo以外のデバイスにも対応するだろう。視覚障碍者はもちろん、かなり幅広く使われることになると思われる。この技術はかなり前から存在しながら、日常生活の中には容易に入ってこなかったが、アマゾン・アレクサが突破口となりそうだ。これを人間が朗読したA-Bookと比較することは適当ではない。音楽の自動演奏のようなもので、表現(創造)行為ではないからだ。

A-Bookは表現力を拡張する

robotとはいえ、時とともにSSも進化し、有名な朗読者の特徴を解析して「合成」するようになるだろう。感性制御技術 (Sensibility Technology)で、語調も使い分けられる。コンピュータによる数値化とシミュレーション(擬装)には際限がない。活字組版などできなかったワープロが、プロの組版ルールをマスターしてDTPをサポートし、CSSとしてWebにまで入っていって組版技術の基本部分を陳腐化したように、さらに短期間に進化を遂げるかも知れない。筆者も個人的にはSSが好きではないが、もはやこれが生活に浸透してくるのは避けがたいだろう(もちろん忌避すべき理由もあまりないが)。そしてもちろんアレクサには、SSに対応する音声認識 (speech recognition)機能があり、これを書き取り(speech to tex=S2T)に使って「文書作成支援」というサービスを提供できる。S2Tはすでに実用されている。

筆者はこの10年あまり、日本語音声技術の進化をフォローしていないため、Echoの英語音声技術と同じ実用レベルにあるかどうかは分からない。しかし、「ヒト型ロボット」での実用を目ざしていたこともあるので大差はないと思われる。A-Book(つまり人間)はSSに対抗し、表現として進化することを迫られると思われる。BGMや効果音、ビジュアルが入ってくるかも知れない。聴覚による読書のサポートは、それによってたんなる音読を超えた価値を認識されていく。 (鎌田、01/21/2016)

Scroll Up