出版社にとってE-Bookは市場に任せるには厄介なもののようだ。しかし、それではますます成長から遠ざかり、著者も遠ざかる。それもあって、A-Bookへの関心は高まる一方。しかし、メディア的に本とは「近くて遠い」存在のオーディオは、活字よりホットな「声」を扱う。それは未知のデジタル体験を扱うものだ。
第3のフォーマット
出版において印刷本とE-Bookに続く第3のフォーマットとして、米国を中心にオーディオ (A-Book)が注目されている。理由は言うまでもなく、第1に30%近い成長速度が持続していることであり、第2に書店との関係が薄いこと、第3に制作コスト低下による成長余力だ。ディスラプトの可能性も高いと見られており、戦略的に見て出版社(あるいは著者)にとって、少なくとも注目されるものとなりつつあるのも当然だろう。
現在のE-Bookがいまだ「ガラスの下の印刷物」を大きく超えていないのに対して、A-Bookはもともと印刷本とは出自(音盤/放送)を異にする、別メディア(音声)なのだ。文字と音の関係は、そのまま対応する音声変換もあれば、二次創作でもあり得るし、音声化も人手を介さずにデジタル音声に置換える(Text-to-Speech=TTS)場合もある。A-Bookの制作は今後数年で大きな変化があると考えられる。
メディアとしての声
TTSは、音声エージェント技術とともに目に見える形で進化を遂げてきた。マイクロソフトは最近、EdgeブラウザにEPUB3ベースのTTSサービスを導入することでダウンロードした本の読上げを可能にしたが、何も感じない方は、おそらく最近のTTSのデモを聴かれたことがないと思う。最近のAI技術は、驚くほど「自然」な「ロボットの声」の調整を可能にしており、人間と区別がつくかつかないか、という境界は日々変化している。朗読のTTSがかなりのレベルで実用化されれば、単純/単調な読上げだけのA-Bookは価値を失う。朗読者のギャラは、TTSの進化に左右されそうだ。
TTSの普及と性能向上は著しい。TTSの進化は、(1)自然な発音、(2)パーソナライゼーション、の2つの面で目立っている。前者は「人間」と区別がつかない発音、後者は「個人」の声質、口調、声色の合成を目指している。不特定の人声と特定個人の声(いわゆる声帯模写)の両面で進化しており、後者は「お笑い」のレベルに達しつつあるようだ。こうなると、本の朗読のTTSに音声表象(特徴抽出→合成)を応用したら、という好奇心が働くのは避けられない。例えば「ドラえもん」の声で新聞記事を、あるいは哲学書を読んだら…。
A-Bookは間違いなく重要な第3のフォーマットだ。そのことに疑いを持ってはいないが。「声」が出版にもたらすものは電子活字組版とは違ったものとなる。それも確かだろう。(つづく) ◆ (鎌田、02/16/2017)