出版を豊かにする人文系デジタル技術(1)

bestsellers「数学はベストセラーを予測できるか」(07/21)という記事は、Newsweek日本版で転載していただいたこともあり、かなりの方に関心をもって読んでいただけた。米国で1ヵ月後に出る新刊本についての記事で、情報は不足しているが、現時点での筆者の問題意識を整理しておくのも無駄ではないと思う。

売れる素材を見つける、売る相手と方法を探す

アルゴリズムは、「問題」を数学的に解くための手順を定式化したもの(解法/算法)を意味するが、出版プロパーにおけるコンピュータの商業的利用は、ながらく文字組版やレイアウトに限定されていたので、コンテンツの持つ意味(セマンティクス、コンテクスト)は、出版ビジネスではほとんど問題にされてこなかった。どこの国でも、出版社や書店にはコンテンツのアルゴリズムの専門家はいなかったと思う。最近までは。

Text_andData_miningコンテンツに関する問題とはなんだろうか。出版ビジネスも他のビジネスと同じく、課題は商品を売ること(売上/利益の最大化)で、(a)「売れるコンテンツ」を見つける、(b)「特定のコンテンツ」を売る方法を見つける、ことに実用的なアルゴリズムが成り立つかどうかが問題となる。あることが確認されれば、(1)方法、(2)有効性、(3)利用方法、(4)改善方法、(5)応用、へと進むはずだ。アマゾンの推薦アルゴリズムはその一つで、有効性は実証済みだ。これはデータマイニングという手法を使い、手持ちデータおよびオンライン空間から収集した膨大なデータ(いわゆるビッグデータ)から意味を見出して<対象×商品×価格>を最適化することまで出来る。蛇足ながら、「出来る」というのは一定以上の確率で、ということで、もちろん完璧にではない。

テキスト・マイニングは“貧者のAI”

アマゾン式のデータ・マイニングは現代の最先端のものだが、最大の問題は、アマゾンの利用可能なデータに最適化されていることで、仮に同じアルゴリズムを使っても同等はおろか、はるかに精度の劣る結果しか得られない可能性が強い。アマゾン専用レース・コースを、市販車(無改造車)で初めて走るようなもので、経験にはなるが勝負にはならない。とくに、手持ちデータにも乏しい出版社には、データ・マイニングの有効性は低い。

DH他方、テキスト・マイニングには、そうした絶対的格差は生じにくい。対象とするサンプルからひらすら「意味」を読み込んでいく作業だが、サンプルは「ベストセラー」であったり「名著」「古典」であったり、何かしら特別な属性を持ったコンテンツだ。対象はせいぜい数千点でよい。その代り、それらに独自の価値をもたらした内容と表現(文体、修辞、表現、語彙…)の発見については、古代以来の伝統を持つ修辞学を踏まえた<読み/書く>技術によることになる。既存の技術を取り入れたアルゴリズムを開発し、機械に原稿を読ませて解析させるのだ。

ただしこの点で、欧米と日本との格差は大きいことは強調しておく必要があるだろう。とくに米国の「プロフェッショナル・ライティング」の教育水準は高く、、人文系のデジタル技術への投資も活発になってきている。 (鎌田、08/10/2016)

Scroll Up