Digital Europeのロベルト・ジカーリ編集長は、さきごろアマゾンのCTO兼副社長、ヴェルナー・フォーゲルス博士 (Werner Vogels, Ph.D.)とインタビューを行い、オブジェクトデータベース技術専門ブログ、ODBMS.orgに掲載した(11/2)。IT関係者のための記事だが、アマゾンの技術がどのような性質のもので、どこへ向かおうとしているかを語っている。これは非技術者にとっても、デジタルメディア・ビジネスとそれを支えるテクノロジーを考える上でも重要なもので、あえて掲載することにした。解説が必要だと思うのでこれは稿を改める。(鎌田)
ヴェルナー・フォーゲルス博士とのインタビュー
「ビッグデータの中心概念の一つは、時とともに解析を進化させていける、ということです。新しいデータ分析の前提は、ユーザーの知りたいことが進化し、変化していくなかで、資源の制約を受けずにデータを集め、分析できなければなりません。」 ―アマゾンCTO、ヴェルナー・フォーゲルス博士
私は、ビッグデータと解析の分野で、アマゾンで何が行われているかを具体的に知りたいと考えていた。そこでアマゾンのCTO兼副社長を務めるヴェルナー・フォーゲルス博士にインタビューをお願いした。(RVZ)
制約なきシステムへの挑戦:ユーザーが「知りたいこと」に応える
Q1. カリフォルニアのサンタクララで今年2月に開催されたStrata Making Data Work Conferenceの基調講演で、あなたは「データとその格納には制約があってはならない」と話されましたが、それはどういう意味でしょうか。
WV:旧いデータ分析の世界では、何が知りたいかは予め解っており、そこから予見可能な収集と格納のモデルを導いたのですが、新しいデータ分析は、ユーザーの知りたいことが進化し、変化していくなかで、資源の制約を受けずにデータを集め、分析できなければならないのです。」
Q2. あなたは「ビッグデータには限界を必要としない」と仰いましたが、アレックス・ザライ(Alex Szalay)教授は、天文学を例に、「データというものはどこにでも存在し、1ヵ所にとどまることはない。測定は不能で維持することもできない」とも述べられています。ビッグデータの分析は新しい天文学のようになるのでしょうか?
WV:ビッグデータは、今年のホットな話題ですが、インターネットが拡大し、オンラインを利用する消費者、研究者、大小の企業が増加したことで、今日では収集、格納、管理、分析するデータの量も激増しています。企業が一度にこうした大量のデータに直面すると、情報を効果的に利用するリソースが不足する、データの麻痺につながることがあります。アレックスの論点についてですが、分析したいのに、有効なデータを得ることが困難になるということです。多くの組織が、データを、誰でも簡単にアクセスできるクラウド上に置くのはそのためです。
データ集約モデルへのパラダイム転換
Q3. あなたはジム・グレイを引用し「第4のパラダイム:データ集約による科学的発見」についても述べていましたが、それはどういうことでしょう? ビジネスインテリジェンス(BI)が、利益を生む科学になるということでしょうか。
WV:私が引用したのは、The Fourth Paradigm: Data-Intensive Scientific Discoveryという本です。これはデータ集約による科学的発見のビジョンを論じたエッセイを集めたものですが、計算機科学を、観察結果の分析を重視したデータ集約型モデルに転換するというコンセプトを扱っています。ビジネスインテリジェンスについていえば、分析の対象が財務や会計などの領域を超えて、企業の顧客に対するサービス・パフォーマンスの継続的改善に奉仕するものとなるということです。
Q4. クローデラ(Cloudera)のマイケル・オルソンは、最近のインタビューで「クラウドがたんなる基盤ではなく、ソフトウェアを実行する場所と、実行するソフトウェアが厳密に区別され、どちらについても正しい選択をするためのディプロイメントの詳細である」ようなデータ解析プラットフォームについて語っています。
これについてのあなたのお考えは? ビッグデータ分析とクラウドコンピューティングの関係についてのご意見をお聞かせください。
WV:ビッグデータの前提には、データ分析によって顧客へのサービス向上の方法を知り、企業の比較優位の創出を支援するという目的があります。私たちは過去15年間このアプローチをAmazon.comに適用しており、ビッグデータの管理と処理に関わるすべての課題については、しっかりと認識しているつもりです。
ビッグデータの中心的概念の一つは、時とともに解析を進化させていける、ということです。ですから、企業は何であれリソースの制約を受けるようでは困るわけです。そうした意味で、クラウド・コンピューティングとビッグデータは密接に関係しています。なぜなら、企業はデータを集め、格納し、整理し、共有する上で無限のリソースへのアクセスを必要としているからです。
AWSのユーザーは、ビッグデータの扱いに関して、いくつかの実に革新的なことを実践しています。一例としては、デジタル広告とマーケティングの会社であるレーザーフィッシュ社(Razorfish)です。この会社は、ブラウジング・セッションのデータに基づいたオンライン広告を提供していますが、レーザーフィッシュが直面した共通の問題とは、巨大なデータセットの処理です。こうした大規模なデータセットは、買い物シーズンでのショッピングサイトのトラフィックとか、メディアやソーシャルネットワーキング・サイトでのアクセスの爆発的増加などがあります。
通常、こうした数の処理には2日以上はかかっていました。Amazon Elastic MapReduceのようなオンデマンド・サービスを利用することで、レーザーフィッシュは処理時間を8時間にまで短縮できたのです。これにはコンピュータ・ハードウェアへの事前の投資も調達の遅れもなく、運用スタッフの追加雇用も必要ではありませんでした。これによって、レーザーフィッシュは数百万ドルもかかるクライアント・サービス・プログラムを僅かな予算ででき、広告投資に対する収益を500%増やすことが出来たのです。(→次ページに続く)
[…] 代なのだ。アマゾンのテクノロジーの司令塔であり広告塔でもあるフォーゲルスCTOとのインタビューをForum (11/07)に掲載したが、書店とか通販とかITとかいった境界をまったく超越した、 […]