ボリューム、ベロシティ、バラエティ。 What You Need to Know About Big Data

この記事はO’Reilly Radarに掲載されたものです(「ビッグデータとは何か」)。

By Edd Dumbill

ビッグデータとは、従来のデータベースシステムの処理能力を超えたデータのことです。 データが大きすぎたり、動きが速すぎたり、データベース アーキテクチャの条件に合わなかったりします。

2012年のホットなITバズワードであるビッグデータは、大量のデータの量、速度、変動性を制御するためのコスト効率の高いアプローチが登場したことで、実現可能なものとなりました。 これらのデータの中には、これまでは抽出に手間がかかるために隠されていた貴重なパターンや情報が含まれています。 WalmartやGoogleのような大手企業にとって、このような力は以前から手の届くところにありましたが、非常に高いコストがかかっていました。 しかし、今日のコモディティハードウェア、クラウドアーキテクチャ、オープンソースソフトウェアにより、ビッグデータ処理は、資源の乏しい人々にも手が届くようになりました。

組織にとってのビッグデータの価値は、分析利用と新製品の実現という2つのカテゴリーに分けられます。 例えば、買い物客の取引状況や社会的、地理的データを分析することで明らかになる顧客間の同業者の影響力などです。ビッグデータ分析は、処理にコストがかかりすぎるデータによって、これまで隠されていた洞察を明らかにします。

過去10年間に成功したWebスタートアップは、ビッグデータが新製品や新サービスの実現に利用された典型的な例です。

過去10年間に成功したWebスタートアップは、ビッグデータを新しい製品やサービスの実現に利用した典型的な例です。例えば、Facebookは、ユーザーの行動や友人の行動から得られる大量のシグナルを組み合わせることで、高度にパーソナライズされたユーザーエクスペリエンスを実現し、新しいタイプの広告ビジネスを生み出しました。

ビッグデータの企業への導入には、敏捷性が不可欠です。 ビッグデータの価値をうまく利用するには、実験と探求が必要です。

Data image

ビッグデータとはどのようなものか

「クラウド」という言葉が多様なテクノロジーを網羅しているのと同様に、「ビッグデータ」という言葉は、包括的な言葉としてはかなり曖昧です。 ビッグデータシステムへの入力データは、ソーシャルネットワークからのおしゃべり、Webサーバーのログ、交通量センサー、衛星画像、放送音声ストリーム、銀行取引、ロック音楽のMP3、Webページのコンテンツ、政府文書のスキャン、GPSトレイル、自動車のテレメトリ、金融市場データなど、数え上げればきりがありません。

問題を明確にするために、ボリューム、ベロシティ、バラエティという3つのVsは、ビッグデータのさまざまな側面を特徴づけるためによく使われます。 これらは、データの性質や、データを活用するために利用できるソフトウェアプラットフォームを理解するのに役立つレンズです。

ボリューム

大量の情報を処理できることで得られるメリットは、ビッグデータ分析の最大の魅力です。 データが多ければ多いほど、モデルが優れていることに勝ります。単純な計算でも、大量のデータがあれば圧倒的な効果を発揮します。

この量は、従来のIT構造に対する最も直接的な挑戦です。 スケーラブルなストレージと、分散型のクエリが必要になります。

データのボリュームが従来のリレーショナル データベース インフラストラクチャが対処できる範囲を超えていると仮定すると、処理の選択肢は大まかに、超並列処理アーキテクチャ (データウェアハウスや Greenplum のようなデータベース) と Apache Hadoop ベースのソリューションのどちらかを選ぶことになります。 この選択は、他の「Vs」の1つである「多様性」がどの程度影響するかによって決定されます。 一般的に、データウェアハウスのアプローチでは、あらかじめ決められたスキーマを使用し、規則的でゆっくりと進化するデータセットに適しています。

Hadoopの核となるのは、コンピューティングの問題を複数のサーバーに分散させるためのプラットフォームです。 Hadoopは、Yahooが最初に開発し、オープンソースとして公開したもので、Googleが検索インデックスを作成する際に先駆的に採用したMapReduceアプローチを実装しています。 HadoopのMapReduceでは、データセットを複数のサーバーに分散させ、データを操作する「マップ」の段階で、データの一部を抽出します。

データの保存には、Hadoop独自の分散ファイルシステム「HDFS」を利用し、複数の計算ノードでデータを利用できるようにしています。

  • HDFSへのデータのロード、
  • MapReduceの実行、
  • HDFSからの結果の取得。

このプロセスはもともとバッチ処理であり、分析や非インタラクティブなコンピューティングタスクに適しています。

最も有名なHadoopユーザーの一人であるFacebookのモデルは、このパターンを踏襲しています。 MySQLデータベースにコアデータを格納します。 このデータはHadoopに反映され、友人の興味に基づいてあなたにお勧めの情報を作成するなどの計算が行われます。

uncaptioned Strata 2012 – 2月28日から3月1日までカリフォルニア州サンタクララで開催される2012年のStrataカンファレンスでは、3日間にわたって実践的なデータトレーニングと情報豊富なセッションが行われます。 Strataは、データを活用するために必要な人材、ツール、技術を一堂に集めています。

コード「RADAR20」で登録料が20%オフになります

速度

データの速度(組織に流れ込むデータの速度が速くなること)の重要性は、量の場合と同様のパターンをたどっています。 以前は一部の産業に限られていた問題が、より広い範囲で発生しています。 金融機関などの専門企業では、動きの速いデータに対応したシステムを活用してきました。

それはなぜか。 インターネットやモバイルの時代になると、製品やサービスを提供したり消費したりする方法がますます計測され、データが提供者に戻ってくるようになります。 オンライン小売業者は、最終的な売上だけでなく、お客様のすべてのクリックやインタラクションの膨大な履歴を蓄積することができます。 これらの情報を迅速に活用し、例えば追加購入を勧めることができる企業は、競争上の優位性を得ることができます。

問題となるのは、入ってくるデータの速度だけではありません。例えば、高速で移動するデータをバルクストレージにストリーミングし、後でバッチ処理することは可能です。 重要なのは、データを入力してから判断するまでのフィードバックループの速度です。 IBMのCMでは、5分前の交通状況のスナップショットしかなかったら、道路を渡らないだろうと指摘しています。

このような動きの速いデータの業界用語は、「ストリーミング データ」または「複雑なイベント処理」のいずれかである傾向があります。

ストリーミング処理を検討する理由は主に2つあります。

ストリーミング処理を検討する理由は、大きく分けて2つあります。1つ目は、入力データが速すぎて全体を保存できない場合です。ストレージ要件を実用的なものにするには、データが流れてくるときにある程度の分析を行う必要があります。 極端な例では、CERNの大型ハドロン衝突型加速器では大量のデータが生成されるため、科学者たちはその圧倒的多数を廃棄しなければならず、有用なものが廃棄されていないことを祈るしかない。 ストリーミングを検討すべき2つ目の理由は、アプリケーションがデータに即時対応する必要がある場合です。

ストリーミングデータを処理するための製品カテゴリーには、IBMのInfoSphere Streamsのような確立されたプロプライエタリな製品と、Web業界で生まれた洗練されていないオープンソースのフレームワークがあります。

前述したように、入力データだけではありません。 システムの出力の速度も重要です。 フィードバックループが緊密であればあるほど、競争力は高まります。

このようなスピードへのニーズ、特にウェブ上でのスピードへのニーズが、事前に計算された情報の高速検索に最適化されたキー・バリュー・ストアや列挙型データベースの開発を推進してきました。

多様性

データが完全に秩序立って処理可能な形で現れることはほとんどありません。 ビッグデータシステムに共通するテーマは、ソースデータが多様で、きちんとしたリレーショナル構造になっていないことです。 ソーシャルネットワークからのテキストデータ、画像データ、センサーソースからの直接の生のフィードなどです。

コンピュータ同士の通信である程度の保証が得られるはずのWeb上でも、データの実態は混乱しています。 異なるブラウザが異なるデータを送信し、ユーザーは情報を隠し、異なるソフトウェアのバージョンやベンダーを使用して通信しているかもしれません。

ビッグデータ処理の一般的な用途は、非構造化データを取得し、秩序立った意味を抽出して、人間が利用したり、アプリケーションへの構造化された入力として利用したりすることです。 例えば、ある名前が何を指しているのかを正確に判断するプロセスである、エンティティの解決がその一例です。 この都市はイギリスのロンドンなのか、それともテキサスのロンドンなのか?

ソースデータから処理されたアプリケーションデータに移行するプロセスでは、情報の損失が発生します。 整理整頓すると、結局は物を捨ててしまうことになります。 このことは、ビッグデータの原則を強調しています:できる限り、すべてを残しておくのです。 捨てたものの中にも有用なシグナルがあるかもしれません。

リレーショナル データベースは人気があり、その性質がよく理解されていますが、整理されていても、常にデータの行き先になるとは限りません。 ある種のデータタイプは、特定のクラスのデータベースに適しています。 例えば、XMLでエンコードされたドキュメントは、MarkLogicのような専用のXMLストアに保存すると最も汎用性が高くなります。

根本的なデータ タイプの不一致がない場合でも、リレーショナル データベースの欠点は、スキーマの静的な性質です。 アジャイルで探索的な環境では、より多くのシグナルを検出・抽出することで、計算結果が進化していきます。 半構造化NoSQLデータベースは、このような柔軟性のニーズを満たします。データを整理するのに十分な構造を提供しますが、データを保存する前にデータの正確なスキーマを必要としません。

実際に

私たちは、ビッグデータの本質を探り、ビッグデータの風景を高いレベルから調査してきました。

クラウドか自社か

現在、ビッグデータソリューションの大半は、ソフトウェアのみ、アプライアンス、クラウドの3つの形態で提供されています。 どちらの方法をとるかは、データの所在、プライバシーや規制、人的資源、プロジェクトの要件などの問題に左右されます。

ビッグデータは大きい

従来の方法で処理するには大きすぎるデータは、どこかに持ち運ぶにも大きすぎるというのが基本的な事実です。 ITは優先順位を逆転させています。移動する必要があるのはデータではなくプログラムです。

たとえデータが大きすぎて移動できなくても、特に更新の早いデータの場合は、場所の問題が発生します。 金融取引システムでは、処理時間のミリ秒単位の差が競争上の優位性につながるため、ソースデータへの最速の接続を求めてデータセンターに押し寄せます。 ビッグデータの実務家たちは、データを扱う際の労力の80%は、そもそもデータをきれいにすることだと一貫して報告しています。Pete Warden氏は、「Big Data Glossary」の中で次のように述べています。 “

データの取得とクリーニングには高いコストがかかるため、実際に何を自分で調達する必要があるのかを検討する価値があります。 データマーケットプレイスは、一般的なデータを入手するための手段であり、多くの場合、改善点を還元することができます。

文化

ビッグデータの現象は、数学、プログラミング、科学的直感を組み合わせた学問であるデータサイエンスの出現と密接に結びついています。 ビッグデータから利益を得るためには、このスキルセットを持つチームに投資し、データを理解して有利に使おうとする組織的な意思で彼らを囲むことが必要です。 Patil氏は、データ サイエンティストの特徴として次のような資質を挙げています:

  • 技術的な専門知識: 最高のデータ サイエンティストは通常、何らかの科学的な分野で深い専門知識を持っています。
  • ストーリー性:データを使ってストーリーを語り、それを効果的に伝えることができる能力
  • 賢さ:問題をさまざまな創造的な方法でとらえることができる能力。

ビッグデータ分析プロジェクトの広範な性質は、不快な面もあります。データを採掘するためには、データをサイロから切り離さなければならず、組織は分析結果をどのように伝え、相互に浸透させるかを学ばなければなりません。

これらのストーリーテリングとクレバーネスのスキルは、最終的に分析作業の利益が組織に吸収されるかどうかを決定するゲートウェイ要素です。

Know where you want go

最後に、ビッグデータは万能ではないことを覚えておいてください。 データの中にパターンや手掛かりを見つけることはできても、その後はどうするのでしょうか。

例えば、広告戦略を変更して顧客一人当たりの消費額を増やすにはどうすればよいか、といった実際のビジネス上の問題を選べば、それが導入の指針となります。

関連情報:

  • データサイエンスとは?
  • Building data science teams
  • Big Data Now
  • “Data at the Scale of the Universe,” Presentation by Kyle Cranmer at Strata NY 2011 (video)
  • Building data startups: 早く、大きく、そして集中して」

li

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です