2015.02.15 システム
「Google BigQuery」を活用してみよう!!
毎度お世話になります、システムエンジニアのオーハシです。
今回はビッグデータを扱う方法として「Google Cloud Platform」から提供される
「Google BigQuery」というスーパーツールを紹介します。
そもそも、ビッグデータとは「TB以上」という、途方もない大量データを指します。
この大量データを「MySQL」や「PostgreSQL」等で管理することは可能と思いますが、
ほとんどの場合、検索クエリーを実行しても「待っても、待っても応答なし」という
結果になることは言うまでも無いですね。
「TB以上」の大量データとは「数十億レコード~数百レコード以上」となることが
予測されるので、通常RDBMSでは「数十台~数百台以上」のデータベースサーバで
並列処理できる大規模インフラが必要になる訳ですが、コスト面だけみても実際には
無理と言えます。データ量が増えれば、構成も見直さなければいけません。。。
ということで、こんな場合には「Google BigQuery」を活用してみましょう!!
「Google BigQuery」とは、大規模インフラを自前で準備せず、大量データに対して
「超高速」に検索クエリーを実行することができるクラウドサービスなのです!!
<チョットだけ機能紹介すると>
・120億レコードを5秒でフルスキャンという売り
・インデックススキャンではなく、毎回フルスキャン
・検索クエリーは想像も付かないような大規模インフラにて並列処理
・複雑なクエリー(ありえないようなSQL)でも力技で処理実行、しかも数秒
・投入データに対する解析に特化、レコード更新や削除はできない
要するに「解析特化したOLAPツール」=「Google BigQuery」というイメージですね。
アクセスログ解析やDWH(データウェアハウス)として、是非、活用したいものです。
そして、気になるお値段ですが、、、
<チョットだけ多いアクセスログ解析では>
・ストレージ ⇒ 10GB × $0.020 = $0.2 ≒ 月額24円
・インタラクティブクエリ ⇒ 0.003TB(10GBの3割)× $5 = $0.015 ≒ 1回1.8円
(検索クエリを月20回実行した場合、1回1.8円 × 20回 = 月額36円)
この例では、なんと「24円 + 36円 = 月額60円」程度のコストで済みます。
最後に「Google BigQuery」には「Google APIs」の汎用APIである「REST API」が
提供されていますので、Webアプリケーションから直接操作することも可能です。
以上、お客様へ提供できる仕組みの幅が拡がりますね!!<つづく>