クラウド図鑑 Vol.33

Microsoft Azure はビッグデータのためのさまざまなサービスを提供しており、例えば大規模なHadoopクラスタ環境でも、必要なときに必要な時間だけ利用できる。ビッグデータを活用するには、フロントエンドのBIツールなども含めて多様なコンポーネントが必要だが、Azureではフロントエンドの「Power BI」からバックエンドのデータ処理や蓄積のサービスが統合されている。業務部門では使い慣れたExcelからの操作で、Hadoopのマネージドサービス「HDInsight」や、データウェアハウスの「SQL Data Warehouse(現在プレビュー)」などのデータ処理エンジンに連携しビッグデータを利用できる。またAzureのストレージサービス「Blobストレージ」に蓄積したデータやオンプレミスのデータソースからの転送/変換を行う「Data Factory」によってビッグデータの蓄積・収集から分析への一連のプロセスが完結できる。バックエンドのサービス群はマネージドサービスとして提供され、多ノードによるクラスターに関するハードウェアやOS、基本ソフトウェアの管理・運用の手間もない。なお、Microsoftは、2015年4月に計画を発表した「Azure Data Lake」に向けた「Azure Data Lake Store」「Azure Data Lake Analytics」など次世代のサービスをプレビューとして、Azure上に次々に投入している。

Microsoft Azure SQL Data Warehouse デモ(動画)

(クリックで再生)

URL   https://azure.microsoft.com/ja-jp/documentation/scenarios/data-analytics/

2015年11月11日 株式会社クラウディット 中井雅也
2016年7月13日改訂

機能

現時点で、ビッグデータの処理エンジンの中心となるのはHadoopのマネージドサービス「HDInsight」である。一括処理を行う「MapReduce」、SQLクエリーの「Hive」、NoSQLの「HBase」、インメモリー処理の「Spark」、ストリーム処理の「Storm」、スクリプト言語の「Pig」などの主要なApacheプロジェクトのソフトウェアを提供している。OSはWindowsとLinuxの両方に対応しており、Hadoopで一般的なJavaだけでなく.NET/C#でもプログラミングができる。ストレージはHadoopで一般的なHDFSのインタフェース経由でAzureの「BLOBストレージ」を使用するためデータの汎用性が高い。SQL Server系の構造化データの処理エンジンとして「SQL Data Warehose」があり、現在はプレビューとしての提供となっているが、2016年7月13日から東日本、西日本を含む主要リージョンで正式に提供開始されているが、大量並列処理(MPP)アーキテクチャとメモリー内列ストアインデックスによる高速な検索が可能。また「PolyBase」という技術によりHadoopのデータとリレーショナルデータと統合検索を可能にしている。なお、通常のSQL Serverベースのマネージドサービス「SQL Database」およびNoSQLのマネージドサービスについては、「Azureのデータベースサービス」を参照していただきたい。HDInsightもSQL Data Warehouseも、「Power BI」やExcelからデータを利用できるため、業務部門のユーザーのビッグデータの活用を可能にする。リアルタイムのデータ分析には「Azure Stream  Analytics」が用意されており、後述する「Event Hubs」と組み合わせて1秒あたり数百万のイベントのストリーム処理やリアルタイム分析が可能。現在トレンドとなりつつある機械学習による予測分析には「Machine Leaning」のサービスを提供している。オンプレミスとクラウドの複数のソースからのデータ取り込みと移動、および、事前準備や変換、さらにHadoopやストアドプロシージャなどの処理を組み合わせたデータパイプラインを作成し自動化するのが「Data Factory」である。さらに、今後ビッグデータのソースとして有力なIoTのような、膨大な数のデバイスから発生する1秒あたり数百万件のレベルのデータの取り込みと配信を行う「Event Hubs」のサービスも提供している。データを蓄積するストレージに関しては「Azureのストレージサービス」を参照していただきたい。

使いやすさ

HDInsight、SQL Data Warehouse、Stream Analytics、Data Factoryなどは、他のAzureのサービス同様に、グラフィカルなコンソールからの操作となり、簡単にサービスを利用開始できる。また、ユーザーによる分析やレポートのインタフェースとしてExcelが使えることによりビッグデータ活用の敷居を低くしている。

マニュアルや書籍など

Microsoftによって豊富なマニュアルやチュートリアル、リファレンスアーキテクチャなどのドキュメントが用意されている。

拡張性

HDInsight は、テラバイトからペタバイトクラスまでの大量データの処理が可能で、任意のタイミングで任意の数のノードを迅速に作成できる。Event Hubsは最大32のパーティションによって1秒あたり数百万のイベントの処理が可能。SQL Data Warehouseはコンピュートとストレージを論理的に分離することで柔軟な拡張を可能にしており、数秒で拡張、縮小、停止ができる。SQL DatabaseやNoSQLなどデータベース系のサービスの拡張性については、「Azureのデータベースサービス」を、ストレージ系のサービスの拡張性については、「Azureのストレージサービス」を参照。

可用性

HDInsightもSQL Data WarehouseもAzureのBlobストレージによってデータは冗長化されており耐久性を高めている。Geo冗長の機能によりデータを遠隔リージョンに複製できる。SQL Data Warehouseのデータは4時間ごとのバックアップが7日間保持され、任意の時点に復元が可能。ストレージ系のサービスの可用性については、「Azureのストレージサービス」を、SQL Databaseなどデータベース系のサービスの可用性については、「AWSのデータベースサービス」をを参照。

SLA

HDInsight、Stream Analytics、Data FactoryのSLAは月間稼働率99.9%。

自動化機能

HDInsight、Stream Analytics、Data Factory、SQL Data Warehouseはマネージドサービスとして提供されており、管理はMicrosoftによって行われ運用タスクも自動化される。

セキュリティ

SQL Data Warehouseは透過的なデータ暗号化が可能。またデータベースイベントの追跡による監査が可能。

データセンターの場所

Azure は、北米、南米、ヨーロッパ、日本と中国を含むアジアなど、グローバルの19  22リージョンにわたるデータセンターで稼働しており、場所を指定することができる。日本でも東日本と西日本にデータセンターがある。最新のサービスは北米から展開されることが多いので、使用したいリージョンでサービスが提供されているかチェックする必要がある。HDInsight、SQL Data Warehouse、Stream Analytics、Event Hubsは日本でサービスを提供しているがData Factoryは北米とヨーロッパでの提供となっている。

実績・シェアなど

米調査会社のSynergy Research Groupの調査によれば2015年第一四半期のシェアはAWSに次いで第2位だった。フォーチュン 500 社のうち 57% を超える企業が Azure を使用しているとのこと。
米Synergy Research Groupによる2016年第3四半期におけるワールドワイドのクラウドのシェアの調査結果では、IaaSではAWSが首位でシェアは45%で、2位はMicrosoft、3位Google、4位IBM、また、PaaSにおいてもAWSはシェアトップで、2位はSalesforce.com、3位Microsoft、4位IBMとなっている

エコシステム

Windowsの開発パートナー、販売パートナー、SIパートナーなどによるエコシステムが充実している。

価格および支払い方法

従量課金で、日本円での支払いも可能、またクレジットカード以外にも請求書払いも可能。HDInsightは、1コア/1.75GBメモリー/70GBストレージの汎用ノードのエントリーレベルの価格が9.69円/時間(東日本リージョン)から。SQL Data Warehouseのコンピュートは、1Data Warehouse Unit(最大20Unit) で99.96円/時間(東日本リージョン)で、別途ストレージの料金が必要。Streaming Analyticsは、処理データ1GBあたり0.11円と処理1時間あたり3.17円(東日本リージョン)。Event Hubsは、処理イベント100万あたり2.86円と処理1時間あたり1.53円〜(東日本リージョン)。Data Factoryは、アクティビティごとに月間61.2円〜(低頻度)とデータ移動が時間あたり25.5円(クラウドでの使用、米国西リージョン)