事例:およそ 1 エクサバイトのデータに対して、Twitter 社員により 1 か月あたり数百万件のクエリが実行

事例:およそ 1 エクサバイトのデータに対して、Twitter 社員により 1 か月あたり数百万件のクエリが実行

1 エクサバイトのデータに対して、Twitter 社員により 1 か月あたり数百万件のクエリが実行

社員が自らデータを分析および可視化でき、同時に機械学習をテストする開発速度を向上させるために、Twitter は 2019 年にデータの処理と分析を民主化するミッションに着手しました。データ分析情報を改善し、生産性を向上させるために、スケーラブルかつクラウド ファーストなデータ ウェアハウスへの移行を決断したのです。一人ひとりの技術スキルに関係なく、すべての社員がデータにアクセスして分析でき、ビジネス インテリジェンスや分析情報を活用できるよう、移行先のデータ ウェアハウスはシンプルかつパワフルである必要がありました。そこで Twitter のデータ プラットフォーム チームは、使いやすさ、パフォーマンス、データ ガバナンス、システム運用性の観点から BigQuery を選択しました。2019 年にオンプレミスのデータ ウェアハウジング インフラストラクチャから BigQuery への移行を開始し、2021 年 4 月に Twitter での BigQuery 一般提供をスタートしました。

現在では、何万もの BigQuery テーブルに格納されたおよそ 1 エクサバイトのデータに対して、Twitter 社員により 1 か月あたり数百万件のクエリが実行されています。さらに、Twitter の内部データ処理ジョブにより、エクサバイト級の非圧縮データが処理されています。

スムーズに移行し、完了後にこうしたスケーリングを有効にするために、Twitter のデータ プラットフォーム チームと Google Cloud チームはいくつかの要件を提示しました。そのなかで最も重要な要件が、オンプレミスのリソース階層を BigQuery に 1 対 1 でマッピングすることでした。その他にも、BigQuery の設定が Twitter の Identity and Access Management(IAM)ストラクチャをミラーリングして、Twitter 社員が分析する顧客データを保護するという要件もありました。こうした要件を念頭に置いて、両チームは作業を開始しました。

詳しくは Google Cloud ブログへ

事例カテゴリの最新記事