Connected Sheets を用いたビッグデータ分析(前編)

AUTHOR :   ギックス

この記事は GiXo アドベントカレンダー の 4日目の記事です。
昨日は、Technology Div. 紹介 でした。

Technology Div. 所属の緒方です。

本記事と次回の記事の2回にわたり、Google スプレッドシートから BigQuery 上のデータに接続して分析を行える Connected Sheets について紹介します。前半の記事ではメリットや注意点について紹介し、後半の記事では画面キャプチャを交えながら使い方を紹介します。

Connected Sheets の公式ドキュメントはこちらです。

Connected Sheets とは

Connected Sheets は Google スプレッドシートから BigQuery 上のデータに接続して、ピボットテーブルやグラフなどを作成することができる機能です。

現在 BigQuery は様々な BI ツールに対応しています。そのため BigQuery のリソースを使用したいというだけであれば Connected Sheets を使う必要はありません。しかしエクセルやスプレッドシートなどの表形式の可視化に慣れているユーザーにとって、 BI ツールは新しく覚えなければならないことも多く、とっつきにくいという印象を与えてしまうことがあります。様々な機能を持っている BI ツールを導入しても、ユーザーに使ってもらえなければ意味がありません。

その点 Connected Sheets を使用すればスプレッドシートのようなインターフェースで BigQuery のリソースを使用することができ、エクセルやスプレッドシートに慣れているユーザにとっては BI ツールよりも抵抗が少なくなります。

今回と次回の記事の最終的な目標として、新型コロナウイルスの感染者数の月別推移のピボットテーブルとグラフを作成します。

新型コロナウイルスの感染者数の月別都道府県別のピボットテーブル
新型コロナウイルスの感染者数の都道府県別月間推移のグラフ

Connected Sheets を使うメリット

単なるスプレッドシートと比較した場合の Connected Sheets を使うメリットとして、次の点が挙げられます。

  • 表計算でビッグデータを扱うことができる
  • BigQuery の計算リソースを使用することができる
  • 自動更新することができる

表計算でビッグデータを扱うことができる

代表的な表計算ソフトと言えば Google スプレッドシートや Microsoft Excel がありますが、どちらの場合もシートに載せることができるレコード数は高々数百万レコードです。そのため数千万行のレコードを使用してピボットテーブルを作ることができません。

Connected Sheets は リソースとして BigQuery を用いており、BigQuery 上で計算した結果だけをスプレッドシート上に表示します。そのため数千万行を超えるビッグデータでも扱うことが可能です。

BigQuery の計算リソースを使用することができる

エクセルにせよスプレッドシートにせよ、レコード数が多い時にピボットテーブルを作成すると計算に時間がかかります。

Connected Sheets を使用すれば BigQuery の計算リソースを使用することができるため、データ量が多くても素早く計算することができます。

自動更新することができる

Connected Sheets は BigQuery に接続しているため、ピボットテーブルやグラフを更新することで元となるデータを BigQuery に同期することが可能です。自動的に同期することも可能で、毎日、毎週、毎月のいずれかの頻度の特定の時間帯で更新するように設定することができます。

通常のスプレッドシートやエクセルでは、一度作成したピボットテーブルやグラフを更新するには元となるデータを編集する必要がありました。Connected Sheets の自動更新機能を使えば、作成したものに対して一度設定するだけであとは何もせずに最新の状態に保つことが可能です。

Connected Sheets を使う時の注意点

スプレッドシートと全く同じ機能が使えるわけではない

スプレッドシートと比較した場合、さきほど挙げたようなメリットがある Connected Sheets ですが、スプレッドシートにできて Connected Sheets にはできないこともあります。例えば次のような点です。

  • ピボットテーブルの計算フィールドを使用できない。
  • ピボットテーブルのフィルターで「値でフィルタ」を使用できない。

他にも細かい違いがあり、一部の機能が制限されています。エクセルやスプレッドシートの代わりとして導入を検討する場合、やりたいことを実現できるかどうか試した方がよいでしょう。

計算するたびに課金される

Connected Sheets は 計算リソースとして BigQuery を使用しているため、計算するたびに BigQuery のクエリ発行代が課金されます。課金のタイミングはピボットテーブルやグラフなどの更新時になるため、ビッグデータを扱う場合は自動更新の頻度や分析時の更新に注意が必要です。

BigQuery のクエリ発行料金はこちらの公式ドキュメントをご参照ください。

次回予告

明日は後編としてピボットテーブルとグラフの作り方を紹介します。


Satoshi Ogata
Technology Div. 所属
データの加工方法やデータ分析基盤についての情報を発信していきます。

SERVICE