Tech & Science 2018.01.30 22:33 Apache Airflow でタスクスケジューリングしてみた ~公式ドキュメントの読み解き方~ Airflow公式ドキュメントは難解。重要ポイントから先に読み解こう 前回、タスクスケジューラーの必要性とAirflowの概要やメリットについてご紹介しました。しかし、「とりあえず触ってみよう!」っと思ってもAirflow公式ドキュメント...
Tech & Science 2018.02.07 14:56 Apache Airflow でタスクスケジューリングしてみた ~タスク開発のポイント~ Airflowのタスク処理はPythonで開発すると便利 前回までは簡単なジョブ処理の作成・実行まででしたが、今回はちょっと応用編です。そのため、Pythonの基礎的なスキルが必要になりますが、Pythonを使うことで「やれること」も多くな...
Tech & Science 2018.02.24 13:36 Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~ 外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Tech & Science 2020.02.10 09:06 Cloud Composer と GKE を活用して機械学習のワークフローを構築する GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 ...
Tech & Science 2020.04.13 08:07 機械学習基盤における Cloud Dataflow の活用 Cloud Dataflow の使い所 Cloud Dataflow は GCP で提供されているサービスの一つで、フルマネージドな環境で ETL 処理を実行することができます。バッチ処理とストリーミング処理を統一的に扱うことのでき...
Tech & Science 2014.01.29 09:02 ビッグデータ活用事例(1)流行予測/会社を強くするビッグデータ活用 この連載では「会社を強くする ビッグデータ活用入門 -基本知識から分析の実践まで-」で取り上げたビッグデータやアナリティクスの活用事例を抜粋し、ご紹介していきます。 書籍の中では大きく2つの場合で事例を区分しており、まずは4回に渡って...
Tech & Science 2014.12.15 08:59 2次属性データとクロス集計で事業構造分析を行う 2次属性データとクロス集計は最強の組み合わせである ビッグデータブームはデータが大量に発生し始めている事に加えて、その大量に発生したデータを処理する環境が整ってきたからにほかなりません。個人的には、ビッグデータに注力してもよいと考えるきっか...
Tech & Science 2015.08.07 12:02 30度を超えるとアイスが”売れなくなる”?:データの正しい眺め方|冷やしデータ分析はじめました 他人の作った資料は「データ」と「解釈」に分けて考えよう 前回は、今年の夏は本当に暑いのか?ということを様々な切り口で考えてみました。今回は、前回のアイスブレイクでも言及した「30度を超えると、アイスではなくかき氷が売れるようになる」という...
Tech & Science 2017.06.19 08:43 ETL処理とELT処理の違い ~ビッグデータ処理の新トレンド~ ELT処理はクラウドデータベースだから可能になった荒業 皆さんは「ELT処理」をご存知でしょうか? 決して「Every Little Thing」ではありません。 ELT処理は、ETL(Extract/Transform/Load)...
Tech & Science 2018.01.24 12:13 BigQueryの標準SQL対応によって競合サービスからの乗り換えが発生するか? ~Redshiftと使用感を比較してみた~ 分析の試行錯誤フェーズではRedshift。分析の”型”が決まったらBigQuery。 ビッグデータ分析においてデータベースは必要不可欠であることは言うまでもありません。これらのビックデータ向けデータベースの代表格としてオンプレミスではO...