Tech & Science 2017.12.25 12:07 Apache Airflow でタスクスケジューリングしてみた ~Airflowによって開発負荷が変わる~ Airflowを導入することでエンジニアは処理本体の開発に集中できる 分析業務に限らず定常的な処理はバッチ処理として纏めることは多いと思います。そして、バッチ処理も実行するタイミングが決まったら、自動化システムとしてバッチ処理をスケジュー...
Tech & Science 2018.01.30 22:33 Apache Airflow でタスクスケジューリングしてみた ~公式ドキュメントの読み解き方~ Airflow公式ドキュメントは難解。重要ポイントから先に読み解こう 前回、タスクスケジューラーの必要性とAirflowの概要やメリットについてご紹介しました。しかし、「とりあえず触ってみよう!」っと思ってもAirflow公式ドキュメント...
Tech & Science 2018.02.24 13:36 Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~ 外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Tech & Science 2020.02.10 09:06 Cloud Composer と GKE を活用して機械学習のワークフローを構築する GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 ...
Tech & Science 2020.04.13 08:07 機械学習基盤における Cloud Dataflow の活用 Cloud Dataflow の使い所 Cloud Dataflow は GCP で提供されているサービスの一つで、フルマネージドな環境で ETL 処理を実行することができます。バッチ処理とストリーミング処理を統一的に扱うことのでき...
Tech & Science 2014.02.10 08:59 ビッグデータ活用事例(9)マーケティング・販売領域-認知系/会社を強くするビッグデータ活用 この連載では「会社を強くする ビッグデータ活用入門 -基本知識から分析の実践まで-」で取り上げたビッグデータやアナリティクスの活用事例を抜粋し、ご紹介していきます。 書籍の中では大きく2つの場合で事例を区分しており、合計8回にわたり、...
Tech & Science 2014.12.02 09:04 第3回:CRISP-DMとギックス分析プロセスの違い (2/2)|ギックスのビッグデータ分析体系2.0 示唆だしのために集計結果の可視化を重視する こちらの記事で紹介したように、2014年10月にギックスの分析体系を更新しました。その更新に伴い、弊社の分析業務を棚卸しすると同時に、様々な文献をあたり、また専門家と議論しながら改めて分析業務の...
Tech & Science 2015.08.15 10:24 DB間のデータコピーを2つのコンポーネントだけで行う|Talend Open Studio によるビッグデータ分析(第6回) プログラミング不要!? TalendがあればSQL知識だけでDB間のデータコピーが行える 企業内でデータ分析システムを構築した場合、業務DBと分析DBを分け、夜間バッチなどでDB間のデータコピーを行うことは多いと思います。ORACLE D...
Tech & Science 2017.02.08 09:02 Amazon Athena の分析サービスとしての位置付けについて考えてみる Amazon Athena は Google BigQuery と MS PolyBase を足して2で割ったようなサービス 昨年末、Amazon Web Services(以下、AWS)が主催したAWS re:Invent 2016から...
Tech & Science 2020.12.05 08:06 Connected Sheets を用いたビッグデータ分析(後編) この記事は GiXo アドベントカレンダー の5日目の記事です。昨日は、Connected Sheets を用いたビッグデータ分析(前編)でした。 Technology Div. の緒方です。 前回は Connected Sh...