Tech & Science 2017.12.25 12:07 Apache Airflow でタスクスケジューリングしてみた ~Airflowによって開発負荷が変わる~ Airflowを導入することでエンジニアは処理本体の開発に集中できる 分析業務に限らず定常的な処理はバッチ処理として纏めることは多いと思います。そして、バッチ処理も実行するタイミングが決まったら、自動化システムとしてバッチ処理をスケジュー...
Tech & Science 2018.02.07 14:56 Apache Airflow でタスクスケジューリングしてみた ~タスク開発のポイント~ Airflowのタスク処理はPythonで開発すると便利 前回までは簡単なジョブ処理の作成・実行まででしたが、今回はちょっと応用編です。そのため、Pythonの基礎的なスキルが必要になりますが、Pythonを使うことで「やれること」も多くな...
Tech & Science 2018.02.24 13:36 Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~ 外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Tech & Science 2020.02.10 09:06 Cloud Composer と GKE を活用して機械学習のワークフローを構築する GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 ...
Tech & Science 2020.04.13 08:07 機械学習基盤における Cloud Dataflow の活用 Cloud Dataflow の使い所 Cloud Dataflow は GCP で提供されているサービスの一つで、フルマネージドな環境で ETL 処理を実行することができます。バッチ処理とストリーミング処理を統一的に扱うことのでき...
Tech & Science 2014.03.09 10:56 「確率がとても低い事象の分析」に全量データ分析は威力を発揮|ビッグデータ分析の留意点② 「ロングテール」に代表される確率が低い事象には全量データ分析 本日は、全量データ分析の優位性①にあたる、以下のポイントについて説明します。 優位性①:確率が低い事象を扱う場合に、サンプルデータでは得られない知見が得られるという点で、...
Tech & Science 2014.07.29 09:02 「Tableau(タブロー)」を使ってみた|利用頻度の高いグラフ作成① ~月次数値の対前年比較 利用頻度の高いグラフを作成し、Tableauの操作チップスを紹介する 前回の記事でご紹介したとおり、Tableauは感覚的に操作でき試行錯誤しながらグラフを作れる、自由度の高いソフトです。ただ「試行錯誤でき自由度が高い」という優位性のトレ...
Tech & Science 2014.09.10 09:08 Geek at GiXoの分析ツール使いこなし術|TableauとRの連携 第3回 TableauとRを連携させる 前回は、Tableauが提供しているパッケージワークブックを使い、TalbeauとRを連携させると何ができ、また具体的にどのようにTalbeuとRが連携されていくのかを見てきました。今回は、手持ちのデータを...
Tech & Science 2014.12.15 08:59 2次属性データとクロス集計で事業構造分析を行う 2次属性データとクロス集計は最強の組み合わせである ビッグデータブームはデータが大量に発生し始めている事に加えて、その大量に発生したデータを処理する環境が整ってきたからにほかなりません。個人的には、ビッグデータに注力してもよいと考えるきっか...
Tech & Science 2015.10.19 07:00 リフレクション解説第二回~プログラムの内部構造をデータとして取得~|オブジェクト指向プログラミング(OOP)をおさらいしよう(8) プログラムも「一個のデータ」です。 こんにちは。技術チームの岩谷です。本連載ではオブジェクト指向プログラミング(OOP)をおさらいする連載を書かせていただいています。前回「リフレクション」について説明させていただいたのですが、その中で ...