Tech & Science 2018.01.30 22:33 Apache Airflow でタスクスケジューリングしてみた ~公式ドキュメントの読み解き方~ Airflow公式ドキュメントは難解。重要ポイントから先に読み解こう 前回、タスクスケジューラーの必要性とAirflowの概要やメリットについてご紹介しました。しかし、「とりあえず触ってみよう!」っと思ってもAirflow公式ドキュメント...
Tech & Science 2018.02.07 14:56 Apache Airflow でタスクスケジューリングしてみた ~タスク開発のポイント~ Airflowのタスク処理はPythonで開発すると便利 前回までは簡単なジョブ処理の作成・実行まででしたが、今回はちょっと応用編です。そのため、Pythonの基礎的なスキルが必要になりますが、Pythonを使うことで「やれること」も多くな...
Tech & Science 2018.02.24 13:36 Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~ 外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Tech & Science 2020.02.10 09:06 Cloud Composer と GKE を活用して機械学習のワークフローを構築する GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 ...
Tech & Science 2020.04.13 08:07 機械学習基盤における Cloud Dataflow の活用 Cloud Dataflow の使い所 Cloud Dataflow は GCP で提供されているサービスの一つで、フルマネージドな環境で ETL 処理を実行することができます。バッチ処理とストリーミング処理を統一的に扱うことのでき...
Tech & Science 2014.06.16 09:08 Microsoft Power BI 導入レポート:本格導入① ~SQL Serverの構成を知ろう~ Power BI本格導入(=SQL Server 導入)してみよう Power BIの本格導入とは? これまで、Microsoft Office 365+Office 365 ProPlusをインストールするだけで使える『お手軽導入編』...
Tech & Science 2015.01.19 08:52 カウント別打率ランキング 【パリーグ】|プロ野球データでクロス集計 with Tableau 第4回 2014年のプロ野球全打席データをクロス集計していきます 2014年のプロ野球の打席データを全量(約6.6万件)手元に置き、さまざまな切り口でクロス集計して、プロ野球全体の打席の傾向を見ていく「プロ野球データでクロス集計 with Tab...
Tech & Science 2015.02.27 08:51 第7回(最終回):何が良いかはケースバイケースだ!|CSV、XML、JSON…データフォーマットの変遷について考える テキストフォーマット比較・最終回は独断と偏見のまとめです 前回(第6回)は、各フォーマット説明の最後としてJSONフォーマットについて説明しました。今回は本連載の最終回として、これらのまとめを説明します。フォーマット同士の比較や各々のメリ...
Tech & Science 2017.07.11 18:48 Jupyter Notebook は機械学習の実行環境のデファクトスタンダードになる Jupyter Notebook は分析者と様々な機能を結びつけるハブ的な存在 機械学習を行う場合、クイックに実行できるAmazon Machine Learning のようなクラウドサービス、色々な予測モデルを勝手に試してくれるData...
Tech & Science 2020.12.11 08:21 pandas でヘッダーが複数ある POS データを縦持ち横持ち変換する(前編) この記事は GiXo アドベントカレンダー の11日目の記事です。昨日は、非エンジニアの Kaggler がエンジニア指南を受けて気づいた、たった1つのことでした。 Technology div. の緒方です。 本記事では、 ...