clock2015.08.08 10:07
SERVICE
home

Talend Open Studio(TOS)とは? ~様々な形式のデータを取込めるETLツール~|分析環境を考える

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

取扱えるデータはCSV、Excel、JSON、XMLなど様々。プログラムを埋め込めるため自由度が高いETLツール

データ分析を行う場合、元となるデータファイルが、データベースに直接取込める形になっているとは限りません。CSVデータのように表形式になっている場合、そのままデータベースに取込めますが、JSONデータやXMLデータの場合、表形式に変換する必要がります。この変換作業で必要になるのが、ETLツールです。今回は、多機能、かつ、自由度が高いながらも無償で提供されているETLツール「Talend Open Studio(以下、Talend)」について、ご紹介します。

Talendが多機能な理由

Talendには、多くの優れたコンポーネント(機能)がパーツとして提供され、それらを組み合わせてETL処理を行います。特に取扱えるデータファイルの種類は多く、下記のようにCSVファイル(区切り符号付きファイル)、XMLファイル、Excelファイル、JSONファイルなどに対応しており、一般的なデータファイルは、ほぼ網羅していると言っても過言ではありません。talend1
また、下記のようにデータベースやクラウド機能と連携するコンポーネントも多く備えているため、これらのコンポーネントをドラッグ&ドロップで紐づけて、必要情報を入力するだけで、多くの処理を行うことが可能です。tatend

Talendが自由度が高い理由

Talendは、統合開発環境のEclipseをベースに作られているためです。Eclipseは、Java言語やPython言語でのプログラミング開発で最も使われる開発画面で、Talendの機能は、Eclipseの機能を多く取り入れられています。そのため、プログラミング開発者にとって使い慣れたでETL処理を作成することができます。talend3
更にコンポーネント以外の機能を行わせたい場合、Talend内でJavaコードを記述することが可能です。そのため、全体の基本機能はコンポーネントを組み合わせて、細部の項目の変換処理はJavaプログラミングで行えるため、ゼロから開発を行う場合に比べ、短期間、かつ、メンテナンス資産になります。

Talendはプログラミングの初級者から上級者までサポートできる

このように、Talendは、コンポーネントを使用すればプログラミングなしで多くの処理を行うことが可能です。更にプログラミングの知識があれば、細かい機能追加を行うことができます。そのため、少数のプログラミング技術者を中核とすることで、プログラミングできない作業者もETL処理を作成することも可能になります。
Talendのインストール方法、詳しい使用方法については、こちらのサイトをご参照ください。
 
 

SERVICE