Talend Open Studioのメタデータとは

Talend Open Studio のメタデータについてご説明します。この記事は Talend Open Studio for Data Integration v5.4.2 をベースに記載しています。

メタデータとは、Talend Open Studio 上で管理する、データベースやCSVファイルのデータソースに関する定義情報です。Talend Open Studioでは、その情報をリポジトリにて集中管理します。定義情報が変更された場合には必要なジョブに自動的に反映し、管理・保守をしやすい仕組みを取っています。

また、メタデータを新規に作成する際に便利なのが、既存のデータベースのテーブルやCSVのファイルレイアウトを見て、自動的にある程度類推された定義情報を自動生成してくれる点です。開発者はその多くの労力を伴わずに、どのようにデータを処理すればよいか、どのようにアウトプットすればよいかに集中することができます。また、保守上、多大な労力がさかれるのがデータベース設計の変更に伴うアプリケーションの改修。これに対しても、Talend Open Studioでリポジトリ上でメタデータ管理することによって保守作業負荷を軽減させることが可能です。データベースのテーブルレイアウトはリポジトリ上で管理されていますので、新しいレイアウト(追加された列や変更されたデータ型精度など)の反映は、影響があるジョブに対して自動的に対処してくれます。

この良いことづくめのメタデータ管理機能は、開発・保守効率を高めるためには欠かすことができない機能です。もちろん、ツールの一機能でありますので、多少のクセやおまじないのようなことも必要な場合があります。ただ、それだけ踏まえておけば強力な機能です。ぜひ活用ください。


 

メタデータで扱うデータの種類

Talend Open Studioでは、RDBだけでなく、CSVやExcel、XMLといったフラットファイルのほか、さまざまな形式に対応しています。以下に記載するのは、v5.4.2 で利用できるメタデータの種類です。


Sponsored Link

  • RDB(OracleやMySQLなどの一般的なリレーショナル・データベース製品)
  • 区切り記号付きファイル(CSVやTSVなど)
  • 固定長ファイル
  • 正規表現ファイル
  • XMLファイル
  • Excelファイル
  • LDIFファイル
  • JSONファイル
  • LDAP
  • Salesforce
  • Talend MDM

上記のほか、汎用的に利用できる「汎用スキーマ」や「Webサービス」、「FTP」がメタデータとして管理可能です。

利用できるリレーショナルデータベース

業務システムで一般的に利用される多くのデータソースは、リレーショナルデータベース(以下、RDB)だと思います。RDB製品といっても、無償のオープンソース製品から、1ライセンス数百万以上する商用データベースも存在します。Talend Open Studio では、その多くのRDBに標準対応しており、他のETL製品と比べても無償(オープンソース)が対応できる範囲が大変広いのが特徴です。以下に、対応しているRDBを記載します。v5.4.2で利用できるものです。

  • AS/400
  • MS Access
  • Exasol
  • FireBird
  • Greenplum
  • HSQLDB In-Process
  • HSQLDB Server
  • HSQLDB WebServer
  • Hive
  • IBM DB2 (LUW)
  • IBM DB2 ZOS
  • Informix
  • Ingress
  • Interbase
  • JavaDB DerbyClient
  • JavaDB Embeded
  • JavaDB JCCJDBC
  • MaxDB
  • Microsoft SQL Server (JDBC、ODBC)
  • MySQL
  • Netezza
  • Oracle (OCI、SID、ほか)
  • ParAccel
  • PostgreSQL
  • PostgresPlus
  • Redshift
  • SAPHana
  • SAS
  • SQLite
  • Sybase (ASE, IQ)
  • Teradata
  • VectorWise
  • Vertica

私も知らないRDB製品が多々ありました・・・。以前のv5.1系ではIBM ZOS は正式対応していなかったと記憶していますが、現バージョンv5.4.2では標準で選択できるのでサポート対象となったようです。上記以外にも、Generic JDBC、Generic ODBCが用意されており、独自にJDBCドライバやODBCドライバを用意しておけば、それらのドライバを使って自由に接続定義を作成することも可能です。

無償のETL製品で、これだけのRDB種類の接続性を持つものは少ないと思われます。他の有償ETL製品では、データベース製品Aには標準で接続できるが、製品Bにはオプションで100万プラスというライセンス体系を持つものもあります。活用しない手は無いと言えるでしょう。

次回以降では、メタデータの作成方法についてご説明します。


Sponsored Link

関連記事

no image

Talend Open Studio でメタデータを作成する1

Talend Open Studio でメタデータを作成する方法をご説明します。この記事は、Tale

記事を読む

metadata_create_06

Talend Open Studio でメタデータを作成する2

Talend Open Studio でメタデータを作成する方法をご説明します。この記事は、Tale

記事を読む

Talend Open Studio で作成したメタデータをジョブで使用する

Talend Open Studio で作成したメタデータを使い、ジョブを開発する方法をご説明します

記事を読む

Talend Open Studio スキーマのカラム名に日本語を使用する

Talend Open Studio のスキーマでカラム名に日本語を使用する方法です。この記事は、T

記事を読む

PAGE TOP ↑