Tech & Science 2015.11.04 08:24 データアレンジメントがビッグデータ時代の新潮流になる。|データクレンジングの限界を越えよう データを深掘るならデータアレンジメントのスキルが必要!! 「ビッグデータ」という言葉が一般的に使われるようになった近年、今まで分析できなかったデータウェアハウス(DWH)上の1TBを超えるような大量データもクラウドデータベースなどによって...
Tech & Science 2016.11.16 08:12 データベースを”倉庫”ではなく”道具”として使う発想 ~データベース上で分析データを下ごしらえする~ データベースの特性を活かすことで "誰でも"、"確実に" データ分析が行える データ分析 = データベース。こんな公式を書いて何の違和感もないほど、データベースは、データ分析のために「なくてはならない存在」です。まさに、両者は切っても切れ...
Tech & Science 2017.06.05 07:58 データレイクとクラウドサービス ~①データレイクの今までをおさらい~ データレイクはビッグデータ分析とともに常に進化している ちょうど2年前。弊社ブログで「データレイク(Data Lake)」について取り上げさせていただきました。その当時「データレイク」という言葉だけが先行し、何を使えばよいか、どんな場面で...
Tech & Science 2017.06.12 08:35 データレイクとクラウドサービス ~②クラウドサービスが支えるこれからのデータレイク~ クラウドサービス進化によってデータレイクの運命が決まる 前回、データレイクとはどういうものか、データベースと何が違うかについて触れました。今回はクラウドサービスがデータレイクにどの様に影響しているか、そして、今後、データレイクはどの様に変...
Tech & Science 2013.11.25 13:00 PC上で数千万件データを手軽に扱える時代がやってきた|ギックスのビッグデータ分析体系 ① ギックスのビックデータ分析体系 ギックスはTeam CMOというサービスを提供しており、様々なお客様と顧客分析・会員分析を実施してきました。それらの経験の中から、以下の図で示すような独自の顧客データのビックデータ分析体系を持っています。こ...
Tech & Science 2013.12.23 13:08 クロス集計で「セグメント間の違い」を見出せ|ギックスのビッグデータ分析体系 ⑤ セグメントの特徴把握 前回はギックスならではの分析プロセス「2次属性の作成」について説明しました。今回はその付けられた2次属性を利用して、2次属性がついた人や製品の特徴を知るというプロセス、「セグメントの特徴把握」について紹介します。ギッ...
Tech & Science 2015.03.11 08:52 グループによる2次属性づけ|プロ野球データでクロス集計with Tableau 第9回 2014年のプロ野球全打席データをクロス集計していきます 2014年のプロ野球の打席データを全量(約6.6万件)手元に置き、さまざまな切り口でクロス集計して、プロ野球全体の打席の傾向を見ていく「プロ野球データでクロス集計 with Tab...
Tech & Science 2015.03.31 08:52 「データマート」と「キューブ」の違いとは?|いまさら訊けないビッグデータ分析 データマートとキューブの違いって? こんにちは、ギックス技術チームの岩谷です。 先日とある方より「データマートとキューブの違いって?」という質問をいただきました。この手の質問を時折耳にしますので、この場を借りて、ちょっと解説させてく...
Tech & Science 2015.06.18 14:50 Amazon Redshiftを利用料金そのままでds1.xlarge(旧:dw1.xlarge)からds2.xlargeにアップグレードしてみた|AWSを使い倒せ ds2.xlargeは、従来のCPU性能、メモリ容量が2倍、I/Oが1.5倍!なのにお値段そのまま!! 先日(2015/6/9)、AmazonよりRedshiftの新しいインスタンスタイプ「DS2」が発表されました。DS2インスタンスは、...
Tech & Science 2015.07.18 10:20 フォルダ中のファイルを変換して1つにまとめる|Talend Open Studio によるビッグデータ分析(第4回) フォルダ検索(tFileList)の結果からファイル読込(tFileInputDelimited)の連携の方法を紹介 前回、Talendで簡単なジョブを作成しましたが、そのジョブに手を加え、変換処理を行うまでの手順を2回に分けて連載したい...