カタカタブログ

SIerで働くITエンジニアがカタカタした記録を残す技術ブログ。Java, Oracle Database, Linuxが中心です。たまに数学やデータ分析なども。

Hadoop

AWSにCloudera ManagerでCDH(Hadoop)クラスタを構築してみた

AWSにEC2インスタンスを複数立てて、Cloudera ManagerをインストールしてCDHクラスタを構築してみた。 Hadoopのクラスタ構成を自前で組むと結構面倒らしいが、Cloudera Managerを入れるとかなり簡単に組むことができた。環境情報は以下。 Redhat Enterprise …

Cloudera Managerのチャート機能でリソース使用状況を可視化する

前回、Hadoopのパフォーマンスを計測するベンチマークの使い方を見た。 totech.hateblo.jp通常、パフォーマンス計測時には裏でdstatやsarのようなサーバのリソース使用状況を取得するツールを走らせておくが、これらはログとして保管したり報告資料を作る上…

Hadoopのベンチマーク計測サンプル(TeraSort, TestDFSIO)を動かしてみる

構築したHadoopクラスタの性能がどの程度なのかを知る上で、共通で標準的な計測手順があると便利だと思い調べてみたところ、Hadoopに標準でベンチマークを計測するスクリプトが用意されているようだったので、これを使ってみる。 サンプルはたくさんあるよう…

RubyでHadoop Streamingを動かしてみる

mHadoopでMapReduceジョブを実行するには最近はHiveを使うのが一般的だが、MapReduceを手軽に使うための方法としてHadoop Streamingがある。 これは標準入出力を利用してMapReduceジョブを実行できるというもので、Javaで複雑なコードを実装せずに手軽に試せ…