参考 Web ページ: http://hadoop.apache.org/core/
Apache Hadoop インストールディレクトリを決めておくこと. この Web ページでは,次のように書きます.
※ 要点は 「Oracle の JDK」を使うということ.
java -version
Ubuntu では /usr/jvm/java-6-sun-1.6.0.24 のようになります.
◆ Ubuntu の場合の実行手順例
sudo apt-get install openssh-server
◆ /etc/hosts.allow の設定例
◆ Ubuntu の場合の実行手順例
sudo adduser hadoop パスワード入力(2回)
その後,以下の操作を行う
ssh-keygen -t rsa -P "" cat .ssh/id_rsa.pub >> .ssh/authorized_keys chmod 600 .ssh/authorized_keys
hadoopユーザで SSH ログインできることの確認
ssh hadoop@localhost
※ 次のようにログインできない場合には対処
http://hadoop.apache.org/core/releases.html#Download
ダウンロードが始まる
※ Apache Hadoop インストールディレクトリは自由に決めていいですが,分かりやすい名前にしておくこと.
cd /usr/local
sudo tar -xvzof /tmp/hadoop-0.21.0.tar.gz
cd /usr/local sudo rm -f hadoop sudo ln -s /usr/local/hadoop-0.21.0 hadoop
sudo chown -R hadoop:hadoop hadoop-0.21.0 sudo chown -R hadoop:hadoop hadoop
sudo mkdir /usr/local/hadoop-datastore sudo chown -R hadoop:hadoop hadoop-datastore
cd /usr find . -name "*jdk*" -print
「表示されないよ」という場合には, JDK のインストールの Web ページの記述に従って, JDK 6 のインストール,「GNU gcj よりも SUN JDK の方を優先して使用するように設定」が行うこと.
■ 下記の例は JAVA_HOME を /usr/java/jdk1.6.0_17 に設定する場合
cd /usr
export JAVA_HOME=/usr/java/jdk1.6.0_17
■ 下記の例は JAVA_HOME を /usr/lib/jvm/java-6-sun-1.6.0.24 に設定する場合
cd /usr
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.24
※「#」は「コメント」の意味なので,もしすでに「#」が入っていれば取り除く
◆ /usr/local/hadoop/conf/core-site.xml の設定例
◆ /usr/local/hadoop/conf/hdfs-site.xml の設定例
◆ /usr/local/hadoop/conf/mapred-site.xml の設定例
※ 詳しくは, http://hadoop.apache.org/core/docs/r0.21.0/ を開き,「Single Node Setup」をクリック
cd /usr/local/hadoop ./bin/hadoop namenode -format
Hadoop Quick Startに記載されている 「例」を動かしてみる
cd /usr/local/hadoop mkdir input cp conf/*.xml input ./bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' cat output/*
以下の操作は,hadoop 実行用ユーザ(ユーザ名「hadoop」)で行うこと.
cd /usr/local/hadoop ,/bin/start-all.sh
※ 起動時に「JAVA_HOME が設定されていない」というエラーメッセージが出たときは /etc/bashrc に「export JAVA_HOME=/usr/java/jdk1.6.0_17」の行を加えるなどで対処する
cd /usr/local/hadoop ,/bin/stop-all.sh
※ 詳しくは, http://hadoop.apache.org/core/docs/r0.21.0/ を開き,「Single Node Setup」に記載されている 「例」を動かしてみる. Apache Hadoop デーモンを起動した状態で,次のコマンドを実行.
bin/hadoop fs -put conf input
bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
参考
この時点でエラーメッセージが出ていないこと. 出力結果は以下の手順で簡単に確認できる.
./bin/hadoop dfs -ls ./bin/hadoop dfs -ls output ./bin/hadoop dfs -cat /user/hadoop/output/part-r-00000
mkdir /tmp/data cat > /tmp/data/file orange orange1 apple apple orange1 orange # ctrl + D キー cat /tmp/data/file ./bin/hadoop dfs -copyFromLocal /tmp/data data
Java の単一のプロセスとして実行します。 これは、Hadoop デーモンを起動していない状態での実行です。 デバッグするのに役に立ちます。
cd /usr/local/hadoop ./bin/hadoop jar hadoop-0.21.0-examples.jar wordcount /tmp/data /tmp/output cat /tmp/output/part-00000
Apache Hadoop は、単一ノードで動かすことができます。言い換えると、 Apache Hadoop デーモンが1つのプロセス(プログラムとは別のプロセス))として動いているモードです。 DFS 配下のファイルを扱うことになります。
cd /usr/local/hadoop ./bin/hadoop jar hadoop-0.21.0-examples.jar wordcount /tmp/data output ./bin/hadoop dfs -cat output/part-00000
http://hadoop.apache.org/core/docs/current/cluster_setup.html を見てください。
参考 HDFS (Hadoop Distributed File System) の操作コマンド