(Hadoop) 설치하기.
하둡을 그 많은 사람들이 설치 및 wordcount 예제 돌리는 부분을 올렸는데, 내가 올린다고 뭐가 그리 대단한 포스팅따위가 되리라고 생각하진 않지만, 자의반 타의반으로 정리해야 하는 상황에서 부족한 부분이 있겠지만 일단 정리한다. 분명히 말해두지만, 개인정리용이고, mac osx 상에서 개인적으로 개발 테스트를 위함이니 따라하지 마시길.
http://apache.tt.co.kr/hadoop/common/hadoop-1.2.0
미러링 위치인데, 현재(2013.08.03) 기준으로 1.2.0 버전이 release 버전이고 나머진 알파다. 실습은 역시 잘 알려진것으로 하는것이 대세. tar.gz 으로 압축되어 있는 것을 풀면 설치 끝.
*실행하기 *
실행하기 전에 세 가지 모드가 있다.
모드에 상관없이 hadoop/conf/hadoop-env.sh 파일에 JAVA_HOME을 잡아주기.
– HDFS가 켜지지 않는 모드, 독립적으로 MapReduce 프로그램 로직 개발시 사용.
– hadoop/conf/core-site.xml, hadoop/conf/mapred-site.xml, hadoop/conf/hdfs-site.xml 설정파일들에 아무것도 작성되지 않은상태, 즉,
– 명령어
: hadoop/bin/hadoop 명령어로 실행.
2. pseudo-distribution(가상분산)
– 클러스터가 한대로 구성, 데몬도 한대에서 실행.
– stand-alone 과의 가장 큰 차이는 HDFS 가 뜬다는 점.
– 관련 설정
: hadoop/conf/core-site.xml(name node 관련 설정)
: hadoop/conf/mapred-site.xml(job tracker 관련 설정)
: hadoop/conf/hdfs-site.xml(hdfs 관련 설정)
: hadoop/conf/masters(secondary namenode 위치 설정, localhost 로 설정)
: hadoop/conf/slaves(salve 노드의 위치 설정, localhost 설정)
– 명령어
: 시작 hadoop/bin/start-all.sh
: 종료 hadoop/bin/stop-all.sh
– full-distribution
: 실제 운영할때 여러대의 서버를 두고 운영하는 방식. 나중에 다루겠음.