Docker에 Spark Cluster 설치하기 Baremetal 서버나 cloud, VM 등에 설치하기에 앞서, docker기반으로 spark cluster 환경을 빨리 쉽게 구축하고 사용할 수 있다. 어떻게 동작하는지 살펴보거나, 간단한 프로젝트를 하고자 한다면 나쁘지 않은 선택이 될 것이다. Spark Cluster Project 받기 인터넷에서 다음의 프로젝트를 받아서 설치한다. git clone https://github.com/big-data-europe/docker-hadoop-spark-workbench.git Spark Cluster 시작하기 위 프로젝트를 clone한 디렉토리에서, 다음과 같이 실행하면 프로젝트내 기술된 docker-compose.yml을 바탕으로 spark cluste..
Airflow Local 설치 (OSX) 예전에는 실행하고자 하는 job들을 crontab으로만 구성하였으나, 이제는 rundeck, oozie, airflow 등 많은 툴들이 사용되고 있다. 이와 같은 툴들은 각 job들의 실행 순서를 정의하고, 언제 실행될지, 실행시간이 얼마나 걸리는지 등에 대한 정보도 제공하기 때문에 유지보수나 관리, 성능개선 트래킹 관점에서도 crontab과는 비교할 수 없을만큼 유용하다. AirFlow의 공식 사이트는 https://airflow.apache.org/ 이다. 다른 어떤 문서보다 공식사이트내 설치, 설정 활용 등에 대한 가이드를 먼저 참고하는 것이 좋다. pip로 airflow를 설치할 것이므로, 다음과 같이 pip를 설치한다. 예전 설치 방식 sudo easy_..
brew가 실행가능하도록 설정되어 있다는 전제하에 brew install apache-zeppelin 위와 같이 간편하게 zeppelin을 설치한다. alias 설정 실행 편의를 위해, 다음과 같이 alias를 선언한다. which zeppelin.sh 로 zeppelin 설치 위치를 확인하고, alias zeppelin-start="/usr/local/bin/zeppelin.sh start" alias zeppelin-stop="/usr/local/bin/zeppelin.sh stop" 과 같이 본인이 사용하는 shell에 등록한다. Zeppelin 실행 zeppelin을 실행하려면, java runtime이 설치되어 있어야 한다. zeppelin-start Zeppelin 종료 zeppelin-sto..
본 내용은 해당 링크내의 원본을 읽고, 키워드 등의 관점에서 축약하였음 원본 링크 : http://hadoop.apache.org/core/docs/current/hdfs_design.html 원본 링크내 첨부파일 : 본 내용은 해당 링크내의 원본을 읽고, 키워드 등의 관점에서 축약하였음 ■ Introduction - HDFS is highly fault-tolerant and is designed to be deployed on low-cost hardware. - HDFS provided high throughtput access to application data and is suitable for applications that have large data sets. ■ Assumptions an..
HBase에서 HQL 사용하기 (wiki.apache.org내용을 근거로) 설치된 HBase를 바탕으로, HQL을 수행하였다. (bin/hbase shell) 해당 정보의 참고 링크는 아래와 같다. http://wiki.apache.org/hadoop/Hbase/HbaseShell?action=print 1. Create Table hql> create table movielog_table ( --> year, length, inColor, studioName, vote, producer, actor); 2. Insert Data hql> insert into movielog_table (year:, length:, inColor:, studioName:, 'vote:user name', producer..
Michael 씨가 자세하게 설명했던 HDFS 설정과는 달리, HBase 설정은 wiki.apache.org/hadoop/HBase에 나와있는 설명이 전부이다. 물론, 웹에서 많은 사람들의 노력의 흔적은 곳곳에 있긴 하지만, 역시 어렵다. 기본적인 수준의 설명이나, 링크의 소개, 해봤더니 잘 되더라는 소감이 대다수이니까. 1. 내 시스템 구성 1) 앞서 설정한 HDFS(master, slave) -> 2대 2) HBase -> 1대 2. 미리 준비할 것 1) hbase1과 master, slave 간 ssh가 미리 설정되어 있어야 함. (비밀번호 없이 SSH 인증하기 참조) 2) hbase1, master, slave는 서로 reachable 해야 함. (hbase1는 master랑만 통신해도 될 줄 알..
기본적으로는, 아래 posting과 같이 Michael G. Noll씨가 설명한 바와 같이 따라하면, 하나의 machine에 single cluster를 이상없이 설치할 수 있다. Michael이 권고하기를, 여러 개로 multi cluster를 구축하기에 앞서, 단일 cluster로 정상 작동하는지 확인 후, 여러 개를 붙여가는 방법이 보다 효과적이라고 한다. 두 개의 cluster를 master-slave로 구성하고자 한다면, 앞서 마친 단일 cluster 2개 중 하나를 master로 다른 하나를 slave로 설정한다. 1. master와 slave의 conf/hadoop-site.xml에서 localhost 부분을 master로 바꿔준다. 2. master의 conf/masters 파일에 mast..
Related articles by Michael G. Noll ---------------------------------- 1. Running Hadoop On Ubuntu Linux (Single Node Cluster) http://wiki.apache.org/hadoop/Running_Hadoop_On_Ubuntu_Linux_%28Single-Node_Cluster%29 2. Running Hadoop On Ubuntu Linux (Multi Node Cluster) http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_%28Multi-Node_Cluster%29 [Comments] 1. I created a VMWare Team pr..
Requirements ------------- - Java 1.5.x, preferably from Sun. - Hadoop 0.16.x. This version of HBase will only run on Hadoop 0.16.x.. - ssh must be installed and sshd must be running to use Hadoop's scripts to manage remote Hadoop daemons. - HBase currently is a file handle hog. The usual default of 1024 on *nix systems is insufficient if you are loading any significant amount of data into regio..