대용량 데이터분산처리를 위해 하둡 또는 스파크를 사용한다.(더 좋은 툴이 있는지는 확인해봐야 함.)

하둡이 더 이전에 나온 것으로 편의성(코드길이 등...)이 떨어지고, 대부분의 경우 스파크의 성능이 좋다고 한다.

(하드디스크가 아닌 인메모리 상태로 처리하기 때문에 속도가 빨라진다고 함)

단, 특정 task에선 하둡이 더 성능이 좋을 수 있다. 또한, 하둡은 며칠이 걸리든 결론을 내어주지만 스팍은 뻗어버리는 경우가 종종있다고 한다.

 - 특정 task : 반복작업이 아닌 단발성 작업

 

mesos를 이용한 자원관리를 알 필요가 있다.

 

분산처리, 자원관리를 학습할 수 있는 프로젝트를 하나 수행할 필요가 있어보인다.

 

아래는 pyspark 입문과정(eda한정)에 대해 무료로 공부할 수 있는 edwith 강의이다.

databricks라는 홈페이지의 클라우드 서비스를 이용한다.

 

https://www.edwith.org/sparktutorial

 

PySpark를 활용한 데이터분석 강좌소개 : edwith

- 커넥트재단

www.edwith.org

 

 

'분석' 카테고리의 다른 글

파이썬을 활용한 업무자동화  (0) 2020.06.02
파이썬 이미지 OCR  (0) 2020.05.10
분석 경험 정리하기  (0) 2019.04.22
Erlang  (0) 2019.04.04
[R] 데이터 불러오기 오류_line 1 did not have 41 elements  (0) 2018.10.21

+ Recent posts