대용량 데이터분산처리를 위해 하둡 또는 스파크를 사용한다.(더 좋은 툴이 있는지는 확인해봐야 함.)
하둡이 더 이전에 나온 것으로 편의성(코드길이 등...)이 떨어지고, 대부분의 경우 스파크의 성능이 좋다고 한다.
(하드디스크가 아닌 인메모리 상태로 처리하기 때문에 속도가 빨라진다고 함)
단, 특정 task에선 하둡이 더 성능이 좋을 수 있다. 또한, 하둡은 며칠이 걸리든 결론을 내어주지만 스팍은 뻗어버리는 경우가 종종있다고 한다.
- 특정 task : 반복작업이 아닌 단발성 작업
mesos를 이용한 자원관리를 알 필요가 있다.
분산처리, 자원관리를 학습할 수 있는 프로젝트를 하나 수행할 필요가 있어보인다.
아래는 pyspark 입문과정(eda한정)에 대해 무료로 공부할 수 있는 edwith 강의이다.
databricks라는 홈페이지의 클라우드 서비스를 이용한다.
https://www.edwith.org/sparktutorial
PySpark를 활용한 데이터분석 강좌소개 : edwith
- 커넥트재단
www.edwith.org
'분석' 카테고리의 다른 글
파이썬을 활용한 업무자동화 (0) | 2020.06.02 |
---|---|
파이썬 이미지 OCR (0) | 2020.05.10 |
분석 경험 정리하기 (0) | 2019.04.22 |
Erlang (0) | 2019.04.04 |
[R] 데이터 불러오기 오류_line 1 did not have 41 elements (0) | 2018.10.21 |