반응형
하둡이란?
- 그냥 저장소라고 생각하면 된다.
- 적은 비용으로 빠르게 분석 할 수 있는 소프트웨어로 자바 소프트웨어 프레임워크
- 범용 하드웨어로 구축된 컴퓨터 클러스터의 방대한 데이터 세트를 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼이다. 하둡은 Apache Software Foundation에서 개발된 분산 컴퓨팅 시스템으로, 수천 대 이상의 컴퓨터 클러스터를 활용하여 대용량 데이터를 효율적으로 저장하고 처리할 수 있다.
- 현재 하둡 이외의 다양한 대규모 데이터 처리 기술과 플랫폼들이 나와있기 때문에 하둡의 파이가 줄어드는 추세이다. (하지만 아직은 하둡의 파이가 큰편이다.)
하둡의 핵심
- 장애 허용 (fault tolence)
- 확장성을 높이기 위해 장애를 당연히 발생할 수 있는 일로 간주
- 기반 소프트웨어 시스템이 실패한 작업을 책임지고 재시도하게 설계
- 다소 불안정하지만 저렴한 하드웨어로도 매우 안정적인 시스템 구성이 가능하다.
- 분산 파일 시스템
- 리소스 관리자와 스케줄러
- 분산 데이터 처리 프레임 워크
하둡 에코 시스템
하둡의 코어 프로젝트
- HDFS 분산데이터 저장
- MapReduce 분산 처리
하둡의 서브 프로젝트
- 나머지 프로젝트들
- 워크플로우 관리
- 데이터 마이닝
- 분석
- 수집
- 직렬화 등
하둡의 구성
하둡은 주로 두 가지 핵심 컴포넌트로 구성된다.
- Hadoop Distributed File System (HDFS)
- 대용량 데이터를 여러 노드에 분산하여 저장하는 파일 시스템.
- 데이터는 여러 노드로 나뉘어 저장되며, 각 노드는 데이터의 복제본을 가지고 있어 데이터의 안정성과 내결함성을 보장한다.
- MapReduc
- 데이터 처리를 위한 분산 프로그래밍 모델.
- MapReduce는 데이터를 작은 조각으로 나누어 여러 노드에서 병렬로 처리하고, 결과를 다시 모아서 최종 결과를 생성한다.
- 대규모 데이터 집합을 효율적으로 분석하고 처리할 수 있다.
반응형