hadoop

hadoop with AWS - 01 (기초)

데브플레이버 2023. 6. 21. 22:54
반응형

하둡이란?

  • 그냥 저장소라고 생각하면 된다.
  • 적은 비용으로 빠르게 분석 할 수 있는 소프트웨어로 자바 소프트웨어 프레임워크
  • 범용 하드웨어로 구축된 컴퓨터 클러스터의 방대한 데이터 세트를 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼이다. 하둡은 Apache Software Foundation에서 개발된 분산 컴퓨팅 시스템으로, 수천 대 이상의 컴퓨터 클러스터를 활용하여 대용량 데이터를 효율적으로 저장하고 처리할 수 있다.
  • 현재 하둡 이외의 다양한 대규모 데이터 처리 기술과 플랫폼들이 나와있기 때문에 하둡의 파이가 줄어드는 추세이다. (하지만 아직은 하둡의 파이가 큰편이다.)

하둡의 핵심

  • 장애 허용 (fault tolence)
    • 확장성을 높이기 위해 장애를 당연히 발생할 수 있는 일로 간주
    • 기반 소프트웨어 시스템이 실패한 작업을 책임지고 재시도하게 설계
    • 다소 불안정하지만 저렴한 하드웨어로도 매우 안정적인 시스템 구성이 가능하다.
  • 분산 파일 시스템
  • 리소스 관리자와 스케줄러
  • 분산 데이터 처리 프레임 워크

하둡 에코 시스템

출처 :  https://1004jonghee.tistory.com/m/entry/1004jonghee-하둡에코시스템Hadoop-Eco-System-Ver-10?category=419383        출처 : 클라우드데라 (하둡생태계)

 

출처 : 시작하세요! 하둡 프로그래밍(위키북스)

하둡의 코어 프로젝트

  • HDFS 분산데이터 저장
  • MapReduce 분산 처리

하둡의 서브 프로젝트

  • 나머지 프로젝트들
    • 워크플로우 관리
    • 데이터 마이닝
    • 분석
    • 수집
    • 직렬화 등

하둡의 구성

하둡은 주로 두 가지 핵심 컴포넌트로 구성된다.

  • Hadoop Distributed File System (HDFS)
    • 대용량 데이터를 여러 노드에 분산하여 저장하는 파일 시스템.
    • 데이터는 여러 노드로 나뉘어 저장되며, 각 노드는 데이터의 복제본을 가지고 있어 데이터의 안정성과 내결함성을 보장한다.

  • MapReduc
    • 데이터 처리를 위한 분산 프로그래밍 모델.
    • MapReduce는 데이터를 작은 조각으로 나누어 여러 노드에서 병렬로 처리하고, 결과를 다시 모아서 최종 결과를 생성한다.
    • 대규모 데이터 집합을 효율적으로 분석하고 처리할 수 있다.
반응형