hadoop

hadoop with AWS - 01 (기초)

데브플레이버 2023. 6. 21. 22:54

하둡이란?

그냥 저장소라고 생각하면 된다.
적은 비용으로 빠르게 분석 할 수 있는 소프트웨어로 자바 소프트웨어 프레임워크
범용 하드웨어로 구축된 컴퓨터 클러스터의 방대한 데이터 세트를 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼이다. 하둡은 Apache Software Foundation에서 개발된 분산 컴퓨팅 시스템으로, 수천 대 이상의 컴퓨터 클러스터를 활용하여 대용량 데이터를 효율적으로 저장하고 처리할 수 있다.
현재 하둡 이외의 다양한 대규모 데이터 처리 기술과 플랫폼들이 나와있기 때문에 하둡의 파이가 줄어드는 추세이다. (하지만 아직은 하둡의 파이가 큰편이다.)

장애 허용 (fault tolence)
- 확장성을 높이기 위해 장애를 당연히 발생할 수 있는 일로 간주
- 기반 소프트웨어 시스템이 실패한 작업을 책임지고 재시도하게 설계
- 다소 불안정하지만 저렴한 하드웨어로도 매우 안정적인 시스템 구성이 가능하다.
분산 파일 시스템
리소스 관리자와 스케줄러
분산 데이터 처리 프레임 워크

하둡은 주로 두 가지 핵심 컴포넌트로 구성된다.

Hadoop Distributed File System (HDFS)
- 대용량 데이터를 여러 노드에 분산하여 저장하는 파일 시스템.
- 데이터는 여러 노드로 나뉘어 저장되며, 각 노드는 데이터의 복제본을 가지고 있어 데이터의 안정성과 내결함성을 보장한다.

MapReduc
- 데이터 처리를 위한 분산 프로그래밍 모델.
- MapReduce는 데이터를 작은 조각으로 나누어 여러 노드에서 병렬로 처리하고, 결과를 다시 모아서 최종 결과를 생성한다.
- 대규모 데이터 집합을 효율적으로 분석하고 처리할 수 있다.

개발자로 나아가기

Git, 리눅스, 판다스, 아파치 녹스, 실무 프로젝트로 배우는 빅데이터 기술, git config, git log, 소셜로그인, 장고, 깃, 장고프로젝트, 지옥에서온문서관리자, 호스트정보수정, 빅데이터 구현 기술, 아파치 센트리, 파이썬, 장고소셜로그인, Do it! 지옥에서 온 문서관리자 깃&깃허브 입문, 지옥에서 온 문서관리자, putty,