반응형

2023/06 3

hadoop with AWS - 01 (기초)

하둡이란? 그냥 저장소라고 생각하면 된다. 적은 비용으로 빠르게 분석 할 수 있는 소프트웨어로 자바 소프트웨어 프레임워크 범용 하드웨어로 구축된 컴퓨터 클러스터의 방대한 데이터 세트를 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼이다. 하둡은 Apache Software Foundation에서 개발된 분산 컴퓨팅 시스템으로, 수천 대 이상의 컴퓨터 클러스터를 활용하여 대용량 데이터를 효율적으로 저장하고 처리할 수 있다. 현재 하둡 이외의 다양한 대규모 데이터 처리 기술과 플랫폼들이 나와있기 때문에 하둡의 파이가 줄어드는 추세이다. (하지만 아직은 하둡의 파이가 큰편이다.) 하둡의 핵심 장애 허용 (fault tolence) 확장성을 높이기 위해 장애를 당연히 발생할 수 있는 일로 간주 기반 소프트..

hadoop 2023.06.21

실무로 배우는 빅데이터 기술-02 (빅데이터 구현기술)

1. 빅데이터 프로젝트 플랫폼 구축형 빅데이터 분석 빅데이터 운영 플랫폼 구축은 빅데이터 SI 구축형 빅데이터의 하드웨어, 소프트웨어 설치 구성 수집 → 적재 → 처리 → 탐색 → 분석 기능을 구성 백업돼 있는 데이터의 마이그레이션, 주변 업무 시스템에서 발생하는 데이터의 양과 속성에 따라 프로젝트 기간이 변동 2. 빅데이터 기술의 변화 초기 : 대용량 저장소와 배치 처리기술에 집중 중기 : 실시간 처리 및 온라인 분석 기술 개발 최근 : 데이터 마이닝 및 AI의 고급 분석을 위한 전처리와 분석 마트를 구성하는 기술 빅데이터 기술의 핵심 하둡 2005년 하둡이 알려지며 빅데이터 기술들이 끊임없이 진화 빅 3 기업 cloudera, hortonworks, mapr 업체들도 하둡을 중심으로 각자의 빅데이터 ..

Base 2023.06.04

실무로 배우는 빅데이터 기술-01 (with.분석인프라)

Beginning 우여꼭절 끝에 얻어낸 ftp 설정과 파이썬3 버전 설치 → 실무로 배우는 빅데이터 기술을 실습해보기로 했다. 해당 서적에서는 가상환경에서 실행했지만 Cent OS 기반으로 구성된 인프라가 있으니 거기서 실행하도록 한다. 실습 예외 부분 centos의 x-window 부팅을 해제하여 콘솔에 바로 아이디/패스워드 입력창이 나타난다.Password : adminuser ↔ 비밀번호 입력id 5 : initdefault: ↔ 5부분을 3으로 수정한다. reboot ↔ 재시작한다. vi /etc/inittab ↔ etc하위의 inittab을 vi 편집기로 수정한다. su root ↔ root로 전환 고정 ip와 네트워크 설정 HWADDR 설정 값은 다 다르게 입력해야할 값으로 가상머신의 MAC ..

Base 2023.06.03
반응형