빅데이터 파일럿 프로젝트 진행 단계
1. 파일럿 프로젝트 도메인의 이해
2. 빅데이터 파일럿 아키텍처 이해
3. 빅데이터 파일럿 프로젝트용 PC 환경 구성
4. 빅데이터 파일럿 프로젝트용 PC 서버 구성
5. CM(Cloudera Manager) 설치
6. 스마트카 로그 시뮬레이터 설치
7. 파일럿 환경 관리
2.1 파일럿 프로젝트 도메인 이해
최첨단 전자장치와 무선통신을 결합한 스마트카 서비스
스마트카 안에는 수백개의 IoT 센서들이 장착되어 있다.
요구사항 파악
(1) 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별 상태를 점검한다.
(2) 운전자의 운행 정보가 담긴 로그를 실시간으로 수집해서 주행 패턴을 분석한다.
스마트 카 100대에서 발생하는 데이터 수집(로그 시뮬레이터를 통해 생성되는 데이터)
일단위 수집 - 24시간 단위로 수집 데이터 전송
실시간 수집 - 1초 단위로 수집 데이터 전송
1. 데이터 웨어하우스
2. 빅데이터 마트 - 비즈니스 모델에 활용
데이터셋 살펴보기
2.2 빅데이터 파일럿 아키텍처 이해
소프트웨어 아키텍처
<수집 - 적재>
대규모 데이터는 플럼 - 하둡으로 바로 저장되고
실시간 Event 데이터는 플럼 - 카프카 - 스톰/에스퍼 를 거쳐 HBase/Redis 에 저장된다.
<적재 - 처리/탐색>
하둡/HBase/Redis 에 저장된 데이터를 가지고
데이터 웨어하우스, 데이터 마트를 생성할 것이다.
이 과정을 자동화하기 위해 Oozie/Hive/Spark/Hue 를 활용할 것이다.
하드웨어 아키텍처 (3V 관점)
CM(Cloudera Manager)를 활용하여 각 서버에 필요한 하둡 에코시스템 설치 및 관리를 해줄 것이다.
가상 환경 설정이 완료되면, PC 에서 개발도구(이클립스, 파일질러, Putty, 크롬)를 활용하여 빅데이터와 AI 시스템 구현을 진행할 것이다.
Cloudera Manager 를 통해 자원의 현황이나 시스템 모니터링을 편리하게 수행할 수 있다.
서비스 기능에는 영향을 주지는 않는다. 따라서 사용하지 않을 때는 꺼주면 좋다(자원 아끼기 위해)
2.3 빅데이터 파일럿 프로젝트 PC 환경 구성
Java, 이클립스, 파일질라, 버추얼박스, 등을 설치해주고
가상 서버 호스트 정보를 시스템 Host 파일에 추가해준다(메모장-관리자 권한 실행을 통해)
그리고 버추얼박스에서 가상 서버를 추가한 다음 실행시켜준다.
마지막 CM(Cloudera Manager)를 통해 각 서버에 필요한 HDFS, YARN, 주키(Zookeeper)를 추가해준다.
2.5 빅데이터 클러스터 구성
DataNode 추가 및 환경설정
CM을 통해 서버에 DataNode를 추가해주어 빅데이터 하둡 시스템의 컴퓨팅 파워를 올려준다.
참고로 이번 프로젝트는 서버 2개 (저사양 기준)를 가지고 진행하고 있으므로,
추가적으로 DataNode를 생성해줄 필요는 없다.
고사양 버전에서 DataNode를 추가 생성하는 방법은 아래와 같다.
추가하려는 서버 선택 후, 확인 눌러주면 된다.
가상 서버 3개면, 서버1,2 이렇게 2개를 DataNode로 추가해주면 좋다.
하둡은 서버 안전성 등을 보장하기 위해 데이터를 다른 가상 서버에 복제해주는데
이 복제 계수를 설정해줄 수 있다.
(기본적으로 하둡은 Default 3개로 복제가 이루어진다.)
이번 파일럿 프로젝트에서는 DataNode가 1개여서, 복제 계수도 1개면 된다.
이렇게 복제하는 가장 큰 이유는
(1) 서버 장애에 대한 안전성을 높이기 위해 - 장애시 다른 서버 데이터 불러와 즉각 대응
(2) 대용량의 데이터일 경우 분산 처리 효율 높이기 위해 - 복제되어 있어 분산 처리 가능
복제 계수 증가 → 분석 성능 향상
추가 환경 설정
(1) HDFS 권한 검사 해제
(2) HDFS 블록 크기 변경 (128 → 64)
(3) YARN 스케줄러와 리소스매니저의 메모리 설정 (1 → 1.5)
(4) YARN 스케줄러 변경
YARN 스케줄러
기본(Default) : FairScheduler - YARN 리소스 매니저가 공평하게 서버 업무 할당해줌
파일럿 프로젝트에서는 FairScheduler 사용 불가.
따라서 FairScheduler → FifoScheduler 로 변경해줄 것이다.
yarn nodemanager.resource.memory-mb
리소스 메모리 1 → 5 로 늘려준다.
Yarn Scheduler : Fair → Fifo 로 변경
변경한 환경 설정을 CM 홈에서 [재배포] - [이전 서비스 재시작] - [지금 재시작] 눌러줘서 재배포 시켜준다.
'Project > Pilot_Smart Car' 카테고리의 다른 글
3. 로그 시뮬레이터 설치 및 실행 (0) | 2022.06.26 |
---|---|
2. 빅데이터 파일럿 프로젝트 - 환경 구성 (2) (0) | 2022.06.12 |
1. 빅데이터 이해 (2) (0) | 2022.05.30 |
1. 빅데이터 이해 (1) (0) | 2022.05.30 |
파일럿 프로젝트란? (0) | 2022.05.30 |