본문 바로가기

Project/Pilot_Smart Car

1. 빅데이터 이해 (2)

5. 빅데이터 기술의 변화

빅데이터 활용 기술의 변화

 

빅데이터 전문 기술 영역

소프트웨어 플랫폼은 hadoop을 기반으로 오픈소스 생태계가 만들어졌다.

 

빅데이터 기술의 핵심은 Hadoop(소프트웨어) 이다.

이 hadoop 기술을 주도하는 것이 중요하다.

 


 

6. 빅데이터 구현 기술

빅데이터 구축 단계

빅데이터 6V 의 요건과 중요도에 따라 최적화된 아키텍처를 구성해야한다.

 

(1) 빅데이터 수집

조직의 내외부 시스템으로부터 원천 데이터를 효과적으로 수집해야함.

분산 기능의 선형적 확장을 필요로 한다.(크고 다양한 형식의 데이터를 빠르게 처리해야해서)

 

 

<실시간 수집 기술 종류>

CEP(Complex Event Processing)

ESP(Event Stream Processing)

 

 

수집 단계에서는 정재/변환/제거 등 전처리하여 데이터 품질 향상 후, 빅데이터에 저장하게 된다.

수집 단계에서는 6V 중 크기(Volume), 다양성(Variety), 속도(Velocity)를 효과적으로 처리하는 데 집중한다.

나머지 3V(Veracity, Visualization, Value)는 적재 이후에 활용됨.(수집 단계에서는 중요도 낮음)

 

 

파일럿 프로젝트에서는,

CEP를 활용해서 실시간으로 Event를 감지해 처리하도록 구현할 예정.

그리고 플럼(Flume) 사용하여 파일럿 프로젝트 데이터 수집하고

실시간 스트림 처리를 위해 Storm과 Esper 사용할 예정.

 

 

(2) 빅데이터 적재

수집한 데이터를 분산 스토리지에 임시/영구로 적재하는 것

 

 

<빅데이터 분산 스토리지 4가지 유형>

HDFS - 영구 저장

NoSQL/HBase/MongoDB/Casandra - 대규모 메시징 데이터 전체 영구 저장

In Memory Cache/Redis - 대규모 메시징 데이터 일부 임시 저장

MoM/Kafka - 대규모 메시징 데이터 전체 버퍼링하기 위한

 

 

빅데이터 적재 기술은 수집 데이터 성격에 따라 4V 유형을 달리하여 적재 저장소에 저장한다.

대용량 파일의 적재는 주로 HDFS 저장소 사용.

실시간 및 작은 대용량으로 발생하는 메시지 데이터는 HDFS에 저장하면, 파일 수가 기하급수적으로 늘어나

관리 Node와 병렬처리의 효율성이 크게 떨어진다.

이를 보완하기 위해 데이터의 성격에 따라 NoSQL, Memory Cache, MoM 등을 선택적으로 사용할 수 있는 아키텍처링이 이루어져야한다.

 

 

빅데이터 적재 단계에서는 6V 중 크기 Volume, 속도 Velocity, 진실성 Veracity가 가장 중요한 역할을 한다.

다양성 Variety의 경우, 데이터 다양성과 일관성 등의 상충되는 Trade off가 발생할 수 있어 이점을 주의해야한다.

시각화 Visualization, 가치 Value는 주로 분석/탐색 단계에서 사용된다.(적재 단계에서 신경 쓸 필요 X)

 

 

파일럿 프로젝트에서는,

분산 파일 시스템 - hadoop

NoSQL 저장소 -  HBase

분산 캐시 저장소 - Redis

메시징 저장소 - Kafka

를 사용해서 적재 기술을 구현해볼 예정이다.

 

 

(3) 빅데이터 처리 / 탐색

대용량 저장소에 저장된 데이터를 분석에 활용하기 위해 데이터의 정형화.정규화 하는 기술이다.

데이터를 탐색하고 구조화하는 작업 수행 단계

 

 

탐색 단계에는 주로 SQL, Hadoop 사용

대화형 Ad-Hoc 쿼리로 데이터를 탐색/선택/변환/통합/축소 등의 작업을 수행하고

특히, 내외부의 정형.비정형 데이터와 결합해 기존에 발견하지 못했던 새로운 데이터 셋을 생성하는 중요한 작업이 진행된다.

 

 

정기적으로 발생하는 처리/탐색 과정은 WorkFlow로 프로세스화해서 자동화함.

WorkFlow 작업이 끝나면, 특화된 데이터는 해당 저장소인 Data Mart에 저장된다.

데이터 특성을 특정화하여 분리 저장해놓아 빠르고 편리하게 활용할 수 있도록 만든다.

 

 

빅데이터 처리/탐색 단계에서는 6V 중 크기 Volume, 진실성 Veracity, 시각화 Visualization 중요.

 

 

파일럿 프로젝트에서는,

Queue, Hive, Spark, SQL 사용하여 처리.탐색을 수행할 것이다.

후처리 Workflow 자동화에는 우지(Oozie)를 사용해볼 것이다. (스케줄링 시스템)

 

 

 

(4) 빅데이터 분석 / 응용

과거 데이터로부터 인간이 찾기 어려웠던 패턴을 빅데이터 분석 기술을 통해 찾아내고,

이를 알고리즘화하여 미래를 예측하는 분석 모델을 만드는 데 기여하게 된다.

파일 기반의 배치 분석 기술보다 In Memory 기반 분석 기술을 통해 수십 배 빠르게 분석 가능해졌다.

 

6V 모든 분야에서 중요하다.

5V 는 가치 Value 창출을 위해 필요한 도구들이 된다.

 

 


 

7. 빅데이터 R&R

빅데이터 AI 시스템에서의 R&R ?

빅데이터 AI 시스템은 굉장히 복잡한 분산 환경 구조로, 어마어마한 하드웨어.소프트웨어로 구성되어 있다.

이렇게 복잡하고 대규모로 이루어져 있어서, 다양한 부서와 시스템들로 구성되어 있다.

여기서 중요한 거는 이들 간의 커뮤니케이션과 협업이다.

 

근데 서로 사용하는 기술이나 용어 등이 달라서 소통과 협업의 어려움을 느낀다.(초반에)

 

따라서 파일럿 프로젝트를 통해 각 역할과 기술들에 대해 경험해보고 이해볼 것이다. (주요 목적)

 

 


 

 

8. 빅데이터 보안

8.1 데이터 보안

(1) 개인정보 비식별화

 

문제점

개인정보 재식별화 - 정보가 모이면서 특정 개인을 식별 가능해질 위험이 존재

비식별화로 고객 분석 어려움 - 마케팅 동의 방식으로 정보 수집해서 해결하거나 대체키 활용

 

 

(2) 비식별화 + 대체키 활용

대체키 활용

 

8.2 접근제어 보안

아파치 녹스. 센트리. 레인저. 커베로스 등이 있다.

아파치 녹스

아파치 녹스는 네트워크 방화벽 공간인 DMZ 공간을 설치해서

클라이언트와 하둡 에코시스템이 직접 통신하지 못하게 하고, 아파치 녹스를 통해 접근할 수 있는 아키텍처

LDAPKDC에서 계정과 권한 정보를 받아서, 클라이언트와 하둡 에코시스템의 중간 게이트 역할을 한다.

아파치 센트리

아파치 센트리Policy Meta Store에서 계정과 권한 정보를 받아 통합 관리

각 서버에 센트리 에이전트를 설치해 중앙에 있는 아파치 센트리 서버 접근하여 계정과 권한 정보를 이용할 수 있도록 구성되어 있다.

아파치 레인저

아파치 레인저도 센트리와 비슷하다. 중앙에 아파치 레인저 서버 놓고 Policy DataBase로부터 계정과 권한 정보를 통합 관리한다.

그리고 주변에 있는 하둡 에코시스템들에 레인저 플러그인을 설치한다.

센트리와 차이는 좀 더 각 서버에 깊숙이 관여하는 플러그인 형태를 설치한다는 것.

전체적인 아키텍처 구조는 센트리와 유사하다.

 

커베로스

커베로스KDC 시스템으로도 불린다.

KDC 안에는 인증 서버티켓 발행 서버로 나뉜다.

클라이언트는 KDC에서 티겟을 발행받고 하둡 파일시스템에서 티겟이 유효한지 확인 후 접근 가능하다.