통계학/ADP

[ADP] 빅데이터의 이해

헬로희 2025. 1. 14. 22:15
728x90

1. 빅데이터 정의와 특징

1) 정의

  • 맥킨지(2011): 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
    - 데이터 규모에 중점
  • IDC(2011): 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
    - 분석 비용 및 기술에 초점
  • 메이어-쇤베르거와쿠키어(2013): 대용량 데이터를 활용해 작은 용량에서 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일
  •  

2) 특징 - 4V

빅데이터의 특징 4V

* 4V에 이어서 Visualization(시각화), Veracity(정확성) 등을 포함하기도 한다


3) 빅데이터로 인한 과거와 현재

과거 현재
사전처리 사후처리
표본조사 전수조사
인과관계 상관관계

4) 빅데이터 활용 테크닉

  • 연관규칙학습: 변인들 간에 주목할 만한 상관관계가 있는지
    ex) 커피를 구매하는 사람이 탄산음료를 많이 사는가?
  • 유형분석: 문서분류, 조직을 그룹으로 나눌 때
    ex) 이 사용자는 어떤 특성을 가진 집단에 속하는가?
  • 유전자 알고리즘: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법
    ex) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
  • 기계학습: 훈련 데이터로부터 학습한 알려진 특성ㅇ르 활용해 예측하는 방법
    ex) 기존 시청기록을 바탕으로 시청자가 어떤 영화를 가장 보고싶어 할까?
  • 회귀분석: 독립변수를 조작함에 따라 종속변수가 어떻게 변하는지 보면서 두 변인 관계를 파악할 때 사용
    ex) 구매자의 나이가 구매차량의 타입에 어떤 영향을 미치는가?
  • 감정분석: 특정 주제에 대해 말하거나 글을 쓴 사람의 감정 분석
    ex) 새로운 환불정책에 대한 고객의 평가는 어떤가?
  • 소셜네트워크분석(사회관계망분석): 특정인과 다른 사람이 몇 촌 정도의 관계인지, 영향력 있는 사람을 찾아낼 때
    ex) 고객들 간 관계망은 어떻게 구성되어 있나?

5) 빅데이터 시대의 위기요인과 통제방안

i. 위기요인

  • 사생활침해
  • 책임원칙 훼손
  • 데이터 오용

ii. 통제방안

  • 동의에서 책임으로
  • 결과기반 책임 원칙
  • 알고리즘 접근 허용

6) 빅데이터 기본 3요소

  • 데이터: 모든 것을 데이터화(Datafication)
  • 기술: 대용량의 데이터를 빠르게 처리하기 위한 인공기술 출현
  • 인력: 빅데이터를 처리하기 위한 데이터사이언티스트와 알고리즈미스트의 역할을 통해 인사이트 도출이 중요해짐

7) 빅데이터 분석 기술

i. 하둡(Hadoop)

  • 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
  • 분산파일시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능 제공
  • 맵리듀수(Map Reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술로 이루어짐
  • 하둡의 부족한 기능을 서로 보완하는 '하둡 에코시스템'이 등장하여 다양한 솔루션을 제공함

ii. 아파치 스파크(Apache Spark)

  • 실시간 분산형 컴퓨터 플랫폼
  • 스칼라로 작성되어 있지만 스칼라, JAVA, R, Python, API를 지원
  • In-Memory 방식으로 처리하기 때문에 하둡에 비해 처리속도가 빠름

iii. Smart Factory

  • 공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어 동정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화할 수 있는 기술

iv. Machine Learning & Deep Learning

  • 머신러닝은 인공지능의 연구분야 중 하나로, 인간의 학습능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법
  • 딥러닝은 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 하기위하여 인공신경망(ANN, Aritificial Neural Network)등의 기술을 기반하여 구축한 기계학습기술 중 하나

2. 데이터사이언스

1) 정의

  • 데이터 공학, 수학, 통계학 등 해당 분야의 전문지식을 종합한 학문
  • 데이터로부터 의미있는 정보를 추출해내는 학문으로 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 분석 뿐만아니라 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념

2) 구성요소

3) 데이터 사이언티스트의 요구 역량


4) 외부환경의 변화

외부환경의 변화 내용 예시
컨버전스 → 디버전스 단순세계화 → 복잡한세계화 규모의 경제, 세계화, 표준화, 이성화
→ 복잡한 세계, 다양성, 관계, 연결성, 창조성
생산 → 서비스 비즈니스 중심이 제품생산 → 서비스 고장나지 않는 제품의 생산
→ 뛰어난 서비스로 응대
생산 → 시장창조 공금자 중심의 기술경쟁 → 무형자산의 경쟁 생산에 관련된 기술 중심, 기술 중심의 대규모 투자
→ 현재 패러다임에 근거한 시장창조 현지사회와 문화에 관한 지식

5) 데이터 사이언스의 한계

  • 분석과정에서 인간의 해석이 개입될 수 있음
  • 분석결과가 의미하는 바가 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음
  • 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함

 


추가. 산업적 분석 애플리케이션

산업 일차원적 분석 애플리케이션
금융 서비스 신용점수산정, 사기탐지, 가격 책정, 프로그램 트레이딩, 클리엠분석, 고객수익성분석
소매업 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화
제조업 공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석, 신상품개발
운송업 일정 관리, 노선배정, 수익관리
헬스케어 약품거래, 예비 진단, 질병관리
병원 가격책정, 고객로열티, 수익관리
에너지 트레이딩, 공급/수요예측
커뮤니테이션 가격계획 최적화, 고객보유, 수요예측, 생산능력 계회그 네트워크 최적화, 고객수익성 관리
서비스 콜센터 직원관리, 서비스-수익사슬 관리
정부 사기탐지, 사례관리, 범죄방지, 수익최적화
온라인 웹 매트릭스, 사이트 설계, 고객 추천
모든 사업 성과관리

 

728x90

'통계학 > ADP' 카테고리의 다른 글

[ADP] 데이터 처리 프로세스  (1) 2025.01.16
[ADP] DBMS와 SQL  (1) 2025.01.15
[ADP] 데이터의 이해  (2) 2025.01.12
[ADP] 기초통계분석  (2) 2024.12.06
[ADP] 통계분석의 이해  (1) 2024.12.01