통계학/ADP

[ADP] 데이터의 이해

헬로희 2025. 1. 12. 21:44
728x90

1. 데이터
: 추론과 추정의 근거를 이루는 사실

1) 특성

  • 존재적 특성: 객관적 사실(fact, raw material)
  • 당위적 특성: 추론, 예측, 전망, 추정을 위한 근거(basis)

2) 유형

구분 형태 특징
정성적 데이터
(Qualitative data)
언어, 문자 등 저장, 검색, 분석에 많은 비용이 소모 됨  회사 매출이 증가함
정량적 데이터
(Quantitative data)
수치, 도형, 기호 등 정형화가 된 데이터이기 때문에 비용 소모가 적음 나이, 몸무게, 주가 등
구분 의미 특징 상호작용
암묵지 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로는 드러나지 않는 지식 중요하지만 다른 사람에게 공유되기 어려움 공통화, 내면화 자전거 타기, 피아노연주
형식지 문서나 매뉴얼처럼 형상화된 지식 전달과 공유가 용이 표출화, 연결화 교과서, 비디오, DB

3) DIKW

DIKW 피라미드

  • 데이터(Data): 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실로 순수한 수치가 기호를 의미
    ex) A마트는 100원에 B마트에는 200원에 연필을 판매한다.
  • 정보(Information): 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것
    ex) A마트의 연필이 더 싸다.
  • 지식(Knowledge): 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
    ex) 상대적으로 저렴한 A마트에서 연필을 사야한다.
  • 지혜(Wishdom): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
    ex) A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단한다.

4) 데이터 양의 단위

단위 데이터량
바이트(B) 1byte
킬로바이트(KB) 1024B
메가바이트(MB) 1024KB
기가바이트(GB) 1024MB
테라바이트(TB) 1024GB
페타바이트(PB) 1024TB
엑사바이트(EB) 1024PB
제타바이트(ZB) 1024EB
요타바이트(YB) 1024ZB

5) 데이터유형

구분 정형데이터 반정형데이터 비정형데이터
형태 고정된 필드 스키마, 메타데이터 없음
연산 가능 불가능 불가능
저장형태 주로 관계형 데이터베이스
(RDBMS)에 저장됨
주로 파일로 저장됨 주로 NoSQL로 저장됨
수집 난이도 쉬움 중간 높음
처리난이도 쉬움
형식이 정해져 있기 때문
중간
보통 API형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구됨
어려움
텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야하기 때문

예시 관계형 데이터베이스,
스프레드시트, CSV
XML, HTML, JSON, 
로그형태(웹로그, 센서데이터)
소셜데이터(트위터, 페이스북), 영상,
이미지, 음성, 텍스트(word, PDF)

2. 데이터 관련 기술

1) 개인정보 비식별 기술

비식별 기술 내용 예시
데이터 마스킹 데이터이 길이, 유형, 형식과 같은 속성을 유지한 채,
새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
김철수, 35세, 서울거주, 한국대 졸업
→ 김**, 35세, 서울거주, **대학 졸업
가명처리 개인정부 주체의 이름을 다른 이름으로 변경하는 기술 김철수, 35세, 서울거주, 한국대 졸업
→ 아무개, 30대, 서울거주, 국내대 졸업
총계처리 데이터의 총합값을 보임으로써 개별 데이터의 값을 보이지 않도록 함 아무개 180cm, 김철수 170cm,
이영희 160cm, 박희영 150cm
→ 수학과 학생 키 합: 660cm, 평균키: 165cm
데이터 값 삭제 데이터 공유, 개발 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값 삭제 김철수, 35세, 서울거주, 한국대 졸업
35세, 서울 거주
주민등록번호 950123-1234567
90년대생, 남자
데이터 범주화 데이터 값을 범주의 값으로 변환하여 값을 숨김 김철수, 35세 
  김씨, 30~39세

2) 데이터 무결성(Data integrity)

  • 데이터 변겅/수정 시 여러가지 제한을 두어 데이터 정확성을 보증하는 것
  • 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위함
  • 무결성 유형: 개체무결성(Entity integrity), 참조 무결성(Referential integrity), 범위 무결성(Domain integrity) 등

3) 데이터 레이크(Data Lake)

  • 다량의 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템
  • 대용량의 정형 및 비정형 데이터를 저장할 뿐 아니라 접근도 쉽게할 수 있는 대규모 저장솔르 의미

3. 데이터베이스(Database)
: 문자, 기호, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집 및 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

1) 특징

  • 통합된 데이터(Integrated data): 동일한 내용의 데이터가 중복되어 있지 않음.
  • 저장된 데이터(Stored data): 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것.
  • 공용 데이터(Shared data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용하는 것.
  • 변화되는 데이터(Changable data): 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 데이터는 변화함.

2) 1980년대 데이터베이스: OLTP와 OLAP

  • OLTP(On-Line Transaction Processing): 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태
  • OLAP(On-Line Analytical Processing): 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술
구분 OLTP (데이터 갱신) OLAP (데이터 조회)
데이터 구조 복잡 단순
데이터 갱신 동적으로 순간적 정적으로 주기적
응답시간 수 초 이내 수 초에서 몇 분 사이
데이터 범위  수 십일 전후 오랜 기간 저장
데이터 성격 정규적인 핵심 데이터 비정규적인 읽기 전용 데이터
데이터 크기 수 기가 바이트 수 테라 바이트
데이터 내용  현재 데이터 요약된 데이터
데이터 특성 트랜잭션 중심 주제중심
데이터 엑세스 빈도 높음  보통
질의 결과 예측  주기적이며 예측가능 예측 어려움

 


3) 2000년대 데이터베이스: CRM과 SCM

  • CRM(Customer Relationship Management, 고객관계관리): 기업이 고객과 관련된 내외부 자료를 분석, 통합해 고객 중신 자원을 극대화하고 이를 토대로 고객특성에 맞게 마케팅 활동을 계획,지원,평가하는 과정
  • SCM(Supply Chain Management, 공급망관리): 기업에서 원재료의 생산,유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것

4) 분야별 데이터베이스

i. 제조분야

  • ERP(Enterprise Resource Planning): 인사, 재무, 생산 등 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하는 방법
  • BI(Business Intelligence): 기업이 보유하고 있는 데이터를 정리하고 분석해 의사결정에 활용하는 일련의 프로세스
  • CRM(Customer Relationship Management): 고객중심자원 극대화
  • RTE(Real-Time Enterprise): 회사의 전 부분을 하나로 통합관리하는 실시간 기업의 새로운 기업경영시스템

ii. 금융부문

  • EAI(Enterprise Application Integration): 필요한 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것
  • EDW(Enterprise Data Warehouse): 기존 Data Warehouse를 전사적으로 확장한 모델로 BRP, CRM, BSC같은 다양한 분석 애플리케이션들을 위한 원천

* BRP(Business Process Re-engineering): 업무재설계
* BSC(Balanced Scorecard): 균형성과표

iii. 유통부문

  • KMS(Knowledge Management System): 지식관리시스템
  • RFID(RF, Radio Frequency): 주파수를 이용해 ID를 식별하는 시스템, 전자태그

5) 사회기반 구조로서의 데이터베이스

  • EDI(Electronic Data Interchange): 주문서, 납품서, 청구서 등 무역에 필요한 각종 서류를 표준화된 양식을 통해 전자적 신호로 바꿔 거래처에 전송하는 시스템
  • VAN(Value Added Network): 부가가치통신망, 공중 전기통신사업자로부터 통신회선을 차용하여 독자적인 네트워크를 형성하는 것
  • CALS(Commerce At Light Speed): 제품의 라이프 사이클 전반에 관련된 데이터를 통합하고 공유, 교환할 수 있도록 한 경영통합 정보 시스템
    - 제품의 라이프 사이클: 제품의 설계, 개발, 생산에서 유통, 폐기 까지의 과정
    - 전자상거래 구축을 위해 기업 내에서 비용 절감과 생산성 향상을 추구할 목적으로 시작
    - 1980년 초, 미 국방성에서 효율적인 군수 조달을 위한 목적으로 개발됨

i. 물류부문

  • CVO(Commercial Vehicle Operation System):  화물운송정보
  • PORT-MS(황만운영정보시스템)
  • KROIS(철도운영정보시스템)

ii. 지리/교통부문

  • GIS(Geographic Information System): 지리정보시스템
  • RS(Remode Sensing): 원격탐사
  • GPS(Global Positioning System): 범지구위치결정시스템
  • ITS(Intelligent Transport System): 지능형교통시스템
  • LBS(Location Based Service): 위치기반서비스
  • SIM(Spatial Information Management): 공간정보관리

iii. 의료부문

  • PACS(Picture Archiving and Commmunications System)
  • U헬스(Ubiquitous-Health)

iv. 교육부문

  • NEUS(National Education Information System): 교육행정정보시스템

4. 참고

1) B2B

  • 기업과 기업사이의 거래를 기반으로 한 비즈니스 모델
    ex) 기업이 필요로 하는 장비, 재료나 공사입찰 등

2) B2C

  • 기업과 고객사이의 거래를 기반으로 한 비즈니스 모델
    ex) 이동통신사, 여행회사, 신용카드회사, 지마켓 등

3) 블록체인(Block Chain)

  • 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부
  • 거래에 참여하는 모든 사용자에게 거래내역을 보내주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식
728x90

'통계학 > ADP' 카테고리의 다른 글

[ADP] DBMS와 SQL  (1) 2025.01.15
[ADP] 빅데이터의 이해  (0) 2025.01.14
[ADP] 기초통계분석  (2) 2024.12.06
[ADP] 통계분석의 이해  (1) 2024.12.01
[빅데이터분석기사] Ch1. 빅데이터 분석 기획 (1)  (1) 2022.06.07