728x90

통계학/ADP 10

[ADP] 분산데이터 저장기술 - 데이터베이스 클러스터

분산데이터 저장기술분산파일시스템클러스터데이터베이스NoSQL1. 데이터베이스 클러스터하나의 데이터베이스를 여러개의 서버상에 구축하는 것데이터를 통합할 때, 성능과 가용성의 향상을 위해 데이터베이스 차원의 파티셔닝 또틑 클러스터링을 이용데이터베이스 파티셔닝: 데이터베이스를 여러부분으로 분할하는 것을 의미파티션: 분할된 각 요소. 각 파티션은 여러 노드로 분할 배치되어 여러 사용자가 각 노드에서 트랜잭션을 수행할 수 있음1) 효과병렬처리: 파티션 사이의 병렬처리를 통한 빠른 데이터 검색 및 처리 성능을 얻을 수 있음고가용성: 특정 파티션에서 장애가 발생하더라도 서비스가 중단되지 않음성능향상: 성능의 선형적인 증가 효과를 볼 수 있음2) 데이터베이스 클러스터 구분구성형태에 따라 단일서버 내의 파티셔닝/ 다중서버..

통계학/ADP 2025.02.21

[ADP] 분산데이터 저장기술 - 분산파일시스템

분산데이터 저장기술분산파일시스템클러스터데이터베이스NoSQL 1. 구글파일시스템(GFS, Google FIle System)파일을 고정된 크기(64mb)의 chunk들로 나누고, 각 chunk에 대한 여러 개의 복제본과 chunk를 청크서버에 분산 및 저장chunk는 마스터에 의해 생성/삭제 될 수 있으며, 유일한 식별자에 의해 구별됨1) GFS 설계의 가정저가형 서버로 구성된 환경으로 서버의 고장이 빈번히 발생 할 수 있다고 가정대부분 파일은 대용량이라고 가정하고 효과적으로 관리할 수 있는 방법 요구됨파일에 대한 쓰기 연산은 주로 순차적으로 이루어짐낮은 응답지연시간보다 높은 처리율이 더 중요2) GFS의 구성요소Client파일에 대한 읽기/쓰기 동작을 요청하는 애플리케이션파일 시스템 인터페이스와 유사한 ..

통계학/ADP 2025.02.20

[ADP] 빅데이터 처리기법

1. 데이터 처리 기법 비교 구분전통적 데이터 처리 기법빅데이터 처리 기법비고추출∙ 운영DB(Operational Database)   → ODS∙ ODS → 데이터웨어하우스∙ 빅데이터 환경 → 빅데이터환경특정 소스에서 타깃으로 데이터를 옮긴다는 측면은 동일변환OO 로딩OO시각화XO시각화를 통해 대용량 데이터에서 통찰력(Insight)을 획득하고자 하는 시도는 빅데이터 고유한 특성분석∙ OLAP∙  통계(Statistics)와 데이터마이닝 기술∙ 통계와 데이터마이닝 기술각종 통계 도구/기법과 데이터마이닝의 분석 모델 설계/운영/개선 기법의 적용은 유사리포팅비즈니스 인텔리전스비즈니스 인텔리전스 인프라스트럭처∙  SQL∙  전통적 RDBS 인스턴스(HA포함)∙ NoSQL등∙ 초대형분산(Redundant)  ..

통계학/ADP 2025.01.17

[ADP] 데이터 처리 프로세스

1. ETL(Extraction, Transformation and Load)1) ETL 정의 및 특징데이터의 이동 및 변환 절차와 관련된 업계 표준 용어데이터를 추출 및 변환하여 운영 데이터 스토어(ODS, Operational Data Stor), 데이터웨어하우스(DW, Data Warehouse), 데이터마트(DM, Data Mart) 등에 데이터를 적재하는 작업의 핵심 구성요소데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)에 걸쳐 폭 넓게 활용되며 데이터 이동과 변환을 주목적으로 함대용량 데이터를 처리하기 위한 MPP(Massicely Parallel Processing)를 지원할 수 ..

통계학/ADP 2025.01.16

[ADP] DBMS와 SQL

1. DBMS(Data Base Management System)1) 정의와 특징데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어데이터베이스를 구축하는 틀을 제공하며 효울적인 데이터 검색, 저장 기능 등을 제공오라클, 인포믹스, 액세스 등이 있음2) 종류i. 관계형 DBMScolumn과 row를 이루는 하나 이상의 테이블/관계로 정리하며 고유키(primary key)가 각 row를 식별row는 record나 tuple로 부르며 일반적으로 각 테이블/관계는 하나의 엔티티 타입(고객이나 제품과 같은)을 대표함row는 엔티티 종류의 인스턴스를 대표ex) "Lee", "kim"column은 인스턴스의 속성이 되는 값들을 대표ex) 주소, 가격ii. 객체지향..

통계학/ADP 2025.01.15

[ADP] 빅데이터의 이해

1. 빅데이터 정의와 특징1) 정의맥킨지(2011): 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터- 데이터 규모에 중점IDC(2011): 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐- 분석 비용 및 기술에 초점메이어-쇤베르거와쿠키어(2013): 대용량 데이터를 활용해 작은 용량에서 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일 2) 특징 - 4V* 4V에 이어서 Visualization(시각화), Veracity(정확성) 등을 포함하기도 한다3) 빅데이터로 인한 과거와 현재과거현재사전처리사후처리표본조사전수조사질양인과관계상관관계4) 빅데이터 활용 테..

통계학/ADP 2025.01.14

[ADP] 데이터의 이해

1. 데이터: 추론과 추정의 근거를 이루는 사실1) 특성존재적 특성: 객관적 사실(fact, raw material)당위적 특성: 추론, 예측, 전망, 추정을 위한 근거(basis)2) 유형구분형태 특징예정성적 데이터(Qualitative data)언어, 문자 등저장, 검색, 분석에 많은 비용이 소모 됨 회사 매출이 증가함정량적 데이터(Quantitative data)수치, 도형, 기호 등정형화가 된 데이터이기 때문에 비용 소모가 적음나이, 몸무게, 주가 등구분의미특징상호작용예암묵지학습과 경험을 통해 개인에게 체화되어 있지만 겉으로는 드러나지 않는 지식중요하지만 다른 사람에게 공유되기 어려움공통화, 내면화자전거 타기, 피아노연주형식지문서나 매뉴얼처럼 형상화된 지식전달과 공유가 용이표출화, 연결화교과서, ..

통계학/ADP 2025.01.12

[ADP] 기초통계분석

1. 기술통계 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것자료를 요약하는 기초적 통계를 의미데이터에 대한 대략적인 이해와 앞으로의 분석에 댛나 통찰력을 얻기에 유리1) 중심위치의 측도2) 산포의 측도3) 분포의 형태에 관한 측도왜도: 분포의 비대칭 정도를 나타내는 측도첨도: 분포의 중심에서 뾰족한 정도를 나타내는 측도3. 그래프막대그래프: 범주형(직업, 종교 등)으로 구분된 데이터를 표현히스토그램: 연속형(몸무게, 연봉 등)으로 표시된 데이터줄기-잎그림(stem-and leaf plot): 데이터를 줄기와 잎의 모양으로 그린 그림상자그림(Box plot): 다섯 숫자 요약을 통해 그림으로 표현(최소값, Q1, Q2, Q3, 최대값)- 사분위수 범위(IQR): ..

통계학/ADP 2024.12.06

[ADP] 통계분석의 이해

1. 통계: 조사나 실험을 통해 나온 결과에 대한 요약된 행태의 표현전수 조사(census): 대상 집단 모두 조사. 많은 비용과 시간 소모표본조사: 모집단에서 표본을 추출하여 진행하는 조사- 모집단(population): 조사 대상 집단 전체- 원소(element): 모집단을 구성하는 개체- 표본(sample): 조사하기 위해 추출한 모집단의 일부 원소- 모수(parameter): 표본 관측에 의해 구하고자 하는 모집단에 대한 정보2. 표본 추출 방법단순랜덤 추출법(simple random sampling): 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법. 각 샘플은 선택될 확률이 동일함.ex) 비복원, 복원 추출계통추출법(systematic sampling): 임의 위치에서 매 k번쨰 항목을..

통계학/ADP 2024.12.01

[빅데이터분석기사] Ch1. 빅데이터 분석 기획 (1)

빅데이터 분석기사는 합격해서 ADP 공부중입니다.#1. 빅데이터의 이해빅데이터: 정형 및 비정형으로 이루어진 많은 양의 데이터1.  DIKW 피라미드 구조Data: 순수한 수치나 기호Information: 데이터 간의 연관 관계가 있음Knowledge: 일반화 시킨 결과물Wisdom: 아이디어 2.  데이터 Byte 크기 3.  빅데이터 특징Volume: 양Variety: 다양성Velocity: 속도Value: 가치Veracity: 신뢰성Validity: 정확성Volatility: 휘발성4.  빅데이터 유형정형데이터: 정형화된 스키마 구조, DBMS에 내용이 저장될 수 있는 구조Oracle, MS-SQL 등반정형데이터: 메타정보가 포함된 구조XML, HTML, Json 등비정형데이터: 데이터 객체로 각각..

통계학/ADP 2022.06.07
728x90