728x90

전체 글 43

[ADP] DBMS와 SQL

1. DBMS(Data Base Management System)1) 정의와 특징데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어데이터베이스를 구축하는 틀을 제공하며 효울적인 데이터 검색, 저장 기능 등을 제공오라클, 인포믹스, 액세스 등이 있음2) 종류i. 관계형 DBMScolumn과 row를 이루는 하나 이상의 테이블/관계로 정리하며 고유키(primary key)가 각 row를 식별row는 record나 tuple로 부르며 일반적으로 각 테이블/관계는 하나의 엔티티 타입(고객이나 제품과 같은)을 대표함row는 엔티티 종류의 인스턴스를 대표ex) "Lee", "kim"column은 인스턴스의 속성이 되는 값들을 대표ex) 주소, 가격ii. 객체지향..

통계학/ADP 2025.01.15

[ADP] 빅데이터의 이해

1. 빅데이터 정의와 특징1) 정의맥킨지(2011): 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터- 데이터 규모에 중점IDC(2011): 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐- 분석 비용 및 기술에 초점메이어-쇤베르거와쿠키어(2013): 대용량 데이터를 활용해 작은 용량에서 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일 2) 특징 - 4V* 4V에 이어서 Visualization(시각화), Veracity(정확성) 등을 포함하기도 한다3) 빅데이터로 인한 과거와 현재과거현재사전처리사후처리표본조사전수조사질양인과관계상관관계4) 빅데이터 활용 테..

통계학/ADP 2025.01.14

[NLP] 텍스트 데이터 전처리 - Log Template

자연어인 로그 데이터를 딥러닝할 때 전처리는 어떻게 할까?보통 로그 데이터는 패턴이 존재한다. 이 패턴에 대해서 알고 있다면 공통 패턴이 되는 템플릿(Template)을 만들어 처리하면 되지만 만약 데이터가 많고 템플릿을 정리할 수 없다면 이 템플릿을 만들어주는 여러 방법들이 존재한다.템플릿을 추출하는 이유는 방대한 데이터로 처리하기엔 시간이 많이 소요되기 때문에 공통 패턴을 템플릿으로 만들고 가변 데이터만 따로 처리한다면 시간비용이 적게 들기 때문이다.1. Log Parsing 의 정의와 특징 로그: 일반적으로 시스템, 애플리케이션, 네트워크 등에서 발생하는 이벤트를 기록한 텍스트 데이터로그 파싱: 로그 메시지를 구조화된 형식으로 변환하는 과정로그를 구조화하여 패턴을 생성하고 분석 가능한 형식(ex. ..

DeepLearning/NLP 2025.01.13

[ADP] 데이터의 이해

1. 데이터: 추론과 추정의 근거를 이루는 사실1) 특성존재적 특성: 객관적 사실(fact, raw material)당위적 특성: 추론, 예측, 전망, 추정을 위한 근거(basis)2) 유형구분형태 특징예정성적 데이터(Qualitative data)언어, 문자 등저장, 검색, 분석에 많은 비용이 소모 됨 회사 매출이 증가함정량적 데이터(Quantitative data)수치, 도형, 기호 등정형화가 된 데이터이기 때문에 비용 소모가 적음나이, 몸무게, 주가 등구분의미특징상호작용예암묵지학습과 경험을 통해 개인에게 체화되어 있지만 겉으로는 드러나지 않는 지식중요하지만 다른 사람에게 공유되기 어려움공통화, 내면화자전거 타기, 피아노연주형식지문서나 매뉴얼처럼 형상화된 지식전달과 공유가 용이표출화, 연결화교과서, ..

통계학/ADP 2025.01.12

[NLP] Transformer - BERT

1. BERT란 무엇인가 17. BERT(Bidirectional Encoder Representations from Transformers)트랜스포머(transformer)의 등장 이후, 다양한 자연어 처리 태스크에서 사용되었던 RNN 계열의 신경망인 LSTM, GRU는 트랜스포머로 대체되어가는 추세입니다. 이에 따…wikidocs.net Bidirectional Encoder Representations from TransformersTranformer 계열의 자연어 처리 모델다음에 올 단어를 예측하는데 자주 사용하는 언어모델2. BERT의 구조BERT의 기본구조는 Transformer의 Encoder를 쌓아올린 구조로 Base버전에는 총 12개, Large버전에는 24개를 쌓음Input: 단어를 토..

DeepLearning/NLP 2025.01.11

[NLP] Encoder-Decoder와 Attention

1. Encoder 와 DecoderEncoder: Input data를 받아 압축 데이터(context vector)로 변환 및 출력Decoder: Encoder와 반대로 압축 데이터(context vector)를 입력 받아 Output data를 출력데이터를 압축하여 전달하는 이유는 정보를 압축하여 연산량을 최소화할 수 있기 때문다만 압축하여 발생하는 정보 손실이 존재정보 손실을 해결하기 위해 Attention이라는 개념이 도입됨* Embedding [NLP] Word Embedding자연어처리 공부중입니다. 잘못된 부분은 편히 댓글 부탁드립니다.1. 워드 임베딩이란?단어를 인공신경망 학습을 통해 벡터화하는 하는 것즉 텍스트를 숫자로 변환하는 방법2. 희소 표현(Sparse Rehello-heehee..

DeepLearning/NLP 2025.01.06

[NLP] 텍스트 데이터 전처리

자연어를 분석하기 위해서는 전처리가 필요한데, 텍스트 데이터는 어떻게 전처리를 해야할까? 1. 텍스트 정규화1) 클렌징: 불필요한 문자, 기호 등을 제거하는 방법ex) 특수문자, 공백, 태그 등import retext = re.sub(r']+>', '', text) # HTML 태그 제거text = re.sub(r'\d+', '', text) # 숫자 제거text = re.sub(r'[^\w\s]', '', text) # 특수문자 제거text = re.sub(r'\s+', ' ', text).strip() #공백 제거2) 소문자 변환: 대소문자 구분을 없애 분석의 일관성 유지text = text.lower()2. 불용어 제거: 의미 없는 단어 제거from nltk.corpus import sto..

DeepLearning/NLP 2025.01.05

[통계분석] 시계열 분석

1. 시계열 데이터: 시간의 흐름에 따라 관찰된 데이터이터: 시간의 흐름에 따라 관찰된 데이터ex) 기온데이터, 주가데이터 등대부분의 시계열 데이터는 비정상성 데이터이다. 시계열 데이터로 미래를 예측하기 위해서는 비정상성 데이터를 정상성 데이터로 변화하여 분석 모형을 설계할 수 있다.시점에 따라 평균과 분산이 일정하지 않으면 데이터에 대한 신뢰도가 떨어지기 때문에, 평균과 분산이 일정하도록 전처리가 필요하다. (시계열 데이터를 정상성 데이터로 만들어야한다.)> 구성요소1) 추세(Trend)데이터의 장기적인 증가 또는 감소 경향을 나타냄시간에 따라 데이터가 지속적으로 오르거나 내리는 경향 등2) 계절성(Seasonality)일정 주기를 가지고 반복되는 패턴ex) 월별 판매량, 계절별 온도변화3) 순환성(C..

통계학/통계 2025.01.04

[통계분석] ANOVA (분산분석)

두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석 방법두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성 검증집단 간 변동(Between-group variability): 각 그룹 평균과 전체 평균 간의 차이에 의해 발생하는 변동.집단 내 변동(Within-group variability): 각 데이터가 속한 그룹 내에서의 변동.총 변동(Total Variability): 집단 간 변동 + 집단 내 변동1. 일원배치 분산분석(One-way ANOVA): 하나의 범주형 변수의 영향을 알아보기 위해 사용각 집단은 서로 독립적이고 정규분포를 따른다. (정규성)각 집단의 분산은 같다. (등분산성)1) 통계적 모형2) 분산분석표3) 가설검정귀무가설: 집간 간 모평균..

통계학/통계 2024.12.23

[통계분석] t-test (t-검정)

1. 일표본 t-검정(one sample t-test): 단일 모집단에서 관심이 있는 연속형 변수의 평균 값을 특정 기준값과 비교하고자 할 때 사용하는 검정방법모집단의 구성요소들이 정규분포를 이룬다는 가정하에 검정통계량 값을 계산 (정규성)종속변수는 연속형 변수작은 표본일 때 사용 (30개 미만)Outlier에 민감1) 가설설정귀무가설: μ= μ_0대립가설: μ!= μ_0 (양측검정), μ> μ_0 (단측검정), μμ_0 (단측검정)2) 유의수준 설정3) 검정통계량 값 및 유의확률 계산4) 기각여부 판단 및 의사결정p-value p-value > 유의수준: 귀무가설 채택t-값이 클수록 두 그룹간의 차이가 유의미 (귀무가설 기각, 대립가설 채택)> Examplefrom scipy.stats import t..

통계학/통계 2024.12.22
728x90