728x90

자연어처리 2

[NLP] 텍스트 데이터 전처리 - Log Template

자연어인 로그 데이터를 딥러닝할 때 전처리는 어떻게 할까?보통 로그 데이터는 패턴이 존재한다. 이 패턴에 대해서 알고 있다면 공통 패턴이 되는 템플릿(Template)을 만들어 처리하면 되지만 만약 데이터가 많고 템플릿을 정리할 수 없다면 이 템플릿을 만들어주는 여러 방법들이 존재한다.템플릿을 추출하는 이유는 방대한 데이터로 처리하기엔 시간이 많이 소요되기 때문에 공통 패턴을 템플릿으로 만들고 가변 데이터만 따로 처리한다면 시간비용이 적게 들기 때문이다.1. Log Parsing 의 정의와 특징 로그: 일반적으로 시스템, 애플리케이션, 네트워크 등에서 발생하는 이벤트를 기록한 텍스트 데이터로그 파싱: 로그 메시지를 구조화된 형식으로 변환하는 과정로그를 구조화하여 패턴을 생성하고 분석 가능한 형식(ex. ..

DeepLearning/NLP 2025.01.13

[NLP] Word Embedding

자연어처리 공부중입니다. 잘못된 부분은 편히 댓글 부탁드립니다.1. 워드 임베딩이란?단어를 인공신경망 학습을 통해 벡터화하는 하는 것즉 텍스트를 숫자로 변환하는 방법2. 희소 표현(Sparse Representation)One-hot-encoding은 값이 2개로만 이루어진 것으로 희소표현은 One-hot-Vetor를 의미하며 0과 1로만 이루어져있음.단, 하나만 1 나머지는 0이어야 한다.10개의 데이터 중 고양이가 4번째라면, 고양이 = [0,0,0,1,0,0,0,0,0,0]단어의 개수가 늘어날 수록 벡터 차원이 한없이 커진다는 단점이 있음단어가 1만개라면 벡터의 차원도 1만3. 밀집 표현(Dense Representation)희소 표현과 반대되는 표현벡터의 차원을 단어 집합의 크기로 상정하지 않음...

DeepLearning/NLP 2024.11.28
728x90