728x90

word2vec 2

[Word2Vec] CBOW - Python 코드

1. Word2Vec - CBOWCBOW에 대한 정의는 아래 게시글 참조 [NLP] Word Embedding자연어처리 공부중입니다. 잘못된 부분은 편히 댓글 부탁드립니다.1. 워드 임베딩이란?단어를 인공신경망 학습을 통해 벡터화하는 하는 것즉 텍스트를 숫자로 변환하는 방법2. 희소 표현(Sparse Rehello-heehee.tistory.com2. CODE1) Gensim Gensim: topic modelling for humansEfficient topic modelling in Pythonradimrehurek.com가장 많이 사용되고 상용화되어있는 Gensim의 Word2Vec이다.from gensim.models import Word2Vecfrom gensim.models.word2vec i..

DeepLearning/NLP 2025.02.25

[NLP] Word Embedding

자연어처리 공부중입니다. 잘못된 부분은 편히 댓글 부탁드립니다.1. 워드 임베딩이란?단어를 인공신경망 학습을 통해 벡터화하는 하는 것즉 텍스트를 숫자로 변환하는 방법2. 희소 표현(Sparse Representation)One-hot-encoding은 값이 2개로만 이루어진 것으로 희소표현은 One-hot-Vetor를 의미하며 0과 1로만 이루어져있음.단, 하나만 1 나머지는 0이어야 한다.10개의 데이터 중 고양이가 4번째라면, 고양이 = [0,0,0,1,0,0,0,0,0,0]단어의 개수가 늘어날 수록 벡터 차원이 한없이 커진다는 단점이 있음단어가 1만개라면 벡터의 차원도 1만3. 밀집 표현(Dense Representation)희소 표현과 반대되는 표현벡터의 차원을 단어 집합의 크기로 상정하지 않음...

DeepLearning/NLP 2024.11.28
728x90