2022. 1. 28. 15:32ㆍ머신러닝/자연어처리
Q.텍스트 전처리 과정에 포함되는 것을 모두 선택하세요.
일반적으로 모델을 통한 예측은 데이터 전처리와 학습이 끝난 뒤 수행됩니다.
Q.아래 OO에 들어갈 단어를 입력하세요
단어 임베딩을 통해 단어를 OO로 표현할 수 있다.
임베딩의 목적은 단어를 벡터로 표현하는 것입니다.
Q.아래 OO에 들어갈 단어를 입력하세요.
word2vec은 단어 간 OO을 사용하여 벡터를 학습한다.
word2vec은 단어 간 문맥을 사용하여, 주어진 문맥에서 어떤 단어가 발생하는지 예측하는 문제로 단어 벡터를 학습합니다.
정답 '미등록 단어'
word2vec은 학습 데이터에 존재한 단어의 벡터를 생성할 수 있기에 미등록 단어 문제(out-of-vocabulary, OOV)가 발생합니다.
정답 o
나이브 베이즈 모델은 비슷한 감정을 표현하는 문서는 유사한 언어적 특징을 보일 것이라는 가정을 사용합니다.
나이브 베이즈는 감정 발생 확률과 단어들의 가능도(likehood)로 텍스트의 감정을 예측합니다. 여기서 가능도란 확률 분포의 모수가, 어떤 확률변수의 표집값과 일관되는 정도를 나타내는 값을 말합니다.
https://ko.wikipedia.org/wiki/%EA%B0%80%EB%8A%A5%EB%8F%84 참고
Q.P("심심해" | 행복) = 2/8 일 때, 스무딩을 12만큼 적용한 업데이트 된 가능도를 소수로 적어주세요.
스무딩은 학습 데이터 내 존재하지 않는 빈도수를 보정하는 것으로 분모와 분자에 12씩 더해주면 됩니다.
(2+12)/(8+12)=0.7(2+12) / (8 + 12) = 0.7
scikit-learn으로 나이브 베이즈 학습 시, 단어 빈도수 벡터로 변환하는 CountVectorizer를 이용하여 텍스트를 만들어야 합니다.
문장별 감정이 매핑되어 있는 데이터셋만 제공된다면 모든 지도학습 기반 알고리즘을 사용할 수 있습니다. 협업 필터링(CF)은 비지도 학습으로 감정 분석을 하기에 적절한 머신러닝 기법이 아닙니다.