목록programming/NLP, 자연어처리 (1)
돌맹이

NLP에서 텍스트 분석을 할 때, feature vectorization은 크게 2가지로 구분된다. Count기반 벡터화 / TF-IDF기반 벡터화 Count기반 벡터화는 문서에 해당 단어가 나타난 횟수를 집계하는 방식으로, 많이 등장하는 단어의 count가 높게 측정된다. 언어의 특성상 실제로 중요하지 않은 'is'나 'the'와 같은 관사, be동사 단어들의 점수가 높게 측정된다는 단점이 있다. # Count기반 Vectorization from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'apple is red', 'banana is yellow', 'what color is melon?', 'i love yellow col..
programming/NLP, 자연어처리
2023. 1. 18. 17:38