'텍스트전처리' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

250x250

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록텍스트전처리 (2)

정리정돈

텍스트 전처리(불용어(Stopword))

갖고 있는 데이터에서 유의미한 단어 토큰 만을 선별하기 위해서는 큰 의미를 가지고 있지 않은 단어 토큰을 제거하는 작업이 필요하다. 큰 의미가 없다는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말한다. 예시로, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있다. 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있다. 불용어는 개발자가 직접 정의할 수 있다. 1. NLTK에서 불용어 확인 from nltk.corpus import stopwords stopwords.words..

AI/자연어처리 2021. 7. 6. 11:25

텍스트 전처리(1. 토큰화(Tokenization))

자연어 처리에서 크롤링 등으로 얻어낸 코퍼스(corpus) 데이터가 필용에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는일을 하게된다. 토큰화(tokenization) - 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 - 코퍼스(corpus,말뭉치) - 자연어데이터 1. 단어 토큰화(Word Tokenization) 단어 토큰화(word tokeniazation) - 토큰의 기준을 단어(word)로 하는 경우, 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주 토큰확 작업은 단순하게 구두점, 특수문자를 전부 제거하는 정제(..

AI/자연어처리 2021. 7. 1. 12:35

이전 Prev 1 Next 다음

목록텍스트전처리 (2)

정리정돈

티스토리툴바