일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- neo4j 스키마 정의
- 알고리즘
- 백준
- gensim size
- 백준 2470
- UnsatisfiedDependencyException
- BFS
- 텍스트전처리
- neo4j 제약조건
- gensim
- nodemon babel
- express
- Sequenial
- gensim_models
- 그랜빌의 법칙
- neo4j 인덱스 사용
- 백준 회전초밥
- GET REQUESTS
- 첫서버
- spring-boot3
- cs50
- spring-boot2
- 파이썬
- 플로이드워셜
- 투포인터
- PREFECT
- 백준 7795
- 워드 임베딩
- pandas-profiling
- neo4j
- Today
- Total
목록텍스트전처리 (2)
정리정돈
갖고 있는 데이터에서 유의미한 단어 토큰 만을 선별하기 위해서는 큰 의미를 가지고 있지 않은 단어 토큰을 제거하는 작업이 필요하다. 큰 의미가 없다는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말한다. 예시로, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있다. 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있다. 불용어는 개발자가 직접 정의할 수 있다. 1. NLTK에서 불용어 확인 from nltk.corpus import stopwords stopwords.words..
자연어 처리에서 크롤링 등으로 얻어낸 코퍼스(corpus) 데이터가 필용에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는일을 하게된다. 토큰화(tokenization) - 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 - 코퍼스(corpus,말뭉치) - 자연어데이터 1. 단어 토큰화(Word Tokenization) 단어 토큰화(word tokeniazation) - 토큰의 기준을 단어(word)로 하는 경우, 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주 토큰확 작업은 단순하게 구두점, 특수문자를 전부 제거하는 정제(..