일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- pandas-profiling
- express
- gensim size
- BFS
- gensim
- 워드 임베딩
- neo4j 스키마 정의
- 투포인터
- neo4j 제약조건
- Sequenial
- nodemon babel
- 첫서버
- 파이썬
- 플로이드워셜
- 텍스트전처리
- GET REQUESTS
- PREFECT
- 백준 2470
- neo4j
- cs50
- neo4j 인덱스 사용
- spring-boot2
- 백준 7795
- UnsatisfiedDependencyException
- 백준 회전초밥
- 그랜빌의 법칙
- 백준
- 알고리즘
- spring-boot3
- gensim_models
- Today
- Total
목록AI (13)
정리정돈
https://wikidocs.net/32105 워드 임베딩이란 텍스트 내의 단어들을 밀집벡터(dense vector)로 만드는 것이다. 원-핫 벡터와 비교해보면 원-핫 벡터는 대부분이 0의 값을 가지고, 단 하나의 1의 값을 가지는 벡터다. 벡터의 차원이 대체적으로 크다는 성질을 가지고 있다. 원-핫 벡터 예시 Ex) [0 1 0 0 0 0 ... 중략 ... 0 0 0 0 0 0 0] # 차원이 굉장히 크면서 대부분의 값이 0 대부분의 값이 0인 벡터를 두고 희소 벡터(sparse vector)라고 한다. 원-핫 벡터는 희소 벡터의 예이다. 원-핫 벡터는 단어의 수만큼 벡터의 차원을 가지며 단어 간 유사도가 모두 동일하다는 단점이 있다. 반면, 희소 벡터와 표기상으로도 의미상으로도 반대인 벡터가 있다..

Sequential() 입력층, 은닉층, 출력층을 구성하기 위해 Sequential()을 사용한다. Sequential()을 model로 선언한 뒤에 model.add()라는 코드를 통해 층을 단계적으로 추가한다. 온점 대신에 실제 층의 이름을 기재하면 된다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense model = Sequential() model.add(...) # 층 추가 model.add(...) # 층 추가 model.add(...) # 층 추가 Dense() 전결합층(Fully-connected layer)을 추가한다. model.add()를 통해 추가할 수 있다. model =..
XOR 게이트는 AND, NAND, OR 게이트를 조합하면 만들 수 있다. 퍼셉트론 관점에서는 층을 더 쌓으면 만들 수 있다. 다층 퍼셉트론과 단층 퍼셉트론의 차이는 단층 퍼셉트론은 입력층과 출력층만 존재하지만, 다층 퍼셉트론은 중간에 층을 더추가하였다는 점이다. 이렇게 입력층과 출력층 사이에 존재하는 층을 은닉층(hidden layer)라고 한다. 즉, 다층 퍼셉트론은 중간에 은닉층이 존재한다는 점이 단층 퍼셉트론과 다르다. 다층 퍼셉트론은 줄여서 MLP(MultiLayer Perceptron)라고도 부른다. AND게이트 def AND_gate(x1, x2): w1 = 0.5 w2 = 0.5 b = -0.7 result = x1*w1 + x2*w2 + b if result
import pyLDAvis.gensim pyLDAvis.gensim 을 import 시키려하면 아래와 같이 오류가 생기는데 --------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) in () ----> 1 import pyLDAvis.gensim 2 pyLDAvis.enable_notebook() 3 vis = pyLDAvis.gensim.prepare(ldamodel, corpus, dictionary = dictionary) 4 pyLDAvis.display(vis) ModuleNotFoundError: No module na..

https://wikidocs.net/31698 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net TF-IDF는 DTM(Document-Term Matrix, 문서 단어 행렬)내에 있는 각 단어에 대한 중요도를 계산할 수 있다. TF-IDF를 사용하면, 기존의 DTM을 사용하는 것보다 더 많은 정보를 고려하여 문서들을 비교할 수 있다. 1. TF-IDF(단어 빈도- 역 문서 빈도, Term Frequency-Inverse Document Frequency) TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도와 역문서 빈도(문서의 빈도에 특정 식을 취하는 것)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법이..
컴퓨터는 텍스트를 처리하는 것 보다 숫자를 잘 처리하기 떄문에 자연어 처리에서는 텍스틀 숫자로 바꾸는 다양한 기법이 있다. 그러한 기법들을 본격적으로 적용시키기 위한 첫 단계로 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업이 필요할 때가 있다. 예시로 갖고 있는 텍스트에 단어가 5000개가 있다면, 5,000개의 단어들 각각에 1번부터 5,000번까지 단어와 맵핑되는 고유한 정수, 즉 인덱스를 부여한다. 가령 book은 150번, dog은 171번, love는 192번, books는 212번과 같이 숫자를 부여하게된다. 인덱스를 부여하는 방법은 여러가지가 있을 수 있다. 랜덤으로 부여하기도 하지만, 보통은 전처리 또는 빈도수가 높은 단어들만 사용하기 위해서 단어에 대한 빈도수를 기준으로..
1. 정규표현식 문법과 모듈 함수 파이썬에서는 정규 표현식 모듈 re를 진원한다. 이를 이용하면 특정 규치이 있는 텍스트 데이터를 빠르게 정제할 수 있다. 1) 정규 표현식 문법 정규 표현식을 위해 사용되는 문법 중 특수 문자들은 아래와 같다. 특수문자 설명 . 한 개의 임의의 문자 ( 줄바꿈 문자인 \n은 제외 ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있다. (문자가 0개 또는 1개) * 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있다.(문자가 0개 이상) + 앞의 문자가 최소 한 개 이상 존재합니다.(문자가 1개 이상) ^ 뒤의 문자로 문자열이 시작됩니다. $ 앞의 문자로 문자열이 끝납니다. {숫자} 숫자만큼 반복합니다. {숫자1, 숫자2} 숫자1 이상 숫자2 이하만큼..
갖고 있는 데이터에서 유의미한 단어 토큰 만을 선별하기 위해서는 큰 의미를 가지고 있지 않은 단어 토큰을 제거하는 작업이 필요하다. 큰 의미가 없다는 것은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 말한다. 예시로, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있다. 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있다. 불용어는 개발자가 직접 정의할 수 있다. 1. NLTK에서 불용어 확인 from nltk.corpus import stopwords stopwords.words..