일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- R 키워드 가중치
- 마르코프 체인
- 자연어처리
- StringBuffer vs StringBuilder
- deeplearning용어
- StringJoiner
- RNN Attention
- wordVector
- 상호작용디자인
- 딥러닝개념
- 도날드노만
- 체험디자인
- deeplearning개념
- 언어모델
- R 워드클라우드
- WordCloud R
- R TF-IDF
- 딥러닝용어
- R dataframe
- self-attention
- 어탠션
- 통계기반자연어처리
- word2vec
- selfattention
- r word2vec
- 자언어처리모델
- R에서의 wordcloud
- 마르코프
- R에서의 워드클라우드
- HashMap
- Today
- Total
클로이의 데이터 여행기
[Python] word2vec_basic.py 모델 파악하기 본문
이번 포스팅에서는 word2vec_basic.py 라이브러리에 대해 살펴보려고 합니다.
참고로 word2vec_basic.py은 가장 잘 알려져 있는 word2vec 라이브러리 중 하나라고 하네요!
라이브러리를 사용하면 간단히 딥러닝을 해볼 수 있다는 이야기는 많이 들어봤지만,
실제로 이렇게 간단하게 사용할 수 있을 줄은 상상도 못했습니다!
(물론 정교한 튜닝을 위해서는 별도의 코딩작업이 필요하겠지만요 T_T....)
직접 라이브러리를 찾고, 알아본 과정을 간단히 적어보았습니다.
1. 라이브러리 받는 곳
word2vec_basic.py 라이브러리는 tensorflow github에 올라와있습니다.
아래의 주소에서 라이브러리를 받으시면 됩니다 (:
2. 라이브러리 사용하는 방법
라이브러리 사용을 위해서는 3개의 모듈을 설치해야합니다.
'모듈(module)설치 방법'은 아래와 같습니다.
① cmd 창 실행
② pip install matplotlib 엔터
(위의 라이브러리를 활용하기 위해서는 matplotlib, sklearn, scipy를 설치해야합니다.
혹시 코드실행 후, 다른 것을 install하라는 메시지가 나오면 ②의 방식으로 동일하게 실행하면 됩니다!)
3. 분석대상 파일 위치
코드를 실행하고 나면, 분석대상 파일이 자동으로 생성되는데 위치는 아래와 같습니다.
C:\Users\user\AppData\Local\Temp\text8.zip
(다를 수도 있으니, 참고 하시기 바랍니다.
혹시 위 경로에 파일이 없다면 C드라이브에서 'text8.zip' 검색해서 찾으시면 됩니다.)
4. 분석대상 데이터(input data) 형태
위의 경로의 text8.zip 파일을 풀어보면, 텍스트 파일이 하나가 있는데요.
이 파일을 통해 라이브러리에서 지원하는 input data의 형태를 알 수 있습니다.
아래의 사진처럼, text8.txt파일은 소문자의 수많은 단어가 공백으로 구분되어 들어 있습니다.
input data를 살펴본 결과 소스를 수정 없이 사용을 위해서는
'① 소문자변환', '②불필요한 공백과 개행 제거'가 필요하다는 것을 알 수 있었습니다.
여기까지가 word2vec_basic.py 라이브러리를 그대로 실행하고 살펴본 결과입니다.
다음에는 원하는 input data를 입력하여 분석을 하는 과정에 대해 작성해보겠습니다.
읽어주셔서 감사합니다 :^)
'Python' 카테고리의 다른 글
[Python] 중복키워드 추출 (0) | 2018.11.16 |
---|