클로이의 데이터 여행기

[Python] word2vec_basic.py 모델 파악하기 본문

Python

[Python] word2vec_basic.py 모델 파악하기

징느K 2018. 11. 21. 13:56





이번 포스팅에서는 word2vec_basic.py 라이브러리에 대해 살펴보려고 합니다.

참고로 word2vec_basic.py은 가장 잘 알려져 있는 word2vec 라이브러리 중 하나라고 하네요!


라이브러리를 사용하면 간단히 딥러닝을 해볼 수 있다는 이야기는 많이 들어봤지만,

실제로 이렇게 간단하게 사용할 수 있을 줄은 상상도 못했습니다!

(물론 정교한 튜닝을 위해서는 별도의 코딩작업이 필요하겠지만요 T_T....)


직접 라이브러리를 찾고, 알아본 과정을 간단히 적어보았습니다.




1. 라이브러리 받는 곳


word2vec_basic.py 라이브러리는 tensorflow github에 올라와있습니다.

아래의 주소에서 라이브러리를 받으시면 됩니다 (:


https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/word2vec_basic.py




2. 라이브러리 사용하는 방법


라이브러리 사용을 위해서는 3개의 모듈을 설치해야합니다.


'모듈(module)설치 방법'은 아래와 같습니다.


① cmd 창 실행

  pip install matplotlib 엔터




(위의 라이브러리를 활용하기 위해서는 matplotlib, sklearn, scipy를 설치해야합니다.

혹시 코드실행 후, 다른 것을 install하라는 메시지가 나오면 의 방식으로 동일하게 실행하면 됩니다!)




3. 분석대상 파일 위치


코드를 실행하고 나면, 분석대상 파일이 자동으로 생성되는데 위치는 아래와 같습니다.


C:\Users\user\AppData\Local\Temp\text8.zip

(다를 수도 있으니, 참고 하시기 바랍니다. 

혹시 위 경로에 파일이 없다면 C드라이브에서 'text8.zip' 검색해서 찾으시면 됩니다.)




4. 분석대상 데이터(input data) 형태


위의 경로의 text8.zip 파일을 풀어보면, 텍스트 파일이 하나가 있는데요.

이 파일을 통해 라이브러리에서 지원하는 input data의 형태를 알 수 있습니다.


아래의 사진처럼, text8.txt파일은 소문자의 수많은 단어가 공백으로 구분되어 들어 있습니다.




input data를 살펴본 결과 소스를 수정 없이 사용을 위해서는 

'① 소문자변환', '②불필요한 공백과 개행 제거'가 필요하다는 것을 알 수 있었습니다.



여기까지가 word2vec_basic.py 라이브러리를 그대로 실행하고 살펴본 결과입니다.

다음에는 원하는 input data를 입력하여 분석을 하는 과정에 대해 작성해보겠습니다.


읽어주셔서 감사합니다 :^)


'Python' 카테고리의 다른 글

[Python] 중복키워드 추출  (0) 2018.11.16
Comments