[Python] word2vec_basic.py 모델 파악하기

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

클로이의 데이터 여행기

[Python] word2vec_basic.py 모델 파악하기 본문

Python

[Python] word2vec_basic.py 모델 파악하기

징느K 2018. 11. 21. 13:56

이번 포스팅에서는 word2vec_basic.py 라이브러리에 대해 살펴보려고 합니다.

참고로 word2vec_basic.py은 가장 잘 알려져 있는 word2vec 라이브러리 중 하나라고 하네요!

라이브러리를 사용하면 간단히 딥러닝을 해볼 수 있다는 이야기는 많이 들어봤지만,

실제로 이렇게 간단하게 사용할 수 있을 줄은 상상도 못했습니다!

(물론 정교한 튜닝을 위해서는 별도의 코딩작업이 필요하겠지만요 T_T....)

직접 라이브러리를 찾고, 알아본 과정을 간단히 적어보았습니다.

1. 라이브러리 받는 곳

word2vec_basic.py 라이브러리는 tensorflow github에 올라와있습니다.

아래의 주소에서 라이브러리를 받으시면 됩니다 (:

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/word2vec_basic.py

2. 라이브러리 사용하는 방법

라이브러리 사용을 위해서는 3개의 모듈을 설치해야합니다.

'모듈(module)설치 방법'은 아래와 같습니다.

① cmd 창 실행

② pip install matplotlib 엔터

(위의 라이브러리를 활용하기 위해서는 matplotlib, sklearn, scipy를 설치해야합니다.

혹시 코드실행 후, 다른 것을 install하라는 메시지가 나오면 ②의 방식으로 동일하게 실행하면 됩니다!)

3. 분석대상 파일 위치

코드를 실행하고 나면, 분석대상 파일이 자동으로 생성되는데 위치는 아래와 같습니다.

C:\Users\user\AppData\Local\Temp\text8.zip

(다를 수도 있으니, 참고 하시기 바랍니다.

혹시 위 경로에 파일이 없다면 C드라이브에서 'text8.zip' 검색해서 찾으시면 됩니다.)

4. 분석대상 데이터(input data) 형태

위의 경로의 text8.zip 파일을 풀어보면, 텍스트 파일이 하나가 있는데요.

이 파일을 통해 라이브러리에서 지원하는 input data의 형태를 알 수 있습니다.

아래의 사진처럼, text8.txt파일은 소문자의 수많은 단어가 공백으로 구분되어 들어 있습니다.

input data를 살펴본 결과 소스를 수정 없이 사용을 위해서는

'① 소문자변환', '②불필요한 공백과 개행 제거'가 필요하다는 것을 알 수 있었습니다.

여기까지가 word2vec_basic.py 라이브러리를 그대로 실행하고 살펴본 결과입니다.

다음에는 원하는 input data를 입력하여 분석을 하는 과정에 대해 작성해보겠습니다.

읽어주셔서 감사합니다 :^)

'Python' 카테고리의 다른 글

[Python] 중복키워드 추출 (0)	2018.11.16

'Python' Related Articles

[Python] 중복키워드 추출 2018.11.16

Comments

클로이의 데이터 여행기

[Python] word2vec_basic.py 모델 파악하기 본문

[Python] word2vec_basic.py 모델 파악하기

'Python' 카테고리의 다른 글

티스토리툴바