클로이의 데이터 여행기

[R] R을 이용한 텍스트마이닝_WordCloud(코드 및 설명) 본문

R

[R] R을 이용한 텍스트마이닝_WordCloud(코드 및 설명)

징느K 2019. 9. 26. 15:27

 

 

지난 포스팅에서 TF-IDF를 활용하여 의미 있는 키워드를 뽑아보았습니다.

이번 포스팅에서는 이 키워드들을 활용하여 wordcloud를 그려보려고 합니다.

 

wordcloud는 이미 많은 분들이 알고 계시듯 '비정형 텍스트에서 뽑은 키워드들을 시각화'하는 것인데요.

wordcloud 결과를 보면 한 눈에 텍스트의 맥락을 이해할 수 있다는 장점을 가지고 있습니다.

 

1. R에서의 wordcloud

 

그렇다면 R에서는 wordcloud를 어떻게 쓸 수 있는지 살펴보겠습니다.

R에서 wordcloud를 활용하는 방법은 간단합니다.

 

 

1) wordcloud 참고 코드

 

[ 라이브러리 ] 

 'wordcloud2' : wordcloud를 그리는 라이브러리

-  'dplyr' :  데이터 조작을 간편하게 하는 R의 대표 라이브러리의 하나

               아래의 코드에서는 고빈도 top 50 키워드를 뽑을 때 '파이프(%>%)'를 활용하기 위해 설치

 

library(dplyr)
library(wordcloud2)

top50 = wordDf_TF %>% top_n(50) # top 50 단어추출

wordcloud2(data = top50
           , color = "random-dark"
           , shape = "cloud"
           , size = 0.5
           , fontFamily = "나눔고딕")

기존에 tf-idf를 활용하여 만들었던 dataframe을 활용하였습니다.

(지난 tf-idf 포스팅, https://data-traveler.tistory.com/33)

 

 

 

2) wordcloud 결과 

 

 

 

 

wordcloud를 통해 텍스트에 어떤 키워드가 자주 등장했는지 간단하게 살펴볼 수 있었습니다.

 

이상입니다. 읽어주셔서 감사합니다.

Comments