일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 통계기반자연어처리
- 마르코프
- deeplearning개념
- deeplearning용어
- 마르코프 체인
- StringJoiner
- self-attention
- selfattention
- R TF-IDF
- StringBuffer vs StringBuilder
- R dataframe
- wordVector
- 체험디자인
- 딥러닝개념
- 자언어처리모델
- HashMap
- 언어모델
- R 키워드 가중치
- R에서의 wordcloud
- 자연어처리
- 어탠션
- WordCloud R
- word2vec
- 상호작용디자인
- 도날드노만
- r word2vec
- R에서의 워드클라우드
- RNN Attention
- R 워드클라우드
- 딥러닝용어
- Today
- Total
목록R (7)
클로이의 데이터 여행기
지난 포스팅에서 TF-IDF를 활용하여 의미 있는 키워드를 뽑아보았습니다. 이번 포스팅에서는 이 키워드들을 활용하여 wordcloud를 그려보려고 합니다. wordcloud는 이미 많은 분들이 알고 계시듯 '비정형 텍스트에서 뽑은 키워드들을 시각화'하는 것인데요. wordcloud 결과를 보면 한 눈에 텍스트의 맥락을 이해할 수 있다는 장점을 가지고 있습니다. 1. R에서의 wordcloud 그렇다면 R에서는 wordcloud를 어떻게 쓸 수 있는지 살펴보겠습니다. R에서 wordcloud를 활용하는 방법은 간단합니다. 1) wordcloud 참고 코드 [ 라이브러리 ] - 'wordcloud2' : wordcloud를 그리는 라이브러리 - 'dplyr' : 데이터 조작을 간편하게 하는 R의 대표 라이브..
오늘은 R을 통해 'TF-IDF' 가중치를 활용하는 방법에 대해 알아보려고 합니다. 1) TF-IDF가 필요한 이유? 대량의 문서에서 중요한 키워드를 뽑아야 한다면, 가장 쉬운 방법은 무엇일까요? 어렵지 않게 자주 등장하는 키워드, 고빈도 키워드를 생각해 볼 수 있습니다. 하지만 정말 고빈도 키워드가 중요한 키워드라고 할 수 있을까요? 고빈도 키워드는 중요한 키워드일 수도 있지만 동시에 흔한 키워드일 가능성이 높습니다. 한국어로 예를 들어보면 "있다, 없다, 하다"등인데, 단순히 빈도 내림차순으로 추출하게 되면 이러한 키워드들이 상위에 등장하게 됩니다. 모든 문서에서 나오는 자주 키워드(ex. 있다)들은 흔한 키워드라고 여기고, 이런 키워드에는 페널티를 주면 어떨까요? 여기저기에서 등장하는 키워드 보다는..
오늘은 R의 wordVectors 패키지를 활용하여 word2vec 알고리즘을 다루는 방법에 대해 소개하고자 합니다. 1. word2vec이란? word2vec은 '비슷한 의미를 갖는 단어는 문서에서 근처에 존재할 것'이라는 가정을 전제로 하여, 단어에 벡터값을 부여하여 의미론적으로 유사한 단어를 거리 기반으로 매핑하는 방법입니다. 2. word2vec의 활용 ① 키워드 사전 확장 어떤 카테고리의 데이터(사전)를 구축할 때, 단순히 빈도에 기반하다 보면 한계점이 찾아올 때가 있는데요. 이럴 때에 word2vec을 활용하면 구축된 고빈도 키워드의 유사키워드(빈도는 다소 낮아 빈도에 기반해서는 잘 뽑히지 않았던 키워드)를 뽑아서 데이터를 확장하여 구축하는 수단으로 사용하고 있습니다. ② 복합어/복합명사 추출..
안녕하세요. 오늘 다룰 내용은 stringr이라는 패키지 입니다. 이전 포스팅까지는 R를 다룰 때 기본이 되는 데이터형식에 대해 다루었는데요. 이번 포스팅부터는 실제로 텍스트 마이닝을 하기위해 활용될 패키지들을 하나씩 살펴보려고 합니다. 가장 먼저 살펴볼 것은 stringr이라는 패키지입니다. 문자열을 처리하는 아주 효율적인 패키지 중 하나입니다.문자열에서 원하는 문자의 위치를 찾거나, 또 원하는 문자의 개수를 찾는 등 기본적이지만 매우 중요한 방법부터 다루어 보겠습니다. 0. 문자열 선언 sentence = c("안녕하세요. 제 이름은 징느곽입니다") ▶ 데이터조작을 위해 문자열 sentence를 선언합니다. 1. 매칭여부 확인 str_detect(string = sentence, pattern = "..
오늘은 R에서 가장 자주 쓰이는 dataframe을 다뤄보려고 합니다. R의 가장 큰 장점은 행렬 기반의 데이터를 손쉽게 다룰 수 있다는 점인데요. 이때 가장 자주 또 유용이 쓰이는 데이터 타입이 DataFrame입니다. 1. DataFrame 1) 특징 - 데이터를 행렬로 저장 - 여러가지 데이터 타입을 저장할 수 있음 2) 생성 frame = data.frame(col1 = c(1,2,3), col2 = c("A","B","C")) ▶ 2행 3열의 데이터가 행부터 채워지며 생성됩니다. 3) 데이터 다루기 (1) 간단한 데이터 조작 ① 행/열 이름 확인 rownames(frame) ▶ 'frame' 데이터의 행 이름(번호)을 확인할 수 있습니다. colnames(frame) ▶ 'frame' 데이터의 ..
오늘 포스팅에서는 R에서 쓰이는 데이터 타입을 다뤄보려고 합니다. R에서 쓰는 데이터 타입은 크게 vector,list,matrix,dataframe이 있습니다. 기본적이지만 중요한 내용인 vector의 특징과 생성방법부터 차근차근 알아보도록 하겠습니다. 1. vector 1) 특징 - 데이터를 여러개 묶어 저장하는 방식 - 하나의 데이터 타입(숫자면 숫자,문자면 문자)만 저장할 수 있습니다. 2) 생성 ① 원하는 데이터 값 지정 vec = c(1,2,3,4) ▶ vec라는 이름으로 1,2,3,4의 값을 가진 vector가 생성됩니다 ② 지정된 범위만큼 연속된 값 num = 1:25 ▶ 1부터 25까지 1씩 증가한 값이 들어간 vector 'num'이 생성됩니다. ③ 지정된 범위에서 지정된 값만큼 증가되..
"R을 활용한 텍스트마이닝" 이라는 패스트캠퍼스 강의를 듣게 되었습니다. R은 다른 프로그래밍 언어보다 쉽지만, 통계 기반 언어이기 때문에 배경지식 없이는 활용도가 높지 않을 것이라고 생각했습니다. 그래서 한눈 팔지 않고, 자바에 더욱 집중했었습니다. 그러던 중 패스트캠퍼스의 "R을 활용한 텍스트마이닝"이라는 강의를 알게 되었습니다. 텍스트마이닝을 R로도 할 수 있다니! R을 활용한다면 다른 프로그래밍 언어보다 더 빠르고 효과적으로 데이터 분석 및 구축을 할 수 있지 않을까 하는 생각이 들었습니다. ('효과적'은 아직 모르겠습니다.. '빠르게'는 맞지 않을까요^^?) 그러한 이유로 "R을 활용한 텍스트마이닝"이라는 강의를 듣게 되었습니다. ( ※ 강의료는 회사에서 부담해주었습니다.) 강의 커리큘럼은 아래..