Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- deeplearning개념
- 딥러닝용어
- 도날드노만
- HashMap
- R 키워드 가중치
- R dataframe
- self-attention
- 딥러닝개념
- 자연어처리
- 언어모델
- 자언어처리모델
- 어탠션
- 마르코프 체인
- R 워드클라우드
- WordCloud R
- 마르코프
- RNN Attention
- r word2vec
- 상호작용디자인
- selfattention
- wordVector
- R TF-IDF
- StringBuffer vs StringBuilder
- StringJoiner
- R에서의 워드클라우드
- R에서의 wordcloud
- 통계기반자연어처리
- deeplearning용어
- word2vec
- 체험디자인
Archives
- Today
- Total
목록R 키워드 가중치 (1)
클로이의 데이터 여행기
[R] R을 이용한 텍스트마이닝_TF-IDF (코드 및 설명)
오늘은 R을 통해 'TF-IDF' 가중치를 활용하는 방법에 대해 알아보려고 합니다. 1) TF-IDF가 필요한 이유? 대량의 문서에서 중요한 키워드를 뽑아야 한다면, 가장 쉬운 방법은 무엇일까요? 어렵지 않게 자주 등장하는 키워드, 고빈도 키워드를 생각해 볼 수 있습니다. 하지만 정말 고빈도 키워드가 중요한 키워드라고 할 수 있을까요? 고빈도 키워드는 중요한 키워드일 수도 있지만 동시에 흔한 키워드일 가능성이 높습니다. 한국어로 예를 들어보면 "있다, 없다, 하다"등인데, 단순히 빈도 내림차순으로 추출하게 되면 이러한 키워드들이 상위에 등장하게 됩니다. 모든 문서에서 나오는 자주 키워드(ex. 있다)들은 흔한 키워드라고 여기고, 이런 키워드에는 페널티를 주면 어떨까요? 여기저기에서 등장하는 키워드 보다는..
R
2019. 6. 20. 17:36