Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- StringBuffer vs StringBuilder
- deeplearning용어
- R 워드클라우드
- 체험디자인
- 마르코프 체인
- R 키워드 가중치
- R TF-IDF
- R dataframe
- R에서의 wordcloud
- StringJoiner
- HashMap
- RNN Attention
- 상호작용디자인
- word2vec
- R에서의 워드클라우드
- 마르코프
- 자언어처리모델
- deeplearning개념
- selfattention
- 언어모델
- 딥러닝용어
- 어탠션
- r word2vec
- WordCloud R
- 딥러닝개념
- 도날드노만
- 통계기반자연어처리
- 자연어처리
- wordVector
- self-attention
Archives
- Today
- Total
클로이의 데이터 여행기
[Python] 중복키워드 추출 본문
이번에 설명할 코드는 '중복키워드를 추출하는 기능'을 수행합니다.
데이터 구축 시, 중복 키워드는 늘 이슈인데 제가 사용하는 관리기에서 그 기능을 지원하지 않습니다.
데이터 업로드 전에 미리 중복 키워드를 체크하고, 관리기에 반영하기 위하여 아래의 코드를 작성하였습니다.
엑셀에서도 간단히 가능하지만! 데이터가 많아지면 엑셀이 많~~이 버벅거리기 때문입니다.
다량의 비정형 텍스트를 주로 다루기 때문에 이런 코드가 필요했습니다.
간단하지만 가장 유용히 쓰고 있는 이 내용을 공유합니다^.^
너무 간단하고 직관적이라 따로 변수 설명 등은 달지 않으려 합니다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | f = open("C:/data/input/defaultCount.txt","r",encoding="utf-8") kw = f.readlines() f.close() f = open("C:/data/output/keywordCountR.txt","w",encoding="utf-8") kw_list = {} for i in kw: kw_ = i.lower().replace("\n", "").split(',') for x in kw_: x = x.replace("\n","") if x in kw_list: kw_list[x] = kw_list[x]+1 else: kw_list[x] = 1 for i in kw_list: if kw_list[i] is not 1: print(i , ":" , kw_list[i]) f.write(str(i)+":"+str(kw_list[i]) +"\n") f.close() | cs |
Python으로 개발 입문을 했기 때문에, Python의 장점(코드 작성이 쉽고, 코드가 짧아 배우기 쉽다)이
사실 크게 와닿지 않았었는 데요. 요 몇달 java로 코드를 작성하다가 python코드를 보니 완전완전 실감이 되었습니다.
java와 함께 python도 놓치지 않도록, 간단한 코드는 다시 python으로 작성하는 습관을 들여봐야겠습니다:D
'Python' 카테고리의 다른 글
[Python] word2vec_basic.py 모델 파악하기 (0) | 2018.11.21 |
---|
Comments