클로이의 데이터 여행기

[Python] 중복키워드 추출 본문

Python

[Python] 중복키워드 추출

징느K 2018. 11. 16. 16:23


이번에 설명할 코드는 '중복키워드를 추출하는 기능'을 수행합니다.

데이터 구축 시, 중복 키워드는 늘 이슈인데 제가 사용하는 관리기에서 그 기능을 지원하지 않습니다.

 

데이터 업로드 전에 미리 중복 키워드를 체크하고, 관리기에 반영하기 위하여 아래의 코드를 작성하였습니다.


엑셀에서도 간단히 가능하지만! 데이터가 많아지면 엑셀이 많~~이 버벅거리기 때문입니다.

다량의 비정형 텍스트를 주로 다루기 때문에 이런 코드가 필요했습니다.


간단하지만 가장 유용히 쓰고 있는 이 내용을 공유합니다^.^


너무 간단하고 직관적이라 따로 변수 설명 등은 달지 않으려 합니다.



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
= open("C:/data/input/defaultCount.txt","r",encoding="utf-8")
kw = f.readlines()
f.close()
 
= open("C:/data/output/keywordCountR.txt","w",encoding="utf-8")
 
kw_list = {}
 
for i in kw:
    kw_ = i.lower().replace("\n""").split(',')
 
    for x in kw_:
        x = x.replace("\n","")
        if x in kw_list:
            kw_list[x] = kw_list[x]+1
        else:
            kw_list[x] = 1
 
 
for i in kw_list:
    if kw_list[i] is  not 1:
        print(i , ":" , kw_list[i])
        f.write(str(i)+":"+str(kw_list[i]) +"\n")
 
 
f.close()
 
cs




Python으로 개발 입문을 했기 때문에, Python의 장점(코드 작성이 쉽고, 코드가 짧아 배우기 쉽다)이 

사실 크게 와닿지 않았었는 데요. 요 몇달 java로 코드를 작성하다가 python코드를 보니 완전완전 실감이 되었습니다.


java와 함께 python도 놓치지 않도록, 간단한 코드는 다시 python으로 작성하는 습관을 들여봐야겠습니다:D


'Python' 카테고리의 다른 글

[Python] word2vec_basic.py 모델 파악하기  (0) 2018.11.21
Comments