結巴分詞獲取關鍵詞時怎麼過濾掉一些停用詞?

時間 2021-05-30 15:02:36

1樓:

# encoding = utf8

import jieba

import time

import string

import jieba.analyse

#建立停用詞list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath,'r',encoding='utf-8').readlines()]

return stopwords

#對句子進行分詞

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('stop_words_zh.txt') #載入停用詞

outstr = ''

for word in sentence_segedif word not in stopwordsif word !='\t'outstr +=wordoutstr +=''

return outstr

#呼叫函式對文件進行處理

inputs = open('cc.txt','rb')

outputs = open('tt.txt','w')

for line in inputs:

line_seg = seg_sentence(line)

outputs.write(line_seg+'\n')

outputs.close()

inputs.close()

2樓:

jiebaRD裡面本身有停止詞,library\jiebaRD\dict\stop_words.utf8,你也可以往裡面新增停止詞

本文關鍵詞 刻畫顏色!

DOVE鴿子吉他 這兩個思維不是首調固定調的問題,而是音階和琶音。就在這個和聲裡,比如你想用小調五聲音階,那你別管是啥和弦,腦子裡只想1 b3 4 5 b7就行了。這就是單純地只考慮音階,幾乎不考慮和弦。什麼情況下要從和弦出發呢,也就是在不同和弦使用這個和弦自身的組成音 1 3 5 b7呢,第一,你...

怎麼評價林俊傑的《關鍵詞》?

LLC啊 很多人說詞一般,過於空洞虛無,我仔細想了一下 落葉的位置,譜出一首詩 這一句詞 首先,第一感覺就是美,很有意境,但又沒內容,有點空洞虛大。然後再看了一邊MV,有乙個很幼稚的理解,因為JJ在女主身上寫字的時候,時不時有樹葉飄落,所以,按MV的理解是 在樹葉落下的位置,我在你身上寫詩 再一想,...

JavaScript ES6新關鍵詞 let 是否在任何情況下都優於 var

普羅提諾 讀了這篇部落格For and against let 覺著var 和 let都有用,所有地方都用let的話,有種濫用的感覺。比如部落格中提到的 function foo if a 5 console log a 在確實需要函式作用域的情況,我覺得是可以接受的,如functionf else...