高频词提取
高頻詞一般指的是在文章中出現(xiàn)頻率較高的且有意義的一些詞語,一定程度上代表了文檔的焦點(diǎn)所在。所以也可以將其當(dāng)做關(guān)鍵詞。
本文的分詞工具使用了jieba分詞。
首先,引入要用的包并且讀取待處理的文檔數(shù)據(jù):
import glob import random import jieba def get_content(path):with open(path,'r',encoding='gbk',errors='ignore')as f:content=''for l in f:l=l.strip()content+=lreturn content然后定義高頻詞統(tǒng)計(jì)的函數(shù),輸入是一個(gè)詞的數(shù)組。
def get_TF(words,topK=10):tf_dic={}for w in words:tf_dic[w]=tf_dic.get(w,0)+1return sorted(tf_dic.items(),key=lambda x:x[1],reverse=True)[:topK]然后定義讀取停用詞表的函數(shù):
def stopwordslist(filepath):stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]return stopwords主函數(shù):
def main():files=glob.glob('./data/news/C000013/*.txt')#glob.glob匹配所有的符合條件的文件,并將其以list的形式返回corpus=[get_content(x) for x in files]sample_inx=random.randint(0,len(corpus))stopwords=stopwordslist('./data/stop_words.utf8')split_words=[x for x in jieba.cut(corpus[sample_inx]) if x not in stopwords]print('樣本之一:'+corpus[sample_inx])print('樣本分詞效果:'+'/'.join(split_words))print('前十個(gè)高頻詞:'+str(get_TF(split_words)))然后運(yùn)行主函數(shù)main(),得到輸出:
樣本之一:自2006年4月18日起,金象大藥房白塔寺藥店將對(duì)1036個(gè)品種的藥品價(jià)格進(jìn)行下調(diào)。其中西藥405種、中成藥442種和保健品189種。遴選藥品平均降幅為15%~25%,有些品種的降幅達(dá)到了50%以上。此次降價(jià)的品種大部分是治療常見病、多發(fā)病、慢性病的藥品。不僅有國產(chǎn)藥,也包括外資類藥品和合資類藥品。如:同仁堂科技發(fā)展股份生產(chǎn)的感冒清熱顆粒,由原來的每盒14元降為每盒9.8元,降幅30%;中美上海施貴寶制藥有限公司生產(chǎn)的日夜百服嚀,由原來的每盒13.9元降為每盒11元,降幅20.86%;石藥集團(tuán)中諾藥業(yè)生產(chǎn)的復(fù)方降壓片,由原來的每盒5.2元降為每盒3元,降幅42.31%;輝瑞制藥有限公司生產(chǎn)的絡(luò)活喜片,由原來的每盒47.5元,降為每盒40.8元,降幅14.11%;北京大恒倍生制藥廠生產(chǎn)的復(fù)方丹參片,由原來的每盒8.8元降為每盒2元,降幅77.27%;(德國)諾華制藥生產(chǎn)的新山地明,由原來的每盒629.5元降為每盒560元,降幅11.04%。據(jù)北京金象大藥房醫(yī)藥連鎖有限公司董事長介紹,此次藥品降價(jià)是企業(yè)強(qiáng)調(diào)要以保證藥品質(zhì)量、節(jié)約成本降低企業(yè)管理內(nèi)耗的前提下實(shí)施的,是積極探討細(xì)化管理、合理使用藥學(xué)人員、提高工作效率來縮減成本讓利于消費(fèi)者的一種嘗試,是履行企業(yè)“致力藥業(yè),護(hù)佑安康”使命的一種體現(xiàn)。實(shí)事求是地說,這次藥品價(jià)格的調(diào)整降低了藥店的利潤空間,金象也是根據(jù)企業(yè)經(jīng)營的實(shí)際狀況經(jīng)過仔細(xì)斟酌而推出的讓利于民的銷售價(jià)格。通過這一嘗試,金象還將視實(shí)際的情況對(duì)其他門店的藥品價(jià)格進(jìn)行調(diào)整。據(jù)了解,金象與北京市其他幾家本土品牌藥店占據(jù)了六成左右的北京藥品零售市場(chǎng)份額,像這樣大規(guī)模的藥品降價(jià),對(duì)于這類品牌藥店來說來是首次。相關(guān)鏈接:白塔寺藥店:是以經(jīng)營道地中藥飲片、高檔參茸滋補(bǔ)品、以及全國名、特、優(yōu)、新中西藥品和家庭醫(yī)療器械為主的大型綜合藥店,是一家具有135年經(jīng)營歷史的老字號(hào)藥店,曾先后獲得過“消費(fèi)者滿意商店”、“全國文明示范藥店”、“貨真價(jià)實(shí)”品牌體系成員店、“北京市首批優(yōu)秀特色店”、“優(yōu)良藥房”等稱號(hào)。白塔寺藥店秉承金象復(fù)星醫(yī)藥股份有限公司“大眾安康是金象復(fù)星經(jīng)營的園點(diǎn)”的經(jīng)營理念,堅(jiān)持以優(yōu)質(zhì)齊全的品種,專業(yè)化的藥學(xué)服務(wù),舒適的購物環(huán)境為消費(fèi)者提供全方位的服務(wù)。 樣本分詞效果:2006/年/月/18/日起/金象/藥房/白塔寺/藥店/1036/品種/藥品/價(jià)格/進(jìn)行/下調(diào)/西藥/405/種/中成藥/442/種/保健品/189/種/遴選/藥品/平均/降幅/15%/~/25%/品種/降幅/達(dá)到/50%/降價(jià)/品種/大部分/治療/常見病/多發(fā)病/慢性病/藥品/國產(chǎn)/藥/包括/外資/類/藥品/合資/類/藥品/同仁堂/科技/發(fā)展/股份/生產(chǎn)/感冒/清熱/顆粒/原來/每盒/14/元降/每盒/9.8/元/降幅/30%/中/美/上海/施貴寶/制藥/有限公司/生產(chǎn)/日夜/百服/嚀/原來/每盒/13.9/元降/每盒/11/元/降幅/20.86%/石藥集團(tuán)/中諾/藥業(yè)/生產(chǎn)/復(fù)方/降壓片/原來/每盒/5.2/元降/每盒/元/降幅/42.31%/輝瑞/制藥/有限公司/生產(chǎn)/絡(luò)活/喜片/原來/每盒/47.5/元/降/每盒/40.8/元/降幅/14.11%/北京/大恒/倍生/制藥廠/生產(chǎn)/復(fù)方/丹參片/原來/每盒/8.8/元降/每盒/元/降幅/77.27%/德國/諾華/制藥/生產(chǎn)/新/山地/明/原來/每盒/629.5/元降/每盒/560/元/降幅/11.04%/北京/金象/藥房/醫(yī)藥/連鎖/有限公司/董事長/介紹/藥品/降價(jià)/企業(yè)/強(qiáng)調(diào)/保證/藥品/質(zhì)量/節(jié)約/成本/降低/企業(yè)/管理/內(nèi)耗/前提/實(shí)施/積極/探討/細(xì)化/管理/合理/使用/藥學(xué)/人員/提高/工作效率/縮減/成本/利于/消費(fèi)者/一種/嘗試/履行/企業(yè)/致力/藥業(yè)/護(hù)佑/安康/使命/一種/體現(xiàn)/實(shí)事求是/地說/藥品/價(jià)格/調(diào)整/降低/藥店/利潤/空間/金象/企業(yè)/經(jīng)營/實(shí)際/狀況/仔細(xì)/斟酌/推出/利于/民/銷售價(jià)格/這一/嘗試/金象/視/實(shí)際/情況/門店/藥品/價(jià)格/進(jìn)行/調(diào)整/了解/金象/北京市/幾家/本土/品牌/藥店/占據(jù)/六成/左右/北京/藥品/零售/市場(chǎng)份額/大規(guī)模/藥品/降價(jià)/類/品牌/藥店/首次/相關(guān)/鏈接/白塔寺/藥店/經(jīng)營/道/中藥飲片/高檔/參茸/滋補(bǔ)品/全國/名/特/優(yōu)/新/中西/藥品/家庭/醫(yī)療器械/為主/大型/綜合/藥店/一家/具有/135/年/經(jīng)營/歷史/老字號(hào)/藥店/先后/獲得/消費(fèi)者/滿意/商店/全國/文明/示范/藥店/貨真價(jià)實(shí)/品牌/體系/成員/店/北京市/首批/優(yōu)秀/特色店/優(yōu)良/藥房/稱號(hào)/白塔寺/藥店/秉承/金象復(fù)/星/醫(yī)藥/股份/有限公司/大眾/安康/金象復(fù)/星/經(jīng)營/園點(diǎn)/經(jīng)營/理念/堅(jiān)持/優(yōu)質(zhì)/齊全/品種/專業(yè)化/藥學(xué)/服務(wù)/舒適/購物/環(huán)境/消費(fèi)者/提供/全方位/服務(wù) 前十個(gè)高頻詞:[('藥品', 12), ('每盒', 12), ('藥店', 9), ('降幅', 8), ('元', 7), ('生產(chǎn)', 6), ('原來', 6), ('金象', 5), ('經(jīng)營', 5), ('元降', 5)]總結(jié)
- 上一篇: QPI extend
- 下一篇: 装饰模式理解