基于Python爬虫和K-means算法的校园微博热点话题发现系统
微博由于其“短平快”的信息生產(chǎn)能力和快速傳播能力,已經(jīng)廣泛流行于高校學(xué)生的日常生活中。但微博上的負(fù)面輿情信息給社會、學(xué)校和個(gè)人帶來巨大的危害。由于微博的多而快特點(diǎn),無法依賴人工對相關(guān)信息進(jìn)行收集、篩選和發(fā)掘熱點(diǎn)話題。因此研究并開發(fā)校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng),對高校輿情工作有重要的意義。
本文從微博獨(dú)有的短文本特征及國內(nèi)外相關(guān)微博研究出發(fā),通過對校園微博進(jìn)行分類處理后使用K-means聚類算法對校園微博短文本聚類,并改進(jìn)熱度計(jì)算公式,通過話題熱度提取校園微博熱點(diǎn)話題,實(shí)現(xiàn)對校園微博熱點(diǎn)話題的監(jiān)控。本文通過幾個(gè)模塊設(shè)計(jì)并實(shí)現(xiàn)了校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng),包括微博數(shù)據(jù)爬取模塊、微博數(shù)據(jù)預(yù)處理模塊、微博熱點(diǎn)話題分析模塊、微博熱點(diǎn)話題展示模塊等模塊。最后以廣州中醫(yī)藥大學(xué)的生活類微博—廣中醫(yī)I棟為研究對象,對校園微博各模塊功能及相關(guān)技術(shù)進(jìn)行介紹,并對相關(guān)模塊進(jìn)行測試驗(yàn)證,分析校園微博熱點(diǎn)話題特點(diǎn),總結(jié)系統(tǒng)的優(yōu)點(diǎn)和不足,提出下一步改進(jìn)的設(shè)想。
關(guān)鍵詞:校園微博K-means熱點(diǎn)話題
ABSTRACT
ABSTRACT
Becauseofits"shortandfast"informationproductioncapabilityandrapiddisseminationcapability,MicroBloghasbecomewidelypopularinthedailylifeofcollegestudentsHowever,thenegativepublicsentimentinformationonmicrobloghasbroughtgreatharmtosociety,schoolsandindividualsDuetothemultipleandfastcharacteristicsofmicroblog,itisimpossibletorelyonmanualcollectionofrelevantinformationtoscreenandexplorehottopicsTherefore,researchinganddevelopinghotspotdiscoverysystemoncampusmicroblogsisofgreatsignificancetothepublicopinionworkincollegesanduniversities
ThisarticlestartswiththeuniqueshorttextfeatureofmicroblogandrelatedmicroblogstudiesathomeandabroadAfterclassifyingcampusmicroblogs,weuseK-meansclusteringalgorithmtoclustershorttextsoncampusmicroblogsandimproveheatcalculationformulasThroughthehottopicofcampusmicrobloghottopicextraction,toachievethemonitoringofcampusmicroblogginghottopicsThispaperdesignsandimplementsacampusmicrobloghottopicdiscoverysystemthroughseveralmodules,includingmicroblogdatacrawlingmodule,microblogdatapreprocessingmodule,microbloghottopicanalysismodule,andmicrobloghottopicdisplaymoduleTheUniversityofMedicine'sLifeMicroblog–GuangzhongyiIdongisthesubjectofthestudyItintroducesthefunctionsandrelatedtechnologiesofthecampusmicroblogmodules,testsandverifiestherelevantmodules,analyzesthecharacteristicsofthecampusmicroblogginghottopics,andsummarizestheadvantagesanddisadvantagesofthesystemPutforwardtheideaoffurtherimprovement
Keyword:CampusMicro-BlogK-meansHottopicdetection
?
?
目錄
摘要I
ABSTRACTIII
第1章緒論1
11國內(nèi)外研究現(xiàn)狀與意義1
12本文創(chuàng)新點(diǎn)2
13論文寫作思路2
第2章相關(guān)技術(shù)介紹5
21網(wǎng)絡(luò)爬蟲技術(shù)5
22中文分詞技術(shù)5
23特征選擇及權(quán)重計(jì)算6
231特征選擇6
232特征權(quán)重計(jì)算7
24文本表示8
241布爾模型8
242概率模型9
243向量空間模型9
25文本聚類算法9
251距離算法10
252K-means聚類算法10
253二分K-means聚類算法11
第3章校園微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)13
31系統(tǒng)設(shè)計(jì)目標(biāo)及要求13
311系統(tǒng)設(shè)計(jì)目標(biāo)13
312系統(tǒng)設(shè)計(jì)要求14
32系統(tǒng)詳細(xì)架構(gòu)設(shè)計(jì)14
33系統(tǒng)功能模塊設(shè)計(jì)與實(shí)現(xiàn)15
331微博數(shù)據(jù)獲取模塊15
332微博文本預(yù)處理模塊18
332校園微博熱點(diǎn)話題發(fā)現(xiàn)模塊21
?
?
?
第4章系統(tǒng)功能測試25
41系統(tǒng)運(yùn)行環(huán)境和參數(shù)25
42實(shí)驗(yàn)數(shù)據(jù)及處理25
43系統(tǒng)可視化界面27
431數(shù)據(jù)獲取界面27
432熱點(diǎn)話題排行榜27
433熱點(diǎn)話題熱度直方圖28
434敏感詞展示28
總結(jié)與展望31
參考文獻(xiàn)33
致謝35
附錄37
總結(jié)
以上是生活随笔為你收集整理的基于Python爬虫和K-means算法的校园微博热点话题发现系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 奥运礼品“买即送”
- 下一篇: java信息管理系统总结_java实现科