java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc
基于Java實現網絡輿情分析系統研究與實現
基于Java實現網絡輿情分析系統研究與實現
摘要:通過對各大門戶網站、論壇和貼吧的留言和評論的爬取,錄入后臺數據庫。用戶可根據主題、內容進行搜索查看。通過利用中科院分詞算法進行實現對爬去下來的內容進行分詞處理,分詞處理后的結果利用自行研究出來的基于權值算法實現的中文情感分析進行評論的傾向性分析,通過對句子結構和主張詞以及情感副詞的判斷來對評論的情感傾向性做出有效地判斷,通過情感權值計算后可給出評論的傾向性以供用戶查閱和進行其他相關工作。
關鍵詞:輿情分析;中科院中文分詞算法;權值算法;情感傾向性;中文情感分析
中圖分類號:TP393.09文獻標識碼:A文章編號:1007-9599 (2012) 06-0000-02
現代網絡社會紛繁復雜,通過各大網站,例如:百度貼吧、天涯論壇等等一些地方可以看到網民對于各種新聞時事的評論和意見。所以網絡中的評論內容是對于抓住民眾輿情傾向的一個寶貴財富。民眾輿情是人民群眾通過表達自己的意見而可以預見未來事務的發展走向。因此,能夠抓住并分析民眾輿情,是可以為解決和分析更多未知社會事件奠定了基礎。
通常情況下,在某個事件發生之后,網民們會通過各種途徑了解事情的來龍去脈,一個短短的貼吧帖子,往往會引來數以千計的留言和評論。在現代信息傳遞水平高度發達的年代,網絡評論內容的情感傾向性:支持、反對或者中立,就能夠體現我國民眾絕大部份比例的態度。總而言之,人民群眾在網絡發表的意見往往是對事件的后續發展與走向起到相當重要的作用,所以能夠提取民眾意見和分析民眾意見來的尤為重用。
因此,選擇爬取網民經常訪問的網站是一個非常有效的獲取民眾輿論的方法。針對百度貼吧、天涯論壇、貓撲論壇的評論爬取是獲取主流民眾熱議事件及其評論的有力之道。而通過分詞水平較為準確的中科院分詞方法,能夠首先對爬取下來的評論進行預處理。再經過中文情感分析的處理之后生成統計數據,為需要輿情分析的客戶提供有效把握民眾輿論走向的信息。
一、輿情搜索系統設計
(一)系統用例設計
當客戶通過登錄此輿情分析與監測系統時,可以擁有通過搜索查閱帖子的權力和生成情感傾向程度圖表的權力。因此,本系統主要實現功能即為:(1)搜索查閱帖子。(2)生成情感傾向程度圖表。而管理員角色的設置是為了調整搜索內容以及管理客戶信息。因為此系統為較敏感的管理工具,因此不能預設客戶注冊功能而只能通過管理員后臺分配用戶名和密碼信息于客戶手中,為了保證信息安全性和系統可靠性。
(二)系統功能模塊設計
本系統主要實現三個功能:內容爬取、帖子搜索和中文情感傾向性分析,而中文分詞部分使用流行且準確性高的中科院中文分詞算法,故此功能不再贅述。由于是大體功能已知的系統設計,故選擇增量式模型進行系統設計和開發,在完成主要核心功能的同時為將來可能增加的功能留有空間和接口,以方便維護和升級。
1.內容爬取模塊設計
內容爬取模塊顧名思義,系統自動對。話題的爬取采用Java開源組件和相關API實現的本地爬蟲,情感分析方面使用基于情感詞典的分析方法,并對特殊句式和特殊詞匯進行處理。采用Struts2+Hibernate框架集成整個系統。
當模擬瀏覽器請求貼吧分類首頁顯示時,可抽取出貼吧主頁鏈接信息,將貼吧主頁鏈接信息和貼吧名可以順序存入后臺數據庫中。然后,將此信息轉入貼吧待處理隊列中,可進行請求貼吧主頁的要求并抽取帖子鏈接及下一頁的鏈接。通過獲得所需要的鏈接信息可輕松與互聯網鏈接并抽取所需要的信息,繼而得到:帖子正文信息、帖子回帖內容、帖子回帖數量以及可能的翻頁鏈接信息。將抓取的有用信息順序存入后臺數據庫中,那么第一步的帖子正文和評論內容爬取工作可告一段落。
2.搜索模塊設計
搜索模塊的功能設計是為用戶服務的,所以功能的設計需要為用戶服務。用戶通過標題檢索,輸入的關鍵詞通過中科院中文分詞處理后進入到數據庫的標題倒排索引表匹配,返回到前臺處理并返回相應的標題ID。因為在先前步驟中已經完成了主題信息及評論內容的抓取功能,所以主要信息已入后臺數據庫中。當查詢成功時,返回詞ID,并將主題內容和評論信息顯示在用戶界面上;當查詢不到主題時,返回失敗信息。
搜索功能的實現主要利用了倒排索引過程實現。倒排索引是利用了現實中需要根據屬性值來查找記錄的要求設計。這種索引表中的每一項都包括一個屬性值和具有該屬性值的其地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。
3.中文情感分析設計
中文情感分析通過對評論內容的預處理,即利用中科院分詞算法分詞之后,與已存在的中文情感詞典匹配,利用預先設定好的權值計算、疊加可計算出中文情感的傾向值 ,
總結
以上是生活随笔為你收集整理的java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从wireshark 抓包中的导出 H.
- 下一篇: 基于 Flink、ClickHouse