日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新闻事件报道重要性判定项目

發(fā)布時間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 新闻事件报道重要性判定项目 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

EventLine

項目地址:https://github.com/liuhuanyong/ImportantEventExtracto
An exploration for Eventline (important news Rank organized by pulic time),針對某一事件話題下的新聞報道集合,通過使用docrank算法,對新聞報道進行重要性識別,并通過新聞報道時間挑選出時間線上重要新聞。

項目介紹

目前,網(wǎng)絡上針對某一特定熱門事件會產(chǎn)生大量的報道,這些報道會隨著該事件的發(fā)展而發(fā)生內(nèi)容上的變化,這個具體表現(xiàn)在時間軸上對應新聞的差異性。因此,這就產(chǎn)生了關(guān)于特定事件報道的三個問題:
1、同質(zhì)的新聞報道有很多,如何對浩如煙海的新聞報道進行代表性新聞抽取
2、如何檢測這種內(nèi)容上的變化,如何表示這種內(nèi)容,這個涉及到內(nèi)容的表示問題
3、如何對這種變化的內(nèi)容進行有效組織和表示
本項目將對這三個問題進行嘗試探索

項目構(gòu)成

1、輸入:關(guān)于一個特定事件的文本集合,關(guān)于文本集合的采集,可以參照https://github.com/liuhuanyong/EventMonitor 中特定事件文本語料庫的構(gòu)建
2、中間模型:融合文章用詞特征的DOC-RANK文本重要性排序模型
3、輸出:1)important_doc:根據(jù)重要性值大小排序的新聞報道結(jié)果。
2)timelines:以新聞報道發(fā)布時間為時間軸的關(guān)鍵新聞報道集合
其中關(guān)于輸出:
1)important_doc:從相關(guān)性的角度解決了第一個問題
2)timelines:提供了問題3的一個基本解決方法(還相對較low)

實驗

1、輸入:以’中興事件’為例,共采集到562篇新聞,舉例如下:

''' 2018-05-11 08:50@聯(lián)發(fā)科:目前沒有發(fā)布不能向中興出售芯片的相關(guān)聲明.txt 2018-04-28 07:57:47@中興通信發(fā)布一季報:如無制裁成績本應如此亮眼.txt 2018-05-24 08:08:37@高管調(diào)整、巨額罰款,中興解決方案代價不菲.txt 2018-04-18 09:02:01@受傷害的不止中興,還有美國芯片廠!直刺中國集成電路的脆弱內(nèi)“芯”.txt 2018-05-26 08:08:16@中興小鮮4手機(金屬機身香檳金指紋)京東556元(贈品).txt 2018-05-14 10:41@中興事件戲劇性轉(zhuǎn)折這三個信號意味深長.txt '''

2、中間模型:

算法步驟: 1)新聞報道文本分詞,去除停用詞,并統(tǒng)計文本詞頻,設定文本最頻繁詞頻閾值。 2)基于共詞算法,計算新聞報道之間的相關(guān)性。相關(guān)性的方法如下: '''計算文章之間的相關(guān)性''' def calculate_weight(self, word_dict1, word_dict2):score = 0interwords = set(list(word_dict1.keys())).intersection(set(list(word_dict2.keys())))for word in interwords:score += round(math.tanh(word_dict1.get(word)/word_dict2.get(word)))return score 3)將2)得到的結(jié)果,結(jié)合textrank算法,以新聞報道為一個graph中的一個節(jié)點,通過迭代至收斂,最終得到一個穩(wěn)定的節(jié)點權(quán)重。 4)對3)得到的結(jié)果,按照權(quán)重值(對應新聞報道的重要性)由大到小排序,輸出至important_doc.txt中 5)對3)得到的結(jié)果,通過對同一日期下的新聞報道重要性進行排序,輸出至timelines.txt中

3、輸出important_doc舉例

以下是對562篇中興事件新聞報道中重要性值TOP10

'''2018-04-29 09:47:00@中興一石激千浪中國公司擔憂的還有另一個“定時炸彈”.txt 1.0 2018-04-21 12:32@10分鐘的新聞發(fā)布會,中興透露出一件大事情.txt 0.9930902016486721 2018-04-23 15:38:30@青年力:由中興開始的2018中美芯片戰(zhàn).txt 0.9866428387088916 2018-04-18 10:43:54@中興遭美國制裁,芯片這道門檻必須要跨過去.txt 0.844683540929596 2018-04-18 @探究中興遭禁售令究竟該如何“拆招”?.txt 0.8196911028266617 2018-04-18 07:41:53@數(shù)十類別受波及,中興遭禁售令.txt 0.8177922162226666 2018-04-19 09:09@中興渡劫:滅頂之災與吃力不討好的芯片行業(yè).txt 0.8133495070021921 2018-04-17 10:09@一文讀懂中興遭遇“禁售令”:臺灣聯(lián)發(fā)科也被卷入.txt 0.7833879219280031 2018-04-17 21:43:54@中興被禁,華為、海康告急!中美貿(mào)易戰(zhàn)直刺中國“缺芯”軟肋.txt 0.7696595419937585 2018-04-18 23:38:27@中興被禁后的“自救與他救”.txt 0.7531341115076232 '''

4、輸出的timeline舉例

從標題上來看,中興事件共經(jīng)歷制裁->轉(zhuǎn)機->解除反思三個階段,具體如下:

…中興遭到美國制裁…

'''20160406 2016-04-06 12:44:20@中興換帥風波背后,美國:怪我咯.txt 0.5503254129214843 20180417 2018-04-17 10:09@一文讀懂中興遭遇“禁售令”:臺灣聯(lián)發(fā)科也被卷入.txt 0.7833879219280031 20180418 2018-04-18 10:43:54@中興遭美國制裁,芯片這道門檻必須要跨過去.txt 0.844683540929596 20180419 2018-04-19 09:09@中興渡劫:滅頂之災與吃力不討好的芯片行業(yè).txt 0.8133495070021921 20180420 2018-04-20 15:28@中興被制裁:前歐美市場員工的一些理解和認識.txt 0.6831555731401355 '''

…中興遭到美國制裁事件出現(xiàn)轉(zhuǎn)機…

'''20180514 2018-05-14 07:54@中美大國利益博弈:中興被美制裁或現(xiàn)重大轉(zhuǎn)機!.txt 0.6903169641746736 20180515 2018-05-15 09:52:30@中興事件迎戲劇性轉(zhuǎn)折特朗普放過中興的背后有什么條件.txt 0.6593342519411062 20180516 2018-05-16 18:20@鳳凰涅中興中長期價值將被重估.txt 0.7504873311728248 20180517 2018-05-17 17:30@再談:中興事件的受益方和受害者們.txt 0.6626479492925067 20180518 2018-05-18 15:16:17@中興事件或遇轉(zhuǎn)機,專家提示:"缺芯"問題仍需警惕!.txt 0.6293746010076395 '''

…中興事件解決的討論與反思…

'''20180524 2018-05-24 18:26@禁令解除脈絡日漸清晰中興回歸或有所期.txt 0.6831951907962789 20180525 2018-05-25 14:57@要如何才能真正“拯救”中興?.txt 0.65721685858832 20180526 2018-05-26 19:47:02@【金焱看美國】中興和解,特朗普圍堵中國的勝算和敗算.txt 0.6926229637369306 20180528 2018-05-28 16:45@中美貿(mào)易戰(zhàn)“停火”,但中興真的可以涅槃重生嗎?.txt 0.5194249388979124 '''

總結(jié)及下一步的工作:

1、本項目中的文本重要性算法只是一個角度,關(guān)于重要性的評估還可以有其他方法。
2、從輸出的timeline來看,能粗略地看到一個結(jié)果,但如何能夠真正快速的發(fā)現(xiàn),實際上還有的做。
3、重點解決項目所述的第二個問題

項目地址:https://github.com/liuhuanyong/ImportantEventExtracto
If any question about the project or me ,see https://liuhuanyong.github.io/

總結(jié)

以上是生活随笔為你收集整理的新闻事件报道重要性判定项目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。