日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

發(fā)布時(shí)間:2024/7/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 热点事件发现、演化及时间线Timeline、故事线Storyline自动生成 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、熱點(diǎn)事件概述
熱點(diǎn)事件具有不可預(yù)測(cè)性,這決定了熱點(diǎn)事件往往是一個(gè)“事后諸葛亮”的產(chǎn)物,一個(gè)熱點(diǎn)事件從剛開(kāi)始出現(xiàn)之時(shí)并沒(méi)有帶有成為熱點(diǎn)的性質(zhì),當(dāng)然,重大事故或者突發(fā)事件(如總統(tǒng)被殺、日本地震、印尼海嘯、巴黎圣母院火災(zāi))等除外,不平凡的2019年發(fā)生的一些列重大事件都先后成為國(guó)內(nèi)和國(guó)際社會(huì)所關(guān)注的熱點(diǎn)。究其本質(zhì)而言,是因?yàn)檫@些事件本身就存在著高度傳播性和敏感性,往往伴隨著災(zāi)難性的后果,并且這種特性是一定的,只要發(fā)生了,就會(huì)成為焦點(diǎn)。別的熱點(diǎn)則不會(huì)這個(gè)樣子,過(guò)去一個(gè)非突發(fā)性事件發(fā)生了,到了后面發(fā)生了,則不一定會(huì)成為熱點(diǎn),因?yàn)楫?dāng)時(shí)的客觀和主觀條件因素都已經(jīng)截然不同。因此,對(duì)弈常規(guī)熱點(diǎn)而言,是無(wú)法進(jìn)行提前預(yù)測(cè)的。

二、熱點(diǎn)事件的挖掘可行性
最近,有個(gè)公司有個(gè)項(xiàng)目想讓我提提建議,大致的任務(wù)是:能不能提前發(fā)現(xiàn)熱點(diǎn),并且做熱點(diǎn)的演化分析。作為實(shí)驗(yàn),給了我三天的全網(wǎng)資訊,每天大約10萬(wàn)篇新聞,根據(jù)標(biāo)題去重后大約是每天5萬(wàn)左右的資訊。周末之余,對(duì)這三天的資訊進(jìn)行了實(shí)驗(yàn),大致技術(shù)路線:
1)、熱點(diǎn)發(fā)現(xiàn)
1、對(duì)三日文本進(jìn)行分詞、去停用詞等預(yù)處理,使用lda主題模型進(jìn)行主題建模,形成領(lǐng)域主題模型。
2、基于領(lǐng)域主題模型,對(duì)文本進(jìn)行稠密向量表示,設(shè)定相似度閾值,計(jì)算文本之間的相似度,并構(gòu)建相似度無(wú)向圖,使用single-pass聚類算法,形成文本類簇,將三日共23萬(wàn)文本聚類成6萬(wàn)余個(gè)類簇,稱為熱點(diǎn)。
3、根據(jù)熱點(diǎn)類簇結(jié)果,對(duì)三日文本進(jìn)行文本類標(biāo)引。根據(jù)每日的文本,計(jì)算每個(gè)熱點(diǎn)的熱度。熱度計(jì)算值為熱點(diǎn)簇大小/當(dāng)日新聞總數(shù)。
4、根據(jù)熱點(diǎn)類簇的熱度結(jié)果,進(jìn)行高低值排序,確定top20為每日熱點(diǎn)
5、根據(jù)每日top20熱點(diǎn),分別選擇其熱點(diǎn)類簇中心代表文章,并提取該類簇文章關(guān)鍵詞作為熱點(diǎn)標(biāo)簽。

2)、每日熱點(diǎn)演變
1、每日熱點(diǎn)演變:包括熱度值的演變和熱點(diǎn)標(biāo)簽的演變,熱度值的演變可根據(jù)熱點(diǎn)在每日的熱度走勢(shì)進(jìn)行判定。熱點(diǎn)標(biāo)簽演變可以根據(jù)每日熱點(diǎn)的關(guān)鍵詞進(jìn)行展示。
2019年3月26日熱點(diǎn)

2019年3月27日熱點(diǎn)

2019年3月28日熱點(diǎn)

三日熱點(diǎn)內(nèi)容演變

三日熱點(diǎn)熱度變化

3)、單一熱點(diǎn)事件演變:
1、對(duì)得到的某一熱點(diǎn)事件,獲取其所有文本,使用lda模型進(jìn)行動(dòng)態(tài)主題建模。
2、使用困惑度計(jì)算主題,選擇最佳主題數(shù),并進(jìn)行主題聚類,得到k個(gè)主題以及對(duì)應(yīng)的主題關(guān)鍵詞。
3、根據(jù)得到的主題模型,對(duì)熱點(diǎn)事件的文本進(jìn)行主題標(biāo)引,從而獲取該熱點(diǎn)的主題分布情況。
4、單一事件熱點(diǎn)事件演變,根據(jù)熱點(diǎn)每日的主題分布情況進(jìn)行演化展示。

埃塞爾比亞737航空事故動(dòng)態(tài)主題演變

滴滴網(wǎng)約車遇害事件

三、熱點(diǎn)事件的挖掘方法
四、熱點(diǎn)事件演化分析
五、熱點(diǎn)事件的時(shí)間線timeline及故事線Storyline生成
六、總結(jié)

總結(jié)

以上是生活随笔為你收集整理的热点事件发现、演化及时间线Timeline、故事线Storyline自动生成的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。