热点事件发现、演化及时间线Timeline、故事线Storyline自动生成
一、熱點(diǎn)事件概述
熱點(diǎn)事件具有不可預(yù)測(cè)性,這決定了熱點(diǎn)事件往往是一個(gè)“事后諸葛亮”的產(chǎn)物,一個(gè)熱點(diǎn)事件從剛開(kāi)始出現(xiàn)之時(shí)并沒(méi)有帶有成為熱點(diǎn)的性質(zhì),當(dāng)然,重大事故或者突發(fā)事件(如總統(tǒng)被殺、日本地震、印尼海嘯、巴黎圣母院火災(zāi))等除外,不平凡的2019年發(fā)生的一些列重大事件都先后成為國(guó)內(nèi)和國(guó)際社會(huì)所關(guān)注的熱點(diǎn)。究其本質(zhì)而言,是因?yàn)檫@些事件本身就存在著高度傳播性和敏感性,往往伴隨著災(zāi)難性的后果,并且這種特性是一定的,只要發(fā)生了,就會(huì)成為焦點(diǎn)。別的熱點(diǎn)則不會(huì)這個(gè)樣子,過(guò)去一個(gè)非突發(fā)性事件發(fā)生了,到了后面發(fā)生了,則不一定會(huì)成為熱點(diǎn),因?yàn)楫?dāng)時(shí)的客觀和主觀條件因素都已經(jīng)截然不同。因此,對(duì)弈常規(guī)熱點(diǎn)而言,是無(wú)法進(jìn)行提前預(yù)測(cè)的。
二、熱點(diǎn)事件的挖掘可行性
最近,有個(gè)公司有個(gè)項(xiàng)目想讓我提提建議,大致的任務(wù)是:能不能提前發(fā)現(xiàn)熱點(diǎn),并且做熱點(diǎn)的演化分析。作為實(shí)驗(yàn),給了我三天的全網(wǎng)資訊,每天大約10萬(wàn)篇新聞,根據(jù)標(biāo)題去重后大約是每天5萬(wàn)左右的資訊。周末之余,對(duì)這三天的資訊進(jìn)行了實(shí)驗(yàn),大致技術(shù)路線:
1)、熱點(diǎn)發(fā)現(xiàn)
1、對(duì)三日文本進(jìn)行分詞、去停用詞等預(yù)處理,使用lda主題模型進(jìn)行主題建模,形成領(lǐng)域主題模型。
2、基于領(lǐng)域主題模型,對(duì)文本進(jìn)行稠密向量表示,設(shè)定相似度閾值,計(jì)算文本之間的相似度,并構(gòu)建相似度無(wú)向圖,使用single-pass聚類算法,形成文本類簇,將三日共23萬(wàn)文本聚類成6萬(wàn)余個(gè)類簇,稱為熱點(diǎn)。
3、根據(jù)熱點(diǎn)類簇結(jié)果,對(duì)三日文本進(jìn)行文本類標(biāo)引。根據(jù)每日的文本,計(jì)算每個(gè)熱點(diǎn)的熱度。熱度計(jì)算值為熱點(diǎn)簇大小/當(dāng)日新聞總數(shù)。
4、根據(jù)熱點(diǎn)類簇的熱度結(jié)果,進(jìn)行高低值排序,確定top20為每日熱點(diǎn)
5、根據(jù)每日top20熱點(diǎn),分別選擇其熱點(diǎn)類簇中心代表文章,并提取該類簇文章關(guān)鍵詞作為熱點(diǎn)標(biāo)簽。
2)、每日熱點(diǎn)演變
1、每日熱點(diǎn)演變:包括熱度值的演變和熱點(diǎn)標(biāo)簽的演變,熱度值的演變可根據(jù)熱點(diǎn)在每日的熱度走勢(shì)進(jìn)行判定。熱點(diǎn)標(biāo)簽演變可以根據(jù)每日熱點(diǎn)的關(guān)鍵詞進(jìn)行展示。
2019年3月26日熱點(diǎn)
2019年3月27日熱點(diǎn)
2019年3月28日熱點(diǎn)
三日熱點(diǎn)內(nèi)容演變
三日熱點(diǎn)熱度變化
3)、單一熱點(diǎn)事件演變:
1、對(duì)得到的某一熱點(diǎn)事件,獲取其所有文本,使用lda模型進(jìn)行動(dòng)態(tài)主題建模。
2、使用困惑度計(jì)算主題,選擇最佳主題數(shù),并進(jìn)行主題聚類,得到k個(gè)主題以及對(duì)應(yīng)的主題關(guān)鍵詞。
3、根據(jù)得到的主題模型,對(duì)熱點(diǎn)事件的文本進(jìn)行主題標(biāo)引,從而獲取該熱點(diǎn)的主題分布情況。
4、單一事件熱點(diǎn)事件演變,根據(jù)熱點(diǎn)每日的主題分布情況進(jìn)行演化展示。
埃塞爾比亞737航空事故動(dòng)態(tài)主題演變
滴滴網(wǎng)約車遇害事件
三、熱點(diǎn)事件的挖掘方法
四、熱點(diǎn)事件演化分析
五、熱點(diǎn)事件的時(shí)間線timeline及故事線Storyline生成
六、總結(jié)
總結(jié)
以上是生活随笔為你收集整理的热点事件发现、演化及时间线Timeline、故事线Storyline自动生成的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Eureka 简介和使用
- 下一篇: 由Actvity启动模式之SingleI