日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

读完这些论文和代码,你就能在搜狐算法大赛中获得好成绩了

發(fā)布時(shí)間:2024/10/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 读完这些论文和代码,你就能在搜狐算法大赛中获得好成绩了 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?


組織方:搜狐、清華大學(xué)?

獎(jiǎng)金:¥75000?

初賽提交時(shí)間:2019年4月8日?–?2019年5月10日?


2019?年?4?月?8?日,第三屆搜狐校園算法大賽正式開賽,同期面向參賽選手開放競(jìng)賽結(jié)果提交。本次比賽聯(lián)合了清華大學(xué)等機(jī)構(gòu)共同組織,面向全球范圍內(nèi)的全日制學(xué)生。


本次比賽的主題是提取文章主題,并判斷文章對(duì)主題的情緒。我們生活在一個(gè)信息爆炸的世界,每天能接觸到不同的新聞文章,體裁也多種多樣,包括新聞快訊、廣告軟文、深度分析、事件評(píng)論,以及重要人物采訪等等。每天新產(chǎn)生的信息量已經(jīng)極大地超過(guò)了讀者能夠接受的極限。所以,如果有一種機(jī)器模型,可以自動(dòng)提取出文章的主題,并且判斷出文章對(duì)這些主題內(nèi)容的情感傾向,就可以極大地提高閱讀和消化信息的效率。


參賽方式:點(diǎn)擊閱讀原文直達(dá)賽事頁(yè)面。


注:因涉及到數(shù)據(jù)下載,強(qiáng)烈建議大家登錄?PC?頁(yè)面報(bào)名參加。


大賽頁(yè)面地址:

https://biendata.com/competition/sohu2019/


競(jìng)賽任務(wù)


具體來(lái)說(shuō),參賽選手需要根據(jù)給定的文章,提取出文章中最重要的三個(gè)主題(也就是實(shí)體)。所謂實(shí)體,意思是人、物、地區(qū)、機(jī)構(gòu)、團(tuán)體、企業(yè)、行業(yè)等事物。和一般的實(shí)體抽取競(jìng)賽任務(wù)不同的是,本次比賽還要求選手判斷文章對(duì)主題實(shí)體的情感傾向(包括積極、中立和消極三種情緒)。如下圖:



任務(wù)分析


本次比賽可以分成相對(duì)獨(dú)立的兩個(gè)任務(wù):從文章中提取最重要的實(shí)體,然后判斷文章對(duì)這些實(shí)體的情緒。?


第一個(gè)任務(wù)是提取文章中重要的實(shí)體。這個(gè)任務(wù)類似常見的命名實(shí)體識(shí)別(NER)任務(wù)。傳統(tǒng)上來(lái)說(shuō),NER?任務(wù)主要抽取?7?大類實(shí)體,包括人名、機(jī)構(gòu)、地名、時(shí)間、日期、貨幣和百分比。


目前,已經(jīng)有很多關(guān)于命名實(shí)體(NER)的研究和分享出現(xiàn)。在斯坦福大學(xué)著名的課程?CS224d:?Deep?Learning?for?Natural?Language?Processing?中,有一次大作業(yè)就是用深度神經(jīng)網(wǎng)絡(luò)提取命名實(shí)體。也有很多人已經(jīng)自愿分享了這次作業(yè)的模型方法和代碼。


作業(yè)任務(wù)鏈接:?

http://cs224d.stanford.edu/assignment2/index.html?


CS224d?作業(yè)代碼分享:


《用深度神經(jīng)網(wǎng)絡(luò)處理NER命名實(shí)體識(shí)別問(wèn)題》?

http://cloud.tencent.com/developer/article/1081991?


本次大賽的發(fā)起人之一,搜狐科學(xué)家、搜狐智能媒體研發(fā)中心負(fù)責(zé)人楊田也推薦了一篇詳細(xì)的命名實(shí)體綜述論文?A?Survey?on?Recent?Advances?in?Named?Entity?Recognition?from?Deep?Learning?models



論文鏈接:

https://aclweb.org/anthology/C18-1182


不過(guò),本次比賽的難度比傳統(tǒng)的?NER?要大。比賽的最大特點(diǎn)就是實(shí)戰(zhàn)與應(yīng)用。行百里者半九十,在學(xué)術(shù)成果的基礎(chǔ)上,精度每向應(yīng)用提高一點(diǎn),難度就數(shù)倍增加,因此比賽的挑戰(zhàn)性非常大。


比賽的實(shí)體不僅僅包括人名,地名和機(jī)構(gòu)名的識(shí)別,粒度更細(xì),種類也更多。在比賽前期發(fā)布的樣本數(shù)據(jù)中,實(shí)體的例子包括:眾要機(jī)械?APP、衛(wèi)生監(jiān)督站、媒介、豬瘟、互聯(lián)網(wǎng)、表帶等內(nèi)容。這也是目前實(shí)體抽取技術(shù)面對(duì)的難點(diǎn)。


隨著互聯(lián)網(wǎng)的快速發(fā)展,信息越來(lái)越豐富,呈現(xiàn)出多源、異構(gòu)、海量的特點(diǎn),也對(duì)信息抽取技術(shù)提出了新的要求。很多時(shí)候,我們要抽取的并不是一般的實(shí)體,而是全新種類的實(shí)體。目前,越來(lái)越多的人開始研究實(shí)體擴(kuò)展技術(shù),目的是抽取開放類別的實(shí)體。?


一種很自然的想法是把語(yǔ)料中所有的名詞都作為實(shí)體備選,然后計(jì)算它們與訓(xùn)練集中種子實(shí)體的相似度,找出相似實(shí)體。這一思路主要由?Pantel?等人實(shí)踐,相關(guān)研究記錄在?Web-Scale?Distributional?Similarity?and?Entity?Set?Expansion?一文中。



在提取出實(shí)體后,我們還需要判斷文章對(duì)實(shí)體的情緒。情感分析也是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要方向。有大量相關(guān)研究可以參考。早期的研究根據(jù)構(gòu)建好的情感詞庫(kù)進(jìn)行判斷。


情感詞庫(kù)有很多選擇,例如著名的知網(wǎng)?HowNet?就提供了“《知網(wǎng)》情感分析用詞語(yǔ)集”公開下載。在考慮情感詞庫(kù)時(shí),還需要往前追溯?1-2?個(gè)詞,看看有沒(méi)有“不”、“沒(méi)有”等否定詞。


這種方法需要人工構(gòu)建情感詞庫(kù),但沒(méi)有一個(gè)情感詞庫(kù)可以適用所有應(yīng)用場(chǎng)景,所以高度依賴人的經(jīng)驗(yàn)。此外,這種方法也很難完整地考慮到上下文的語(yǔ)義信息。不過(guò),如果剛剛上手情感分析,可以嘗試這種方法。以下鏈接是一篇基于情感詞典的文本情感分析代碼:?


http://www.aidnoob.com/ai/python/qinggan1/


此后,還出現(xiàn)了基于特征的情感分析方法。這種方法主要利用統(tǒng)計(jì)學(xué)領(lǐng)域的知識(shí),從語(yǔ)料中選取特征對(duì)文本進(jìn)行表示,然后用決策樹、SVM?等方法對(duì)情緒進(jìn)行分類。這種方法仍然高度依賴經(jīng)驗(yàn)和特征的選擇。相關(guān)研究有很多,比較詳細(xì)的案例介紹來(lái)自清華大學(xué)計(jì)算機(jī)系謝麗星在孫茂松教授指導(dǎo)下的碩士論文《基于 SVM?的中文微博情感分析的研究》


論文鏈接:

http://nlp.csai.tsinghua.edu.cn/site/images/file/2011_xlx_master_thesis.pdf


論文主要使用?SVM?的方法,分別從微博和?Twitter?預(yù)料中抽取了主題相關(guān)特征(如是否包含主題詞、句子中是否缺乏名詞性短語(yǔ)或者代詞等)和主題無(wú)關(guān)特征(是否有?url?鏈接、是否有表情、是否有情感詞和情感短語(yǔ)、形容詞和動(dòng)詞的個(gè)數(shù)等),在使用主題無(wú)關(guān)特征時(shí)獲得的最高準(zhǔn)確率為?66.467%,使用主題相關(guān)的特征對(duì)情感分類后獲得的最高準(zhǔn)確率為?67.283%。


目前主要的情感分析方法大多基于深度學(xué)習(xí),首先對(duì)詞語(yǔ)、句子和篇章進(jìn)行向量化表示,然后學(xué)習(xí)文本的深層語(yǔ)義信息。這種方法可以自動(dòng)學(xué)習(xí)特征,不需要人工進(jìn)行特征選擇和規(guī)則制定。很多情感分析研究使用?NLP?常見的?RNN,加上?LSTM?和注意力機(jī)制保證語(yǔ)義的完整性。


例如,騰訊的徐漢彬和宋彥就曾經(jīng)分享了?Keras?代碼實(shí)現(xiàn)對(duì)?40?多萬(wàn)條真實(shí)的鵝漫用戶評(píng)論數(shù)據(jù)的情感分類。他們的代碼通過(guò)?Keras?實(shí)現(xiàn),底層框架是?Google?開源的?TensorFlow,詞向量采用騰訊人工智能實(shí)驗(yàn)室開源的詞向量。


整個(gè)模型包含?6?層,核心層包括?Embedding?輸入層、中間層(LSTM)、輸出層(Softmax)。模型中的?Flatten?和?Dense?層用于做數(shù)據(jù)維度變換,將上一層輸出數(shù)據(jù)變換為相應(yīng)的輸出格式,最終的輸出是一個(gè)二維數(shù)組,用于表達(dá)輸入文本是正面或者負(fù)面的概率分布。


基于LSTM的情感識(shí)別在鵝漫評(píng)論分析中的實(shí)踐與應(yīng)用:

https://www.infoq.cn/article/zJI*5CGPeRKqHsHJV3OQ


很多論文和公開代碼主要針對(duì)文檔級(jí)別的情感分析。但是在本次比賽中,需要更加細(xì)致的分析,因?yàn)橐黄恼吕锟赡軐?duì)不同的實(shí)體有不同的情緒。我們?cè)诒荣惽捌诮o的數(shù)據(jù)樣本里,已經(jīng)能看到類似的情況。例如以下這篇文章:


{?"content":?"華為宣布:起訴美國(guó)政府。?新聞越短,信息越大。?就在上午10時(shí),華為在深圳總部舉行外媒記者會(huì),宣布一項(xiàng)重要決定:起訴美國(guó)政府。?北京時(shí)間10時(shí),在外媒記者會(huì)上,華為輪值董事長(zhǎng)郭平宣布,華為已向美國(guó)聯(lián)邦法院提起訴訟,指控美國(guó)2019年國(guó)防授權(quán)法第889條款違反美國(guó)憲法。?在郭平的表述中,美國(guó)政府一直污蔑華為是威脅,還攻擊華為的服務(wù)器,竊取郵件和源代碼,而且從來(lái)沒(méi)有提供任何證據(jù)支撐其關(guān)于華為是網(wǎng)絡(luò)安全威脅的指控。?而且,美國(guó)竭力詆毀華為、影響公眾輿論。更糟糕的是,美國(guó)政府試圖阻止華為參與其他國(guó)家的5G網(wǎng)絡(luò)建設(shè)。?而采取法律行動(dòng)是華為不得已而為之的最后選擇,也是受盡壓迫之后的奮力反抗。?為什么華為這么有底氣去起訴美國(guó)政府,除了華為過(guò)硬的技術(shù)、品牌的成績(jī)之外,這更離不開一個(gè)人——任正非,華為的創(chuàng)始人。}


這里,人類標(biāo)注員就判斷文章對(duì)實(shí)體“華為”的情緒為正,對(duì)實(shí)體“美國(guó)政府”的情緒為負(fù)。事實(shí)上我們讀完這段文本后很可能也確實(shí)同意這一標(biāo)注判斷。在這種情況下,我們就不能只對(duì)文檔級(jí)別的內(nèi)容做情感分析,還需要對(duì)粒度更細(xì)的內(nèi)容做分析。?


對(duì)此,我們可以參考更前沿的研究論文。2016?年,清華大學(xué)朱小燕和黃民烈在?EMNLP?上發(fā)表了一篇情感粒度更細(xì)的論文?Attention-based?LSTM?forAspect-level?Sentiment?Classification



這篇論文提出了一種基于注意力機(jī)制(Attention?Mechanism)的神經(jīng)網(wǎng)絡(luò)模型,使用注意力機(jī)制注意到文本中對(duì)給出的?aspect?最重要的部分,從而更充分地考慮文本對(duì)應(yīng)的?aspect?信息,提高細(xì)粒度情感分類任務(wù)的性能。?


根據(jù)這篇論文提出的改進(jìn),可以識(shí)別很多之前的模型無(wú)法識(shí)別的細(xì)粒度情感。例如,“The?appetizer?are?ok,?but?the?service?is?slow”這句話里出現(xiàn)了兩個(gè)實(shí)體(或者說(shuō)?aspect)。food?對(duì)應(yīng)的是中性,service?對(duì)應(yīng)的是負(fù)面。


最后,搜狐官方也給所有參賽者提供了比賽的?baseline?供大家參考:


https://github.com/sohucampus2019/coreEntityEmotion_baseline

?


現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧



關(guān)于PaperWeekly


PaperWeekly?是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事?AI?領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入?PaperWeekly?的交流群里。


▽ 點(diǎn)擊 |?閱讀原文?| 報(bào)名參賽

總結(jié)

以上是生活随笔為你收集整理的读完这些论文和代码,你就能在搜狐算法大赛中获得好成绩了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 中文字幕第二页 | 欧美三级不卡 | 久久一区二区三区视频 | 中文字幕在线观看的网站 | 欧美我不卡| 草草草在线视频 | 美女色av| 偷自拍| 色网在线视频 | 亚洲欧洲一区 | 亚洲20p | 一本大道一区二区 | 91亚洲精华国产精华精华液 | 久久久久久久久久久久久av | 影音先锋中文字幕在线视频 | 狠狠撸在线视频 | 热久久91| 姝姝窝人体www聚色窝 | 风间由美一二三区av片 | 日日射天天干 | 一本大道久久a久久综合婷婷 | 亚洲精品国产99 | 色综合中文 | 国产无遮挡又黄又爽免费视频 | xxxx69视频| 九七电影院97理论片 | 亚洲欧洲一区二区三区 | 8x8ⅹ成人永久免费视频 | 欧美激情免费看 | av资源在线 | 97视频免费| 超碰人人91 | 精品少妇一区二区三区 | 亚洲人妻一区二区三区 | 亚洲欧美国产日韩精品 | 粗暴video蹂躏hd | 播播网色播播 | 丁香婷婷色 | 露脸丨91丨九色露脸 | 黄色av网站在线免费观看 | 午夜精品电影 | 国产一区二区三区视频免费在线观看 | 日本最新中文字幕 | 色婷婷色| 欧美成人做爰大片免费看黄石 | 青娱乐国产视频 | 99精品免费| 精品毛片一区二区三区 | 国产亚洲小视频 | 狠狠躁日日躁夜夜躁2022麻豆 | va在线看| 男人添女人荫蒂国产 | 91亚洲精品国偷拍自产在线观看 | 爆操欧美| 色亚洲成人 | 日韩精品在线免费观看视频 | 久久久久久91 | 天天做天天爱天天做 | 亚洲黄片一区二区 | 国产丰满麻豆 | 亚洲欧美日韩成人在线 | 俺也来俺也去俺也射 | 在线免费国产视频 | wwwww国产| 欧美影院在线 | 国产97超碰| 91快色| 法国性xxxx精品hd | 亚洲啪啪免费视频 | 亚洲最大成人在线 | 亚洲一区在线视频观看 | 黄色片18| 国产精品视频福利 | 天天操免费视频 | 亚洲理论视频 | 国产欧美一区二区三区白浆喷水 | 超碰caoporen| 黄色小网站在线观看 | 一起艹在线观看 | 色婷视频 | 欧美激情国产在线 | 久久久夜色 | 秋霞国产一区 | 亚洲蜜臀av一区二区三区 | 国产精品免费av一区二区三区 | 成年人免费小视频 | 色婷婷精品| 久久精品婷婷 | 色在线影院 | 日本在线看 | 影音先锋中文字幕第一页 | 高清乱码毛片入口 | 久久国产欧美 | 天天骑夜夜操 | 国产99久久久国产精品免费看 | 国产精品丝袜视频无码一区69 | 欧美精品免费一区二区三区 | 黄色的网站在线 | 欧美两根一起进3p做受视频 |