日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文总结2

發(fā)布時(shí)間:2025/3/8 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文总结2 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

基于內(nèi)容的網(wǎng)頁特征提取 2001

使用專業(yè)網(wǎng)絡(luò)爬蟲獲取網(wǎng)頁,巨量網(wǎng)頁數(shù)據(jù)保存在分布式的LDAP (輕量級目錄服務(wù)協(xié)議)目錄服務(wù)器中, 通過輕量級目錄服務(wù)協(xié)議維護(hù)管理。分詞詞典通過提取過濾很多相關(guān)領(lǐng)域網(wǎng)頁生成,手動更新。特征提取:正文分詞然后計(jì)算詞頻;標(biāo)記:將html文檔生成標(biāo)記樹,選取一些重要標(biāo)記;超鏈接:壓縮鏈接樹,壓縮超鏈接森林。

?

基于Web挖掘的專業(yè)文本特征提取方法研究 2007

位置權(quán)重,目錄和鏈接。

?

基于模板抽取和豐富特征的藥名詞典生成 2009

基于上下文的模板提取候選詞,再用機(jī)器學(xué)習(xí)篩選。自學(xué)習(xí)的,英文詞匯的。

本文提出抽取上下文模板的步驟如下:
1.E=已有藥名的種子集合,T=文本集合(語料)
2.在語料T中,找到E中每個(gè)藥名的上下文(context),組成集合C??? 窗口前后設(shè)定大小不一樣
3.從上下文集合C中,確定引導(dǎo)詞????? 基于IDF的方法,算權(quán)重
4.對每個(gè)引導(dǎo)詞確定的上下文集合,構(gòu)建有向連通圖
5.根據(jù)權(quán)值剪枝,確定最后包含上下文信息的模板,計(jì)算處理后的上下文重復(fù)度,按重復(fù)度的大小排序,取排名前M個(gè)為最終目標(biāo)模板。

本文從以下幾個(gè)角度選擇藥名的詞特征:
(1)采取bag ofwords的形式,以每個(gè)單詞作為特征,不考慮單詞之間的順序關(guān)系。一些詞在測試集的位置和訓(xùn)練集的位置不一樣,但是卻表達(dá)同樣的意思,所以bag ofwords選取特征的方式,可以囊括到這些詞。
(2)對候選藥名的每一組成單詞選擇單元、二元、三元詞特征。與前面所述相反,存在一些詞隨著出現(xiàn)位置的變化,意思也會改變,利用單元、二元、三元詞特征可以彌補(bǔ)那些位置變化意思也變化的詞;
(3)選取邊界特征,分別從候選藥名左邊界開始選取單元、二元、三元詞特征,再從右邊界選取單元、二元、三元詞特征。這里將n.gram與位置信息結(jié)合,考慮候選藥名邊界特征。
(4)以藥名的前l(fā)到6個(gè)字母分別作為特征。字母特征利用了英文單詞具有詞綴、詞干、詞根的信息,很多藥名雖然不相同,但是卻含有相同的詞綴、詞干、詞根。以前面1到6個(gè)字母為特征可以捕捉到藥名的詞綴信息。
(5)以藥名的后1到6個(gè)字母分別作為特征。如第(4)條同樣的原理,這樣的選取方法可以捕捉到藥名的詞根信息。
(6)設(shè)置滑動窗口,確定大小S,選取滑動窗口內(nèi)的部分字母作為特征。如第(4)條同樣的原理,這樣的選取方法可以捕捉到藥名的詞干信息。
(7)選取詞型特征,將αβγ用大寫字母G來代替,將數(shù)字0-9用0代替,將I、II、HI用R來替。這里采取正則表達(dá)式的方式,可以使希臘字母、數(shù)字等特殊符號做統(tǒng)一處理。因?yàn)橛?xùn)練集中不可能包含所有的希臘字母或數(shù)字,但是具有希臘字母或數(shù)字組成的藥名卻出現(xiàn)在測試集中,為防止將這樣的藥名漏掉,故用上述第(7)條方式選取特征。

?

元事件與主題事件抽取技術(shù)研究綜述

元事件抽取研究的主要方法有模式匹配和機(jī)器學(xué)習(xí)兩大類。主題事件抽取有基于事件框架的和基于本體的。

給了一些研究現(xiàn)狀和發(fā)展趨勢。

?

面向文本的事件信息抽取方法的研究 2012

研究面向文本的事件信息抽取工作,建立一個(gè)事件信息抽取系統(tǒng)。該系統(tǒng)首先過濾包含關(guān)鍵字的原始語料; 然后采用層次聚類( Hierarchical,HCL) 和最長公共子序列算法相結(jié)合的方法抽取事件信息,得到最初的模式; 最后通過是否包含關(guān)鍵字進(jìn)行模式獲取,進(jìn)而提取信息,最終得到事件要素。

事件信息抽取系統(tǒng)分為7 個(gè)模塊,分別為: 過濾語料、最長公共子序列、句子聚類向量、層次聚類、聚類模式過濾、模式獲取和信息提取。

?

一種基于信息熵的web 信息提取的方法研究 2012

提出了基于信息熵和DOM樹的提取web正文信息的方法,利用文檔對象模型技術(shù)提取網(wǎng)頁包含的內(nèi)容,將得到的信息融合成信息列表,再利用熵原理從信息列表中識別出有序信息列表,通過設(shè)置內(nèi)容長度閾值,將無關(guān)的信息結(jié)點(diǎn)過濾掉,只剩下正文信息。

?

自然語言信息抽取中的機(jī)器學(xué)習(xí)方法研究 2005

模式匹配和機(jī)器學(xué)習(xí),基于規(guī)則的和基于統(tǒng)計(jì)的,后者有無監(jiān)督、有監(jiān)督、半監(jiān)督。

特征選擇

主要有四種策略用于統(tǒng)計(jì)學(xué)習(xí)中的特征選擇。

第一種策略稱為“包裝器方法”(wrapper approach),它的思想是先生成不同特征子集,然后通過執(zhí)行學(xué)習(xí)算法和測量結(jié)果分類器的準(zhǔn)確性對各個(gè)子集進(jìn)行評估。各個(gè)特征子集一般通過前向選擇或后向刪除方法來生成;

第二種策略是將所有可能的特征包含到模型中,但對模型中的參數(shù)值引入一個(gè)懲罰值,這將導(dǎo)致與無用特征相關(guān)的參數(shù)將變得非常小,甚至可能為0;

第三個(gè)策略是計(jì)算特征的某種相關(guān)性,然后刪除相關(guān)性低的特征。測度特征相關(guān)性一個(gè)最簡單的方法是計(jì)算一個(gè)特征和某類別的互信息。不過,這種相關(guān)性測度方法卻不能捕捉特征之間的交互性。另外幾種方法已經(jīng)被提出用于確定這種特征間的交互性,如RELIEFF,馬爾可夫鏈(Markov blankets)等方法;

第四個(gè)策略是先擬合一個(gè)簡單的模型,然后分析這個(gè)被擬合的模型以確定相關(guān)的特征。如Chow描述了一個(gè)高效的算法用于對一個(gè)數(shù)據(jù)集擬合一個(gè)樹結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)可以被用來分析以刪除對類別影響較小的特征。

信息抽取的統(tǒng)計(jì)學(xué)習(xí)方法比較

1最大熵方法

2隱馬爾可夫模型方法(HMMs)

3最大熵隱馬爾可夫模型方法(MEMMs) 標(biāo)注偏置問題

4條件隨機(jī)場方法(Conditional Random Fields) 應(yīng)用于命名實(shí)體識別、文本淺層分析等信息抽取任務(wù)的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示該模型具有良好的性能。

5核(kernel)的方法

當(dāng)前對各種集成技術(shù)(如boosting,bagging和Stacking等)的研究非常熱門。性能變好,但是系統(tǒng)變復(fù)雜。

弱指導(dǎo)學(xué)習(xí)

互助訓(xùn)練Co—Training,主動學(xué)習(xí)(Active Learning)

發(fā)展趨勢

首先它的模型、算法還需要不斷改善。將人工規(guī)則加入到統(tǒng)計(jì)模型中,特別是如何將各種語義約束規(guī)則加入到模型中是需要進(jìn)一步研究的內(nèi)容。

再者,目前的各種主動學(xué)習(xí)方法均是基于單個(gè)學(xué)習(xí)模型的,可以擴(kuò)展為基于集成(ensemble)的主動學(xué)習(xí),一定會進(jìn)一步減少語料標(biāo)注的代價(jià)。

此外,為多學(xué)習(xí)器的集成建立一個(gè)統(tǒng)一的理論框架。

轉(zhuǎn)載于:https://www.cnblogs.com/chrisnannan/archive/2012/12/05/2802296.html

總結(jié)

以上是生活随笔為你收集整理的论文总结2的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。