日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

文本挖掘技术在CIC的应用--转载

發(fā)布時(shí)間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本挖掘技术在CIC的应用--转载 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)挖掘(Data Mining)已經(jīng)不是一個(gè)新鮮的概念,“尿布和啤酒” 這一經(jīng)典案例也被很多人津津樂(lè)道: 美國(guó)一家大型超市利用數(shù)據(jù)挖掘技術(shù)來(lái)分析他們的銷售紀(jì)錄,居然發(fā)現(xiàn)尿布和啤酒的銷售量之間存在相當(dāng)大的關(guān)聯(lián)性。經(jīng)過(guò)進(jìn)一步的調(diào)查,找到了產(chǎn)生這個(gè)現(xiàn)象的原 因,原來(lái)在美國(guó),負(fù)責(zé)為孩子購(gòu)買尿布的年輕父親們,很多時(shí)候會(huì)順帶著給自己買些啤酒。沃爾馬隨后采取的措施是,將尿布和啤酒并排放在一起,結(jié)果兩種產(chǎn)品的 銷售量都到了增長(zhǎng)。

在CIC,我們也使用一種特殊的數(shù)據(jù)挖掘技術(shù),也就是文本挖掘(Text Mining),來(lái)從每天數(shù)以百萬(wàn)計(jì)的網(wǎng)絡(luò)文章中尋找譬如“尿布和啤酒”的潛在規(guī)律和趨勢(shì)。但是和一般意義上的數(shù)據(jù)挖掘不同, 文本挖掘的研究對(duì)象,即文本,是非結(jié)構(gòu)化(Unstructured)的,即沒(méi)有預(yù)先設(shè)定好的欄和位,告訴我們這篇文章是在說(shuō)某年某月誰(shuí)誰(shuí)誰(shuí)做了什么事, 這些信息,都必須使用包括文本向量模型(Vector Space Model),自然語(yǔ)言分析(Natural Language Processing)等技術(shù)在內(nèi)的信息抽取(Information Retrieval)過(guò)程得到,然后才能放進(jìn)結(jié)構(gòu)化的數(shù)據(jù)庫(kù),以供進(jìn)一步處理。

我們當(dāng)然希望對(duì)于文本的處理結(jié)果能夠相當(dāng)準(zhǔn)確,這個(gè)準(zhǔn)確度可以用兩個(gè)指標(biāo)來(lái)衡量,1. 召回率(Recall),譬如我們想要尋找談及產(chǎn)品A的文章,那么召回率就是在所有談及產(chǎn)品A的文章中,多大比例可以被我們發(fā)現(xiàn);2. 精確度(Precision),在我們所認(rèn)為是談及產(chǎn)品A的文章,有多少是確實(shí)滿足我們期待而不是被錯(cuò)誤劃分進(jìn)來(lái)的。

如果說(shuō)能相當(dāng)準(zhǔn)確的處理少數(shù)文本還不算難,那么每天處理幾百萬(wàn)篇文章,就是對(duì)整個(gè)軟件系統(tǒng)的一大考驗(yàn)了,算法的高效,系統(tǒng)的穩(wěn)定還有可擴(kuò)展,都起著決定性作用。

除去以上這些,另一大挑戰(zhàn)是來(lái)自中文。與西方文字不同,漢字字符是沒(méi)有邊界的。西方的文本挖掘技術(shù)不能直接應(yīng)用在中文上,就如同不能直接應(yīng)用在類似 這樣一串字符串上一樣 thisistobesegmentedfirstandthenwecandosomethingaboutit. 在漢字字串當(dāng)中尋找特定信息,我們需要首先進(jìn)行分詞,缺少這個(gè)過(guò)程,就會(huì)產(chǎn)生讓人啼笑皆非的錯(cuò)誤。譬如尋找包含“可樂(lè)”的句子,結(jié)果“我可樂(lè)壞了”也被當(dāng) 作結(jié)果。

中國(guó)網(wǎng)民的用語(yǔ)習(xí)慣,會(huì)讓文本挖掘的過(guò)程更為復(fù)雜,我們需要知道什么時(shí)候“粉絲”,“玉米”不是食物,而是一些特定人群;我們也需要知道“小黑”可能不是一條狗,而是ThinkPad筆記本;當(dāng)然,我們也得弄清楚“KK” 這款車是指雪佛蘭的Spark還是豐田的Camry,抑或是東風(fēng)雪鐵龍的富康。

同時(shí),我們也需要超越絕大多數(shù)現(xiàn)有搜索引擎所采用的單純基于特定關(guān)鍵字的查找匹配方式,而在一定程度上去實(shí)現(xiàn)基于語(yǔ)義(Semantic)的搜索,即不論文中出現(xiàn)的是“筆記本”,“本本”,還是“l(fā)aptop”,當(dāng)我們?cè)诓檎摇肮P記本”時(shí),這篇文章都應(yīng)該作為結(jié)果返回。

面對(duì)這么多困難,如果有人覺(jué)得CIC的技術(shù)人員一定過(guò)的苦不堪言,那么他可錯(cuò)了。面向中文網(wǎng)絡(luò)的文本挖掘?qū)嵲谑怯腥O了。首先,迎接那些挑戰(zhàn),解決 各類難題本身就很刺激。同時(shí),有機(jī)會(huì)和我們的分析團(tuán)隊(duì)合作也是相當(dāng)有意思的事情,我們面向各行各業(yè),消費(fèi)電子,汽車,運(yùn)動(dòng)產(chǎn)品,飲料,汽車,甚至網(wǎng)游等 等,通過(guò)挖掘和分析,散布在海量文本當(dāng)中的蛛絲馬跡就可能被拼湊起來(lái),而形成一個(gè)完整的故事。我們或許能夠發(fā)現(xiàn)不為人知的聯(lián)系,或者預(yù)測(cè)到潛在的品牌危 機(jī)。

對(duì)于一個(gè)熱愛(ài)新知的人來(lái)說(shuō),從事這項(xiàng)技術(shù)的研究與開發(fā),可以接觸到各類學(xué)科的知識(shí),計(jì)算機(jī)科學(xué),語(yǔ)言學(xué),統(tǒng)計(jì)學(xué),社會(huì)學(xué),大眾傳媒等。我們研究文字 的信息熵,計(jì)算文本矢量的相似性,用動(dòng)態(tài)規(guī)劃法(Dynamic Programming)對(duì)中文進(jìn)行正確的分詞,用概率理論分析詞跟詞的關(guān)聯(lián),計(jì)算文本向量矩陣的特征向量(Eigenvector),用分布式系統(tǒng)來(lái)實(shí) 現(xiàn)大規(guī)模的計(jì)算和存儲(chǔ)...... 如果這些聽起來(lái)還不夠讓人興奮,那么或許我們還可以去看看文本挖掘和量子物理的共同點(diǎn)。

如果有人問(wèn)我互聯(lián)網(wǎng)時(shí)代,繼門戶,搜索引擎,Web2.0之后,The next big thing是什么,我的回答會(huì)是,不論具體的應(yīng)用為何,這個(gè)應(yīng)用一定離不開文本挖掘,從海量的網(wǎng)絡(luò)文本當(dāng)中,在語(yǔ)義層面尋找富有價(jià)值的信息。這類應(yīng)用,被紐約時(shí)報(bào)稱為Web3.0,網(wǎng)絡(luò)的應(yīng)用.正在從手冊(cè)(Catalog),向智能的向?qū)?Guide)演變。

本文來(lái)自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/CICTech/archive/2008/04/16/2296453.aspx

總結(jié)

以上是生活随笔為你收集整理的文本挖掘技术在CIC的应用--转载的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。