日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

利用百度的词法分析区分数据

發(fā)布時間:2025/4/5 编程问答 13 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利用百度的词法分析区分数据 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.目標(biāo)

我以區(qū)分名人數(shù)據(jù)與非名人數(shù)據(jù)為例。何為名人數(shù)據(jù)、非名人數(shù)據(jù) ?

名人數(shù)據(jù):介紹某位名人的一段(一句)話,例如:Raj Babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《Bodyguard》等。
非名人數(shù)據(jù):不是介紹某位名人的一段(一句)話,例如:德國ABASAG一向致力於促進(jìn)“企業(yè)資源規(guī)劃系統(tǒng)”(ERP)在中國的發(fā)展。


2.詞法分析運用

2.1新建AipNlp

AipNlp是自然語言處理的Python SDK客戶端,為使用自然語言處理的開發(fā)人員提供了一系列的交互方法。

參考如下代碼新建一個AipNlp:

from aip import AipNlp""" 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key'client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

在上面代碼中,常量APP_ID在百度云控制臺中創(chuàng)建,常量API_KEY與SECRET_KEY是在創(chuàng)建完畢應(yīng)用后,系統(tǒng)分配給用戶的,均為字符串,用于標(biāo)識用戶,為訪問做簽名驗證,可在AI服務(wù)控制臺中的應(yīng)用列表中查看。

注意:如您以前是百度云的老用戶,其中API_KEY對應(yīng)百度云的“Access Key ID”,SECRET_KEY對應(yīng)百度云的“Access Key Secret”。

2.2配置AipNlp

如果用戶需要配置AipNlp的網(wǎng)絡(luò)請求參數(shù)(一般不需要配置),可以在構(gòu)造AipNlp之后調(diào)用接口設(shè)置參數(shù),目前只支持以下參數(shù):

接口說明
setConnectionTimeoutInMillis建立連接的超時時間(單位:毫秒)
setSocketTimeoutInMillis通過打開的連接傳輸數(shù)據(jù)的超時時間(單位:毫秒)

2.3接口說明

詞法分析接口向用戶提供分詞、詞性標(biāo)注、專名識別三大功能;能夠識別出文本串中的基本詞匯(分詞),對這些詞匯進(jìn)行重組、標(biāo)注組合后詞匯的詞性,并進(jìn)一步識別出命名實體。

text = "百度是一家高科技公司"""" 調(diào)用詞法分析 """ client.lexer(text);

詞法分析 請求參數(shù)詳情

參數(shù)名稱是否必選類型說明
textstring待分析文本(目前僅支持GBK編碼),長度不超過65536字節(jié)

詞法分析 返回數(shù)據(jù)參數(shù)詳情

參數(shù)名稱類型必需詳細(xì)說明
textstring原始單條請求文本
itemsarray(object)詞匯數(shù)組,每個元素對應(yīng)結(jié)果中的一個詞
+itemstring詞匯的字符串
+nestring命名實體類型,命名實體識別算法使用。詞性標(biāo)注算法中,此項為空串
+posstring詞性,詞性標(biāo)注算法使用。命名實體識別算法中,此項為空串
+byte_offsetint在text中的字節(jié)級offset(使用GBK編碼)
+byte_lengthint字節(jié)級length(使用GBK編碼)
+uristring鏈指到知識庫的URI,只對命名實體有效。對于非命名實體和鏈接不到知識庫的命名實體,此項為空串
+formalstring詞匯的標(biāo)準(zhǔn)化表達(dá),主要針對時間、數(shù)字單位,沒有歸一化表達(dá)的,此項為空串
+basic_wordsarray(string)基本詞成分
+loc_detailsarray(object)地址成分,非必需,僅對地址型命名實體有效,沒有地址成分的,此項為空數(shù)組。
++typestring成分類型,如省、市、區(qū)、縣
++byte_offsetint在item中的字節(jié)級offset(使用GBK編碼)
++byte_lengthint字節(jié)級length(使用GBK編碼)

詞法分析 返回示例

{"status":0,"version":"ver_1_0_1","results":[{"retcode":0,"text":"百度是一家高科技公司","items":[{"byte_length":4,"byte_offset":0,"formal":"","item":"百度","ne":"ORG","pos":"","uri":"","loc_details":[ ],"basic_words":["百度"]},{"byte_length":2,"byte_offset":4,"formal":"","item":"是","ne":"","pos":"v","uri":"","loc_details":[ ],"basic_words":["是"]},{"byte_length":4,"byte_offset":6,"formal":"","item":"一家","ne":"","pos":"m","uri":"","loc_details":[ ],"basic_words":["一","家"]},{"byte_length":6,"byte_offset":10,"formal":"","item":"高科技","ne":"","pos":"n","uri":"","loc_details":[ ],"basic_words":["高","科技"]},{"byte_length":4,"byte_offset":16,"formal":"","item":"公司","ne":"","pos":"n","uri":"","loc_details":[ ],"basic_words":["公司"]}]}] }

詞性縮略說明

詞性含義詞性含義詞性含義詞性含義
n普通名詞f方位名詞s處所名詞t時間名詞
nr人名ns地名nt機構(gòu)團體名nw作品名
nz其他專名v普通動詞vd動副詞vn名動詞
a形容詞ad副形詞an名形詞d副詞
m數(shù)量詞q量詞r代詞p介詞
c連詞u助詞xc其他虛詞w標(biāo)點符號

專名識別縮略詞含義

縮略詞含義縮略詞含義縮略詞含義縮略詞含義
PER人名LOC地名ORG機構(gòu)名TIME時間

3.具體代碼實現(xiàn)

百度提供的詞法分析會將句子進(jìn)行分詞,并進(jìn)行標(biāo)識。例如《迷宮下的罪惡2》、《天命玩家》會被標(biāo)識為作品名,Raj Babbar會標(biāo)識為人名。通過分析名人數(shù)據(jù)可知,名人數(shù)據(jù)中一般包含有人名、地名、作品名、出人日期,我把這些詞匯作為稱為名人數(shù)據(jù)的特征數(shù)據(jù),當(dāng)然名人數(shù)據(jù)中不光有特征數(shù)據(jù)還有像演員、主要、作品、有這樣的非特征數(shù)據(jù)。我依據(jù)名人數(shù)據(jù)特征數(shù)據(jù)在總數(shù)據(jù)(即整句)的占比來判定是否為名人數(shù)據(jù)。

首先創(chuàng)建一個AipNlp

from aip import AipNlp""" 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key'client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

然后創(chuàng)建倆個計數(shù)器,分別用來計量特征數(shù)據(jù)與非特征數(shù)據(jù)的個數(shù)

# 定義一個計數(shù)器,統(tǒng)計所有的單元數(shù) counter_all=0 # 定義一個計數(shù)器,統(tǒng)計所有的單元數(shù) counter_need=0

加載我們需要區(qū)分的數(shù)據(jù)

text = 'Raj Babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《Bodyguard》' jsonData = client.lexer(text)

統(tǒng)計特征數(shù)據(jù)與非特征數(shù)據(jù)的個數(shù),這部分代碼參照百度的詞法分析規(guī)則進(jìn)行編寫的,[‘items’][‘ne’][‘PER’,’LOC’,’ORG’,’TIME’][‘pos’][‘nw’,’nr’,’t’,’m’]等都是代名詞需要參照上面詞法分析規(guī)則。

for each in jsonData['items']:if each['ne'] in ['PER','LOC','ORG','TIME']:counter_need+=1elif each['pos'] in ['nw','nr','t','m']:counter_need+=1if each['pos'] in ['w']:passelse:counter_all+=1

最后打印名人特征數(shù)據(jù)占比,結(jié)果為

print('名人特征數(shù)據(jù)占比為:'+str(counter_need/counter_all)) >>>名人特征數(shù)據(jù)占比為:0.375

名人數(shù)據(jù)的特征數(shù)據(jù)占比在0.15以上基本就可以確認(rèn)為名人數(shù)據(jù)了,名人數(shù)據(jù)與非名人數(shù)據(jù)的實際分界線還要參照具體的語料庫。

總結(jié)

以上是生活随笔為你收集整理的利用百度的词法分析区分数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 精品久久久久久久久久岛国gif | av一级免费 | 成人中文字幕在线观看 | 欧美无遮挡高潮床戏 | 久久蜜臀 | 黄色99 | 99国产视频 | 中国大陆一级毛片 | 美女久久视频 | 美女扒开腿免费视频 | 麻豆视频污 | 久久99综合 | 本道综合精品 | 黑丝久久 | 男女激情网站 | 精品二区在线 | 午夜色av | 欧美国产日韩在线观看成人 | 国产人妻人伦精品1国产盗摄 | 日韩91| 一本久久综合亚洲鲁鲁五月天 | 久久av色| 国产欧美视频在线播放 | 人妻少妇偷人精品久久性色 | 91九色丨porny丨肉丝 | 国产看真人毛片爱做a片 | 岛国大片在线观看 | 国产精品视频久久久久久久 | 日韩中文一区二区三区 | 免费看又黄又无码的网站 | 在线视频第一页 | 国产精品久久综合视频 | 亚洲骚图 | 91看黄 | 96在线视频| 国产在线看 | av免费观看网 | 成人久久 | 玖玖国产精品视频 | 黄色在线免费观看 | 销魂美女一区二区 | 色综合天天色 | 亚洲成人黄色小说 | 99爱在线视频| 超碰在线免费观看97 | 伊人影视大全 | 欧美一区二区三区精品 | 精品66| 黄色午夜 | 成人深夜在线 | 国产欧美一区二区三区沐欲 | 在线看成人 | 亚洲夜夜夜 | 日韩精品视频一区二区 | 日韩欧美精品在线播放 | 日韩欧美猛交xxxxx无码 | 青青草午夜| 性做爰裸体按摩视频 | 好男人在线观看 | 国产午夜在线视频 | 欧美一区二区三区影视 | 日韩成人在线免费观看 | 免费观看成年人视频 | 欧美精品一线 | 人妻丝袜一区二区三区 | 日韩狠狠操 | 亚洲自拍第三页 | 91精品国产视频 | 国产吃瓜黑料一区二区 | 在线观看免费福利 | 有码中文字幕 | 午夜精品久久久久久久久久蜜桃 | 精品国偷自产在线 | 午夜av网站 | 黑料视频在线观看 | 老版水浒传83版免费播放 | 一本大道伊人av久久综合 | 天海翼av在线播放 | 操久久久 | 天堂欧美城网站 | 亚洲高清天堂 | 久久久久久久久久久福利 | 亚洲视频图片 | 黑帮大佬和我的365日第二部 | 粉嫩av网 | 免费成人深夜夜行网站视频 | 久久精品牌麻豆国产大山 | h片在线观看免费 | 亚洲毛片一区二区三区 | 欧美性猛交ⅹ乱大交3 | 日韩二区在线 | 人人人人干 | 久久婷婷国产麻豆91天堂 | av一区不卡| 亚洲精品无码久久久 | 精品蜜桃一区二区三区 | 色偷偷免费费视频在线 | 欧洲视频一区二区 | 好男人网站 |