日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

输入法智能化发展历程

發(fā)布時間:2023/12/13 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 输入法智能化发展历程 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

技術(shù)發(fā)展周期一般會持續(xù)十年的時間,我們現(xiàn)在已經(jīng)進入移動互聯(lián)網(wǎng)周期的早期階段,這是過去的50 年來的第5 個發(fā)展周期:20世紀(jì)60 年代,大型機時代;20世紀(jì)70年代,小型機時代;20世紀(jì)80 年代,個人電腦時代;20世紀(jì)90 年代,桌面互聯(lián)網(wǎng)時代;21世紀(jì)最初10 年,移動互聯(lián)網(wǎng)時代。

在這5個發(fā)展周期中,中文輸入法則經(jīng)歷了3個時代:1983年,五筆輸入法誕生,成為單機時代輸入法的前奏。23年之后,搜狗拼音輸入法面世,輸入法進入了互聯(lián)網(wǎng)時代。2009年,一款概念產(chǎn)品搜狗云輸入法則展望了云時代輸入法的輪廓。

三個時代的輸入法有哪些差異呢?從實際輸入效果來看可見一斑,打開記事本,切換到任意一款時下流行的第二代拼音輸入法,鍵入如下字符:

Zhengdangjuecebumenweimiheshouruchajudehonggoujisiguangyishi

出現(xiàn)在屏幕上的很可能是如下的句子:正當(dāng)決策部門萎靡和收入差距的鴻溝集思廣益是。但是,當(dāng)我們切換到搜狗云輸入法,敲擊同樣的字符序列,我們會得到我們想要的句子:正當(dāng)決策部門為彌合收入差距的鴻溝集思廣益時。

搜狗云輸入法是如何大幅提高用戶長句輸入準(zhǔn)確率的呢?筆者將按照輸入法智能化發(fā)展的脈絡(luò),為您揭開輸入法智能化背后的神秘面紗。

單機時代的輸入法

有一定年齡的用戶對單機時代的輸入法會有印象。在那個時代,電腦似乎還是專業(yè)人士手中的魔盒,輸入法講究的是一個快字。所謂快,在那時被理解為重碼率低,以五筆為代表的一批基于字形、筆畫、音形結(jié)合的輸入法在當(dāng)時十分流行,經(jīng)過專業(yè)訓(xùn)練的打字員的輸入速度甚至超過英文輸入,很少有人考慮輸入法的易用性。

隨著電腦的日益普及,全拼、智能ABC、紫光、微軟拼音、拼音加加等輸入法的用戶數(shù)日益上升,畢竟拼音才是普通用戶最容易學(xué)習(xí)的輸入方式。這些產(chǎn)品開始考慮易用性的問題,有了用戶個人詞庫、自定義詞庫、組詞和組句的概念,輸入的準(zhǔn)確度有了大幅度的提升。但互聯(lián)網(wǎng)才剛剛走入人們的生活,機器的存儲、計算能力也有限,輸入法本質(zhì)上還是一款單機軟件。

詞庫,注音和詞頻

拼音輸入法的核心是詞庫,詞庫是記錄的集合,每條記錄包括詞條、注音和同音詞的詞序(大多數(shù)體現(xiàn)為詞頻或概率)三個基本元素構(gòu)成。早期的輸入法的詞條和注音通常來自專業(yè)機構(gòu)和個人的人工整理。詞序通常基于統(tǒng)計詞頻,拿較大規(guī)模的文本(例如幾年的人民日報)作為標(biāo)準(zhǔn)訓(xùn)練庫(通常稱為語料)。統(tǒng)計時首先將語料切分成詞條形式,比如今天漫天大雪,如果輸入法詞典中有今天,漫天,大雪這些詞,那么這句話就會被切分成今天 | 漫天 | 大雪。這個過程稱為分詞。切分不是唯一的,今天 | 漫 | 天 | 大雪也是一種可能的切分,分詞的目的是尋找一種最合理的切分方法。分詞的具體技術(shù)在本文中不做詳述,但合理的詞頻統(tǒng)計一定是基于合理的分詞方法。切分后每個詞條的總出現(xiàn)次數(shù)稱為詞頻,除以所有詞條出現(xiàn)的總次數(shù)后得到出現(xiàn)的概率。當(dāng)輸入特定的拼音序列時,如果匹配上多個詞條,將按照詞頻或概率的高低確定展現(xiàn)順序。

理論上,如果詞庫集合無窮大,可以把所有文本片段放入詞庫中。例如今天漫天大雪所有字串全部放入詞庫一共有21個詞條。所有這樣的碎片加入詞庫,理論上可以匹配用戶想輸入的任何信息。但不幸的是,電腦的計算能力、存儲能力、以及軟件的安裝包大小等,不允許過大的詞庫。早期的輸入法詞庫的規(guī)模最大也只有十萬條左右。
在單機時代,輸入法的好壞往往取決于詞庫的大小、質(zhì)量、合理性等。

組詞和組句

當(dāng)用戶輸入的拼音序列無法完整匹配上詞庫中的任何一個詞條時,這時有兩種做法,一種是早期輸入法如全拼和智能ABC的做法,僅僅提供給用戶最長匹配的詞,例如輸入jintianmantiandaxue這個句子,給用戶的候選是今天,當(dāng)用戶作出明確的選擇后再給用戶后續(xù)選擇。另一種做法紫光、拼音加加等輸入法發(fā),通過某種方法猜測用戶想輸入的完整句子或短語作為候選。

實現(xiàn)這一輸入方式,首先需要對用戶輸入的整體拼音串進行切分,切分成不同的音節(jié),比如用戶輸入jintianmantiandaxue時,jintian | mantian | daxue,是一種切分方式,而jintian | man | tianda | xue是另一種切分方式。之后把每一個拼音切分映射成詞庫中的詞,得到不同的詞與詞的組合。最終可能的組合有今天 | 漫天 | 大學(xué),今天 | 漫天 | 大雪,今天 | 慢 | 天大 | 學(xué)等。最終將哪種組合方式展現(xiàn)給用戶呢?最普遍的做法是,計算每一種組合方式的組合概率。對于組合 w1,w2,w3,w4,最簡單的計算方式就是:

P(w1,w2,w3,w4) = P(w1)*P(w2)*P(w3)*P(w4)

那么整體組合概率就依賴于每個詞單獨出現(xiàn)的概率(也即詞頻)。

這種組合概率計算方法稱為1元模型,統(tǒng)計信息少,計算復(fù)雜度低,也有一定的準(zhǔn)確率,在早期有著很廣泛的應(yīng)用。但這種方法的錯誤率也是比較高的,例如,如果在全局信息中,P(大學(xué)) P(大雪),那么概率最大會是今天漫天大學(xué),用戶仍然需要進一步修改大學(xué)得到大雪才能輸出選項。

這個問題如何解決呢?

互聯(lián)網(wǎng)時代的輸入法

互聯(lián)網(wǎng)時代的輸入法以搜狗輸入法為代表,它誕生于互聯(lián)網(wǎng)應(yīng)用爆炸的時代,電腦已經(jīng)不再是少數(shù)人手中的玩具,已經(jīng)深入到千家萬戶中,聊天、論壇、寫博、評論、電子郵件等網(wǎng)絡(luò)應(yīng)用已經(jīng)取代專業(yè)輸入成為主流需求。由于傳播渠道有了質(zhì)的改善,各個輸入法產(chǎn)品之間的競爭也顯得更為激烈。傳統(tǒng)的詞庫制作方法已經(jīng)不能滿足網(wǎng)民的需求,體現(xiàn)在以下的三個方面:

詞庫中大都是比較權(quán)威的正式詞條,而少有網(wǎng)民的口語詞匯

互聯(lián)網(wǎng)上的新詞熱詞往往成為網(wǎng)民們熱衷討論的話題,需要非常快的詞庫更新速度

網(wǎng)民在進行某個特定領(lǐng)域輸入的時候,嚴(yán)重缺乏該領(lǐng)域的專業(yè)詞條

讓我們看看搜狗輸入法所代表的新一代輸入法的進步所在:

互聯(lián)網(wǎng)語料

互聯(lián)網(wǎng)語料是解決上述問題的主要鑰匙。網(wǎng)絡(luò)上充斥著大量的信息,有的是權(quán)威發(fā)布的信息(如官方新聞等),有的是網(wǎng)民的交互活動產(chǎn)生的信息(如論壇,博客),當(dāng)然也有大量的無效信息,例如廣告?zhèn)麂N、SEO作弊等。互聯(lián)網(wǎng)語料的生成本身是一個復(fù)雜的問題,但依賴于搜狗搜索引擎的技術(shù)底蘊和海量數(shù)據(jù)處理能力,我們能夠比較方便的獲得最新的優(yōu)質(zhì)語料。這也是輸入法能越來越聰明的基礎(chǔ)。

新詞和口語詞

互聯(lián)網(wǎng)具有這樣兩個特點:有大量網(wǎng)民產(chǎn)生的非主流的口語詞匯;隨時會產(chǎn)生新的詞匯、詞法或流行語。這就意味著,傳統(tǒng)的基于人工構(gòu)造的詞典不會有很好的效果。口語詞發(fā)現(xiàn)和新詞發(fā)現(xiàn)成為互聯(lián)網(wǎng)輸入法的重要技術(shù)點。

比如帥哥這個詞,在官方、正統(tǒng)的詞庫中是不會存在的,但在網(wǎng)絡(luò)上使用頻率非常高。再如云計算這樣的詞,在特定時間出現(xiàn)井噴。這兩類詞的發(fā)現(xiàn)在技術(shù)實現(xiàn)上稍有不同,但都是基于對海量語料的高頻模板的挖掘。幸運的是,新詞發(fā)現(xiàn)(特別是專有名詞的發(fā)現(xiàn))是近年來研究界關(guān)注較多的領(lǐng)域,有豐碩的成果;而搜狗搜索引擎本身也有著豐富的積累,使我們能用很短的時間取得突破。

專業(yè)細胞詞庫

專業(yè)詞匯的發(fā)現(xiàn)技術(shù)和新詞、口語詞類似,只要我們能夠獲得特定專業(yè)領(lǐng)域的足夠語料,后續(xù)的挖掘行為是雷同的。我們通過對文本分類和聚類算法,將某一個領(lǐng)域中被局部用戶使用比較多的詞匯聚合成一個類,形成我們的專業(yè)詞庫(也就是搜狗的細胞詞庫),并通過細胞詞庫推薦的形式,推薦給需要的用戶使用來提高其輸入的效率。

組詞算法的革命

通過新詞發(fā)現(xiàn)、口語詞發(fā)現(xiàn)、專業(yè)細胞詞庫,輸入法已經(jīng)聰明了很多,能夠做到與時俱進了。下面我們回到最開始的話題:輸入法怎樣變得更聰明,能更準(zhǔn)確的理解用戶的意圖呢?

還是以今天漫天大雪為例。如果是一個人,光看到daxue時,第一印象很可能也是大學(xué),但如果看到mantiandaxue,通常會反映過來是漫天大雪。這是因為人的思考結(jié)合了上下文和語境等因素。這也給我們一個啟示,漫天和大雪之間的關(guān)系更強,一個改進的方法是,在分詞統(tǒng)計的時候,不僅統(tǒng)計詞條出現(xiàn)的次數(shù),還統(tǒng)計二元組連續(xù)出現(xiàn)的概率,比如P(漫天,大雪),那么在計算整體組合概率的時候,就可以簡單的使用:

P(今天,漫天,大雪) = P(今天) * P(漫天,大雪)

由于在統(tǒng)計語料中,(漫天,大雪)出現(xiàn)的次數(shù)會遠遠地大于(漫天,大學(xué))的出現(xiàn)次數(shù),因此最終今天漫天大雪的組合概率將更勝一籌。

顯然的,這種基于二元組的概率計算方法更具有整體性。但相比基于詞的概率計算方法,卻要存儲更多的信息,如果詞典中有N個詞,那么理論上需要存儲的組合數(shù)目為N*N,空間上是之前的平方級別。而且由于訓(xùn)練語料相對比較小而且不容易獲取,因此實際統(tǒng)計出來的組合數(shù)目相比全局空間來講要少很多。

嚴(yán)格說來,二元模型并不是互聯(lián)網(wǎng)時代的新鮮事物,微軟拼音、黑馬神拼等輸入法早在單機時代也使用過類似的模型。但受限于訓(xùn)練語料的規(guī)模以及機器的計算存儲能力,從計算效率和效果上,都不是非常令人滿意,此外過大的安裝包大小也影響了他們的傳播。在互聯(lián)網(wǎng)時代,用戶桌面電腦的性能有了大幅提高,使較復(fù)雜的模型有了可能。

我們能不能使用更大的數(shù)據(jù)規(guī)模、更強的模型來做到更好的效果呢?盡管用戶桌面電腦的性能提升顯著,但單機計算能力和存儲空間還是有限的,我們不得不考慮一些使用老式電腦、或者網(wǎng)絡(luò)狀況不佳下載緩慢的用戶。在諸多因素的平衡下,主流的輸入法大多數(shù)仍是基于二元組的概率計算模型,所以,輸入法聰明了很多,但仍然聰明得有限。

云時代的輸入法

互聯(lián)網(wǎng)時代的輸入法仍然是傳統(tǒng)意義上的桌面輸入法,需要以安裝包或者定期更新的形式把信息庫存儲到用戶本地電腦上,而用戶在輸入的時候也必須使用本地的存儲和計算資源。很顯然,這種傳播、更新、存儲和計算方式,將是當(dāng)前輸入法發(fā)展的主要瓶頸。但是隨著云時代的到來,網(wǎng)絡(luò)延時不斷降低,瀏覽器逐步取代本地操作系統(tǒng),這就為輸入法逐漸脫離桌面的限制,成為純粹的網(wǎng)絡(luò)輸入法帶來了契機。

直到搜狗云輸入法的誕生,云時代輸入法的雛形,才真正開始向世人嶄露頭角。

何謂云輸入法

搜狗云輸入法本質(zhì)上是網(wǎng)絡(luò)輸入法,但為何稱為云輸入法?一方面,輸入法本身的核心處理過程主要是信息存儲、信息挖掘和概率計算,而非信息傳輸。搜狗云輸入法的存儲和計算都是在大規(guī)模服務(wù)器集群上完成的,這些服務(wù)器不僅存儲能力巨大,而且多核處理器性能超強,能夠同時支持成千上萬的用戶進行在線計算。用戶端只需要通過網(wǎng)絡(luò)把復(fù)雜的計算任務(wù)請求發(fā)送到服務(wù)器群上然后等待服務(wù)器群返回計算結(jié)果,這個大規(guī)模服務(wù)器的集群,正是云計算中的云端。另一方面,搜狗云輸入法已經(jīng)對外公開了計算接口,成為一個真正的輸入法計算服務(wù)提供者,任何用戶和第三方開發(fā)商都可以通過和服務(wù)器群直接交互來獲得計算服務(wù)。可以看出,搜狗云輸入法其本身已經(jīng)具有了云計算的種種特質(zhì),因此冠名云輸入法并不過分。

顯而易見,相比于個人桌面電腦,云輸入法使用的大規(guī)模服務(wù)器集群的存儲計算能力已是不可同日而語;同時,由于服務(wù)器成了所有用戶的容器,在這個容器中進行信息挖掘和信息更新就可以變得實時。這種利好是如何具體體現(xiàn)的呢?

超大信息量

相比于桌面輸入法的小而精,搜狗云輸入法可以做到輸入領(lǐng)域的大而全。通過搜索引擎抓取前所未有的超大訓(xùn)練語料(TB級別),可以做到無論是口語,古文,散文,現(xiàn)代文,詩詞歌賦等不同文體,還是政治,經(jīng)濟,體育,娛樂等不同領(lǐng)域,都能面面俱到,應(yīng)有盡有。權(quán)威詞條,高頻口語,方言俚語,專業(yè)詞匯,網(wǎng)絡(luò)熱詞等古今中外,都可以統(tǒng)統(tǒng)納入詞典而不受任何限制。

實時更新

通過對用戶輸入的實時統(tǒng)計和挖掘,可以根據(jù)用戶對詞條的輸入情況,隨時對詞庫進行補充和更新,進行基于用戶詞的新詞發(fā)現(xiàn);并且根據(jù)用戶輸入的分詞統(tǒng)計,隨時對詞庫的詞頻做出合理的調(diào)整,給用戶最合理的詞條排序;另外,還可以通過搜索引擎不斷的抓取最新的網(wǎng)絡(luò)資源,及時的分析網(wǎng)絡(luò)新詞并加入詞庫,以最快的速度使用戶獲利。

整句輸入質(zhì)的提升

由于大腦可以記住的文字信息量更大了,思考的速度也可以變得更快了,自然而然,此時的輸入法就可以變更聰明了。通過擴大信息量并且采用更復(fù)雜的概率計算模型,整句輸入的體驗有了質(zhì)的提升。

首先,以緩解工作壓力(huanjiegongzuoyali)為例,如果采用基于二元組的概率計算模型,會得到什么樣的結(jié)果呢?打開搜狗桌面輸入法,經(jīng)過拼音輸入得到換屆工作壓力,令人失望。切出搜狗云輸入法,輸入結(jié)果則是緩解工作壓力。為什么桌面輸入法得不到最終的結(jié)果呢?

這種二元概率計算模型,會看到前后兩個詞之間的關(guān)系,但是卻看不到緩解到壓力之間聯(lián)系。(換屆,工作)是同音下最高頻的二元組,因此對于二元概率計算模型,換屆工作壓力的整體概率強于緩解工作壓力。但在搜狗云輸入法中,我們對三元組(緩解,工作,壓力)的概率也會進行存儲并且在計算整體概率時使用。顯然,這是一種更合理的整句概率計算方法,因為進一步加強了前后詞之間的聯(lián)系。有一個顯而易見的結(jié)論:如果我們計算整體概率時采用N元組概率信息,那么N越大,我們對整體組合概率的評估也會越準(zhǔn)確。當(dāng)然,更大的N會導(dǎo)致存儲空間成指數(shù)級的上升,這也是桌面輸入法目前大都限制在二元模型上的最主要原因。但是云輸入法卻不受這樣的限制,因此我們在構(gòu)建模型庫的時候,不僅存儲了二元組信息,還存儲了三元組信息已經(jīng)更長多元組的信息。

當(dāng)然,這個N不可能無限的擴大下去,計算復(fù)雜度問題和語料稀疏性問題終究不可避免。那搜狗云輸入法又是如何解決這個問題的呢?在進行分詞過程中,我們不僅統(tǒng)計詞條和元組的頻率,同時我們會統(tǒng)計遠距離搭配的頻率,這些遠距離搭配,有的是實體意義上的搭配,有的是句式語法意義上的搭配,最終都能為整句輸入的改善提供巨大的幫助。現(xiàn)在終于到了回答我們在前言中拋出的問題的時候了。正當(dāng)決策部門為彌合收入差距的鴻溝集思廣益時這句話,云輸入法為何可以完美的輸出?

通過觀察可以發(fā)現(xiàn),當(dāng)時,彌合的鴻溝,都是比較固定的搭配,前者是句式方面的,而后者是實體意義上的搭配。而這些搭配都是我們可以通過分詞過程中的搭配抽取得到的。有了這兩個搭配參與到句子整體概率計算中,那么整個句子就可以正確無誤的計算出來。

統(tǒng)計更長的元組頻率和更遠距離的詞語搭配,并且海量存儲任何可能出現(xiàn)的語言現(xiàn)象,做到見多識廣,這就是云輸入在理解用戶輸入意圖方面如此之好的原因所在。

總結(jié)和展望

隨著互聯(lián)網(wǎng)發(fā)展的日新月異,輸入法的更新?lián)Q代也越發(fā)迅速。搜狗在輸入法上的成功,依賴于整個搜狗技術(shù)團隊堅實而強大的技術(shù)力量。它站在巨人的肩旁上,集搜索引擎、大規(guī)模數(shù)據(jù)處理、自然語言處理和大規(guī)模網(wǎng)絡(luò)并發(fā)處理等多項技術(shù)于一身,真正代表了未來輸入法發(fā)展的趨勢。而搜狗輸入法對輸入法市場的最大貢獻,就是它對用戶創(chuàng)造的價值,乃至對整個中文社會所提供的社會價值和經(jīng)濟價值,而且激活了這個市場的良性競爭,最終使千千萬萬的用戶得到最佳的并且不斷改進的輸入體驗。

但技術(shù)的發(fā)展不會有片刻的停歇,未來的輸入法也必須更加的智能才能跟得上時代的步伐。輸入法技術(shù)發(fā)展的方向,必將是不斷增加人類的知識,不斷地增加對人類思考的模擬,讓輸入法真正能夠理解用戶的思維和意圖。希望搜狗云輸入法不僅能夠不斷的自我完善和改進,同時也能起到一個拋磚引玉的作用,繼續(xù)促進整體輸入法市場蓬勃向前的發(fā)展,讓用戶得到終極完美的輸入體驗。

轉(zhuǎn)載于:https://www.cnblogs.com/mengheyun/archive/2010/12/19/1963053.html

總結(jié)

以上是生活随笔為你收集整理的输入法智能化发展历程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。