日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何让机器获得幽默感——Goolge图学习技术揭秘

發(fā)布時間:2025/7/25 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何让机器获得幽默感——Goolge图学习技术揭秘 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原文: Graph-powered Machine Learning at Google
作者: Sujith Ravi 譯者: KK4SBB
責(zé)編:何永燦,關(guān)注人工智能,投稿請聯(lián)系heyc@csdn.net或微信號289416419

from: 如何讓機器獲得幽默感——Goolge圖學(xué)習(xí)技術(shù)揭秘

近些年來,機器學(xué)習(xí)技術(shù)取得了巨大的進步,使得計算機系統(tǒng)能夠解決復(fù)雜的現(xiàn)實問題。其中一項先進技術(shù)就是由Google研究院的Expander組開發(fā)的大規(guī)模、基于圖的機器學(xué)習(xí)平臺。基于圖的機器學(xué)習(xí)是一款功能強大的工具,被廣泛用于我們?nèi)粘=佑|到的Google產(chǎn)品和功能,比如用于收件箱的提醒功能和Allo的智能消息,或是用于深度神經(jīng)網(wǎng)絡(luò)來支持Google Photos的最新圖像識別系統(tǒng)。

最少監(jiān)督的學(xué)習(xí)

近期大多數(shù)在深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域取得的進展,都可以歸因于較好預(yù)測能力的模型,這些模型是在大量有標(biāo)記數(shù)據(jù)集上訓(xùn)練得到,通常有上百萬的訓(xùn)練樣本。由于需要監(jiān)督式的訓(xùn)練機器學(xué)習(xí)模型,即用人工標(biāo)記過的訓(xùn)練數(shù)據(jù),因此這種方法也被稱為“監(jiān)督式學(xué)習(xí)”。(相反的,有些機器學(xué)習(xí)方法直接處理原始數(shù)據(jù),不存在監(jiān)督,它們被稱為非監(jiān)督式學(xué)習(xí)。)

然而,待完成的任務(wù)越復(fù)雜,則越難獲取足夠多的高質(zhì)量標(biāo)記數(shù)據(jù)。每遇到一個新問題,往往需要投入大量的人力和時間來標(biāo)記數(shù)據(jù)。這促使了Expander團隊投入研發(fā)新的技術(shù)來驅(qū)動大規(guī)模的機器學(xué)習(xí)應(yīng)用,以盡可能減少人工監(jiān)督。

Expander團隊的技術(shù)是受到人類概況和推演的啟發(fā),將已知的知識(已標(biāo)記數(shù)據(jù))與新鮮的、不熟知的觀察內(nèi)容(未標(biāo)記數(shù)據(jù))相聯(lián)系。這個強大的技術(shù)稱作“半監(jiān)督式學(xué)習(xí)”,它可以讓我們利用稀疏的訓(xùn)練數(shù)據(jù)搭建系統(tǒng)。基于圖的半監(jiān)督式學(xué)習(xí)的主要優(yōu)勢之一就是(a)它可以在學(xué)習(xí)階段對已標(biāo)記的數(shù)據(jù)和未標(biāo)記的數(shù)據(jù)共同建模,利用數(shù)據(jù)的底層結(jié)構(gòu),(b)可以便捷地組合多類信號(例如原始特征與知識圖譜的關(guān)系信息相結(jié)合)形成一個獨立的圖表示,基于此來學(xué)習(xí)。這有別于與其它的傳統(tǒng)機器學(xué)習(xí)方法,比如神經(jīng)網(wǎng)絡(luò)方法,后者是先用標(biāo)記的訓(xùn)練數(shù)據(jù)和特征訓(xùn)練得到一個模型,然后將模型用于預(yù)測未標(biāo)記的數(shù)據(jù)。

圖學(xué)習(xí)的原理

在其核心部分,Expander的平臺構(gòu)建了數(shù)據(jù)的一個多圖表達,各個節(jié)點對應(yīng)于物體和概念,相似的概念節(jié)點之間有邊相連,因此它將半監(jiān)督式學(xué)習(xí)與大規(guī)模基于圖的學(xué)習(xí)結(jié)合在一起。圖往往包含了標(biāo)記數(shù)據(jù)(輸出類別或標(biāo)簽已知的節(jié)點)和未標(biāo)記數(shù)據(jù)(沒有標(biāo)簽的節(jié)點)。接著,Expander的框架在圖上傳播標(biāo)簽信息,用半監(jiān)督式的學(xué)習(xí)方法給所有節(jié)點打上標(biāo)記。

然而,說起來容易做起來難!我們需要:
(1)用最少的監(jiān)督來有效率地學(xué)習(xí)(即極少量的標(biāo)記數(shù)據(jù));
(2)處理多種形態(tài)的數(shù)據(jù)(即數(shù)據(jù)的異形表達和多種數(shù)據(jù)源);
(3)解決高維數(shù)據(jù)的預(yù)測難題(高維、復(fù)雜的輸出空間),數(shù)據(jù)可能還含有噪音。

整個學(xué)習(xí)過程中的關(guān)鍵成分就是圖與節(jié)點的連接方式。圖的形狀、尺寸千變?nèi)f化。我們注意到,用多種數(shù)據(jù)源的不同表達形式組合而成的信息構(gòu)建多圖結(jié)構(gòu),這樣的效果比較好(比如,Allo的PhotoReply采用了圖片像素、物體類別和對話反饋信息等)。Expander團隊的圖學(xué)習(xí)平臺基于數(shù)據(jù)間推測或已知的關(guān)系直接自動地生成關(guān)系圖。數(shù)據(jù)可以是結(jié)構(gòu)化的(如關(guān)系型數(shù)據(jù))或是非結(jié)構(gòu)化數(shù)據(jù)(如,從原始數(shù)據(jù)中提取的稀疏或稠密特征表達)。

為了理解Expander的系統(tǒng)如何學(xué)習(xí),我們來看一下下圖所示的例子。

圖中有兩類節(jié)點:“灰色”表示未標(biāo)記數(shù)據(jù),彩色的是標(biāo)記過的數(shù)據(jù)。節(jié)點之間的關(guān)系用邊來表示,邊的粗細(xì)表示關(guān)系的強弱。我們可以這樣來刻畫這個半監(jiān)督式學(xué)習(xí)問題:預(yù)測圖中每個節(jié)點的顏色(“紅色”或“藍色”)。注意,圖的結(jié)構(gòu)和節(jié)點顏色需要根據(jù)實際任務(wù)而定。舉個例子,在我們最近發(fā)表的一篇文章中,我們?yōu)槭占渲悄芑貜?fù)功能設(shè)計的圖的節(jié)點是郵件信息,顏色表示用戶回復(fù)的語義類別(比如,“是的”,“好棒”,“有意思”)。

Expander圖學(xué)習(xí)框架把這類標(biāo)記問題當(dāng)做優(yōu)化問題來處理。在最簡單的層面,它學(xué)會根據(jù)每個節(jié)點的周邊節(jié)點顏色和連接強度來給所有節(jié)點指定顏色。一種簡單的方法是一次性處理所有的節(jié)點數(shù)據(jù) —— 這種方法無法擴展到大圖上。我們可以對此問題做優(yōu)化,將已標(biāo)記節(jié)點的顏色信息傳播到它們的鄰居節(jié)點,然后重復(fù)這個過程。在每一步中,未標(biāo)記節(jié)點會根據(jù)其鄰居節(jié)點中的顏色標(biāo)記上顏色。我們可以反復(fù)迭代這個過程,直到所有的節(jié)點都被打上標(biāo)記。這個方法的效率非常高,在本例中,迭代的結(jié)果最終是收斂的,結(jié)果如圖所示。

基于圖的半監(jiān)督式學(xué)習(xí)

實際上,我們基于圖結(jié)構(gòu)設(shè)計了復(fù)雜的優(yōu)化函數(shù),其中包括了額外的信息和限制,形成了復(fù)雜的非凸問題。然而,正在的挑戰(zhàn)在于將這種方法高效地推廣到包含幾十億節(jié)點、幾百億邊的大規(guī)模圖模型中,乃至包含上億種不同標(biāo)簽的復(fù)雜問題。

為了解決這一問題,我們創(chuàng)造了一種分布式流式方法,去年發(fā)表了論文Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation。此文介紹的流式算法可以快速處理非常大的圖數(shù)據(jù)。此文,它還解決了其它實際問題,它保證了系統(tǒng)的空間復(fù)雜度和內(nèi)存需求保持恒定,與任務(wù)的難度無關(guān),即無論是兩個標(biāo)簽還是成千上萬個標(biāo)簽,整個系統(tǒng)使用的內(nèi)存量都不變。它推動了圖技術(shù)廣泛地應(yīng)用與自然語言理解、機器感知、用戶建模,甚至文本、圖像、語音糅合的多態(tài)學(xué)習(xí)任務(wù)。

言語幽默的圖表達

我們舉一個基于圖的機器學(xué)習(xí)方法在語言理解方面的應(yīng)用案例,比如收件箱智能回復(fù)功能中的情感識別,它的目標(biāo)是給文本中的詞語標(biāo)記上細(xì)粒度的情感類別。首先,使用神經(jīng)網(wǎng)絡(luò)模型在文本集上訓(xùn)練得到詞向量表達,即每個詞的意思都用一個向量表示。然后,用詞向量構(gòu)建一個稀疏的圖,每個節(jié)點表示一個詞語,邊表示詞語之間的語義聯(lián)系。邊的權(quán)值通過詞向量的相似度計算得到 —— 舍棄相似度過低的邊。我們先給其中一小部分節(jié)點打上情感標(biāo)記(比如,“笑”被標(biāo)記為“有趣”),然后在整個圖上應(yīng)用半監(jiān)督式學(xué)習(xí)方法,給剩余的詞語都標(biāo)記上合適的類別(ROTFL由于與“笑”語義上比較接近,也被標(biāo)記為“有趣”的類別)。


用詞向量和圖結(jié)構(gòu)方法學(xué)習(xí)詞語的情感關(guān)系

對于大數(shù)據(jù)集的應(yīng)用產(chǎn)品,比如觀察到的數(shù)據(jù)(如圖像的像素值)或者通過神經(jīng)網(wǎng)絡(luò)學(xué)到的表達(如詞向量),不可能直接計算圖上兩兩節(jié)點之間的相似度。Expander團隊采用近似計算的方法來解決這一問題。

基于圖方法的實踐應(yīng)用

Expander團隊的機器學(xué)習(xí)系統(tǒng)如今已經(jīng)被廣泛應(yīng)用于大規(guī)模的圖數(shù)據(jù)上(十億級節(jié)點和百億級邊),用于識別和理解自然語言、圖像、視頻、搜索詞等,支持Google的眾多產(chǎn)品,比如問答、翻譯、物體識別、對話理解等等。

隨著最近Allo的版本升級,幾百萬的聊天用戶都能體驗到由Expander團隊的系統(tǒng)所支持的對話助手功能。而且,這種技術(shù)不僅僅用于云端的大規(guī)模模型,也能用于安卓系統(tǒng)的智能移動設(shè)備。我們期待未來幾年內(nèi)Expander能夠解決更多挑戰(zhàn)性的問題。

評論

基于圖的傳播方法早在十多年前就被人廣為使用。Google的貢獻在于將這一的方法推廣到海量數(shù)據(jù)集,使得用有限的空間和計算資源能夠處理幾十億節(jié)點和幾百億關(guān)聯(lián)的巨型圖。而且,半監(jiān)督式的學(xué)習(xí)方法只需要少量的標(biāo)記數(shù)據(jù),解決了傳統(tǒng)機器學(xué)習(xí)方法面臨的人工標(biāo)注大量數(shù)據(jù)的問題。因此,我們可以充分利用大數(shù)據(jù)時代在各個渠道生產(chǎn)的各種結(jié)構(gòu)和類型的數(shù)據(jù)。

文中介紹了這套系統(tǒng)已經(jīng)應(yīng)用于Allo的智能回復(fù)功能,它可以自動分析前后對話和對方發(fā)送的圖片,自動幫用戶生成要回復(fù)的話語。本人比較好奇的是基于圖的方法在個性化回復(fù)方面有什么改進,系統(tǒng)如何針對用戶的聊天習(xí)慣生產(chǎn)回復(fù)內(nèi)容,在龐大數(shù)據(jù)的前提下它能多像使用者。

總結(jié)

以上是生活随笔為你收集整理的如何让机器获得幽默感——Goolge图学习技术揭秘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。