AICreateMeeting-遇见未来
聲明:
作為度廠民工,也是一名開發(fā)者,還是帶著很激動的心情參加完了整整一天的大會,覺得這篇文章是軟文,扯淡,吹牛逼的可以點關(guān)閉了
非AI專業(yè)開發(fā)者,只是應用層的開發(fā)者,對里面很多AI的技術(shù)可能解讀的有誤區(qū),但從應用層的開發(fā)者角度來講,這些我們接觸不到難以理解的深層技術(shù),以開放的形式提供給應用層廣大開發(fā)者,將會給我們打來巨大的機會和挑戰(zhàn),非常非常期待
PS:這其實是一片流水賬
現(xiàn)場體驗區(qū)
大會10點開始,因為會場有很多現(xiàn)場體驗區(qū),有很多智能設(shè)備和技術(shù)的現(xiàn)場講解,因此早上8:30就開放檢票入場,一層大廳除了檢票入口,最吸引人的當屬無人車停放區(qū)了,整個區(qū)域大概有7-8量無人車,分別來自不同的汽車廠商,有專門的資料介紹各大廠商的合作進展,無人車可以進入車內(nèi)參觀,但不能發(fā)動試駕╮(╯_╰)╭。排隊的人太多,我只是在外面匆匆瞄了一眼,就離開去別的展區(qū)了,印象最深的就是車里好大一塊電子屏幕。
從照片里那個電梯上了三樓就看到了小度機器人,眼前的這個小度機器人的喚醒方式還是通過麥克風上面的按鍵,說話前按下麥克風的按鍵來交流,現(xiàn)場開放給所有訪客可以自由的跟小度FreeStyle對話,有一種程序員祖師爺定義的圖靈測試即視感,每個人都可以當場和小度機器人正常的自然聊天,看看小度通過沒。
我前面一些人問今天天氣咋樣?別的城市天氣咋樣,你是男的女的?,你喜歡吃啥?之類的話,我接到麥克風張嘴問給爺笑一個,小度第一次聽成了香港,balabala介紹了一堆香港這個城市,放慢點速度又說了一遍,然后機器人沒說話,放比較歡快的音樂,眼睛的顯示屏一會出現(xiàn)桃心,一會出現(xiàn)瞇眼,我估計這就是笑的表情吧?我在那里停留了大概10分鐘左右,先后幾個人和小度對話,雖然沒有涉及太復雜的溝通,小度的識別率和答案還算湊合,還是有bad case的,但也不多。
預告:
這里面有一些關(guān)鍵的技術(shù)詞,會在后面的體驗和大會論壇上多次提及
- Unit 自然語言處理NLP下的多輪語音上下文交流技術(shù)
- 喚醒詞技術(shù) 語音識別,自然對話的喚醒詞技術(shù)
在經(jīng)過一個轉(zhuǎn)角又上了一層樓,就來到了最集中的現(xiàn)場體驗區(qū),主要有2塊
- DuerOS 喚醒萬物為主題的,生活智能家居,智能設(shè)備體驗區(qū)
- AI 開放平臺為主題的,開放技術(shù),開放API,講解展示區(qū)
DuerOS 喚醒萬物體驗區(qū)
DuerOS是一套涵蓋了專屬的硬件芯片,專門的軟件系統(tǒng),可以讓任何搭載DuerOS的硬件設(shè)備實現(xiàn)語音對話,智能控制的的一整套軟硬件體系,我理解喚醒萬物這個詞的意思就是,你可以用對話的方式和任何硬件設(shè)備進行交流,不在依賴遙控器,面板,按鈕,開關(guān)。
這么大一個冰箱還是挺顯眼的,海爾的冰箱,搭載了DuerOS系統(tǒng)
- 語控冰箱系統(tǒng)功能:如語音控制冰箱溫度、食材管理、菜譜查詢等
- 語音搜索:通過語音交互實現(xiàn)音樂、視頻、相聲、日常各類信息搜索,并理解記憶用戶指令,實現(xiàn)一次搜索過程的多輪交互
- 語控生活管理功能:通過語音交互實現(xiàn)如天氣查詢、預約提醒、網(wǎng)上購物等
冰箱旁邊有有個大電視,因為現(xiàn)在電視已經(jīng)挺智能了,各種軟件又多又全,游戲,購物,看電視,啥都能干沒什么稀奇的,所以這個展區(qū)最大的吸引力還是,喚醒萬物的語音控制,扔掉遙控器,用自然地方式,控制智能電視里強大的能力,這電視好像是和TCL合作的
在電視墻的背后不太被人關(guān)注的角落,放著這么五個盒子,這五個盒子就厲害了,這就是DuerOS芯片開發(fā)套件,后面還會多次提及這個開發(fā)者套件,用這個套件,你就可以將語音控制的能力/語音對話/語音助手的能力,Diy進入自己的設(shè)備里面了,廣告宣傳語是,你可以Diy一個專屬于自己的大白,而且這還不只是宣傳,停留在嘴炮上的ppt宣講,真正主會場的時候,真的就迎來了驚喜,先賣個關(guān)子。
這個會場還有2個DuerOS已經(jīng)投入生產(chǎn)投入市場,有合作方已經(jīng)制作出產(chǎn)品的很優(yōu)秀的落地的例子,我沒拍照片,但后面的大會上多次提及
- 智能音箱,搭載DuerOS的從而可以進行語音對話,實現(xiàn)語音助手的音箱
- 手機語音助手,和HTC合作,已經(jīng)在HTC一款手機上搭載了DuerOS語音對話,語音助手的能力,并且內(nèi)部運用了Unit這項多輪語義對話分析的NLP技術(shù)
有一點感受是,DuerOS打出來的宣傳概念,每一項都已經(jīng)有具體的落地,并且有具體的合作廠商已經(jīng)投入生產(chǎn)和市場了,而且合作廠商很多不止一家,個人感覺這個還是挺干貨的,不是在炒概念,這段是不是有點像廣告軟文╮(╯_╰)╭
AI開放平臺 展示區(qū)
這里就是開發(fā)者最關(guān)注的,各種開放API的展示區(qū)了,港真,還真是挺帶感的!技術(shù)涵蓋
- 語音合成/語音識別
- SLAM/真實空間,計算機模擬/機器人視覺
- 裸眼3D
- AR開放平臺
- 知識圖譜開放平臺
- Unit多輪對話/自然語言處理
- 開放云
語音合成/語音識別
語音合成和語音識別這個來自IDL語音組的開放API,都可以申請開通使用
語音合成主要用在聽書,播報文字,會場上的展示手機上就安裝著我們的百度閱讀App,在年初百度閱讀的發(fā)布會上就展示過這樣技術(shù),并非是像喜馬拉雅那樣純?nèi)斯や浺?#xff0c;也并非是像高德導航那樣純?nèi)斯や浺羧缓蠼M合,而是通過錄音采集特定人的聲紋樣本,然后擬合出任意的對話,case就是韓喬生版真人音色的聲音合成,聽著還真的挺有韓喬生的味道!有一段宣傳視頻,目的是讓在異鄉(xiāng)打工的家長,能夠定制自己的獨特聲紋語音,然后讓孩子在家鄉(xiāng)聽到媽媽的聲音講故事,還是挺感人的。
語音識別主要用在語音輸入場景,語音錄入各種聲音,我們的百度文庫App其實也接入了語音錄入文檔資料,當時開發(fā)接入的時候,嘗試用音樂/廣播/普通話/四川話/陜西話,整體識別效果在我們App當初接入的時候就感覺已經(jīng)非常不錯了,識別率還是相當準的,并且還能識別語氣從而產(chǎn)生標點符號,問號,逗號,嘆號。而這次大會語音組又開放了更多語音識別方面的黑科技,進場耳語識別,遠場識別等。
SLAM/機器人視覺
SLAM (simultaneous localization and mapping),也稱為CML (Concurrent Mapping and Localization), 即時定位與地圖構(gòu)建,或并發(fā)建圖與定位。 SLAM最早由Smith、Self和Cheeseman于1988年提出。 由于其重要的理論與應用價值,被很多學者認為是實現(xiàn)真正全自主移動機器人的關(guān)鍵。
簡單的說就是將攝像頭拍攝出來的畫面,通過AI進行分析和識別,識別出其中的物體,以及所占的空間位置,識別出空間區(qū)域,在計算機的數(shù)據(jù)中對真實空間區(qū)域進行3D建模,從而能讓機器知道,攝像頭中的這個畫面,哪里是障礙物,哪里是可通行區(qū)域,障礙物都是一些什么東西,整個空間的全方位真實信息,會重新在機器人的虛擬數(shù)據(jù)中重新3D完全還原。
與這塊的工作人員聊天,工作人員說目前這塊主要運用在機器人或者AR上,圖中就是一個人拿著采集器在超市里走來走去,然后建模成整個超時的3D場景的示例。但除了AR這塊也可以運用在無人駕駛上,但現(xiàn)在百度的無人駕駛Apollo系統(tǒng)用的還是激光探測,硬件成本還是有不小的。
SLAM也是AR種最重要的一環(huán),AR不僅僅是在手機APP的攝像頭中扔一個3D游戲,AR需要識別現(xiàn)實空間中的區(qū)域和物體屬性,從而進行匹配的3D交互,因此有SLAM能力的AR才是真·AR
說道SLAM,不得不提微軟
- 微軟的kinect體感技術(shù)就是利用攝像頭拍攝,從攝像頭中提取出空間物體/人的信息,從而實現(xiàn)的游戲交互,殺手級應用算是水果忍者體感/運動會體感,人只需要站在攝像頭前,揮舞雙臂切切切,就能精準的切到屏幕上的水果,這背后就是SLAM技術(shù)
- 微軟的hololens AR技術(shù),背后也是依托于對整個真實空間的攝像頭采集,通過強大的AI,重新在電腦里重建3D模型,然后在3D模型上開發(fā)有趣的AR游戲,并且hololens有自己的眼鏡式頭盔,借助這個頭盔,用戶可以身臨其境的在現(xiàn)實生活中玩AR游戲
視頻截圖
視頻鏈接 : 使用hololens在現(xiàn)實生活中玩超級瑪麗
裸眼3D
這個顯示屏其實展示的就是裸眼3D,照片拍不出來,但現(xiàn)場親臨的感覺3D效果還是有的,能感覺出來,但也并不是特別真,有一點點晃眼
AR開放平臺
這是一個AR宣傳片的截圖,現(xiàn)場是可以用手機百度掃Marker來體驗的,但由于排的人特別多,我也沒使勁往里面擠,高考期間我們事業(yè)部和AR部門合作做的高考校驗項目,磁感線右手定則也在現(xiàn)場可體驗的內(nèi)容里,還有手機掃變形金剛大黃蜂的游戲
貼個當初高考活動時候的圖吧~
下午的開放平臺分論壇會專門介紹AR
知識圖譜 開放API
廠里的搜索用到的知識圖譜,現(xiàn)在初步框架也在本次開放的API之內(nèi),不過目前開放的不是已經(jīng)構(gòu)建好的那部分泛生活類知識圖譜,而是開放一套搭建自有知識圖譜的開放工具,以及數(shù)據(jù)協(xié)議準則,是一套構(gòu)建圖譜的schema,以及錄入schema制作自己圖譜數(shù)據(jù)的工具,以及根據(jù)已有圖譜數(shù)據(jù),從任意文章中抽取圖譜相關(guān)信息的抽取工具。
簡單的說目前開放的是一套,搭建自己專屬圖譜數(shù)據(jù)的協(xié)議設(shè)計+開發(fā)工具,開發(fā)者可以使用這套工具,自建自己的知識圖譜,知識圖譜的數(shù)據(jù)保存在自己的手里。
所以,知識圖譜開放的API,并不是直接將百度搜索現(xiàn)在使用的那套圖譜數(shù)據(jù)以API的方式提供,而是提供的可以讓開發(fā)者自建自有知識圖譜的工具。尤其是垂類領(lǐng)域,金融/教育,可以根據(jù)這個工具,去運用自己掌握的內(nèi)容搭建自有圖譜,廠里現(xiàn)在的搜索用的那套圖譜,偏生活,偏廣泛,在細分垂淚領(lǐng)域,和工作人員交流,效果并不是很好。
Unit多輪對話
前面提到的小度機器人/HTC手機/DuerOS內(nèi)部,都有Unit這個強大的自然語言處理系統(tǒng)的工具,他最大的特點能夠識別上下文多條對話之間的關(guān)聯(lián),之間的指代關(guān)系,之間的先后順序和邏輯,這和傳統(tǒng)的只局限在一問一答的語音助手領(lǐng)先很多很多。
Unit在主論壇/開放平臺分論壇的大會演講上也有多次提及
開放云
這塊我沒咋細看細聽解說╮(╯_╰)╭
主大會正式開始
主大會相信各大媒體,以及各方干貨總結(jié)文章都報道了不少,可以看看這個網(wǎng)頁
沒去百度Create2017現(xiàn)場?最干貨PPT已經(jīng)流出
QI的演講非常的有激情,非常的有感染力,尤其是一些具體的成果展示,經(jīng)常激起在場的一陣陣高潮,上午的主大會主要講了3個東西
- 介紹DuerOS,開放出來的喚醒萬物技術(shù)
- 介紹Apollo,開放出來的自動駕駛技術(shù)
- 介紹AI開放生態(tài)
- 百度大腦,把AI技術(shù)開放給全體開發(fā)者的AI開放平臺
- 智能云,ABC - Ai Bigdata Cloud
我相信大家都看了很多官方資料,看了很多官方提煉的干貨信息,但有些現(xiàn)場的展示環(huán)節(jié),真刀真槍的現(xiàn)場實干寫代碼環(huán)節(jié),還是非常厲害的,干貨提煉里不見得有,我這邊就多啰嗦啰嗦
DuerOS喚醒萬物 系統(tǒng)
DuerOS前文提到過,是專為各種智能硬件設(shè)備提供的一站式開發(fā)套件,讓任意設(shè)備具備巨有語音交互/自然語言處理能力,涵蓋軟件系統(tǒng),硬件芯片的全方位開發(fā)者套件。從上文的ppt里也能看到,DuerOS已經(jīng)對接了幾十家合作伙伴了,都有具體的硬件產(chǎn)品落地了,就像我上面說的,有這么多落地產(chǎn)品,這么多干貨,還是很令人驚訝的。
HTC手機搭載的DuerOS度秘 -- 強大的Unit
一個視頻展示了現(xiàn)在就已經(jīng)搭載在HTC某款手機上的語音助手,全程語音與度秘交談(記得大概劇情,記得不是很清楚了)
- 問:北京比較好吃的某菜參觀都哪里有?
- 答:(展示出了3加餐館介紹,其中有一家在雍和宮)
- 問:雍和宮那家好停車么?
- 答:附近有N家停車場,距離最近的xxx
- 問:幫我訂一下他們家晚上6點的餐
上下文對話中對于各種不同句子之間的指代識別的很精準。
DuerOS芯片開發(fā)套件,意外的開發(fā)者,意外的合作商
現(xiàn)場展示了一封百度收到的一封嵌入式工程師發(fā)來的郵件(忘了叫啥了),是一個小故事
開發(fā)者有個小侄子很喜歡樂高,并且希望能有一個會說話的樂高玩具陪著他,開發(fā)者答應了小侄子的請求
這個開發(fā)者看到了DuerOS的早期宣傳,發(fā)來一封郵件,希望能參與內(nèi)測,用DuerOS芯片給小侄子的樂高玩具做成可以聊天對話的機器人,他不希望小侄子失望
DuerOS的工程師們,將一個芯片套件以及相關(guān)開發(fā)文檔郵寄給了他
這個開發(fā)者成功的將小侄子的樂高玩具,加以改造,變成了能聊天講笑話的玩具機器人
故事的主人公和小侄子都來到了現(xiàn)場,同時來到現(xiàn)場的還有樂高的高層,作為DuerOS的合作伙伴,樂高會和百度一起在這個領(lǐng)域探索出新的世界。
會場DuerOS的經(jīng)理主講人,還現(xiàn)場從兜里掏出了四個芯片詳細介紹了這個開放給開發(fā)者的DuerOS開發(fā)者解決套件,就是前邊我在展區(qū)拍到過的那幾個芯片
Talk Is Cheap Show Me Your Code
QI在現(xiàn)場介紹,百度將在美國成立人工智能部門,并且收購被Amazon Alexer點評的國外最優(yōu)秀的AI創(chuàng)業(yè)公司之一 KITT.AI,創(chuàng)始人陳果果,他曾在Google實習,參與制作了“OK Google”熱詞檢測雛形,在語音喚醒詞上,有著非常龐大和豐富的積累。
KITT.AI公司新聞資料
陳果果還現(xiàn)場演示了一段喚醒詞訓練,通過簡單的重復語聊錄制,現(xiàn)場控制將一臺筆記本生命名為景鯤(主講人),可以名字呼喚控制這臺筆記本。
不止如此,現(xiàn)場的DuerOS工程師,還將一款在國外售賣的搭載Amazon Alexa系統(tǒng)的智能硬件(好像是個音箱,記不得了),現(xiàn)場編程,用很快很少很簡潔的代碼,當場將音箱接入了DuerOS。
雖然說這些現(xiàn)場訓練模型,現(xiàn)場編寫代碼都肯定是預先排練過很多次的,但程序員有句俗話Talk Is Cheap Show Me Your Code,這一點還是很令人興奮的
Apollo自動駕駛 開放平臺
AI大會就不得不提自動駕駛,11點左右的時候,廠長Robin坐在自動駕駛車的副坐,從五環(huán)發(fā)來賀電。廠長在五環(huán)遠程連線的視頻(然后五環(huán)堵車堵的12點還沒到國家會議中心╮(╯_╰)╭,后來還有啥交管部門接入調(diào)查的新聞,各種討論技術(shù)倒逼法律前進等,深刻感覺這次pr的效果有點意思)
Apollo是一個開放給開發(fā)者的自動駕駛開放平臺,不止是百度與合作汽車廠商,任何開發(fā)者都可以借助apollo的能力,從0到1,擁有自己的智能汽車。(有點做廣告嫌疑╮(╯_╰)╭)
Apollo會逐漸開放以下能力給所有開發(fā)者。
- 封閉場地循環(huán)自動駕駛
- 固定車道自動駕駛
- 簡單城市道路自動駕駛
- 特定區(qū)域/高速/城市道路自動駕駛
- 高速/城市自動駕駛
這里不得不說一個插曲,Robin在12點多的時候終于從五環(huán)趕到了現(xiàn)場,整個過程中Robin乘坐了2輛自動駕駛汽車,一輛是視頻中的那輛,快到現(xiàn)場Robin又換了一輛黑色的車,經(jīng)過后來Robin到場后的解說,這兩黑色的自動駕駛汽車,來自一位美國的小哥,用3天時間,將一輛車打造成Apollo自動駕駛汽車,Robin就是坐著這輛車來到了會場,并且這位小哥也來到了現(xiàn)場。
Apollo就是這樣開放給所有開發(fā)者的,并且現(xiàn)在有幾十家合作方已經(jīng)投入生產(chǎn)。
AI開放生態(tài)
DuerOS和Apollo之后,QI重點介紹了百度的AI開放生態(tài),將會全面開放百度大腦的全方位能力,打造AI開放平臺,深度學習平臺,并且與NVIDIA和Intel深度合作,并且建立Apollo基金,DuerOS基金,扶植開發(fā)者,建立AIStar計劃賦值開發(fā)者。
身為開發(fā)者當然會關(guān)注與具體開放了哪些內(nèi)容。很多內(nèi)容都在上面發(fā)的ppt里面,這里就簡單羅列一下
開放60項核心AI能力
- 百度大腦
- 平臺層
- AI開放平臺
- 認知層
- 自然語言處理
- 知識圖譜
- 用戶畫像
- 感知層
- 語音
- 圖像
- 視頻
- AR/VR
- 算法層
- 機器學習平臺
- 深度學習平臺
- 平臺層
- 智能云
- 大數(shù)據(jù)
- 大數(shù)據(jù)分析
- 數(shù)據(jù)標注
- 數(shù)據(jù)采集
- 云
- 計算服務 CPU/GPU/FPGA
- 存儲服務
- 網(wǎng)絡服務
- 大數(shù)據(jù)
下午專門有一個分會場,會進一步討論AI技術(shù)與開放平臺,我下午就參加的這一場
廠長講話
廠長終于在上午會場的尾聲趕來了現(xiàn)場,用了一個在場所有開發(fā)者,所有程序員都非常熟悉的一個梗來開場,造輪子,會場很多人看到這個圖的時候都會心的笑了。
今天的大會是給開發(fā)者的,所以Robin說:開發(fā)者是推動進步的偉大力量,天下開發(fā)者是一家,分享與合作是這個時代的聚寶盆
廠長講笑話:
在收購KITT.AI的時候,層和投資部門聊天,投資部門問,如果競爭對手想出高價收購咋辦,Robin說,我們的競爭對手從不收購純技術(shù)公司,只收購成熟產(chǎn)品形態(tài),變現(xiàn)產(chǎn)品形態(tài)
AI開放平臺分會場
上午的大會就結(jié)束了,短暫的休息后,下午將會同時開啟很多分會場
- AI技術(shù)與開放平臺
- 對話式人工智能
- 智能駕駛
- 智能云計算
- Web生態(tài)
- 數(shù)據(jù)中心
我參加的AI技術(shù)與開放平臺專場,深入的講了很多上文提到的 開放60項核心AI能力
這個分會場就是專為開發(fā)者量身定做了,全程都在講解相關(guān)AI技術(shù)現(xiàn)在優(yōu)勢,開放的程度,每一個都配備了比較豐富的業(yè)務應用場景,開放平臺交到開發(fā)者手里,剩下的就是比拼創(chuàng)造力的時候了,這個會場主要講了
語音識別開放平臺
- 近場輕音識別/喚醒
現(xiàn)場展示了工作人員,小聲輕聲說話,還有唱歌歌詞識別,近場指嘴對著麥克風說話
- 遠場語音識別
- 近場訓練數(shù)據(jù)適配
- 麥克風陣列適配
- 中國家庭適配
- 開放遠場喚醒
- 海量喚醒詞數(shù)據(jù)
- 喚醒/誤喚醒打磨
- 廠商定制
- 用戶可配置
遠場識別是現(xiàn)在語音識別技術(shù)里很有挑戰(zhàn)的領(lǐng)域,而在DuerOS的各大智能家電使用場景中,所有的對話,都不是直接對著麥克風的,而是在房間中空間中直接發(fā)聲,這類識別技術(shù),現(xiàn)場展示的視頻中,已經(jīng)實現(xiàn)了10米以上的遠場聲音識別,并且適配了中國家庭,戶型偏小,狹窄的特點
- 開放定制化語音合成
- 開放真人音色擬合
- 開放定制化合成方案
一方面就是前文提到的,在聲音合成方面,追求極致的自然音色,通過對真人/明星的聲紋采樣,訓練學習后,直接用AI擬合發(fā)生出采樣人的定制化音色語音?,F(xiàn)場展示了韓喬生語音包。
一方面可以在文字語音朗讀的時候,針對中文,定制化中文語音朗讀的節(jié)奏和語氣,定制化TTS,通過國際通用的SSML標簽語言可以定制朗讀節(jié)奏,斷詞斷句規(guī)則,也擴展了百度定制中文標簽,可以支持純中文的諸如古詩詞,古文的朗讀規(guī)則。
看到合作伙伴的時候展示了十幾家,其中居然看到了特斯拉的身影
自然語言處理開放平臺
自然語言處理是自從搜索引擎誕生之初就存在的AI技術(shù),涵蓋的場景領(lǐng)域非常多。
- 應用場景:機器翻譯/深度問答/對話系統(tǒng)
- 自然語言理解:需求理解/篇章理解/情感分析/詞法句法分析
- 自然語言生成:文本生成/自動文摘
- 背靠基礎(chǔ):大數(shù)據(jù)/知識圖譜/機器學習
為此NLP開放了多個場景的開放API
- 詞法分析
- 情感分析
- 機器翻譯
- 語義表示
- 語義模型
- 語義相似度
NPL開放的基礎(chǔ)API還不是最大的亮點,Unit才是NLP部門本次展示的重頭戲,Unit-理解與交互技術(shù)平臺,可以被廣泛運用在車載/客服/家居等應用場景,現(xiàn)場又是一個更為厲害的多輪語音交流案例
展示錄像處于開車中:(看著像巨堵的馬連洼這邊的路╮(╯_╰)╭)(記得也是有點不太清楚了,對話是個大概)
- 問:前方路段堵么?
- 答:前方xxx,很堵
- 問:那怎么繞開?
- 答:可以選擇1路線balabala 2路線balabala 3路線balabla?
- 問:那走2路線那條,大概多久到
這全套Unit多輪對話技術(shù)都是對外開放可以接入任意語音對話場景。
最牛逼的還是訓練師系統(tǒng)
訓練師是一個自然語言模型訓練工具,這套工具不需要使用代碼進行開發(fā),任何人可以不寫一行代碼,通過可視化的界面,填填網(wǎng)頁,謝謝表格,配配需求,從而直接生成自己專屬的定制化的AI對話助手,并且提供可視化的訓練調(diào)優(yōu)工具,可以親自與配置生成的助手進行對話,看助手的回答是否正確,標記助手的不正確回答,從而反復訓練自然語言模型,最終訓練出一個自定義需求的語音助手
訓練師的可視化工具可以讓任何非編程人員參與進來,很多客服人員已經(jīng)從親自人工接線,轉(zhuǎn)變成了客服語音AI訓練師了。
在大會現(xiàn)場就展示了一個視頻,視頻是一個利用訓練師系統(tǒng),從0構(gòu)建了一個為女朋友準備的,生活電影語音小助手,全程沒寫一行代碼,就一直是在填填,寫寫,配配,改改,調(diào)教,校正,對話,訓練。
視頻開放平臺
對于視頻技術(shù),這個環(huán)節(jié)講了更多酷炫的東西
- 開放已有分析數(shù)據(jù)
- 視頻封面選摘
- 視頻的分類/標簽
- 視頻的索引/檢索
視頻不同于文字信息,在摘要節(jié)選,結(jié)構(gòu)化,從而方便進行數(shù)據(jù)處理的時候,有很大的困難,所以開放平臺提供了一系列挖掘識別視頻內(nèi)容,從而結(jié)構(gòu)化視頻數(shù)據(jù)的功能,分析挖掘視頻中的有關(guān)鍵意義的幀,從而找到最恰當表達視頻意圖的一幀,可以方便的用于視頻縮略圖介紹,挖掘視頻的信息,對視頻進行分類和打Tag,這對后續(xù)大數(shù)據(jù)運算甚至知識圖譜都有很重要的意義,而視頻內(nèi)容的索引和檢索,可以支持從海量視頻里,查找具有相同畫面的視頻
- 視頻細粒度識別物體
- 視頻審核/色情識別
- 視頻結(jié)構(gòu)化分析
這就都是圖形識別了,識別視頻中的物體內(nèi)容,甚至關(guān)聯(lián)大數(shù)據(jù)后,可以直接定位細粒度的物品信息,如下圖所示,不在只識別一個車,而是識別出車牌,車型號。
而且還可以對視頻進行結(jié)構(gòu)化分析,如下圖對于一個電視節(jié)目,可以直接識別出字幕/臺標/語音/人臉,最后產(chǎn)出結(jié)構(gòu)化數(shù)據(jù)
- 人臉識別
- 已經(jīng)運用在泰康人壽的一款App客戶征信認證上
- 運用在百度有錢花貸款秒批
- 運用在機場(忘了哪個城市了,有個城市已經(jīng)刷臉登機了)
- 運用在某風景景區(qū)刷臉閘機(是鳳凰古城?還是啥?還有個啥山景區(qū)?我都記不得了)
- 運用在百度公司內(nèi)部門禁閘機
- 運用在百度公司刷臉販賣機/食堂
人臉識別的快速準確度已經(jīng)提高的非常大,因此這項技術(shù)已經(jīng)全面在很多安檢,購物,金融場景有真實的業(yè)務運用了,下面這張圖挺厲害的!圖中右邊的那塊屏幕看起來就是百度科技園區(qū),里面就是平時行走在園區(qū)內(nèi)小路的我們,而上面的實時人臉識別都在第一時間定位到了出現(xiàn)在畫面里的每一個人,每一個人的詳細信息,并且最可怕的是戴著口罩也照樣精準定位數(shù)據(jù)庫中的信息。
- 機器人視覺
- 攝像機 IMU模組
- SLAM
- 障礙物檢測
- 地圖繪制
- 圖像識別
- 領(lǐng)先的SLAM技術(shù)
- 視覺慣性算法
- 局部全局優(yōu)化
- O(n)求解器
- 重定位
- ARM芯片優(yōu)化
前面聊了一堆SLAM,沒錯這里就是開放的機器人視覺&SLAM,前邊其實扯了不少了,就不繼續(xù)說了,光列一些降到的技術(shù)吧
DuMixAR 開放平臺
現(xiàn)在市面上AR解決方案的公司也不少了,Vuforia(高通的)/Metaio(蘋果收購)/EasyAR(國產(chǎn)自研)等,本次開發(fā)者大會推出了DuMixAR 開放平臺,主要包含
- DuMix AR SDK
整個SDK中包含了很多技術(shù),本地識別/圖片跟蹤/IMU/SLAM/錄屏/語音交互/內(nèi)容解析/透明視頻等,剛才提到的很多最新的視頻技術(shù)
- 內(nèi)容制作工具
- 云端內(nèi)容平臺
- 內(nèi)容分發(fā)服務
從制作-分發(fā)一整套服務,制作出來的AR Case都是可以動態(tài)更新的,只要預先把整個SDK內(nèi)置進入app,并且部署好相關(guān)的功能,以后每做好一個AR Case,都可以直接上傳云端,動態(tài)下發(fā)給App從而實現(xiàn)動態(tài)更新AR Case的效果。
說道AR怎能不看看效果,有一個視頻我沒錄制下來,屋子里有一棵真的圣誕樹,然后用AR渲染出來的3D小鹿在圣誕樹里飛,AR的效果已經(jīng)能做到,當小鹿飛到圣誕樹的后面的時候,會被圣誕樹遮擋住,還有個視頻可以看到一只小度熊在一朵花上跳舞。
不過最酷炫的視頻Case已經(jīng)錄制下來了
完整的視頻Link在這里,AI 大會AR視頻
PaddlePaddle 深度學習平臺
Google出的TensorFlow想必大家都聽說并且了解了,這次廠里的AI開放平臺很重要的一個內(nèi)容就是也開放一個深度學習的開源工具與平臺,PaddlePaddle
并且廠里將PaddlePaddle與自己的云計算技術(shù)相結(jié)合,將會提供一整套深度學習解決方案,在這套技術(shù)方案下實現(xiàn)ABC Ai Bigdata Cloud (好吧我是真不太懂這方面,不知道怎么編詞了,直接上圖吧。。。)
并且還會開放很多模型庫
- 點擊率預估
- Learning-to-rank
- 語音識別
- 語音合成
- 序列標注
- 文本分類
- 機器翻譯
- 物體分類
- 圖像分割
- ……
感想:遇見未來
遇見了未來,就要由廣大開發(fā)者一起創(chuàng)造未來
參考鏈接
沒去百度Create2017現(xiàn)場?最干貨PPT已經(jīng)流出
DuerOS開發(fā)者解決套件
KITT.AI公司新聞資料
DuerOS生態(tài)圈覆蓋全行業(yè) 多方合作伙伴共建智能語音新時代
DuerOS開發(fā)者官網(wǎng)
廠長在五環(huán)遠程連線的視頻
視頻鏈接 : 使用hololens在現(xiàn)實生活中玩超級瑪麗
AI 大會AR視頻
總結(jié)
以上是生活随笔為你收集整理的AICreateMeeting-遇见未来的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Vue、React 之间如何实现代码移植
- 下一篇: AIR是什么?.air文件如何打开?fl