當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AICreateMeeting-遇见未来

發(fā)布時間：2023/12/9 ChatGpt 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 AICreateMeeting-遇见未来小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

聲明：

作為度廠民工，也是一名開發(fā)者，還是帶著很激動的心情參加完了整整一天的大會，覺得這篇文章是軟文，扯淡，吹牛逼的可以點關(guān)閉了

非AI專業(yè)開發(fā)者，只是應用層的開發(fā)者，對里面很多AI的技術(shù)可能解讀的有誤區(qū)，但從應用層的開發(fā)者角度來講，這些我們接觸不到難以理解的深層技術(shù)，以開放的形式提供給應用層廣大開發(fā)者，將會給我們打來巨大的機會和挑戰(zhàn)，非常非常期待

PS:這其實是一片流水賬

現(xiàn)場體驗區(qū)

大會10點開始，因為會場有很多現(xiàn)場體驗區(qū)，有很多智能設(shè)備和技術(shù)的現(xiàn)場講解，因此早上8：30就開放檢票入場，一層大廳除了檢票入口，最吸引人的當屬無人車停放區(qū)了，整個區(qū)域大概有7-8量無人車，分別來自不同的汽車廠商，有專門的資料介紹各大廠商的合作進展，無人車可以進入車內(nèi)參觀，但不能發(fā)動試駕╮(╯_╰)╭。排隊的人太多，我只是在外面匆匆瞄了一眼，就離開去別的展區(qū)了，印象最深的就是車里好大一塊電子屏幕。

從照片里那個電梯上了三樓就看到了小度機器人，眼前的這個小度機器人的喚醒方式還是通過麥克風上面的按鍵，說話前按下麥克風的按鍵來交流，現(xiàn)場開放給所有訪客可以自由的跟小度FreeStyle對話，有一種程序員祖師爺定義的圖靈測試即視感，每個人都可以當場和小度機器人正常的自然聊天，看看小度通過沒。

我前面一些人問今天天氣咋樣？別的城市天氣咋樣，你是男的女的？，你喜歡吃啥？之類的話，我接到麥克風張嘴問給爺笑一個，小度第一次聽成了香港，balabala介紹了一堆香港這個城市，放慢點速度又說了一遍，然后機器人沒說話，放比較歡快的音樂，眼睛的顯示屏一會出現(xiàn)桃心，一會出現(xiàn)瞇眼，我估計這就是笑的表情吧？我在那里停留了大概10分鐘左右，先后幾個人和小度對話，雖然沒有涉及太復雜的溝通，小度的識別率和答案還算湊合，還是有bad case的，但也不多。

預告：

這里面有一些關(guān)鍵的技術(shù)詞，會在后面的體驗和大會論壇上多次提及

Unit 自然語言處理NLP下的多輪語音上下文交流技術(shù)
喚醒詞技術(shù) 語音識別，自然對話的喚醒詞技術(shù)

在經(jīng)過一個轉(zhuǎn)角又上了一層樓，就來到了最集中的現(xiàn)場體驗區(qū)，主要有2塊

DuerOS 喚醒萬物為主題的，生活智能家居，智能設(shè)備體驗區(qū)
AI 開放平臺為主題的，開放技術(shù)，開放API，講解展示區(qū)

DuerOS 喚醒萬物體驗區(qū)

DuerOS是一套涵蓋了專屬的硬件芯片，專門的軟件系統(tǒng)，可以讓任何搭載DuerOS的硬件設(shè)備實現(xiàn)語音對話，智能控制的的一整套軟硬件體系，我理解喚醒萬物這個詞的意思就是，你可以用對話的方式和任何硬件設(shè)備進行交流，不在依賴遙控器，面板，按鈕，開關(guān)。

這么大一個冰箱還是挺顯眼的，海爾的冰箱，搭載了DuerOS系統(tǒng)

語控冰箱系統(tǒng)功能：如語音控制冰箱溫度、食材管理、菜譜查詢等
語音搜索：通過語音交互實現(xiàn)音樂、視頻、相聲、日常各類信息搜索，并理解記憶用戶指令，實現(xiàn)一次搜索過程的多輪交互
語控生活管理功能：通過語音交互實現(xiàn)如天氣查詢、預約提醒、網(wǎng)上購物等

冰箱旁邊有有個大電視，因為現(xiàn)在電視已經(jīng)挺智能了，各種軟件又多又全，游戲，購物，看電視，啥都能干沒什么稀奇的，所以這個展區(qū)最大的吸引力還是，喚醒萬物的語音控制，扔掉遙控器，用自然地方式，控制智能電視里強大的能力，這電視好像是和TCL合作的

在電視墻的背后不太被人關(guān)注的角落，放著這么五個盒子，這五個盒子就厲害了，這就是DuerOS芯片開發(fā)套件，后面還會多次提及這個開發(fā)者套件，用這個套件，你就可以將語音控制的能力/語音對話/語音助手的能力，Diy進入自己的設(shè)備里面了，廣告宣傳語是，你可以Diy一個專屬于自己的大白，而且這還不只是宣傳，停留在嘴炮上的ppt宣講，真正主會場的時候，真的就迎來了驚喜，先賣個關(guān)子。

這個會場還有2個DuerOS已經(jīng)投入生產(chǎn)投入市場，有合作方已經(jīng)制作出產(chǎn)品的很優(yōu)秀的落地的例子，我沒拍照片，但后面的大會上多次提及

智能音箱，搭載DuerOS的從而可以進行語音對話，實現(xiàn)語音助手的音箱
手機語音助手，和HTC合作，已經(jīng)在HTC一款手機上搭載了DuerOS語音對話，語音助手的能力，并且內(nèi)部運用了Unit這項多輪語義對話分析的NLP技術(shù)

有一點感受是，DuerOS打出來的宣傳概念，每一項都已經(jīng)有具體的落地，并且有具體的合作廠商已經(jīng)投入生產(chǎn)和市場了，而且合作廠商很多不止一家，個人感覺這個還是挺干貨的，不是在炒概念，這段是不是有點像廣告軟文╮(╯_╰)╭

AI開放平臺展示區(qū)

這里就是開發(fā)者最關(guān)注的，各種開放API的展示區(qū)了，港真，還真是挺帶感的！技術(shù)涵蓋

語音合成/語音識別
SLAM/真實空間，計算機模擬/機器人視覺
裸眼3D
AR開放平臺
知識圖譜開放平臺
Unit多輪對話/自然語言處理
開放云

語音合成/語音識別

語音合成和語音識別這個來自IDL語音組的開放API，都可以申請開通使用

語音合成主要用在聽書，播報文字，會場上的展示手機上就安裝著我們的百度閱讀App，在年初百度閱讀的發(fā)布會上就展示過這樣技術(shù)，并非是像喜馬拉雅那樣純?nèi)斯や浺?#xff0c;也并非是像高德導航那樣純?nèi)斯や浺羧缓蠼M合，而是通過錄音采集特定人的聲紋樣本，然后擬合出任意的對話，case就是韓喬生版真人音色的聲音合成，聽著還真的挺有韓喬生的味道！有一段宣傳視頻，目的是讓在異鄉(xiāng)打工的家長，能夠定制自己的獨特聲紋語音，然后讓孩子在家鄉(xiāng)聽到媽媽的聲音講故事，還是挺感人的。

語音識別主要用在語音輸入場景，語音錄入各種聲音，我們的百度文庫App其實也接入了語音錄入文檔資料，當時開發(fā)接入的時候，嘗試用音樂/廣播/普通話/四川話/陜西話，整體識別效果在我們App當初接入的時候就感覺已經(jīng)非常不錯了，識別率還是相當準的，并且還能識別語氣從而產(chǎn)生標點符號，問號，逗號，嘆號。而這次大會語音組又開放了更多語音識別方面的黑科技，進場耳語識別，遠場識別等。

SLAM/機器人視覺

SLAM (simultaneous localization and mapping),也稱為CML (Concurrent Mapping and Localization), 即時定位與地圖構(gòu)建，或并發(fā)建圖與定位。 SLAM最早由Smith、Self和Cheeseman于1988年提出。由于其重要的理論與應用價值，被很多學者認為是實現(xiàn)真正全自主移動機器人的關(guān)鍵。

簡單的說就是將攝像頭拍攝出來的畫面，通過AI進行分析和識別，識別出其中的物體，以及所占的空間位置，識別出空間區(qū)域，在計算機的數(shù)據(jù)中對真實空間區(qū)域進行3D建模，從而能讓機器知道，攝像頭中的這個畫面，哪里是障礙物，哪里是可通行區(qū)域，障礙物都是一些什么東西，整個空間的全方位真實信息，會重新在機器人的虛擬數(shù)據(jù)中重新3D完全還原。

與這塊的工作人員聊天，工作人員說目前這塊主要運用在機器人或者AR上，圖中就是一個人拿著采集器在超市里走來走去，然后建模成整個超時的3D場景的示例。但除了AR這塊也可以運用在無人駕駛上，但現(xiàn)在百度的無人駕駛Apollo系統(tǒng)用的還是激光探測，硬件成本還是有不小的。

SLAM也是AR種最重要的一環(huán)，AR不僅僅是在手機APP的攝像頭中扔一個3D游戲，AR需要識別現(xiàn)實空間中的區(qū)域和物體屬性，從而進行匹配的3D交互，因此有SLAM能力的AR才是真·AR

說道SLAM，不得不提微軟

微軟的kinect體感技術(shù)就是利用攝像頭拍攝，從攝像頭中提取出空間物體/人的信息，從而實現(xiàn)的游戲交互，殺手級應用算是水果忍者體感/運動會體感，人只需要站在攝像頭前，揮舞雙臂切切切，就能精準的切到屏幕上的水果，這背后就是SLAM技術(shù)
微軟的hololens AR技術(shù)，背后也是依托于對整個真實空間的攝像頭采集，通過強大的AI，重新在電腦里重建3D模型，然后在3D模型上開發(fā)有趣的AR游戲，并且hololens有自己的眼鏡式頭盔，借助這個頭盔，用戶可以身臨其境的在現(xiàn)實生活中玩AR游戲

視頻截圖

視頻鏈接：使用hololens在現(xiàn)實生活中玩超級瑪麗

裸眼3D

這個顯示屏其實展示的就是裸眼3D，照片拍不出來，但現(xiàn)場親臨的感覺3D效果還是有的，能感覺出來，但也并不是特別真，有一點點晃眼

AR開放平臺

這是一個AR宣傳片的截圖，現(xiàn)場是可以用手機百度掃Marker來體驗的，但由于排的人特別多，我也沒使勁往里面擠，高考期間我們事業(yè)部和AR部門合作做的高考校驗項目，磁感線右手定則也在現(xiàn)場可體驗的內(nèi)容里，還有手機掃變形金剛大黃蜂的游戲

貼個當初高考活動時候的圖吧~

下午的開放平臺分論壇會專門介紹AR

知識圖譜開放API

廠里的搜索用到的知識圖譜，現(xiàn)在初步框架也在本次開放的API之內(nèi)，不過目前開放的不是已經(jīng)構(gòu)建好的那部分泛生活類知識圖譜，而是開放一套搭建自有知識圖譜的開放工具，以及數(shù)據(jù)協(xié)議準則，是一套構(gòu)建圖譜的schema，以及錄入schema制作自己圖譜數(shù)據(jù)的工具，以及根據(jù)已有圖譜數(shù)據(jù)，從任意文章中抽取圖譜相關(guān)信息的抽取工具。

簡單的說目前開放的是一套，搭建自己專屬圖譜數(shù)據(jù)的協(xié)議設(shè)計+開發(fā)工具，開發(fā)者可以使用這套工具，自建自己的知識圖譜，知識圖譜的數(shù)據(jù)保存在自己的手里。

所以，知識圖譜開放的API，并不是直接將百度搜索現(xiàn)在使用的那套圖譜數(shù)據(jù)以API的方式提供，而是提供的可以讓開發(fā)者自建自有知識圖譜的工具。尤其是垂類領(lǐng)域，金融/教育，可以根據(jù)這個工具，去運用自己掌握的內(nèi)容搭建自有圖譜，廠里現(xiàn)在的搜索用的那套圖譜，偏生活，偏廣泛，在細分垂淚領(lǐng)域，和工作人員交流，效果并不是很好。

Unit多輪對話

前面提到的小度機器人/HTC手機/DuerOS內(nèi)部，都有Unit這個強大的自然語言處理系統(tǒng)的工具，他最大的特點能夠識別上下文多條對話之間的關(guān)聯(lián)，之間的指代關(guān)系，之間的先后順序和邏輯，這和傳統(tǒng)的只局限在一問一答的語音助手領(lǐng)先很多很多。

Unit在主論壇/開放平臺分論壇的大會演講上也有多次提及

開放云

這塊我沒咋細看細聽解說╮(╯_╰)╭

主大會正式開始

主大會相信各大媒體，以及各方干貨總結(jié)文章都報道了不少，可以看看這個網(wǎng)頁

沒去百度Create2017現(xiàn)場？最干貨PPT已經(jīng)流出

QI的演講非常的有激情，非常的有感染力，尤其是一些具體的成果展示，經(jīng)常激起在場的一陣陣高潮，上午的主大會主要講了3個東西

介紹DuerOS，開放出來的喚醒萬物技術(shù)
介紹Apollo，開放出來的自動駕駛技術(shù)
介紹AI開放生態(tài)
- 百度大腦，把AI技術(shù)開放給全體開發(fā)者的AI開放平臺
- 智能云，ABC - Ai Bigdata Cloud

我相信大家都看了很多官方資料，看了很多官方提煉的干貨信息，但有些現(xiàn)場的展示環(huán)節(jié)，真刀真槍的現(xiàn)場實干寫代碼環(huán)節(jié)，還是非常厲害的，干貨提煉里不見得有，我這邊就多啰嗦啰嗦

DuerOS喚醒萬物系統(tǒng)

DuerOS前文提到過，是專為各種智能硬件設(shè)備提供的一站式開發(fā)套件，讓任意設(shè)備具備巨有語音交互/自然語言處理能力，涵蓋軟件系統(tǒng)，硬件芯片的全方位開發(fā)者套件。從上文的ppt里也能看到，DuerOS已經(jīng)對接了幾十家合作伙伴了，都有具體的硬件產(chǎn)品落地了，就像我上面說的，有這么多落地產(chǎn)品，這么多干貨，還是很令人驚訝的。

HTC手機搭載的DuerOS度秘 -- 強大的Unit

一個視頻展示了現(xiàn)在就已經(jīng)搭載在HTC某款手機上的語音助手，全程語音與度秘交談（記得大概劇情，記得不是很清楚了）

問：北京比較好吃的某菜參觀都哪里有？
答：（展示出了3加餐館介紹，其中有一家在雍和宮）
問：雍和宮那家好停車么？
答：附近有N家停車場，距離最近的xxx
問：幫我訂一下他們家晚上6點的餐

上下文對話中對于各種不同句子之間的指代識別的很精準。

DuerOS芯片開發(fā)套件，意外的開發(fā)者，意外的合作商

現(xiàn)場展示了一封百度收到的一封嵌入式工程師發(fā)來的郵件(忘了叫啥了)，是一個小故事

開發(fā)者有個小侄子很喜歡樂高，并且希望能有一個會說話的樂高玩具陪著他，開發(fā)者答應了小侄子的請求

這個開發(fā)者看到了DuerOS的早期宣傳，發(fā)來一封郵件，希望能參與內(nèi)測，用DuerOS芯片給小侄子的樂高玩具做成可以聊天對話的機器人，他不希望小侄子失望

DuerOS的工程師們，將一個芯片套件以及相關(guān)開發(fā)文檔郵寄給了他

這個開發(fā)者成功的將小侄子的樂高玩具，加以改造，變成了能聊天講笑話的玩具機器人

故事的主人公和小侄子都來到了現(xiàn)場，同時來到現(xiàn)場的還有樂高的高層，作為DuerOS的合作伙伴，樂高會和百度一起在這個領(lǐng)域探索出新的世界。

會場DuerOS的經(jīng)理主講人，還現(xiàn)場從兜里掏出了四個芯片詳細介紹了這個開放給開發(fā)者的DuerOS開發(fā)者解決套件，就是前邊我在展區(qū)拍到過的那幾個芯片

Talk Is Cheap Show Me Your Code

QI在現(xiàn)場介紹，百度將在美國成立人工智能部門，并且收購被Amazon Alexer點評的國外最優(yōu)秀的AI創(chuàng)業(yè)公司之一 KITT.AI，創(chuàng)始人陳果果，他曾在Google實習，參與制作了“OK Google”熱詞檢測雛形，在語音喚醒詞上，有著非常龐大和豐富的積累。

KITT.AI公司新聞資料

陳果果還現(xiàn)場演示了一段喚醒詞訓練，通過簡單的重復語聊錄制，現(xiàn)場控制將一臺筆記本生命名為景鯤（主講人），可以名字呼喚控制這臺筆記本。

不止如此，現(xiàn)場的DuerOS工程師，還將一款在國外售賣的搭載Amazon Alexa系統(tǒng)的智能硬件（好像是個音箱，記不得了），現(xiàn)場編程，用很快很少很簡潔的代碼，當場將音箱接入了DuerOS。

雖然說這些現(xiàn)場訓練模型，現(xiàn)場編寫代碼都肯定是預先排練過很多次的，但程序員有句俗話Talk Is Cheap Show Me Your Code，這一點還是很令人興奮的

Apollo自動駕駛開放平臺

AI大會就不得不提自動駕駛，11點左右的時候，廠長Robin坐在自動駕駛車的副坐，從五環(huán)發(fā)來賀電。廠長在五環(huán)遠程連線的視頻（然后五環(huán)堵車堵的12點還沒到國家會議中心╮(╯_╰)╭，后來還有啥交管部門接入調(diào)查的新聞,各種討論技術(shù)倒逼法律前進等，深刻感覺這次pr的效果有點意思）

Apollo是一個開放給開發(fā)者的自動駕駛開放平臺，不止是百度與合作汽車廠商，任何開發(fā)者都可以借助apollo的能力，從0到1，擁有自己的智能汽車。（有點做廣告嫌疑╮(╯_╰)╭）

Apollo會逐漸開放以下能力給所有開發(fā)者。

封閉場地循環(huán)自動駕駛
固定車道自動駕駛
簡單城市道路自動駕駛
特定區(qū)域/高速/城市道路自動駕駛
高速/城市自動駕駛

這里不得不說一個插曲，Robin在12點多的時候終于從五環(huán)趕到了現(xiàn)場，整個過程中Robin乘坐了2輛自動駕駛汽車，一輛是視頻中的那輛，快到現(xiàn)場Robin又換了一輛黑色的車，經(jīng)過后來Robin到場后的解說，這兩黑色的自動駕駛汽車，來自一位美國的小哥，用3天時間，將一輛車打造成Apollo自動駕駛汽車，Robin就是坐著這輛車來到了會場，并且這位小哥也來到了現(xiàn)場。

Apollo就是這樣開放給所有開發(fā)者的，并且現(xiàn)在有幾十家合作方已經(jīng)投入生產(chǎn)。

AI開放生態(tài)

DuerOS和Apollo之后，QI重點介紹了百度的AI開放生態(tài)，將會全面開放百度大腦的全方位能力，打造AI開放平臺，深度學習平臺，并且與NVIDIA和Intel深度合作，并且建立Apollo基金，DuerOS基金，扶植開發(fā)者，建立AIStar計劃賦值開發(fā)者。

身為開發(fā)者當然會關(guān)注與具體開放了哪些內(nèi)容。很多內(nèi)容都在上面發(fā)的ppt里面，這里就簡單羅列一下

開放60項核心AI能力

百度大腦
- 平臺層
  - AI開放平臺
- 認知層
  - 自然語言處理
  - 知識圖譜
  - 用戶畫像
- 感知層
  - 語音
  - 圖像
  - 視頻
  - AR/VR
- 算法層
  - 機器學習平臺
  - 深度學習平臺
智能云
- 大數(shù)據(jù)
  - 大數(shù)據(jù)分析
  - 數(shù)據(jù)標注
  - 數(shù)據(jù)采集
- 云
  - 計算服務 CPU/GPU/FPGA
  - 存儲服務
  - 網(wǎng)絡服務

下午專門有一個分會場，會進一步討論AI技術(shù)與開放平臺，我下午就參加的這一場

廠長講話

廠長終于在上午會場的尾聲趕來了現(xiàn)場，用了一個在場所有開發(fā)者，所有程序員都非常熟悉的一個梗來開場，造輪子，會場很多人看到這個圖的時候都會心的笑了。

今天的大會是給開發(fā)者的，所以Robin說：開發(fā)者是推動進步的偉大力量，天下開發(fā)者是一家，分享與合作是這個時代的聚寶盆

廠長講笑話：

在收購KITT.AI的時候，層和投資部門聊天，投資部門問，如果競爭對手想出高價收購咋辦，Robin說，我們的競爭對手從不收購純技術(shù)公司，只收購成熟產(chǎn)品形態(tài)，變現(xiàn)產(chǎn)品形態(tài)

AI開放平臺分會場

上午的大會就結(jié)束了，短暫的休息后，下午將會同時開啟很多分會場

AI技術(shù)與開放平臺
對話式人工智能
智能駕駛
智能云計算
Web生態(tài)
數(shù)據(jù)中心

我參加的AI技術(shù)與開放平臺專場，深入的講了很多上文提到的 開放60項核心AI能力

這個分會場就是專為開發(fā)者量身定做了，全程都在講解相關(guān)AI技術(shù)現(xiàn)在優(yōu)勢，開放的程度，每一個都配備了比較豐富的業(yè)務應用場景，開放平臺交到開發(fā)者手里，剩下的就是比拼創(chuàng)造力的時候了，這個會場主要講了

語音識別開放平臺

近場輕音識別/喚醒

現(xiàn)場展示了工作人員，小聲輕聲說話，還有唱歌歌詞識別，近場指嘴對著麥克風說話

遠場語音識別
- 近場訓練數(shù)據(jù)適配
- 麥克風陣列適配
- 中國家庭適配
開放遠場喚醒
- 海量喚醒詞數(shù)據(jù)
- 喚醒/誤喚醒打磨
- 廠商定制
- 用戶可配置

遠場識別是現(xiàn)在語音識別技術(shù)里很有挑戰(zhàn)的領(lǐng)域，而在DuerOS的各大智能家電使用場景中，所有的對話，都不是直接對著麥克風的，而是在房間中空間中直接發(fā)聲，這類識別技術(shù)，現(xiàn)場展示的視頻中，已經(jīng)實現(xiàn)了10米以上的遠場聲音識別，并且適配了中國家庭，戶型偏小，狹窄的特點

開放定制化語音合成
- 開放真人音色擬合
- 開放定制化合成方案

一方面就是前文提到的，在聲音合成方面，追求極致的自然音色，通過對真人/明星的聲紋采樣，訓練學習后，直接用AI擬合發(fā)生出采樣人的定制化音色語音?，F(xiàn)場展示了韓喬生語音包。

一方面可以在文字語音朗讀的時候，針對中文，定制化中文語音朗讀的節(jié)奏和語氣，定制化TTS，通過國際通用的SSML標簽語言可以定制朗讀節(jié)奏，斷詞斷句規(guī)則，也擴展了百度定制中文標簽，可以支持純中文的諸如古詩詞，古文的朗讀規(guī)則。

看到合作伙伴的時候展示了十幾家，其中居然看到了特斯拉的身影

自然語言處理開放平臺

自然語言處理是自從搜索引擎誕生之初就存在的AI技術(shù)，涵蓋的場景領(lǐng)域非常多。

應用場景：機器翻譯/深度問答/對話系統(tǒng)
自然語言理解：需求理解/篇章理解/情感分析/詞法句法分析
自然語言生成：文本生成/自動文摘
背靠基礎(chǔ)：大數(shù)據(jù)/知識圖譜/機器學習

為此NLP開放了多個場景的開放API

詞法分析
情感分析
機器翻譯
語義表示
語義模型
語義相似度

NPL開放的基礎(chǔ)API還不是最大的亮點，Unit才是NLP部門本次展示的重頭戲，Unit-理解與交互技術(shù)平臺，可以被廣泛運用在車載/客服/家居等應用場景，現(xiàn)場又是一個更為厲害的多輪語音交流案例

展示錄像處于開車中：（看著像巨堵的馬連洼這邊的路╮(╯_╰)╭）（記得也是有點不太清楚了，對話是個大概）

問：前方路段堵么？
答：前方xxx，很堵
問：那怎么繞開？
答：可以選擇1路線balabala 2路線balabala 3路線balabla？
問：那走2路線那條，大概多久到

這全套Unit多輪對話技術(shù)都是對外開放可以接入任意語音對話場景。

最牛逼的還是訓練師系統(tǒng)

訓練師是一個自然語言模型訓練工具，這套工具不需要使用代碼進行開發(fā)，任何人可以不寫一行代碼，通過可視化的界面，填填網(wǎng)頁，謝謝表格，配配需求，從而直接生成自己專屬的定制化的AI對話助手，并且提供可視化的訓練調(diào)優(yōu)工具，可以親自與配置生成的助手進行對話，看助手的回答是否正確，標記助手的不正確回答，從而反復訓練自然語言模型，最終訓練出一個自定義需求的語音助手

訓練師的可視化工具可以讓任何非編程人員參與進來，很多客服人員已經(jīng)從親自人工接線，轉(zhuǎn)變成了客服語音AI訓練師了。

在大會現(xiàn)場就展示了一個視頻，視頻是一個利用訓練師系統(tǒng)，從0構(gòu)建了一個為女朋友準備的，生活電影語音小助手，全程沒寫一行代碼，就一直是在填填，寫寫，配配，改改，調(diào)教，校正，對話，訓練。

視頻開放平臺

對于視頻技術(shù)，這個環(huán)節(jié)講了更多酷炫的東西

開放已有分析數(shù)據(jù)

視頻封面選摘
視頻的分類/標簽
視頻的索引/檢索

視頻不同于文字信息，在摘要節(jié)選，結(jié)構(gòu)化，從而方便進行數(shù)據(jù)處理的時候，有很大的困難，所以開放平臺提供了一系列挖掘識別視頻內(nèi)容，從而結(jié)構(gòu)化視頻數(shù)據(jù)的功能，分析挖掘視頻中的有關(guān)鍵意義的幀，從而找到最恰當表達視頻意圖的一幀，可以方便的用于視頻縮略圖介紹，挖掘視頻的信息，對視頻進行分類和打Tag，這對后續(xù)大數(shù)據(jù)運算甚至知識圖譜都有很重要的意義，而視頻內(nèi)容的索引和檢索，可以支持從海量視頻里，查找具有相同畫面的視頻

視頻細粒度識別物體
視頻審核/色情識別
視頻結(jié)構(gòu)化分析

這就都是圖形識別了，識別視頻中的物體內(nèi)容，甚至關(guān)聯(lián)大數(shù)據(jù)后，可以直接定位細粒度的物品信息，如下圖所示，不在只識別一個車，而是識別出車牌，車型號。

而且還可以對視頻進行結(jié)構(gòu)化分析，如下圖對于一個電視節(jié)目，可以直接識別出字幕/臺標/語音/人臉，最后產(chǎn)出結(jié)構(gòu)化數(shù)據(jù)

人臉識別
- 已經(jīng)運用在泰康人壽的一款App客戶征信認證上
- 運用在百度有錢花貸款秒批
- 運用在機場（忘了哪個城市了，有個城市已經(jīng)刷臉登機了）
- 運用在某風景景區(qū)刷臉閘機（是鳳凰古城？還是啥？還有個啥山景區(qū)？我都記不得了）
- 運用在百度公司內(nèi)部門禁閘機
- 運用在百度公司刷臉販賣機/食堂

人臉識別的快速準確度已經(jīng)提高的非常大，因此這項技術(shù)已經(jīng)全面在很多安檢，購物，金融場景有真實的業(yè)務運用了，下面這張圖挺厲害的！圖中右邊的那塊屏幕看起來就是百度科技園區(qū)，里面就是平時行走在園區(qū)內(nèi)小路的我們，而上面的實時人臉識別都在第一時間定位到了出現(xiàn)在畫面里的每一個人，每一個人的詳細信息，并且最可怕的是戴著口罩也照樣精準定位數(shù)據(jù)庫中的信息。

機器人視覺
- 攝像機 IMU模組
- SLAM
- 障礙物檢測
- 地圖繪制
- 圖像識別
領(lǐng)先的SLAM技術(shù)
- 視覺慣性算法
- 局部全局優(yōu)化
- O(n)求解器
- 重定位
- ARM芯片優(yōu)化

前面聊了一堆SLAM，沒錯這里就是開放的機器人視覺&SLAM，前邊其實扯了不少了，就不繼續(xù)說了，光列一些降到的技術(shù)吧

DuMixAR 開放平臺

現(xiàn)在市面上AR解決方案的公司也不少了，Vuforia（高通的）/Metaio（蘋果收購）/EasyAR（國產(chǎn)自研）等，本次開發(fā)者大會推出了DuMixAR 開放平臺，主要包含

DuMix AR SDK

整個SDK中包含了很多技術(shù)，本地識別/圖片跟蹤/IMU/SLAM/錄屏/語音交互/內(nèi)容解析/透明視頻等，剛才提到的很多最新的視頻技術(shù)

內(nèi)容制作工具
云端內(nèi)容平臺
內(nèi)容分發(fā)服務

從制作-分發(fā)一整套服務，制作出來的AR Case都是可以動態(tài)更新的，只要預先把整個SDK內(nèi)置進入app，并且部署好相關(guān)的功能，以后每做好一個AR Case，都可以直接上傳云端，動態(tài)下發(fā)給App從而實現(xiàn)動態(tài)更新AR Case的效果。

說道AR怎能不看看效果，有一個視頻我沒錄制下來，屋子里有一棵真的圣誕樹，然后用AR渲染出來的3D小鹿在圣誕樹里飛，AR的效果已經(jīng)能做到，當小鹿飛到圣誕樹的后面的時候，會被圣誕樹遮擋住，還有個視頻可以看到一只小度熊在一朵花上跳舞。

不過最酷炫的視頻Case已經(jīng)錄制下來了

完整的視頻Link在這里，AI 大會AR視頻

PaddlePaddle 深度學習平臺

Google出的TensorFlow想必大家都聽說并且了解了，這次廠里的AI開放平臺很重要的一個內(nèi)容就是也開放一個深度學習的開源工具與平臺，PaddlePaddle

并且廠里將PaddlePaddle與自己的云計算技術(shù)相結(jié)合，將會提供一整套深度學習解決方案，在這套技術(shù)方案下實現(xiàn)ABC Ai Bigdata Cloud （好吧我是真不太懂這方面，不知道怎么編詞了，直接上圖吧。。。）

并且還會開放很多模型庫

點擊率預估
Learning-to-rank
語音識別
語音合成
序列標注
文本分類
機器翻譯
物體分類
圖像分割
……

感想：遇見未來

遇見了未來，就要由廣大開發(fā)者一起創(chuàng)造未來

參考鏈接

沒去百度Create2017現(xiàn)場？最干貨PPT已經(jīng)流出

DuerOS開發(fā)者解決套件

KITT.AI公司新聞資料

DuerOS生態(tài)圈覆蓋全行業(yè) 多方合作伙伴共建智能語音新時代

DuerOS開發(fā)者官網(wǎng)

廠長在五環(huán)遠程連線的視頻