争夺智能化船票:如何迈出第一步 ——访百度主任科学家 毕然
如今,一個十分有趣的現象是,很多企業趕在大數據AI風口樹立起宏大的數字化愿景或AI愿景,但結果卻并不樂觀。究其原因,一方面,高層管理者反復斟酌數字化、AI化如何長效改變具體的商業模式,這自然是有益的。但大多數人在探討這些概念時,都認為數字化、AI化是宏大且具有顛覆性的,都有一個雄心勃勃的開始,似乎能在這一輪競爭中脫穎而出。然而,在與競爭中的領先者比較時,會發現很多企業在建立愿景上浪費了過多的精力,導致它們沒有精力在這一輪競爭中邁出實質性的第一步。
另一方面,一些高層管理者對整個產業鏈條認識不足,總是寄期望于招聘大量大數據或AI技術人才,實現企業轉型升級。然而,成為數字智能化的優秀企業,不僅要會用數據、善用數據,還要充分了解自身優勢,利用自身優勢與整個行業從政策到業務做深度融合,才能在機遇面前一步步邁向成功。
百度早就認識到,利用自身在搜索領域積累的海量數據,進軍人工智能領域,將迎來又一個新時代的曙光。百度從誕生的那一天起,就帶有人工智能的天然基因,即以數據為基礎,通過深度學習提取特征、模式,為用戶和客戶創造價值的研發流程和研發文化,與人工智能系統的開發高度吻合。
在這一領域建樹頗豐的百度,自然積累了大量成功經驗和模式,近期,《大數據周刊》專訪了百度主任科學家畢然,他專注數據分析、商業戰略、機器學習和人工智能等領域,獲得百度首屆最高獎,著有《大數據分析的道與術》一書。采訪中他詳細分析了人們在這一領域的一些認知鴻溝,并展示了百度搜索面向廣大內容方(企業和自媒體)提供AI技術賦能的思路和計劃,頗有讓人茅塞頓開之感。
看點
01
顛覆認知,AI技術的挑戰在整個產業鏈條上
《大數據周刊》:大數據和AI技術成為時下熱門話題,眾多企業趕在這一風口積極布局,目前在哪些行業領域技術較成熟,落地應用較多?
畢然:首先,我認為IT化、信息化是基礎,因此目前來看,這些技術和應用在互聯網行業較為成熟,預計金融會成為其次。
真正的大數據技術不是憑空存在的,以模型技術為例,它是將從系統中收集來的數據和業務實施兩者串聯起來,這個設計對數據收集和業務實施均有要求。如數據環節,期望形成自動收集的數據流;而對于業務實施,同樣期望實現機器的自動化執行。
為什么現在的人工智能或者大數據,在互聯網行業應用的最為廣泛?其中一個重要原因就是互聯網行業在數據采集端和業務實施端天然適合學習模型發揮作用,因為互聯網大數據本來就是線上的,在產品運行過程中,能夠自動把大量數據收集到系統中(生成日志)。然后,對于執行來說,如搜索服務或者個性化推薦服務,雖然是千人千面的個性化服務,但并非人工完成,全部是由機器完成?;谀P彤a生的個性化建議,也完全可以通過機器執行下去。如此來看,不管個性化生產還是批量生產,成本對于機器來說都是一樣的。以汽車制造為例,如果制造汽車的過程完全由機器完成,那么無論是生產全黑色車還是其他千奇百怪的車,成本都不變,而一旦換成人工完成,成本將是巨大的。
其次,我認為落地應用多不多很取決于該產業的業務模式,當數據收集端和業務實施端均線上化,應用AI是相對容易的,就像一個人的眼睛和手都跟得上大腦的節奏。如果眼睛和手都沒有準備好,空有大腦是難以產生價值的。
《大數據周刊》:近兩年AI技術在各領域得到快速發展,如百度自動駕駛、阿里城市大腦、騰訊醫療影像、科大訊飛智能語音等,那么在技術層面的主要挑戰是什么?
畢然:主要問題不在于技術,而是完整的產業鏈條,即從需求-業務-數據-技術。很多企業會認為,加入AI就是招一些技術人才,這是完全錯誤的想法。當一個企業所有的產品業務、渠道運營、高級管理職位的人全懂AI的時候,才能真正實現AI的產業落地。
像自動駕駛、語音識別與合成、圖像理解和處理等,確實每一個領域均有技術層面的挑戰,但是把這些領域合并來看,他們的共性挑戰是在完整的產業鏈條上。比如,自動駕駛技術就僅僅是傳感器和控制算法這么簡單嗎?其實,自動駕駛需要整合硬件、軟件、數據、3D高精地圖多方面的技術,并考慮到社會法律、道路設計以及其他層面問題。因此,AI要在某一領域得到更多的發展,需要行業各階層的人都能夠從上到下去擁抱AI技術,懂得AI技術,才能實現AI的全面發展。
在技術層面,有些基礎技術已成熟到實用階段。比如語音識別技術,當大家在使用百度的語音搜索時,可以發現用小聲的、口語化的語言,也同樣可以做到準確識別,搜索到豐富內容。以下幾個有趣案例可以嘗試,可以體會到百度搜索在語音識別和自然語言理解技術上做到的成熟效果。
1.“嗯那個桃花流水什么魚肥的上一句是啥“
2.“哦哦幫我搜一下那個啊李宗盛的漂洋過海來看你“
3.“我明天要去上海查一下天氣“
但還有些基礎技術其實沒有大家想象的那么成熟。以計算機視覺領域的ImageNet競賽為例,多個圖像領域的著名科學家都曾表示,在ImageNet1000類別的識別問題上(Label:打標簽),機器的識別效果已經超越人類,我們應該繼續追求更深層次的語義理解了。不懂行的人往往會關注“機器在識別物體類別上已經超越人類”,而忽略“超越人類是發生在這個特定場景下的”。即ImageNet是在特定任務和充足數據集的前提下,有1000類別和126萬標記數據,平均每個類別1200張圖片。按照計算機視覺算法的能力,每類樣本量500張+,才能獲得較好識別準確率。但現實世界中,常見的細粒度實體數量為20億+,那么需要標記的數據就應該是20億*500=10000億。如果要產業落地應用,去哪里找如此大量的標記數據?“在足夠的標記數據下,計算機識別分類的效果超越人類”,這句話正如阿基米德的宣言:“給我一根足夠長的杠桿,我能撬動地球!撬動地球的技術我們已經解決了,只要找到足夠長的杠桿即可“。由此可見,基礎技術在理論上解決了問題,并不代表現實中可以落地應用。
所以,如何基于現有的技術水平,進行有效的產品設計,提供有使用價值的產品才是AI應用的核心。這里以百度視覺搜索為例,談談我們的實踐心得。點擊百度APP中搜索框旁邊的照相機圖標,即可以隨意拍攝現實物體進行搜索查詢。因為隨意拍攝照片中的物體,如隨手拍攝的辦公桌綠蘿盆栽,受光線或柔性可變等干擾因素影響,如果沒有足夠的訓練數據,往往無法精準識別該物種。這時視覺搜索產品會提供一張篩選卡片,展示視覺上最相似的一些植物候選,供用戶選擇。人的視覺識別能力往往是更加強大的,用戶通過觀察拍攝的物體和我們提供的候選圖片,就能確定他拍攝的植物類別。然后,視覺搜索會提供該植物的更多說明和介紹,以及相關的網頁搜索結果。這個產品是在基礎圖像技術不足的場景下,通過有效的產品設計,將人的識圖能力和機器識圖能力整合(后者用于提供候選,前者用戶最終篩選),幫助用戶解決識別萬物的任務。這種設計思路,我認為是在產業實踐中更重要的思考。春天到了,大家去野外郊游的時候,不防多用用視覺搜索,探索下這個多彩的世界,也體會下計算機視覺給我們帶來的便利。
(如何將人的能力和機器的能力進行有效的結合,產生有使用價值的“視覺搜索產品“)
看點
02
跨越壁壘,數據源企業將會脫穎而出
《大數據周刊》:AI的基礎和核心是大數據,目前,在數據采集、數據挖掘、數據融合共享等層面還存在哪些壁壘?
畢然:AI技術的核心是大數據這句話非常正確,目前最大的壁壘應該是數據壁壘。大數據時代往往會發現傳統算法(不依賴數據)依然非常有效,比如視覺搜索的例子,SIFT特征依然非常有效。所以,期望大家更理性的看待大數據。
眾所周知AlphaGo圍棋下得厲害,但實際上AlphaGo在訓練數據獲取的環節是取巧的。AlphaGo訓練用的海量數據是通過機器自己與自己下棋來采集的。而在工業界的大量應用場景中,要采集數據則無法這么簡單地實現。因此,只能說AlphaGo在技術層面是很創新的突破,但從獲取數據層面是取巧的方法,而這種方法無法在其它工業界的實用的任務上復制。
今天深度學習備受關注,深度學習能解決很多難題,并帶來多個領域的突破。但是,真正在工業界應用時,非深度學習的、傳統的算法和特征依然是非常有效的。其中的重要原因就是這些傳統方法不太依賴大數據,因為工業實踐中,并不是所有的應用場景都有足夠大量的數據。所以,千萬不要人云亦云,在大數據時代,只關心大數據的算法是要吃虧的。
剛才談了AI技術的核心在于數據,而數據往往來源于業務場景。無論是AI技術還是任何黑科技,技術本身都不是壁壘,任何一個新興技術,包括AI技術,都只是競爭的時間窗口,數據才是真正的壁壘。從長遠來看,數據技術公司競爭不過數據公司,因為技術可以通過學習獲取,但數據沒辦法獲取。
除了數據本身,挖掘其價值方面的關鍵在于人才。曾與傳統行業管理者交流,傳統行業的業務人員期望由外包人員進行數據統計的支持,他們再對統計結果進行分析,這是非常低效的。未來處理和分析數據的能力,就如開汽車一樣是常備技能?,F在對數據的分析和挖掘面臨同樣的問題,我認為所有的業務人員都應該會寫基本的腳本程序,例如SQL和Python,能夠自由的處理系統中各種各樣的數據,分析輔助業務的發展。如果業務人員不會處理數據,需要專門配數據統計工程師。這不僅是人力浪費的問題,而意味著業務人員的分析能力被鎖死了,每一個分析思路和想法均需要和統計工程師溝通需求,反復幾輪迭代需要一周才能拿到驗證結果。而業務人員自己會擺弄數據的話,各種思路想法的探索只需要1~2個小時。在分析效率上的巨大差距,導致在業務改進的效率上的巨大差距。目前在互聯網公司,許多新入職的產品同學也要學編程處理數據,但好像傳統行業在這個意識層面還比較薄弱。
看點
03
人才洞察:開創者、經驗者、應用者迎來康莊大道
《大數據周刊》:人工智能被看成是新一輪變革的主要力量,相關技術人才則是主導這一變革的中流砥柱。而這類人才的缺口和不菲的身價成為眾多人才希望轉型AI的關鍵因素,那么,對于轉型AI的人才您有什么好的建議?
畢然:我認為大家目前存在兩個誤區。首先,很多應屆畢業生認為自己的數學基礎很好,投身這個行業就是有優勢的,雖然也沒錯,但數學好只是一個助力條件,不能當成自己的核心優勢。為什么這么說呢?因為數學好基本表現在剛畢業時,未來會持續有更多剛畢業的學生,加上長期在這一領域做研究的科研人員和教授,如果這樣定位,自己的競爭者是非常龐大的。所以,我不認為數學好可以作為核心優勢。
其次,現在有很多AI人才培訓班,有人認為培訓一下就可以利用各種平臺寫各種深度學習的算法了,這一點我并不贊同。如果把深度學習和算法定義為核心競爭力,那么,未來就會面臨大量的培訓班出來的人才,就如幾年前大量培訓班出來的JAVA編程人員類似。
所以,轉型AI人真正應該走的有三條路:
一是成為開創者,但能夠走上這條路的人很少,都是學術界和工業界鳳毛麟角的大牛們。
二是成為經驗者,比如做模型,基本道理大家都懂,但具體環境如何打磨得好,如何去調整參數,如何去選擇模型,如何設計特征,都需要相當多的經驗。同時,通透的理解模型背后的數學原理,往往對形成體系化的經驗非常有幫助。經驗者有一個好處,他是時間的朋友,經驗會隨著時間的增長越來越好。
三是成為應用者,應用者對于傳統企業以及很多做AI的人都非常實用。應用者不僅要懂得整個產業的所有應用,還要懂AI技術,屬于跨領域的人才,這也是目前做AI產業應用需求缺口最大的一批人。
當然,提升AI技術能力的最佳辦法是實踐,而這方面百度有著國內實踐AI技術最好的平臺和項目,比如搜索、Feed流、度秘、無人車,甚至與很多傳統行業合作的企業AI賦能。另外,與公司內的諸多AI技術的創新者和領導者共事,也是大家學習提升的捷徑。
《大數據周刊》:如何能在數據分析中得到有價值的分析結論?
畢然:在《大數據分析的道與術》一書中,我講到不要小瞧數據分析的威力,因果性的探討+人的分析能力,往往是業務革新的發動機。有一些過去很火的模型(如決策樹),在最新的一些業務系統中使用的已經不多了,更多都在用升級的GBDT或深度學習模型。但決策樹模型依然在我們分析很多數據關系時被使用,因為它可以讓人更好的解讀數據中的內涵。而不像深度學習,雖然可以做有效的預測模型,但無法人工解讀。機器學習模型更多是增進業務效率,但改進業務模式本身還是需要人的設計。所以,人對數據解讀的能力,怎么強調其重要性都不過分?!洞髷祿治龅牡琅c術》配套有9個小時的課程可以在百度技術學院(bit.baidu.com)上免費觀看。另一個系列的課程《機器學習的思考故事》于2018年春節后在百度技術學院推出,從應用的角度向更曠闊的領域談了機器學習的思考和應用方法論。
雖然大家都在談人工智能和機器學習,但對于相當多的企業來說,目前最大的問題不是如何從數據中建立人工智能的模型,而是先要做好數據分析,找出可產生的價值,才能在短期內對業務發展變革產生較大影響。
《大數據周刊》:百度有哪些技術平臺可以提供給眾多的企業,能讓大家一起共享AI技術為產業帶來的福利?
畢然:如果是互聯網內容提供的企業或自媒體,可以關注百度搜索“熊掌號”,2018年會向諸多合作伙伴提供AI技術賦能的解決方案,對于互聯網內容方的流量獲取、用戶運營、內容生產多方面提供定制化的AI技術支持。熊掌號的AI賦能是更加全面的搜索與內容方的合作,提供的不僅僅是單獨的AI技術點,而是融入搜索體系,與搜索用戶更好溝通的解決方案。如果是一個主要業務不在互聯網上的傳統企業,或者技術研發者,也可以查看ai.baidu.com的百度AI技術對外開放平臺,獲取一些通用的AI技術實現模塊。
大數據周刊
郵箱:tougao@bigdatamag.cn
電話:010-57524293
眾論大數據 引領大時代
長按二維碼關注
總結
以上是生活随笔為你收集整理的争夺智能化船票:如何迈出第一步 ——访百度主任科学家 毕然的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android 格林尼治标准时间的 格式
- 下一篇: iOS Protocol 详解