中国人工智能学会通讯——智能系统测评:挑战和机遇
上面的四個報告從四個維度討論了智能系統(tǒng)測評的不同方面——產(chǎn)業(yè)、基礎、基礎和倫理。我受中國人工智能學會的委托,組織這次分論壇,為此對這個領域做了一些調(diào)研和思考,從現(xiàn)狀和挑戰(zhàn)這兩個方面做了一些初步總結。
在現(xiàn)狀方面,從三個維度存在著差異和爭論。第一,智能系統(tǒng)測評是基于外顯行為,還是基于內(nèi)在機制?第二,基于任務,還是基于標準?第三,基于同類比較,還是基于參照物比照?在挑戰(zhàn)方面,存在著用戶依賴性、環(huán)境相關性和價值滲透性三個方面的挑戰(zhàn)。
現(xiàn)狀方面:外顯行為與內(nèi)在機制的爭論。現(xiàn)代人工智能最初想法的提出是圖靈提出了所謂圖靈測試,我們看到的這張圖。在屋子里有一個智能系統(tǒng),還有一個人。裁判是人類,在屋子外面,只能通過對話來了解和他對話的兩個對象,以分辨哪個是人、哪個是機器。如果裁判不能正確的區(qū)分,就認為智能系統(tǒng)具有了人的智能。這樣的設計顯然是基于智能系統(tǒng)外顯行為的,另外也是基于參照物的,和人對比。還有一個特點是只考慮問答,沒有考慮環(huán)境的影響。對圖靈測試是有很多批評的,最有名的是賽爾,美國哲學家,提出了Chinese room作為質(zhì)疑。假設屋子里有一本手冊,根據(jù)它從外顯行為上可以回答所有的問題,但是不理解人的問題,是不是真的有智能?這種質(zhì)疑說到底是行為和機制的爭論,這個爭論是長期的。但是在爭論里,大家一致的意見,都很少討論與環(huán)境的關系,主要在爭論評價“智能”應該依據(jù)行為,還是機制。
我們回顧圖靈最初的文章,實際上預測到了幾乎所有的批評和質(zhì)疑,而且他提前對所有預期到的批評和質(zhì)疑都進行了反駁。實際上,應該測行為還是測機制,這是我們現(xiàn)在仍然很難說得清楚的,因為它是非常深的一個問題。我在這兒只是枚舉這些現(xiàn)象。這是第一個方面的現(xiàn)狀。
第二個方面存在的一些差異,不一定是爭論,主要是差異。測評是基于任務,還是基于某種標準?基于任務的測評是設定一組任務,根據(jù)完成情況評分。剛才劉挺教授講到,自然語言評測也是基于很多任務——廣義的任務,當然任務都是系統(tǒng)化地來測。從自然語言領域之外來看,比如考慮測智能系統(tǒng),很容易想到測智商,其實它也是針對任務來測。還有一個在機器人領域的國際測試,這個和自然語言領域是比較類似的,長期在進行系統(tǒng)性的測試。在服務機器人領域最大的測試是RoboCup@Home,在家庭環(huán)境和其他近似真實的環(huán)境中,對服務機器人整機性能進行系統(tǒng)化測試。也是基于任務的,每年設計不同的任務,有的任務難一點,基本上像剛才劉挺教授說的,比大家能做到的稍微強一點,也有少數(shù)測試很難,大多數(shù)隊伍都是零分。這個測試一般三年有一次大的變化,變化以后可能任務提得比較難。它是分階段的。第一階段,大家都能得分。但是到第二階段,可能大部分都得零分了。到第三年可能做得好一點。這是基于任務的。基于標準的測試是參照給定的標準打分。典型例子就是產(chǎn)品的評測,今天我們請來的鄭軍奇總經(jīng)理,他演講中介紹了機器人產(chǎn)品的檢測、認證,現(xiàn)在有一個完整體系。對于產(chǎn)品來說,當然是有標準的,所以他說首先要制定標準。可能我們在人工智能學會,學術界的關注更多一點。產(chǎn)品測試是針對特定產(chǎn)品、特定功能、特定品質(zhì)的,問題是比較明確的。假設要測一個服務機器人的樣機,它現(xiàn)在還不是產(chǎn)品,預期未來5~10年成為產(chǎn)品,現(xiàn)在定它的標準就有難度,只好不斷地提任務,通過完成任務的情況進行測評。這兩種思路是有差異的。但是它們之間現(xiàn)在看并沒有太多的矛盾,而是可以用到不同的場合,是互補的。
第三類差異是在同類里面比較,還是和參照物進行比較。同類測試的例子,比如對話系統(tǒng)或者同類機器人,得分多少可以比較。智商依年齡段進行對比,同類機器人進行對比。基于參照物的比較也是非常多的,一般會基于人工智能和人做對比,這種例子也很多。后面還有一個嘉賓的發(fā)言,北京大學蘇彥捷教授。中科大和北大2013年做了一些合作,考慮參考智商測試的標準和方法,來對機器人智能做一些測評。這里面還有很多挑戰(zhàn),一會兒蘇教授會作進一步介紹。
其實圖靈測試也是和人比較,很明顯是和人做對比。還有我們都知道的IBM做的Watson人機大戰(zhàn)。本來是人的擂臺賽,Watson也去參賽,最后贏了人類兩位冠軍。一位連續(xù)勝了170多場,這是非常厲害的。還有一位勝的場次最多,勝了300多場。最終Watson還是贏了他們兩位。我們知道深藍和Alphago比的是國際象棋和圍棋,也是和人對比。兩種比較的方法也是存在著差異的。當然,它們之間是不是有多少爭論,那倒不一定,倒是給我們提供了不同的檢測、測試、評價手段,我們根據(jù)情況可以選擇需要的。
在這些現(xiàn)狀的基礎上,智能系統(tǒng)測評存在什么疑難和挑戰(zhàn)?我初步總結有三項。
第一項挑戰(zhàn):用戶依賴性。其實做人工智能的人很多是做信息出身的,如果不做產(chǎn)品,對用戶之間的差異有時可能考慮的相對少一些,因為計算機科學技術是以標準化為基礎的。但是到了人工智能領域,對用戶的依賴性還是很大的。也就是說,有時不同的用戶,對相同智能系統(tǒng)的相同行為會給出矛盾的評價。所以,如果某些智能系統(tǒng)依賴于用戶評價,對這樣的系統(tǒng)進行測評是有挑戰(zhàn)性的。
信息推薦其實就有這種情況,不同的用戶對信息的要求不一樣,即所謂個性化。還有在機器人領域中的復雜家庭服務,不同的家庭生活習慣是不一樣的,所以對于機器人提供服務的要求也是不一樣的。這樣我們就會發(fā)現(xiàn),對智能系統(tǒng)的測評實際上涉及對智能系統(tǒng)用戶的某種測評,或者用戶研究。做產(chǎn)品的人對這方面是很清楚的,而做科研的人,可能過去對這方面考慮的比較少。用戶需求通常是隱含在產(chǎn)品檢測中,但是傳統(tǒng)的產(chǎn)品和產(chǎn)品檢測往往很少考慮用戶的個性化需求。現(xiàn)在大家開始重視個性化,這樣就產(chǎn)生了用戶依賴性。這里還有一個可能對我們形成挑戰(zhàn)的因素——傳統(tǒng)的科學評價準則往往要求測試者無關,因為傳統(tǒng)的科學標準認為,測試應該是客觀的,所以應該和客戶無關。現(xiàn)在看來,用戶依賴性對智能系統(tǒng)測評提出了挑戰(zhàn)。
第二項挑戰(zhàn)是環(huán)境相關性,這對服務機器人來說是比較明顯的,還有其他一些智能系統(tǒng)也會存在類似情況。我們看圖靈測試,其實假定了環(huán)境無關性。但是也有一些智能系統(tǒng)和應用環(huán)境相關度較高,比較典型的例子就是現(xiàn)在做的很多的無人車。一個有一定基礎的技術團隊,其實做個一兩年,最多兩三年,就可以在簡單的情況下完成無人駕駛的任務。簡單的路況情況下并不復雜,比如各種標記物和交通標志容易識別的場景中,很快就能做出可以上路的無人車。但是實際路況變復雜以后,難度就增加很多。高速公路上和市區(qū)道路難度是很不一樣的。中國和歐美情況也不一樣。在中國無人車的挑戰(zhàn)非常大,主要挑戰(zhàn)是來源于環(huán)境復雜性。再比如智能服務機器人,現(xiàn)在提到服務機器人,往往認為就是對話機器人,其實核心的智能服務機器人是具有移動操作功能的。比如將來能當家政服務員、當保姆的,或者餐館服務員,這兩種機器人都在現(xiàn)在的測試里有反映。實際上這些測試的設計是要同時設計環(huán)境的,要考慮環(huán)境難度的。
我們更深入地考慮一下,這個挑戰(zhàn)更進一步的難點是什么?任意給定的真實環(huán)境,讓機器人適應它是不難的,環(huán)境給定以后總有辦法。但是讓一臺設計好的機器人能適應所有可能的真實環(huán)境,這是非常難的。說到底,這就是國際人工智能最近十多年一直說的環(huán)境的不可預測性。服務機器人進入千家萬戶,掃地是比較簡單的,如果是更復雜的任務,就和環(huán)境和用戶有關了,存在著不可預測性。設計者不能預測未來會出現(xiàn)什么環(huán)境,這樣一種不可預測性,對于系統(tǒng)建造和智能評價都是存在的,這也提出了一種挑戰(zhàn)。
為了把上面這個深層難點說的更清楚,簡單介紹一下智能機器人的結構,見圖1。智能機器人作用于環(huán)境和人,對環(huán)境
有感知和行動,圖中這邊是感知,那邊是行動。機器人總是依賴于世界模型或大量的標注數(shù)據(jù)。在規(guī)則性任務和結構化環(huán)境中,我們可以讓世界模型或者標注數(shù)據(jù)和環(huán)境保持一致。但是這種要求其實在現(xiàn)實中通常很難得到滿足,所以出現(xiàn)的科學挑戰(zhàn)有時是從環(huán)境里發(fā)生的,見圖2。不可預
預測的場景,變異的場景,表面上看差不多,有些細節(jié)變化,可這些細節(jié)變化導致環(huán)境對智能系統(tǒng)來說變得非常不一樣。在自然語言里也有類似的現(xiàn)象,比如剛才劉教授舉例,一句話里少了一個“的”字,兩句話的意思就完全不一樣了。在環(huán)境里也是這樣,某些很小的變化對機器人有非常大的影響。主要的挑戰(zhàn)在于,這種變異導致世界模型或者標注數(shù)據(jù)和現(xiàn)實環(huán)境發(fā)生了脫節(jié),以至于機器人的行動出了問題。這就是環(huán)境相關性。
第三項挑戰(zhàn):價值滲透性。智能系統(tǒng)測評測的是性能或者能力,可以測性能,也可以測能力。至于與實用價值有什么關系,作為學者可能不會直接考慮實用價值。當然,最初做研究可能有一個背景和應用需求,但是研究過程中就不太關注實用價值了。圖靈測試也沒有直接考慮實用價值,智商測試也沒有考慮實用價值。我們看IBM的Watson,也不是直接用實用價值評價的。但是,如果我們一直按照這樣的思路往下走,可能會有問題。不考慮智能系統(tǒng)的價值滲透性,是不利于智能系統(tǒng)測評發(fā)揮作用的。我們看到,智能系統(tǒng)能力的大小和它的實用價值,實際上相互之間可以出現(xiàn)各種各樣的關系,比如說有些系統(tǒng)能力很強,未必它的價值就大;還有的系統(tǒng)能力比較弱,也未必價值小。現(xiàn)在中國互聯(lián)網(wǎng)一些服務,如微信,太好用了。你說它有多強的智能,這個是不好說的,可是它的價值非常大。我覺得能力與價值兩者之間的關系可能需要協(xié)調(diào),不是只考慮一個側面,而是要考慮兩個側面。否則我們對能力做了很多評價,而且發(fā)現(xiàn)能力很強,但是它的作用不大。這對人工智能的發(fā)展可能不是一件好事。
我初步總結了三方面的挑戰(zhàn),那么該如何回答這些挑戰(zhàn)?我們需要進一步努力。回答這些挑戰(zhàn),其實還有一些很難的事情,我用圖3加以說明。在機器人領域,
技術和應用的空間是非常大的,比如從能力維度,我們很粗的來劃分,有感知、操作、移動、認知、交互;從應用維度來說,可以分類為工業(yè)、農(nóng)業(yè)、消費、民用、醫(yī)療、商業(yè)、運輸,這個分類是歐盟對機器人的分類。這些分類看起來分的更細一點,因為其中每一個行業(yè)都非常大。從應用場景來說,有過程的,如工業(yè)生產(chǎn);有用到設備上的;有應用于設施的;也有應用于場合的。現(xiàn)在我們在國內(nèi)看到的機器人產(chǎn)品,常見的例子比如工業(yè)機器人,是用于過程的,它的能力就是操作。這是一個例子,在圖3中用紅線表示。還有對話和提供信息服務的機器人,用于一些場合,交互能力用于商業(yè),這是第二個常見的例子,圖3中用綠線表示。第三個例子,掃地機器人,是用于家庭或室內(nèi)環(huán)境,這是用于設施的,它的能力只涉及移動的能力,圖3中用藍線表示。這種機器人按照歐盟的分類叫做消費機器人。其實這三種類型的機器人已經(jīng)涵蓋了現(xiàn)有機器人產(chǎn)品或者機器人研發(fā)的相當大的比例,可能超過50%。從圖3可以看出,我們還可以連很多別的線,這樣就會有很多種其他類型的機器人。而且未必是只用單一的能力去提供服務,可能是多種能力組合起來,這樣一組合又形成非常多的可能產(chǎn)品。這張圖中,組合起來會出現(xiàn)非常多的智能系統(tǒng)種類,這些情況下怎么做智能系統(tǒng)的測評?這是非常有挑戰(zhàn)性的。
下面舉一個綜合性例子,試圖表明未來的人機交互場景是什么樣的,進而表明智能系統(tǒng)測評的復雜性,見圖4。這個例子是
中科大機器人團隊為自己設計的未來目標,我們希望機器人未來幾年能夠?qū)崿F(xiàn)這一目標。用戶問:“冰箱的用途是什么?”這是典型的問答。我們的機器人叫可佳,她回答用戶:“冰箱是用于食品保鮮的。”用戶:“怎么保鮮?”這個問題稍微有點深了。可佳:“把買回來的食品放進冰箱,吃的時候再取出來。”到目前為止,人機交互都在對話范圍里,再看下面。用戶:“太好了,你趕緊從冰箱里拿一點吃的給我。”顯然,用戶的這個問題已經(jīng)不是單純的問答型任務了,而是要提供服務的,包含移動和操作功能,機器人要開冰箱,把食物拿出來,這就不是簡單的對話了。如果對話聊天那好辦,機器人可以說“你自己去拿,你怎么那么懶”,這個問題就很容易地解決了。但是服務機器人不行,真要把食品從冰箱里拿出來送給用戶。我們假想將來會出現(xiàn)這樣的情況,可佳說:“你別做夢了,家里的東西都被你吃光了。”這體現(xiàn)出機器人要了解家庭里所有相關信息,以便根據(jù)真實的信息了解和執(zhí)行用戶的服務請求。接下來用戶說:“那你怎么不買?”這也不是聊天,這是在批評,在指責機器人:你任務沒有完成好,東西被我吃光了,你就該買,你怎么不買?可佳說:“昨天就告訴你了,你不給錢。”我們假想,未來錢還是用戶自己管的,沒有交給機器人。所以機器人的意思是,你不給錢,我買不了,這是在做因果推理,而且是針對現(xiàn)實場景的因果推理,不是局限于抽象概念之間的因果推理。用戶說:“給你,你多買一點,然后趕緊給我做午飯”,意味著用戶肚子餓了。可佳說:“這就對了,下次早點給。你等著吧。”意思是買完以后給你做午飯。這個例子反映了很多問題,圖3里枚舉的各種機器人能力,都在這個人機交互過程中有體現(xiàn)。
從這個例子可以看出,像這樣的一種機器人,我們怎樣對它進行測評?涉及的問題是相當復雜的,非常有挑戰(zhàn)性,也非常有科學意義和實用價值。
最后,我發(fā)言的結語。測評是人工智能研究的開端,目前正在成為核心內(nèi)容之一。智能系統(tǒng)測評存在長期爭論,隱含重大科學問題、社會需求和技術需求。智能系統(tǒng)測評極具挑戰(zhàn)性,涉及人工智能研究與應用的一系列深層課題,孕育著人工智能突破的重大機遇;也涉及倫理方面的問題、社會保障體系的問題,以及其他社會性問題。這些挑戰(zhàn)在當前的情況下非常值得我們?nèi)ニ伎己团Α?/p>
(本報告根據(jù)速記整理)
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結
以上是生活随笔為你收集整理的中国人工智能学会通讯——智能系统测评:挑战和机遇的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [.NET领域驱动设计实战系列]专题二:
- 下一篇: Windows Azure Web Si