维基百科上最高产的作者,是一个机器人
正如整個(gè)互聯(lián)網(wǎng)上最常用的語(yǔ)言是英語(yǔ),英語(yǔ)版維基百科同樣也是全球309 個(gè)語(yǔ)言版本維基百科中內(nèi)容最豐富的一個(gè)。今年 1 月,英語(yǔ)版維基百科上的條目正式突破600 萬(wàn)條。
▲ 圖片來(lái)自Boston Review
出奇的是,擁有全球第二多條目的語(yǔ)言版本,并不是西班牙、法語(yǔ)等「大語(yǔ)種」維基,而是宿霧語(yǔ)(Cebuano)版的維基,一共有 538 萬(wàn)個(gè)條目。
如果你沒(méi)聽(tīng)過(guò)這種語(yǔ)言,也是正常的。
宿霧語(yǔ)是一種在菲律賓使用的小語(yǔ)種,懂得講宿霧語(yǔ)的人合計(jì)都沒(méi)超過(guò)兩千萬(wàn)。而且,宿霧語(yǔ)版維基的雖然有五百多萬(wàn)條條目,但管理員只有六人,活躍用戶也只有 14 人;相比之下,英語(yǔ)版單單是管理員就有 1143 人,活躍用戶更是超過(guò)了十萬(wàn)人。
▲ 圖片來(lái)自Honolulu Magazine
事實(shí)上,宿霧語(yǔ)版維基那五百多萬(wàn)個(gè)條目,99% 的內(nèi)容是一個(gè)名為「Lsjbot」的機(jī)器人所完成的。同時(shí),它也是維基百科上最高產(chǎn)的作者。
狀態(tài)好,一天能創(chuàng)立 10 萬(wàn)個(gè)條目
Lsjbot 的「爸爸」Sverker Johansson 是一位瑞典物理學(xué)家,而且還擁有語(yǔ)言學(xué)、經(jīng)濟(jì)學(xué)和土木工程的學(xué)位。他的太太是菲律賓人,通曉宿霧語(yǔ),因此 Lsjbot 在瑞典語(yǔ)和宿霧語(yǔ)版本的維基百科中都有創(chuàng)作內(nèi)容。
Johansson 表示,自己一直以來(lái)都對(duì)「一切事物的起源」充滿興趣,并認(rèn)為維基百科在未來(lái)應(yīng)該可以「讓所有人了解所有事」。于是乎,他花了幾個(gè)月時(shí)間編寫(xiě)了 Lsjbot,想用一種更快捷的方式將維基百科推向「囊括一切」的美好愿景。
▲ Sverker Johansson,圖片來(lái)自《華爾街日?qǐng)?bào)》
Lsjbot 做的事情有點(diǎn)像「開(kāi)荒牛」,將 0 變成 0.5。
它不會(huì)撰寫(xiě)系統(tǒng)豐盈的條目,只會(huì)簡(jiǎn)單地創(chuàng)立一個(gè)條目,放上最基本的信息,這種條目被稱為「小條目(stub)」,有待用戶進(jìn)一步補(bǔ)充和豐富內(nèi)容。Lsjbot 專注的領(lǐng)域也比較窄,主要都是生物物種和地理相關(guān)的內(nèi)容。
▲ Lsjbot 一般生成的小條目都是這樣的,圖片來(lái)自維基百科
Lsjbot 生成內(nèi)容的過(guò)程也非常程式化。首先,Johansson 會(huì)先就一個(gè)特定領(lǐng)域內(nèi)容編寫(xiě)模板,然后尋找可信、機(jī)器可讀的數(shù)據(jù)庫(kù)作為信息來(lái)源,再讓 Lsjbot 根據(jù)模板來(lái)「填空」,并完成后期的發(fā)布工作。效率高的時(shí)候,Lsjbot 一天能完成十萬(wàn)條小條目。
聽(tīng)著這個(gè)工作描述,大家也能感覺(jué)到,Lsjbot 雖冠名幾百萬(wàn)條條目,但內(nèi)容其實(shí)都只是干巴巴的「骨干」,缺乏人類(lèi)的創(chuàng)造力和思考,自然惹來(lái)了部分活躍維基作者的不滿。
總的來(lái)說(shuō),我反對(duì)機(jī)器人生成的小條目。(它們)只包含或多或少正確的分類(lèi)信息,但卻缺乏像動(dòng)物外觀等重要信息。
41 歲的 Achim Raschka 說(shuō),他是德語(yǔ)版維基百科的積極貢獻(xiàn)者,常常會(huì)花好幾天時(shí)間來(lái)完成一篇關(guān)于某種植物的深度條目。
Johansson 也承認(rèn),Lsjbot 創(chuàng)造的內(nèi)容的確很無(wú)趣,但也堅(jiān)持這些內(nèi)容也有自己的價(jià)值。在他看來(lái),Lsjbot 的條目能補(bǔ)充一些在原本維基社區(qū)中缺乏代表的領(lǐng)域。
▲ 圖片來(lái)自《連線》
維基百科作者的多樣性已被詬病許久,有研究發(fā)現(xiàn)在維基百科上撰寫(xiě)內(nèi)容的人大部分都是居住在北半球發(fā)達(dá)國(guó)家的男性白領(lǐng),擅長(zhǎng)科技產(chǎn)品。Johansson 指出,在瑞典語(yǔ)版的維基百科里,關(guān)于《指環(huán)王》中角色的條目就有超過(guò) 150 條,但關(guān)于越南戰(zhàn)爭(zhēng)的內(nèi)容卻少于 10 條:
我對(duì)托爾金沒(méi)意見(jiàn),而且相對(duì)于(越戰(zhàn)中的)「春節(jié)攻勢(shì)」,我也更熟悉(《指環(huán)王》中)索倫發(fā)起的戰(zhàn)爭(zhēng),但這樣真的是一個(gè)均衡的百科嗎?
雖然 Lsjbot 的內(nèi)容「干巴巴」,但 Johansson 希望這些知識(shí)骨干能拋磚引玉,啟發(fā)未來(lái)的維基作者探討原有社區(qū)「舒適區(qū)」以外的內(nèi)容。
這也是為什么我認(rèn)為 Lsjbot 這個(gè)「開(kāi)荒牛」只將 0 做成了 0.5,因?yàn)榈糜腥祟?lèi)作者的創(chuàng)造性參與,0.5 才能走向 1。
事實(shí)上,維基百科上除了 Lsjbot 外,還有大量承載著不同職能的機(jī)器人,它們已經(jīng)成為了這個(gè)社區(qū)不可或缺的成員。
維基百科的「機(jī)器人軍團(tuán)」
▲ 圖片來(lái)自imgur
我們常開(kāi)玩笑說(shuō),機(jī)器人得來(lái)一次大罷工,所有人才會(huì)懂得感恩它們對(duì)社區(qū)做出的奉獻(xiàn)。
(如果沒(méi)有機(jī)器人)這個(gè)網(wǎng)站將需要我們做更多工作,編輯的工作過(guò)載率也會(huì)大大提升。
生活在澳洲的 Chris Grant說(shuō)道,他是維基百科社區(qū)中專門(mén)負(fù)責(zé)管理機(jī)器人的組織「機(jī)器人審批組(Bot Approvals Group,以下簡(jiǎn)稱為 BAG)」的成員。
是的,機(jī)器人在維基百科上應(yīng)用的歷史悠久廣泛得內(nèi)部在 2006 年就已經(jīng)設(shè)立了專門(mén)審核和管理機(jī)器人的 BAG。
從流程來(lái)看,如果有維基作者想在社區(qū)應(yīng)用機(jī)器人,他們必須先向 BAG 提交申請(qǐng),闡述機(jī)器人的功能、編程語(yǔ)言以及它預(yù)計(jì)會(huì)涉及的頁(yè)面數(shù)等信息。隨后,BAG 的成員會(huì)綜合多方面預(yù)估其可能帶來(lái)的影響,并決定是否通過(guò)。即便是已經(jīng)通過(guò)審核的機(jī)器人,開(kāi)發(fā)者每為它增加一個(gè)功能,機(jī)器人都必須重新提交審批。
截至 2018 年,維基百科上應(yīng)用的機(jī)器人數(shù)早已破千,并且仍在不斷發(fā)展。一篇 2019 年的論文《The Roles Bots Play in Wikipedia》研究分析了維基百科上的機(jī)器人,并以職能將其分為九個(gè)大類(lèi):像 Lsjbot 般用其它數(shù)據(jù)來(lái)源生成頁(yè)面的「生成者(Generator)」、負(fù)責(zé)修復(fù)超鏈接、文檔之類(lèi)的「維修者(Fixer)」、更新數(shù)據(jù),記錄用戶狀態(tài)的「文員(Clerk)」、向維基作者提供建議的「顧問(wèn)(Advisor)」等等。
▲ 維基百科上機(jī)器人的九大分類(lèi)
這些機(jī)器人大部分都幫人類(lèi)編輯完成了社區(qū)中非常繁復(fù)的批量工作,同時(shí)也為新加入的成員在編寫(xiě)內(nèi)容時(shí)提供幫助建議,清除各類(lèi)惡性內(nèi)容。當(dāng)然,機(jī)器人也有犯錯(cuò)的時(shí)候,鑒于維基的編輯系統(tǒng)對(duì)修改記錄的透明化,管理者也能及時(shí)更正錯(cuò)誤和優(yōu)化機(jī)器人。
沒(méi)有機(jī)器人,維基百科將是一片混亂。
一位自稱為 Hersfold 的維基百科管理員在接受 BBC 采訪時(shí)說(shuō)道。
當(dāng)人們?cè)诜磳?duì) Lsjbot 時(shí),他們?cè)诜磳?duì)什么?
▲ 圖片來(lái)自Giphy
既然機(jī)器人在維基百科上的存在已經(jīng)歷史悠久,其中像 Lsjbot 這總內(nèi)容生成型的也不少,為什么人們一直仍在就 Lsjbot 的存在合理性爭(zhēng)辯?
事實(shí)上,維基百科誕生次年,首個(gè)被應(yīng)用的機(jī)器人「rambot」就已經(jīng)誕生,而且它還是和 Lsjbot 類(lèi)似的內(nèi)容生成型機(jī)器人。
當(dāng)時(shí),rambot 從美國(guó)人口普查公開(kāi)資料里提取地理信息,在英文版維基創(chuàng)建了三萬(wàn)條關(guān)于美國(guó)城鎮(zhèn)的小條目,同時(shí),這也是維基百科上第一個(gè)機(jī)器人。后來(lái),這些條目逐漸由人類(lèi)作者完善豐富,增添了各種歷史事件和旅游資訊。
截至 2009 年,英文版維基百科中由機(jī)器人和輔助性程序參與的編輯占到了總數(shù)的 28.49%。
為什么做類(lèi)似事情的 Lsjbot 卻一直被攻擊?
主要還是個(gè)占比的問(wèn)題。
正如文章開(kāi)頭提及,宿霧語(yǔ)版維基的活躍用戶只有十多人,而 Lsjbot 生成的條目有 500 多萬(wàn)條,部分人認(rèn)為這個(gè)小社群沒(méi)有可能能夠去完成如此大量的完善工作。
因此,當(dāng)一個(gè)新用戶來(lái)到這個(gè)語(yǔ)言版本的維基百科時(shí),他們所看到的就只有質(zhì)量低下的條目,并會(huì)因此離開(kāi),或失去動(dòng)力參與編輯貢獻(xiàn)。
2017 年,因宿霧語(yǔ)版維基上大部分都是機(jī)器生成的內(nèi)容,用戶 KATMAKROFAN提出關(guān)閉該語(yǔ)言版本維基。
最終,委員會(huì)在就該議題討論的公開(kāi)頁(yè)面宣布駁回提議,表示「理解該項(xiàng)目中機(jī)器人生成內(nèi)容的問(wèn)題的確需要關(guān)注」,建議「收緊內(nèi)容質(zhì)量把控」。
所以說(shuō),人們?cè)跔?zhēng)辯的其實(shí)是社區(qū)運(yùn)營(yíng)的問(wèn)題,同時(shí),也在討論機(jī)器人產(chǎn)生的內(nèi)容如何影響人創(chuàng)作的積極性,并不涉及機(jī)器人創(chuàng)作內(nèi)容質(zhì)量本身。
Johansson 于今年接受 Vice 采訪時(shí)表示,出于對(duì)社區(qū)「態(tài)度改變」的考慮,現(xiàn)在 Lsjbot 已經(jīng)不會(huì)再在宿霧語(yǔ)版維基創(chuàng)建新條目,只負(fù)責(zé)執(zhí)行維護(hù)類(lèi)工作。
雖然 Lsjbot 現(xiàn)在已經(jīng)不創(chuàng)建新條目,而它們這類(lèi)機(jī)器人的作品也許也稱不上「創(chuàng)作」,但人類(lèi)對(duì)寫(xiě)作機(jī)器人的探索一直沒(méi)停過(guò)。
有的算法在寫(xiě)作,有的算法在默默影響人類(lèi)寫(xiě)作
▲ 圖片來(lái)自《連線》
去年,華盛頓大學(xué)的團(tuán)隊(duì)突然想到一個(gè)曲線打擊假新聞的方法 —— 想要?jiǎng)?chuàng)造最好的檢測(cè)假新聞的算法?也許我們得先寫(xiě)一個(gè)擅長(zhǎng)寫(xiě)假新聞的算法。
于是乎,Grover 誕生了。
只需要輸入標(biāo)題,Grover 就能生成一段假新聞。《Fastcompany》編輯曾以《為什么特朗普一天要做 100 個(gè)俯臥撐?》為題,讓 Grover 發(fā)揮:
當(dāng)你想到俯臥撐時(shí),第一個(gè)想到的形象絕對(duì)并不是美國(guó)總統(tǒng)。
作為三軍統(tǒng)帥,特朗普的健康狀況并不怎樣。他承諾一旦當(dāng)選總統(tǒng)就會(huì)鍛煉身體,而且在《飛黃騰達(dá)》中,他曾對(duì)阿諾德?施瓦辛格的技術(shù)大加嘲諷,如果沒(méi)有什么能阻止特朗普不做「特朗普式的俯臥撐」。
不過(guò)就連特朗普自己也承認(rèn),不管你的工作多么適合你,要想駕馭自己的身體都是極其困難的。那么,是什么讓三軍統(tǒng)帥走上正軌呢?答案是 100 個(gè)俯臥撐。
雖然這段話看著看著讓人覺(jué)得不妥,但仍無(wú)法否認(rèn)它對(duì)特朗普言論風(fēng)格的掌握不錯(cuò),還挺「創(chuàng)造性」的。看到這里,你也許也會(huì)想起小愛(ài)同學(xué)寫(xiě)的詩(shī)句。Grover 論文的第一作者 Zellers 很好地總結(jié)出算法寫(xiě)作存在的普遍問(wèn)題:
盡管書(shū)寫(xiě)看起來(lái)很流暢,但 Grover 和其他神經(jīng)語(yǔ)言生成器所寫(xiě)的文章包含了機(jī)器獨(dú)有的語(yǔ)言怪癖,這暴露了它們的機(jī)器起源。
正是因?yàn)樗惴▽?xiě)出來(lái)文章的「古怪」,它們正成為人類(lèi)作家的一個(gè)尋找靈感的工具。
小說(shuō)家 Sigal Samuel 最開(kāi)始因好奇試玩了 OpenAI 的寫(xiě)作算法 GPT-2。這個(gè)算法能基于人輸入詞語(yǔ)或句子來(lái)「接話」。
Samuel 覺(jué)得,雖然算法反饋的東西很隨機(jī),但不時(shí)能冒出一些她意想不到的內(nèi)容,激發(fā)她的靈感。所以,現(xiàn)在當(dāng)她「靈感便秘」時(shí),有時(shí)會(huì)用 GPT-2 進(jìn)行「暢想」:
作為一名作家,你沒(méi)法隨時(shí)都身處創(chuàng)作研討會(huì)或找到合適的朋友討論想法。所以有這樣的人工智能做參謀兼合作者還挺好的。
與此同時(shí),也有自己不寫(xiě)作的算法,很有可能在更潛移默化地塑造人類(lèi)未來(lái)的寫(xiě)作。
在美國(guó),采用算法來(lái)為學(xué)生文章打分的學(xué)校至少遍布了 21 個(gè)州。這些算法的「底子」是數(shù)百篇經(jīng)人類(lèi)教師批改的文章和反饋。就和面試算法一樣,這些改作文的算法同樣被指存在偏見(jiàn)。
▲ 圖片來(lái)自Vice
有家長(zhǎng)反饋,算法批改文章的方式?jīng)]有讓自己的孩子更懂寫(xiě)作,只是鼓勵(lì)了他們用各種浮夸的詞語(yǔ)來(lái)?yè)Q取高分。
不過(guò),算法批改文章和人工批改間的最重要差別還是在于透明度——當(dāng)文章是由人工批改,當(dāng)你遇到困惑或不同意的結(jié)果,你可以去問(wèn)改這個(gè)文章內(nèi)容的人為何會(huì)作出這樣的決定,但如果換做是算法,我們永遠(yuǎn)無(wú)法知道它的評(píng)價(jià)標(biāo)準(zhǔn)和原因。
無(wú)論是自己去寫(xiě)作的算法,還是被用于輔助人類(lèi)寫(xiě)作的算法,未來(lái)這些工具只會(huì)有增無(wú)減。
也許它們的「語(yǔ)言怪癖」非常明顯——這可以是像 Lsjbot 創(chuàng)造的小條目的「干巴巴感」,也能是 Grover 的「乍一看順暢,細(xì)看覺(jué)得不妥」,但這不應(yīng)該成為我們忽視它們的理由。無(wú)論喜歡與否,它們都將在不同程度上影響人類(lèi)寫(xiě)作的創(chuàng)作。
當(dāng)尼采開(kāi)始用打字機(jī)寫(xiě)作后,他的朋友發(fā)覺(jué)他的散文變得更緊實(shí),擁有了一種「強(qiáng)悍力道」。而他自己也認(rèn)為「我們的寫(xiě)作工具會(huì)參與塑造思考」。在和機(jī)器人同行的算法時(shí)代,我們的寫(xiě)作又會(huì)如何演化?
題圖來(lái)自Giphy
總結(jié)
以上是生活随笔為你收集整理的维基百科上最高产的作者,是一个机器人的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 做一个榻榻米多少钱?
- 下一篇: “中国YouTube”终成空,为何爱奇艺