日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

业内:ChatGPT们毁了网络共享根基,内容所有者不愿再分享

發布時間:2024/4/24 综合教程 38 生活家
生活随笔 收集整理的這篇文章主要介紹了 业内:ChatGPT们毁了网络共享根基,内容所有者不愿再分享 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

8月31日消息,隨著人工智能技術的迅猛發展,曾經用于搜索引擎索引的網絡爬蟲現在被用于收集訓練數據來開發人工智能模型。內容創作者意識到,他們的勞動成果被大科技公司免費使用來開發新的人工智能工具,爬蟲協議已經無法解決這個問題。這可能會影響內容所有者在線分享內容的動力,從而從根本上改變互聯網。

以下為翻譯內容:

20世紀90年代末,出現了一種名為爬蟲協議(robots.txt)的簡單代碼,允許網站所有者告知搜索引擎的機器人爬蟲哪些頁面可以抓取,哪些頁面不能抓取。如今,爬蟲協議已成為業界普遍接受的非官方網絡規則之一。

機器人爬蟲的主要目的是索引信息,改善搜索引擎的搜索結果。谷歌、必應和其他搜索引擎都有爬蟲程序,它們生成網絡內容的索引信息,并提供給潛在的數十億用戶。這也是互聯網蓬勃發展的基礎,創作者們在網絡上分享豐富信息,因為他們知道用戶會訪問他們的網站并瀏覽廣告、訂閱服務或購買商品。

然而,生成式人工智能和大語言模型正在從根本上迅速改變網絡爬蟲的任務。這些工具并沒有為內容創作者提供支持,反而成為他們的敵人。

機器人喂飽了大科技公司

現在,網絡爬蟲收集在線信息,并生成大規模的數據集,這些數據集被富有的科技公司免費用于開發人工智能模型。比如,CCBot為最大的人工智能數據集之一Common
Crawl提供數據;GPTbot則是向人工智能明星創企OpenAI提供數據。谷歌將自家的大語言模型的訓練數據稱為“無限集合”,但沒有提及大部分數據來自Common
Crawl的精簡版C4。

這些公司開發的人工智能模型使用這些免費信息來學習如何回答用戶的問題,這與為網站建立索引信息、讓用戶訪問原始內容的既定模式相去甚遠。

如果沒有潛在的消費者,內容創作者就沒有動力讓網絡爬蟲繼續收集免費數據。GPTbot已被亞馬遜、愛彼迎、Quora和其他上千家網站屏蔽。對Common
Crawl數據集的CCBot的屏蔽也越來越多。

“粗糙的工具”

阻止這些網絡爬蟲的方式并沒有太大變化。網站所有者只能部署爬蟲協議并屏蔽特定爬蟲,但效果并不理想。

“這是件有點粗糙的工具,”Wordpress前高管、科技投資者、數字營銷公司Yoast創始人約斯特·德·瓦爾克(Joost de Valk)說。“它沒有法律依據,基本上是由谷歌維護的,盡管他們聲稱是與其他搜索引擎共同維護的。”

考慮到各大企業對高質量人工智能數據的巨大需求,爬蟲協議也容易被操縱。例如,像OpenAI這樣的公司只需更改其網絡爬蟲的名稱,就可以繞過人們使用爬蟲協議設置的禁止規則。

此外,由于爬蟲協議是自愿遵守的,網絡爬蟲也可以簡單地忽略指令并繼續收集信息。像Brave等較新的搜索引擎的網絡爬蟲就不會受到規則的影響。

“網上的一切信息都被模型吸進了真空,”研究人類生成數據與人工智能之間關系的計算機科學教授尼克·文森特(Nick Vincent)說。“這背后發生了很多事情。在接下來的時間里,我們希望能以不同的方式評估這些模型。

創作者的回應

德·瓦爾克警告稱,內容所有者和創作者可能已經太遲鈍,無法理解允許這些網絡爬蟲免費獲取他們的數據、不加區分地使用這些數據來開發人工智能模型的風險。

“現在,什么都不做意味著,‘我認可我的內容出現在世界上所有的人工智能和大語言模型中,’”德·瓦爾克說。“這是完全錯誤的。需要創建更好的爬蟲協議,但搜索引擎和大型人工智能團隊自己很難會去做這件事。”

一些大公司和網站最近做出了回應,其中一些是第一次部署爬蟲協議。

檢測人工智能生成內容的公司Originality.ai表示,截至8月22日,在1000個最受用戶歡迎的網站中有70個使用爬蟲協議屏蔽GPTBot。

Originality.ai還發現,在1000個最受歡迎的網站中,有62個屏蔽了Common
Crawl的網絡爬蟲CCBot。隨著人們對人工智能數據收集的意識日益增強,今年有越來越多的網站開始屏蔽Common
Crawl。

然而,網站不能強制執行爬蟲協議。任何爬蟲都可以忽略該文件,繼續收集網頁上的數據,而網頁所有者可能根本不知情。即使部署爬蟲協議具有法律依據,其初衷與利用網絡信息開發人工智能模型關系不大。

紐約大學技術法律與政策診所主任杰森·舒爾茨(Jason
Schultz)表示,"Robots.txt不太可能被視為禁止使用網站數據的法律。"這主要是為了表明人們不希望自己的網站被搜索引擎編入索引,而不是表示人們不希望自己的內容被用于訓練機器學習和人工智能。

“這是一個雷區”

事實上,這種情況已經持續了多年。早在2018年,OpenAI就公布了首個GPT模型,并通過BookCorpus數據集進行訓練。Common
Crawl始于2008年,并于2011年通過亞馬遜云服務公開了數據集。

盡管如今屏蔽GPTBot的網站越來越多,但對于那些擔心自己的數據被用于訓練人工智能模型的企業來說,Common
Crawl的威脅更大。可以說,Common
Crawl之于人工智能,就像谷歌之于互聯網搜索。

非營利組織知識共享(Creative Commons)首席執行官凱瑟琳·斯蒂勒(Catherine Stihler)表示,

“這是一個雷區。我們幾年前才更新了戰略,現在我們處于一個不同的世界。”

知識共享始于2001年,是創作者和內容所有者用知識共享許可協議來替代嚴格版權,在網上使用并分享作品許可的一種方式。在共享許可協議的基礎上,創作者和所有者保留他們的權利,并允許其他人訪問內容并創作衍生作品。維基百科、Flickr、Stack
Overflow等許多知名網站都是通過知識共享許可協議運作的。

知識共享組織在最新的五年戰略中表示,在訓練人工智能技術方面,開放內容的使用存在問題。知識共享組織希望使在線作品共享更加公平。

1600億網頁

通過CCBot爬取公開信息的Common
Crawl擁有最大的數據存儲庫。自2011年以來,它已從1600億個網頁中抓取和保存信息,并持續增加。一般來說,Common
Crawl每月抓取并保存大約30億個網頁的信息。

Common Crawl稱,這項事業是一個“開放數據”項目,旨在讓任何人“打開自己的好奇心,分析世界,追求卓越的想法”。

然而,現在的情況完全不同。大量Common Crawl收集的數據被大科技公司用于開發專有模型。即使一家大型科技公司目前沒有從人工智能產品中獲利,未來也有可能這樣做。

一些大型科技公司已停止披露訓練數據來源。然而,許多強大的人工智能模型都是使用Common
Crawl開發的。它幫助谷歌開發了Bard,幫助Meta訓練Llama,幫助OpenAI創建ChatGPT。

Common Crawl還向The
Pile提供數據,后者還擁有更多從其他爬蟲抓取的數據集。The
Pile已廣泛用于人工智能項目,包括Llama和微軟與英偉達共同開發的MT-NLG。

從今年6月份開始,The
Pile下載量最大的數據之一是受版權保護的漫畫書,包括阿奇漫畫、蝙蝠俠、X戰警、星球大戰和超人系列的作品。這些作品都是DC漫畫和漫威創作的,現在仍受版權保護。最近有報道稱,The
Pile中還存儲了大量受版權保護的書籍。

紐約大學的舒爾茨表示,爬蟲的目的和使用方式完全不同。很難監管或要求它們以特定方式使用數據。

對于The Pile來說,雖然它承認數據中包含受版權保護的材料,但在創立數據集的技術文章中聲稱,“處理和分發他人擁有的數據也可能違反版權法”的說法幾乎沒有人會認同。

此外,The Pile還辯稱,盡管數據集中存儲了相對未經改變的作品,但根據合理使用原則,對這些材料的使用應該是變革性的。The
Pile還承認,在訓練大語言模型時,需要使用完整的版權內容以產生最佳效果。

網絡爬蟲和人工智能項目中所謂的合理使用觀點已經受到了質疑。作家、視覺藝術家甚至源代碼開發人員起訴OpenAI、微軟和Meta等公司,因為他們的原創作品在未經許可的情況下被用于訓練模型,而他們并沒有從中受益。

微軟前高管、風投公司安德森·霍洛維茨(Andreessen Horowitz)合伙人史蒂文·辛諾夫斯基(Steven Sinofsky)最近在社交媒體上寫道,即便將東西放到互聯網上,也不能不經同意就免費、無限制地將某人的勞動成果用于商業用途。

沒有解決辦法

“我們現在正在努力解決所有這些問題,”知識共享組織首席執行官斯蒂勒表示,有很多問題需要解決:補償、授權、信任。在人工智能時代,我們還沒有答案。

德·瓦爾克表示,由于知識共享許可協議可以促進版權的流通性、允許自己擁有的作品在互聯網上使用,可以作為開發人工智能模型的一種潛在許可模式。

斯蒂勒對此并不確定。她說,涉及到人工智能時,也許并沒有單一的解決方案。即使是更靈活的通用協議,也可能行不通。你如何向整個互聯網授權?

斯蒂勒說:“與我交談過的每一位律師都說,許可并不能解決問題。”

她經常與作者、人工智能行業高管等利益相關者討論這個問題。斯蒂勒今年早些時候會見了OpenAI的代表,并表示公司正在討論如何獎勵創作者。

但她補充說,目前還不清楚人工智能時代的公共空間將會是什么樣子。

鑒于網絡爬蟲已經為大型科技公司收集了大量數據,加上內容創作者根本無法掌控,互聯網可能會發生巨大變化。

如果發布信息意味著將數據免費提供給與自己競爭的人工智能模型,那么這種活動可能會停止。

已經有跡象表明,訪問問答網站Stack Overflow來回答問題的程序員越來越少,因為他們之前的付出被用來訓練人工智能模型,現在這些模型可以自動回答許多問題。

斯蒂勒表示,所有在線創作內容的未來可能很快就會像現在的流媒體一樣,內容被鎖在訂閱服務中,成本越來越高。

“如果我們不小心,最終就會導致公共空間關閉,”斯蒂勒說。“將會有更多有圍墻的花園、更多人們無法訪問的東西。這不是未來知識和創造力的成功模式。”(辰辰)

總結

以上是生活随笔為你收集整理的业内:ChatGPT们毁了网络共享根基,内容所有者不愿再分享的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 麻豆精品国产传媒av绿帽社 | 一区二区在线免费视频 | 鲁大师私人影院在线观看 | 免费特级黄色片 | 青青操视频在线播放 | 久久久久久av无码免费看大片 | 国产美女一级片 | 麻豆影音 | av福利片| 色欲国产精品一区二区 | 日本韩国欧美一区 | 人人爽人人爽人人爽人人爽 | av集中营 | 爱福利视频一区二区 | 亚洲av第一成肉网 | 爱爱视频一区二区 | 日韩欧美国产激情 | 久久久久久五月天 | 国产一区,二区 | 视频一区二区中文字幕 | 成人久久久精品乱码一区二区三区 | 久久艹在线 | 97视频在线看 | 黑人巨大精品欧美一区二区免费 | 久久久久免费精品 | 日韩高清一级 | 一本一道久久综合狠狠老精东影业 | 黄色一级片免费 | 免费福利视频在线观看 | 成人3d动漫一区二区三区91 | 一区二区三区久久精品 | 中文字幕人妻丝袜乱一区三区 | 先锋资源中文字幕 | 日韩一区二区中文字幕 | 天天操夜夜操 | 日韩av免费在线看 | 久久亚洲成人av | av在线免费观看网站 | 免费精品无码AV片在线观看黄 | 亚洲高清视频在线观看 | 伊伊成人网| 91av毛片| 国产午夜伦鲁鲁 | 多男调教一女折磨高潮高h 国内毛片毛片毛片毛片毛片 | 亚洲一区影院 | 亚洲第九页 | 好吊操免费视频 | 黄色av一级 | 久久久久久日产精品 | 久久av导航 | 国产欧美日韩精品在线 | 成人免费毛片色戒 | 男生操女生免费网站 | 精品国产一区二区三区久久狼黑人 | 国产在线观看精品 | 日本黄视频网站 | 最新中文字幕免费视频 | heyzo北岛玲在线播放 | 亚洲欧美日韩国产成人精品影院 | 日韩在线视频看看 | 91热精品 | 国产女主播福利 | 久久人人添人人爽添人人片 | 无码精品人妻一区二区 | 欧美成人免费在线观看视频 | 好吊视频一区二区三区四区 | 337p日本欧洲亚洲大胆张筱雨 | 中文在线字幕免费观 | 免费看欧美大片 | 爆乳2把你榨干哦ova在线观看 | 亚洲美女自拍视频 | 中文字幕第5页 | 免费观看视频一区二区 | 国产第1页| 九九热视 | jizjiz中国少妇高潮水多 | 国产四区 | 国产精品99久久免费黑人人妻 | 国产我不卡 | 玉足调教丨vk24分钟 | 宅男av在线| 黄色av中文字幕 | 手机在线成人av | www.av免费| 久在线观看视频 | 99久久久无码国产精品免费麻豆 | 亚洲午夜不卡 | 少妇av导航| 国产性av| 欧美在线色图 | 欧美理论片在线观看 | 日本大尺度做爰呻吟舌吻 | www.亚洲天堂.com | 后进极品白嫩翘臀在线视频 | 不用播放器的av网站 | 国产成人亚洲综合a∨婷婷 台湾a级片 | 久久国产在线观看 | 国产精品1000部啪视频 | 日韩天堂一区 |