日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对

發布時間:2023/11/21 综合教程 49 生活家
生活随笔 收集整理的這篇文章主要介紹了 Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  作者:camel

  雷鋒網 AI 科技評論按:當前自然語言處理中的大多數方法都是數據驅動的,大多數多語言模型(特別是神經機器翻譯系統)都需要并行語料庫進行訓練。大多數的并行文本都只是適用于幾個主要語言(例如英語、漢語),且限制于特定的領域。

  為了解決這一問題,在去年七月份,Facebook 曾發布了第一個系統處理 Wikipedia 上所有語言(包括資源貧乏的語言和方言)的數據集 WikiMatrix,大約包含了億級的并行語料,覆蓋 1620 種語言對。

  據雷鋒網 AI 科技評論了解,最近 Facebook 基于新的方法和數據源,開發并開源了一個目前為止最大的并行語料數據集 CCMatrix。這個數據集包含 45 億并行語料(是 WikiMatrix 的近 50 倍),覆蓋 576 種語言對。

  論文:https://arxiv.org/abs/1911.04944

  數據集開源地址:https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

  語料庫構建

  首先,從語料來源上講。目前有幾個公共的多語言并行語料庫,主要來自一些國際會議(如 European Parliament 、the United Nations)的語料,這些都是專業的人工翻譯語料,使用語言較為正式,且僅限于政治主題。此外也有幾個依靠志愿者翻譯而形成的語料庫,例如 news commentary 、Opensub- Titles 、the TED corpus 等。2019 年 Facebook 的 Schwenk 等人曾利用 Wikipedia 中的語料進行挖掘,從而開發了 WikiMatrix 數據集。

  以上這些,從數據來源上講都有局限。為了使并行語料庫量大、覆蓋主題廣泛,Facebook 在 CCMatrix 這項工作中,選擇使用了隨機抓取 web 中的數據作為并行語料的來源,他們每個月隨機發送 url,從而獲得包含各種語言的網頁快照(TB 級)。


十次快照語料中,不同語言的單句數量(其中一次快照只包含英語)

  然后通過預處理去除高達 70% 的重復數據(例如模板文件、導航菜單、cookie 等),并使用 fastText(語言識別器,可以識別 176 種語言)來識別文檔中的語言,最后使用一個在 Wikipedia 上訓練的模型來過濾掉低質量的內容,只保留較低困惑度的文檔。如此處理獲得一個包含有 327 億個句子的 CCNet 數據集。

  在這項工作中,使用的挖掘方法的底層思想是,首先學習一種多語言的語義嵌入,即在一個嵌入空間中語義上相似的句子會有較近的距離,而與它們所使用的語言無關。這意味著空間中的距離可以作為兩個句子是否是相互翻譯的指標。


用于大規模訓練多語言句嵌入的框架

  不過由于余弦距離的絕對閾值在全局上并不一致,所以 Schwenk 在這里所采用的是 Margin criterion:


  語料庫分析

  在超過 320 億個句子中挖掘平行語料,計算上是非常昂貴的。在當前版本的 CCMatrix 語料庫中,作者限制為 38 種語言。

  CCMatrix:這里給出了單語文本的數量和提取的平行句子的數量(單位:百萬),margin 閾值為 1.06,以及在 TED 測試中的 BLEU 分數。(編者注:這是 11 月份數據,當時數據集規模為 35 億并行語料,下同)

  CCMatrix:每種語言對的并行語料數量(單位:百萬),Margin 閾值為 1.06。舉例來說,希臘語/漢語對的語料數量為 470 萬。

  定性評估  

  為了評估這個數據集的質量,Schwenk 等人還利用這個數據集進行了神經機器翻譯系統的測試,并與幾個公共測試集進行了對比。

  1、在 TED 數據集上進行測試

  Schwenk 等人首先用 CCMatrix 對神經翻譯系統(NMT)進行訓練,然后在 TED 數據集上進行測試,結果如下:

  這里只選擇了其中的 27 種語言。以上所有 BLEU 值的平均值為 14.3,英語對的平均 BLEU 值為 26.7,最高的 BLEU 值為 42.9。

  當然,在 TED 上的 SOTA 遠比這些高;但需要注意,這里測試所用的 NMT 系統沒有使用 Transformer 框架等最新技術。

  2、在 WMT'19 上評估

  上圖是在 Newstest'18(NT'18)和 Newtest'19(NT‘19)測試集上的 BLEU 分數。可以看到,使用 CCMatrix,可以提供非常有競爭力的 BLEU 分數。

  3、在 WAT'19上評估

  利用 CCMatrix 在亞洲翻譯研討會的俄語/日語翻譯任務上進行的測試如上圖所示。這里所使用的模型與前面一樣,沒有 Transformer,沒有 layer dropout。盡管相比 SOTA 略差,但仍然在同一層次。

  總結

  CCMatrix 使 NMT 研究社區能夠利用比以前僅幾十種語言對更大的雙語料數據集。這可以加速創建更有效的 NMT 模型,這些模型可以使用更多的語言,尤其是語料庫相對有限的資源較少的模型。

  由于規模龐大且使用了大量公共文本,或許 CCMatrix 將成為 NMT 領域中用于構建和評估系統的最常用資源之一。

  當然,Facebook 在構建 CCMatrix 過程中所提出的數據集構建方法更值得推廣,或許能夠幫助更多人來創建大規模數據集。

  參考資料:

  facebook 開源官宣:https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/CCMatrix

  論文:https://arxiv.org/abs/1911.04944CCMatrix

  開源鏈接:https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

總結

以上是生活随笔為你收集整理的Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。