日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述...

發(fā)布時間:2025/3/15 编程问答 13 豆豆
生活随笔 收集整理的這篇文章主要介紹了 lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

第一章:數(shù)據(jù)標(biāo)注概述

一、數(shù)據(jù)標(biāo)注的起源與發(fā)展

1、人工智能行業(yè)的發(fā)展

  • AI的概念:意指讓機(jī)器具有像人一般的智能行為(1956年,達(dá)特茅斯會議,由約翰·麥卡錫提出)
  • AI的發(fā)展:60多年來,浮浮沉沉、三起三落

人工智能發(fā)展史

2、數(shù)據(jù)標(biāo)注的起源與發(fā)展

  • 前兩次AI浪潮中,由于數(shù)據(jù)量級很小,數(shù)據(jù)標(biāo)注主要由研究的工程師完成
  • 第三次浪潮后,數(shù)據(jù)標(biāo)注需求逐漸增大
  • 2011年,數(shù)據(jù)標(biāo)注的外包市場開啟
  • 2017年,數(shù)據(jù)標(biāo)注行業(yè)真正爆發(fā)

3、什么是數(shù)據(jù)標(biāo)注

  • 概念:通過分類、畫框、標(biāo)注、注釋等,對圖片、語音、文本等數(shù)據(jù)進(jìn)行處理,標(biāo)記對象的特征,以作為機(jī)器學(xué)習(xí)的基礎(chǔ)素材的過程。

4、數(shù)據(jù)標(biāo)注分類概述

a. 圖像標(biāo)注:

  • 對汽車和行人進(jìn)行篩選、分類、標(biāo)框等
  • 對骨骼進(jìn)行描點(diǎn)
  • 對病理切片標(biāo)注

圖像標(biāo)注

b. 語音標(biāo)注:

  • 發(fā)音人角色標(biāo)注
  • 環(huán)境情景標(biāo)注
  • 多語種標(biāo)注
  • ToBI(Tones and Break Indices)韻律標(biāo)注體系標(biāo)注
  • 噪聲標(biāo)注等

語音標(biāo)注

c. 文本標(biāo)注:

  • 語句分詞標(biāo)注
  • 語義判定標(biāo)注
  • 文本翻譯標(biāo)注
  • 情感色彩標(biāo)注
  • 拼音標(biāo)注
  • 多音字標(biāo)注
  • 數(shù)字符號標(biāo)注等

文本標(biāo)注

5、數(shù)據(jù)標(biāo)注流程概述

數(shù)據(jù)標(biāo)注流程

a. 數(shù)據(jù)采集:

采集來源:

    • 公開數(shù)據(jù)集
    • 專業(yè)數(shù)據(jù)集

獲取方式:

    • 用SQL從內(nèi)部數(shù)據(jù)庫提取
    • 下載公開數(shù)據(jù)集
    • 編寫網(wǎng)頁爬蟲自主收集

采集要求 :

    • 要考慮采集規(guī)模和預(yù)算
    • 要注重采集數(shù)據(jù)的多樣性
    • 考慮是否適用于應(yīng)用場景
    • 采集方法要合法合理

b. 數(shù)據(jù)清洗:

概念:

    • 清洗臟數(shù)據(jù),將數(shù)據(jù)統(tǒng)一成適合于標(biāo)注且與注意密切相關(guān)的標(biāo)準(zhǔn)格式,以幫助訓(xùn)練更為精確的數(shù)據(jù)模型和算法

方法:

    • 對所有采集的數(shù)據(jù)進(jìn)行篩檢,最大限度的糾正數(shù)據(jù)的不一致性和不完整性

舉例:

    • 去除重復(fù)值
    • 去除無關(guān)值
    • 去除異常值
    • 補(bǔ)充缺失值
    • 平滑噪聲數(shù)據(jù)

c. 數(shù)據(jù)標(biāo)注:

先試標(biāo):

    • 需求方算法工程師給出標(biāo)注樣板
    • 詳細(xì)闡述標(biāo)注需求和標(biāo)注規(guī)則

后標(biāo)注:

    • 有數(shù)據(jù)標(biāo)注員對不同素材的數(shù)據(jù)進(jìn)行標(biāo)注

d. 數(shù)據(jù)質(zhì)檢:

目的:

    • 提高輸出數(shù)據(jù)的準(zhǔn)確率

方法:

    • 排查
    • 抽查

二、數(shù)據(jù)標(biāo)注的應(yīng)用場景

1、出行行業(yè)

場景 :

  • 汽車自動駕駛研發(fā)
  • 規(guī)劃出行路線
  • 優(yōu)化駕駛環(huán)境

應(yīng)用:

  • 矩形框或描點(diǎn)標(biāo)注車輛
  • 矩形框或描點(diǎn)標(biāo)注人體輪廓
  • 在地圖上標(biāo)記POI

2、金融行業(yè)

場景:

  • 身份驗(yàn)證
  • 智能投資顧問
  • 風(fēng)險(xiǎn)管理
  • 欺詐檢測

應(yīng)用:

  • 通過語義分析制作合同研發(fā)軟件,大大縮短合同審查工作的時間,并顯著降低錯誤率

3、醫(yī)療行業(yè)

場景:

  • 醫(yī)學(xué)編碼和注釋
  • 遠(yuǎn)程醫(yī)療
  • 醫(yī)療機(jī)器人
  • 醫(yī)療影像
  • 藥物挖掘
  • 疾病預(yù)測

應(yīng)用:

  • 人體標(biāo)框
  • 3D畫框
  • 骨骼點(diǎn)標(biāo)記
  • 病歷轉(zhuǎn)錄

4、家居行業(yè)

場景:

  • 智能家居

應(yīng)用:

  • 矩形標(biāo)框標(biāo)記人臉
  • 人臉精細(xì)分割
  • 對物品進(jìn)行畫框標(biāo)記
  • 通過描點(diǎn)來區(qū)域劃分
  • 采集語音進(jìn)行標(biāo)注處理

5、安防行業(yè)

場景:

  • 日常監(jiān)控

應(yīng)用:

  • 人臉標(biāo)注
  • 視頻分割
  • 語音采集
  • 行人標(biāo)注

6、公共服務(wù)

場景:

  • 內(nèi)容審核

應(yīng)用:

  • 將同意語句歸類的語義分析
  • 音頻轉(zhuǎn)化文字的語音轉(zhuǎn)錄

7、電子商務(wù)

場景:

  • 建立客戶全生命周期數(shù)據(jù)
  • 預(yù)測需求趨勢
  • 優(yōu)化價(jià)格與庫存
  • 精準(zhǔn)營銷

應(yīng)用:

  • 搜索完善
  • 情緒分析
  • 人臉標(biāo)注
  • 語音采集

三、有多少智能,就有多少人工

1、有監(jiān)督的機(jī)器學(xué)習(xí)

AI體系的三大底層:

  • 數(shù)據(jù)
  • 算法
  • 應(yīng)用

機(jī)器學(xué)習(xí) :

  • 有監(jiān)督學(xué)習(xí)
    • 核心在于“分類”
    • 主要用于實(shí)際產(chǎn)品應(yīng)用
  • 無監(jiān)督學(xué)習(xí)
    • 核心在于“聚類”
    • 主要用于探索研究
  • 數(shù)據(jù)標(biāo)注工作都是有監(jiān)督學(xué)習(xí)
  • 2、最后一批人工智能的“老師”

    AI瘋狂生長,標(biāo)注崗位逐漸消亡:

    • 由弱人工智能,到強(qiáng)人工智能,直至超人工智能
    • 最終“學(xué)生“將超越”老師“,人工標(biāo)注也將不復(fù)存在

    目前階段的AI輔助工具:

    • 例如“流體標(biāo)注”

    手動標(biāo)注和流體標(biāo)注的對比

    四、數(shù)據(jù)越多,智能越好

    深度學(xué)習(xí)的成功歸功于:

    • 高容量的模型
    • 越來越強(qiáng)的計(jì)算能力
    • 可用的大規(guī)模標(biāo)簽數(shù)據(jù)

    大規(guī)模數(shù)據(jù)有助于表征學(xué)習(xí):

    • 模型性能與數(shù)據(jù)的數(shù)量級呈線性增長關(guān)系

    測試性能隨數(shù)據(jù)量呈線性增長
    • 隨著感知智能向認(rèn)知智能發(fā)展,對數(shù)據(jù)標(biāo)注的維度和細(xì)化程度的要求也會增加

    五、本章框架

    六、作業(yè)與練習(xí)

    1、如何理解數(shù)據(jù)標(biāo)注與人工智能的關(guān)系?

    答:人工智能意指讓機(jī)器具有像人一般的智能行為,目前階段的人工智能技術(shù)主要通過機(jī)器學(xué)習(xí)算法來達(dá)到相應(yīng)的目的,而數(shù)據(jù)標(biāo)注工作通過對數(shù)據(jù)進(jìn)行處理,標(biāo)記對象的特征,為機(jī)器學(xué)習(xí)提供了基礎(chǔ)素材,因此數(shù)據(jù)標(biāo)注可以看做是部分人工智能算法的前期基礎(chǔ)工作。

    2、什么是數(shù)據(jù)標(biāo)注?

    答:通過分類、畫框、標(biāo)注、注釋等方法,對圖片、語音、文本等數(shù)據(jù)進(jìn)行處理,標(biāo)記對象的特征,以作為機(jī)器學(xué)習(xí)的基礎(chǔ)素材的過程就是數(shù)據(jù)標(biāo)注。

    3、數(shù)據(jù)標(biāo)注對象可以劃分為哪幾類?

    答:按標(biāo)注對象為分類基礎(chǔ),可分為:圖像標(biāo)注、語音標(biāo)注和文本標(biāo)注等。

    4、數(shù)據(jù)標(biāo)注流程包括哪些環(huán)節(jié)?

    答:包括四個環(huán)節(jié),即數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)檢。

    5、數(shù)據(jù)標(biāo)注有哪些應(yīng)用場景?

    答:數(shù)據(jù)標(biāo)注的應(yīng)用場景隨著人工智能行業(yè)的發(fā)展日趨多樣化,深入各行各業(yè)。例如:出行行業(yè)中的自動駕駛研發(fā)、物聯(lián)網(wǎng)數(shù)據(jù)、交通網(wǎng)絡(luò)大數(shù)據(jù)、車載應(yīng)用技術(shù)等;金融行業(yè)中的身份驗(yàn)證、智能投資顧問、風(fēng)險(xiǎn)管理、欺詐檢測等;醫(yī)療行業(yè)中的遠(yuǎn)程醫(yī)療、醫(yī)療機(jī)器人、醫(yī)療影像、藥物挖掘、高效診斷與治療等;家居行業(yè)豐富的智能家居場景;安防行業(yè)的日常監(jiān)控、出入境管理、刑偵案件偵查等;公共服務(wù)行業(yè)的內(nèi)容審核、語義分析、語音轉(zhuǎn)錄、視頻審核等;電子商務(wù)行業(yè)的精準(zhǔn)營銷、搜索完善、情緒分析等。

    6、如何理解“有多少智能,就有多少人工”?

    答:機(jī)器的智能程度與數(shù)據(jù)處理的量級和質(zhì)量直接相關(guān),而目前,數(shù)據(jù)的采集、清洗、標(biāo)注、質(zhì)檢大多由人工完成,換言之,現(xiàn)在的弱人工智能階段,有監(jiān)督學(xué)習(xí)的機(jī)器智能是通過人工的“老師”“教”出來的。在向強(qiáng)人工智能甚至超人工智能的發(fā)展過程中,有監(jiān)督學(xué)習(xí)會逐漸向無監(jiān)督學(xué)習(xí)或遷移學(xué)習(xí)進(jìn)行轉(zhuǎn)變,到時,人工的部分可能將會大幅度削減。

    7、數(shù)據(jù)量級與智能程度之間存在怎樣的聯(lián)系?

    答:數(shù)據(jù)量級越高,智能水平越高,大規(guī)模數(shù)據(jù)有助于表征學(xué)習(xí),隨著訓(xùn)練數(shù)據(jù)的數(shù)量級增長,模型性能呈線性增長。

    總結(jié)

    以上是生活随笔為你收集整理的lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。