图像识别的工作原理是什么?商业上如何使用它?
圖像識別市場估計(jì)將從2016年的159.5億美元增長到2021年的389.2億美元,在2016年至2021年之間的復(fù)合年增長率為19.5%。機(jī)器學(xué)習(xí)和高帶寬數(shù)據(jù)服務(wù)的使用進(jìn)步推動(dòng)了這項(xiàng)技術(shù)的發(fā)展。 。電子商務(wù),汽車,醫(yī)療保健和游戲等不同領(lǐng)域的公司正在迅速采用圖像識別。根據(jù)MarketsandMarkets的報(bào)告,圖像識別市場分為硬件,軟件和服務(wù)。以智能手機(jī)和掃描儀為主的硬件部分可以在圖像識別市場的增長中發(fā)揮巨大作用。越來越需要具有創(chuàng)新技術(shù)(例如監(jiān)控?cái)z像頭和面部識別)的安全應(yīng)用程序和產(chǎn)品。
圖像識別是指識別圖像中的位置,徽標(biāo),人物,物體,建筑物以及其他幾個(gè)變量的技術(shù)。用戶正在通過應(yīng)用程序,社交網(wǎng)絡(luò)和網(wǎng)站共享大量數(shù)據(jù)。此外,配備攝像頭的移動(dòng)電話正在導(dǎo)致創(chuàng)建無限的數(shù)字圖像和視頻。公司正在使用大量的數(shù)字?jǐn)?shù)據(jù)向訪問它的人們提供更好,更智能的服務(wù)。
圖像識別是計(jì)算機(jī)視覺的一部分,也是識別和檢測數(shù)字視頻或圖像中的對象或?qū)傩缘倪^程。計(jì)算機(jī)視覺是一個(gè)廣義的術(shù)語,包括收集,處理和分析來自現(xiàn)實(shí)世界的數(shù)據(jù)的方法。數(shù)據(jù)是高維數(shù)據(jù),并以決策形式產(chǎn)生數(shù)字或符號信息。除了圖像識別,計(jì)算機(jī)視覺還包括事件檢測,對象識別,學(xué)習(xí),圖像重建和視頻跟蹤。 ?
圖像識別技術(shù)實(shí)際上是如何工作的?
Facebook現(xiàn)在可以以98%的準(zhǔn)確度執(zhí)行人臉識別,這與人類的能力不相上下。Facebook只能通過幾張帶標(biāo)簽的圖片來識別您朋友的臉。該技術(shù)的功效取決于對圖像進(jìn)行分類的能力。分類是與數(shù)據(jù)進(jìn)行模式匹配。圖像是二維矩陣形式的數(shù)據(jù)。實(shí)際上,圖像識別將數(shù)據(jù)歸為一類。一個(gè)常見且重要的示例是光學(xué)字符識別(OCR)。OCR將鍵入或手寫的文本的圖像轉(zhuǎn)換為機(jī)器編碼的文本。
圖像識別過程的主要步驟是收集和組織數(shù)據(jù),建立預(yù)測模型并使用它來識別圖像。
收集和整理數(shù)據(jù)
人眼將圖像感知為一組信號,這些信號由大腦中的視覺皮層處理。這樣可以帶來生動(dòng)的場景體驗(yàn),并與一個(gè)人的記憶中記錄的概念和對象相關(guān)聯(lián)。圖像識別試圖模仿這個(gè)過程。計(jì)算機(jī)將圖像視為光柵圖像或矢量圖像。柵格圖像是一系列像素,這些像素具有離散的顏色數(shù)值,而矢量圖像是一組帶有顏色注釋的多邊形。
為了分析圖像,將幾何編碼轉(zhuǎn)換為描述物理特征和對象的構(gòu)造。然后可以由計(jì)算機(jī)對這些構(gòu)造進(jìn)行邏輯分析。組織數(shù)據(jù)涉及分類和特征提取。圖像分類的第一步是通過提取重要信息并忽略其余信息來簡化圖像。例如,在下面的圖像中,如果要從背景提取貓,您會注意到RGB像素值有很大的變化。
但是,通過在圖像上運(yùn)行邊緣檢測器,我們可以簡化它。您仍然可以輕松地在這些邊緣圖像中辨別臉部和眼睛的圓形形狀,因此我們可以得出結(jié)論,邊緣檢測在保留不必要的信息的同時(shí)保留了必要的信息。一些著名的特征描述符技術(shù)是Viola和Jones引入的類似Haar的特征,定向梯度直方圖(HOG),尺度不變特征變換(SIFT),加速魯棒特征(SURF)等。
建立預(yù)測模型
?
在上一步中,我們學(xué)習(xí)了如何將圖像轉(zhuǎn)換為特征向量。在本節(jié)中,我們將學(xué)習(xí)分類算法如何將此特征向量作為輸入并輸出類標(biāo)簽(例如,貓或背景/無貓)。在分類算法發(fā)揮作用之前,我們需要通過顯示成千上萬的貓和非貓圖像來訓(xùn)練它。機(jī)器學(xué)習(xí)算法的一般原理是將特征向量視為高維空間中的點(diǎn)。然后,它嘗試查找將高維空間分隔開的平面或曲面(輪廓),以使特定類的所有示例都位于平面或曲面的一側(cè)。
?
為了建立預(yù)測模型,我們需要神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一個(gè)類似于我們大腦的硬件和軟件系統(tǒng),用于估計(jì)依賴于大量未知輸入的函數(shù)。根據(jù)Google Cloud Platform的開發(fā)人員倡導(dǎo)者Kaz Sato的說法,“?神經(jīng)網(wǎng)絡(luò)是一種功能,可以從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)給定輸入的預(yù)期輸出”。神經(jīng)網(wǎng)絡(luò)是一組互連的節(jié)點(diǎn)。每個(gè)處理節(jié)點(diǎn)都有自己的一小部分知識范圍,包括其所見所聞以及它最初為自己編寫或開發(fā)的規(guī)則。神經(jīng)網(wǎng)絡(luò)將需要一種學(xué)習(xí)算法。用于識別圖像的圖像分類算法很多,例如詞袋,支持向量機(jī)(SVM),人臉界標(biāo)估計(jì)(用于人臉識別),K近鄰(KNN),邏輯回歸等。
識別圖像
盡管以上兩個(gè)步驟占用了大部分精力,但是識別圖像的這一步驟非常容易。圖像數(shù)據(jù),包括訓(xùn)練和測試,都經(jīng)過組織。訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不同,這也意味著我們刪除了它們之間的重復(fù)項(xiàng)(或幾乎重復(fù)項(xiàng))。該數(shù)據(jù)被輸入到模型中以識別圖像。我們必須在已知圖像數(shù)據(jù)庫中找到貓的圖像,該圖像的測量值與測試圖像最接近。我們需要做的就是訓(xùn)練一個(gè)分類器,該分類器可以從新的測試圖像中進(jìn)行測量,并告訴我們與貓最接近的匹配項(xiàng)。運(yùn)行此分類器需要毫秒。分類器的結(jié)果是“貓”或“非貓”。
建立圖像識別模型的主要挑戰(zhàn)是硬件處理能力和輸入數(shù)據(jù)的清理。大多數(shù)圖像可能都是高清晰度的。如果要處理尺寸大于500像素的大圖像,則每個(gè)圖像將變?yōu)?50,000像素(500 X 500)。對于機(jī)器學(xué)習(xí)模型而言,僅1000張圖像的訓(xùn)練數(shù)據(jù)就將達(dá)到2.5億美元的價(jià)值。此外,計(jì)算不是簡單的加法或乘法,而是涉及浮點(diǎn)權(quán)重和矩陣的復(fù)雜導(dǎo)數(shù)。
有一些快速的技巧可以克服上述挑戰(zhàn):
–圖像壓縮工具可在不損失清晰度的情況下減小圖像尺寸
–使用彩色圖像的灰度和漸變版本
–圖形處理器單元(GPU)–訓(xùn)練包含更少數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)時(shí)間和較少的計(jì)算基礎(chǔ)架構(gòu)。
如何在您的業(yè)務(wù)中使用圖像識別?
從業(yè)務(wù)角度來看,圖像識別的主要應(yīng)用是面部識別,安全性和監(jiān)視,視覺地理定位,對象識別,手勢識別,代碼識別,工業(yè)自動(dòng)化,醫(yī)療中的圖像分析和駕駛員輔助。這些應(yīng)用正在許多領(lǐng)域創(chuàng)造增長機(jī)會。讓我們看看圖像識別如何在某些業(yè)務(wù)領(lǐng)域引發(fā)一場革命-
電子商務(wù)行業(yè)
該技術(shù)的采用水平在包括搜索和廣告在內(nèi)的電子商務(wù)中是最高的。圖像識別可以將您的智能手機(jī)轉(zhuǎn)變?yōu)樘摂M陳列室。它在移動(dòng)應(yīng)用程序中用于標(biāo)識特定產(chǎn)品。通過使他們看到的所有內(nèi)容都可搜索,從而呈現(xiàn)出更加互動(dòng)的世界觀。
?
圖像識別的一個(gè)突出示例是Image Searcher Inc.的CamFind?API。該技術(shù)可實(shí)現(xiàn)更高水平的移動(dòng)商務(wù)。CamFind識別手表,鞋子,箱包和太陽鏡等物品,并將購買選項(xiàng)返回給用戶。潛在買家無需訪問任何網(wǎng)站即可進(jìn)行實(shí)時(shí)產(chǎn)品比較。開發(fā)人員可以使用此圖像識別API來構(gòu)建自己的移動(dòng)商務(wù)應(yīng)用程序。同樣,ViSenze是一家人工智能公司,通過深度學(xué)習(xí)和圖像識別解決現(xiàn)實(shí)世界中的搜索問題。在線購物者,互聯(lián)網(wǎng)零售商和媒體所有者都使用ViSenze?生產(chǎn)的產(chǎn)品來使用產(chǎn)品推薦和廣告定位。
游戲產(chǎn)業(yè)
圖像識別和計(jì)算機(jī)視覺技術(shù)將徹底改變游戲世界。實(shí)際上,這場革命已經(jīng)開始。Microsoft Kinect電子游戲擁有吉尼斯世界紀(jì)錄,是有史以來銷售最快的消費(fèi)電子設(shè)備。該游戲基于計(jì)算機(jī)視覺,并實(shí)時(shí)跟蹤人體。認(rèn)真的游戲玩家更傾向于在現(xiàn)實(shí)世界中遠(yuǎn)離設(shè)備的角色。圖像識別是生成此類新用戶體驗(yàn)和用戶界面的關(guān)鍵。將結(jié)合了地理位置定位和應(yīng)用內(nèi)購買的圖像技術(shù)相結(jié)合,基于搜索的商業(yè)或廣告開始向現(xiàn)實(shí)世界過渡,為AdWords規(guī)模巨大的設(shè)備外商機(jī)打開了大門。
汽車行業(yè)
圖像識別和處理是Google和Uber率先開發(fā)的自動(dòng)駕駛汽車的重要組成部分。未來的汽車有望發(fā)現(xiàn)障礙物并警告您靠近護(hù)欄和人行道的情況。該技術(shù)甚至能夠讀取路標(biāo)和停車燈。由深度學(xué)習(xí)驅(qū)動(dòng)的計(jì)算機(jī)視覺系統(tǒng)使用數(shù)千張圖像進(jìn)行訓(xùn)練。將不同天氣條件下的路標(biāo),人,道路等圖像輸入神經(jīng)網(wǎng)絡(luò)。隨著更多的培訓(xùn)數(shù)據(jù)輸入系統(tǒng),系統(tǒng)變得智能。
您是否認(rèn)為上述示例針對大型行業(yè),可能不適用于您的業(yè)務(wù)?相反,圖像識別可以用較小的方法來獲得好處。圖像識別技術(shù)主要用于吸引觀眾并推動(dòng)社交共享。例如,它可以用于優(yōu)化移動(dòng)廣告。使用圖像識別,營銷人員可以以較少干擾性和針對性的廣告來提供高度可見的廣告活動(dòng)。
MARUTI TECHLABS如何為客戶使用圖像識別?
希望首次采用此技術(shù)的組織應(yīng)從特定的業(yè)務(wù)部門開始。這些細(xì)分市場應(yīng)具有強(qiáng)大的業(yè)務(wù)規(guī)則來指導(dǎo)算法,并具有大量數(shù)據(jù)來訓(xùn)練機(jī)器。我們已經(jīng)為汽車行業(yè)的客戶集成了圖像識別解決方案??蛻粲幸粋€(gè)買賣汽車的電子商務(wù)平臺。賣方上傳了汽車的圖像以驗(yàn)證車輛的當(dāng)前狀態(tài)。欺詐賣家上載了令人反感或不相關(guān)的內(nèi)容,以欺騙系統(tǒng)并獲取汽車報(bào)價(jià)。為了減少此類欺詐案件,組織必須專門安排一些人手動(dòng)檢查圖像。
我們設(shè)計(jì)了一種使用Google Vision技術(shù)的解決方案,以淘汰不相關(guān)的(非汽車)圖像。Vision使用Google圖像搜索功能的強(qiáng)大功能來檢測露骨內(nèi)容,面部特征,將圖像標(biāo)記為類別,提取文本等。我??們已使用Vision的安全搜索注釋功能每天處理超過1000張賣方圖像。還可以基于諸如成人,暴力,欺騙和醫(yī)療之類的內(nèi)容來標(biāo)記圖像。隨著新數(shù)據(jù)和概念的引入,Google Vision會隨著時(shí)間的推移而不斷改進(jìn)。隨著我們收集更多數(shù)據(jù)(圖像),我們將使用上述技術(shù)實(shí)現(xiàn)定制的圖像識別解決方案。
每個(gè)公司都很難在這項(xiàng)技術(shù)上進(jìn)行投資,并隨后建立一支計(jì)算機(jī)視覺工程團(tuán)隊(duì)。即使擁有合適的團(tuán)隊(duì),要產(chǎn)生結(jié)果也可能需要大量工作。在這里,我們的數(shù)據(jù)科學(xué)專家可以幫助您定義結(jié)合圖像識別和相關(guān)機(jī)器學(xué)習(xí)技術(shù)的路線圖。我們通常將圖像識別與現(xiàn)有應(yīng)用程序集成在一起,或者使用它來為您的業(yè)務(wù)構(gòu)建特定功能,這通常是在云端進(jìn)行管理的。
總結(jié)
以上是生活随笔為你收集整理的图像识别的工作原理是什么?商业上如何使用它?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 商品图像识别是什么?如何实现图像识别呢?
- 下一篇: 图像识别深度学习主流方案平台比较