日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)

發布時間:2023/12/10 pytorch 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

技術與技法日進千里,快速迭代過程中,真正能夠留下的是應用場景的重構與對新商業范式的思考。

CVaaS 計算機視覺即服務的理念介紹

觀點來源于:極視角科技聯合創始人 羅韻

CVaaS 就是 Computer Vision as a Service, 我們把 CV 的部分標準化成為了一種服務,而每一個行業可以在這里找到自己行業需要的和圖像處理、視頻處理、計算機視覺相關的算法服務,然后他們可以整合這些算法服務成為他們需要的應用。


而 CV 算法更接近于一種平臺運行的服務,提供運算性能的橫向拓展,提供運算的底層開發環境,甚至乎直接提供可開發測試的 sandbox, 所以,CVaaS 也是 PaaS 的一種。
CVaaS 的目的,就是讓各行各業可以以最快的形式和方式完成這要的一些工作的轉變。
例如,在零售行業,我們選擇可以選擇人臉識別做 VIP 識別,選擇行人識別做客流統計,選擇性別、年齡識別做顧客分類或者顧客肖像。

在安防行業,我們選擇動作 (打架) 識別、行人跟蹤、姿態識別等做安全的防范和預警。
再例如,在房地產領域做場景圖片的分類 (例如哪些圖片是臥室,客廳,廚房),優質 (封面) 圖片的挑選;印刷行業根據圖片的內容做自動裁剪;等等。

.

一、深度學習在汽車行業的應用

——如何提高分類的精確度或者準確率

作者:山同氣,來源:知乎
深度學習遵從大數定律,數據越多,規律性越能掌控。

1、Fine-Grained Classification細粒度分類

比如我去框定,汽車的車燈,汽車的前臉,汽車輪轂等,然后用 cnn或 deep cnn 或what ever其他的分類器做這些的分類,對于分類器來說輸入是汽車的車燈+汽車的前臉+汽車輪轂,而不是整張圖片。分類器再從車燈前臉等提取高級特征,從而得到一個分類模型。

在fine-tuning過程會遇到一個問題,拿來對未知信息圖片進行判別,最好是框定過之后的。

對于局部圖片,我們是這樣提取的:

2、級聯式做法

1、粗粒度——圖像清洗。整體識別0/1,是否汽車,數據篩選,清洗垃圾圖層,力求98%以上精度,甚至更高,每個分類拿2w張左右;
2、中粒度——品牌分類器。不細分到品牌下面的子品牌,譬如康師傅牛肉面,不細分到康師傅辣味、咸味等等諸多口味,太細了你的數據量不夠。你即使花了很長時間標注很仔細,但是得不償失。
3、細粒度——車型分類器。每個品牌的不同車型分類器進行區別,這樣就簡單、精度高很多。也可以訓練更精細的,內飾、做工、配色等。
這樣你會得到一個0.98*0.96*0.94~0.88的識別率,但是這樣精確度會變成可調節式,粗粒度時候認定哪些要否定,提高概率的標準,是可以提高整體識別率。

3、數據增強

opencv先做一些圖片的變換,比如對光線的處理,去噪等等,這樣會提高復雜環境的圖片的識別精度。
而且,可以改變光線強弱來進行訓練

.


二、深度學習在美團點評的應用

1、圖像質量評估

在美團點評,商家的首圖是由商家或運營人工指定的,如何選擇首圖才能更好地吸引用戶呢?圖像質量排序算法目標就是做到自動選擇更優質的首圖,以吸引用戶點擊。
傳統的圖像質量排序方法主要從美學角度進行質量評價,通過顏色統計、主體分布、構圖等來分析圖片的美感。但在實際業務場景中,用戶對圖片質量優劣的判斷主觀性很強,難以形成統一的評價標準。比如:

  • 1.有的用戶對清晰度或分辨率更敏感;
  • 2.有的用戶對色彩或構圖更敏感;
  • 3.有的用戶偏愛有視覺沖擊力的內容而非平淡無奇的環境圖。

因此我們使用深度學習方法,去挖掘圖片的哪些屬性會影響用戶的判斷,以及如何有效融合這些屬性對圖片進行評價。
我們使用AlexNet去提取圖片的高層語義描述,學習美感、可記憶度、吸引度、品類等High Level特征,并補充人工設計的Low Level特征(比如色彩、銳度、對比度、角點)。在獲得這些特征后,訓練一個淺層神經網絡對圖像整體打分。該框架(如圖2所示)的一個特點是聯合了深度學習特征與傳統特征,既引入高層語義又保留了低層通用描述,既包括全局特征又有局部特征。

對于每個維度圖片屬性的學習,都需要大量的標簽數據來支撐,但完全通過人工標記代價極大,因此我們借鑒了美團點評的圖片來源和POI標簽體系。關于吸引度屬性的學習,我們選取了美團Deal相冊中點擊率高的圖片(多數是攝影師通過單反相機拍攝)作為正例,而選取UGC相冊中點擊率低的圖片(多數是低端手機拍攝)作為負例。關于品類屬性的學習,我們將美團一級品類和常見二級品類作為圖片標簽。基于上述質量排序模型,我們為廣告POI挑選最合適的優質首圖進行展示,起到吸引用戶點擊,提高業務指標的目的。圖3給出了基于質量排序的首圖優選結果。

2、OCR技術

OCR在美團點評業務中主要起著兩方面作用。一方面是輔助錄入,比如在移動支付環節通過對銀行卡卡號的拍照識別,以實現自動綁卡,又如輔助BD錄入菜單中菜品信息。另一方面是審核校驗,比如在商家資質審核環節對商家上傳的身份證、營業執照和餐飲許可證等證件照片進行信息提取和核驗以確保該商家的合法性,比如機器過濾商家上單和用戶評價環節產生的包含違禁詞的圖片。相比于傳統OCR場景(印刷體、掃描文檔),美團的OCR場景主要是針對手機拍攝的照片進行文字信息提取和識別,考慮到線下用戶的多樣性,因此主要面臨以下挑戰:

  • ?成像復雜:噪聲、模糊、光線變化、形變;
  • ?文字復雜:字體、字號、色彩、磨損、筆畫寬度不固定、方向任意;
  • ?背景復雜:版面缺失,背景干擾。

對于上述挑戰,傳統的OCR解決方案存在著以下不足:

  • 1.通過版面分析(二值化,連通域分析)來生成文本行,要求版面結構有較強的規則性且前背景可分性強(例如文檔圖像、車牌),無法處理前背景復雜的隨意文字(例如場景文字、菜單、廣告文字等)。
  • 2.通過人工設計邊緣方向特征(例如HOG)來訓練字符識別模型,此類單一的特征在字體變化,模糊或背景干擾時泛化能力迅速下降。
  • 3.過度依賴字符切分的結果,在字符扭曲、粘連、噪聲干擾的情況下,切分的錯誤傳播尤其突出。

針對傳統OCR解決方案的不足,我們嘗試基于深度學習的OCR。
首先,我們根據是否有先驗信息將版面劃分為受控場景(例如身份證、營業執照、銀行卡)和非受控場景(例如菜單、門頭圖)。
對于受控場景,我們將文字定位轉換為對特定關鍵字目標的檢測問題。主要利用Faster R-CNN進行檢測,如下圖所示。為了保證回歸框的定位精度同時提升運算速度,我們對原有框架和訓練方式進行了微調:
?考慮到關鍵字目標的類內變化有限,我們裁剪了ZF模型的網絡結構,將5層卷積減少到3層。
?訓練過程中提高正樣本的重疊率閾值,并根據業務需求來適配RPN層Anchor的寬高比。

對于非受控場景,由于文字方向和筆畫寬度任意變化,目標檢測中回歸框的定位粒度不夠,我們利用語義分割中常用的全卷積網絡(FCN)來進行像素級別的文字/背景標注,如下圖所示。為了同時保證定位的精度和語義的清晰,我們不僅在最后一層進行反卷積,而且融合了深層Layer和淺層Layer的反卷積結果

為了有效控制字符切分和識別后處理的錯誤傳播效應,實現端到端文字識別的可訓練性,我們采用如下圖所示的序列學習框架。框架整體分為三層:卷積層,遞歸層和翻譯層。其中卷積層提特征,遞歸層既學習特征序列中字符特征的先后關系,又學習字符的先后關系,翻譯層實現對時間序列分類結果的解碼。

由于序列學習框架對訓練樣本的數量和分布要求較高,我們采用了真實樣本+合成樣本的方式。真實樣本以美團點評業務來源(例如菜單、身份證、營業執照)為主,合成樣本則考慮了字體、形變、模糊、噪聲、背景等因素。基于上述序列學習框架和訓練數據,在多種場景的文字識別上都有較大幅度的性能提升,如下圖所示。
.


三、機器學習在攜程酒店圖像數據中的應用

1、圖像快速去重

攜程酒店圖像數據的來源眾多,從而導致同一家酒店出現相同/相似圖像的幾率往往較大。圖像重復展示會影響用戶的體驗,不利于用戶獲取酒店的完整信息。酒店圖像之間的相同/相似主要表現為1)尺寸形變;2)裁剪殘缺;3)色彩變化;4)旋轉變化;5)拍攝視角移動等多種情況,如下圖所示。

為了解決酒店圖像之間相同/相似的問題,需要對酒店的圖像數據進行去重。然而,由于圖像數量巨大,人工去重耗時耗力。因此,通過圖像去重技術自動對相同/相似的圖像進行判定和去除勢在必行。

圖像去重一般分為
1)圖像特征表達的提取和2)圖像之間相似度計算兩個主要步驟。
對于圖像特征表達的提取,常見的手工設計特征有顏色、紋理、HOG、SIFT和SURF等;此外基于深度學習的深層特征表達也經常被使用。對于圖像之間相似度計算,常見的無監督距離度量方法有歐式距離、曼哈頓距離和余弦距離等;常見的有監督距離度量方法有LMNN、KISSME、LFDA和MFA等。然而這些方法基于浮點特征計算相似度,計算速度普遍較慢,因此通過哈希學習方法將圖像特征轉換為二元編碼,再利用漢明距離進行相似度的快速計算更加符合工業界對圖像數據處理速度的要求。

對于酒店中的相同/相似圖像,大部分全局特征(比如顏色、紋理和HOG)不能很好地解決圖像裁剪殘缺和旋轉變化等問題;一些局部特征(比如SIFT和SURF)與基于深度學習的特征雖然表達效果較好,但是由于特征提取復雜,計算速度過于緩慢。

針對以上特征提取方法存在的缺陷,我們最終采用ORB特征作為圖像的特征表達,并使用漢明距離進行相似度的計算。
ORB特征具有以下優點:
1)特征提取速度快;
2)在大多數情況下,去重效果能夠與SIFT/SURF持平;
3)提取的特征直接是二元編碼形式,無需使用哈希學習方法就可以直接利用漢明距離快速計算相似度。

ORB特征在實際的圖像去重過程中仍然存在一些不足,比如在處理圖像尺寸差異過大、形變和模糊等問題時,去重效果一般。
為此我們在提取ORB特征前,首先將圖像按照初始的寬高比例統一縮放到一個固定的標準尺寸之內,避免了圖像之間的尺寸差異,較好地彌補了ORB特征不具有尺度不變性的缺陷。
同時,我們在面對圖像形變和模糊問題時,在ORB特征的基礎上,進一步融合了顏色直方圖和LBP特征等全局特征來進行重復圖像判定,令局部和全局的圖像信息之間優勢互補,降低了形變和模糊等因素對ORB特征的影響,保證了圖像去重的準確率。
.

2、水印圖像檢測

攜程酒店圖像數據的來源眾多,同時也導致出現了另一個嚴峻的問題:帶有其他公司水印信息的圖像數量增多。人工進行水印圖像的檢測會花費大量的人力成本,所以我們希望能夠利用計算機自動檢測出圖像中是否含有水印信息,從而避免出現誤用和侵權的行為。

水印信息在圖像中的視覺顯著性很低,具有面積小,顏色淺,透明度高等特點,帶水印圖像與未帶水印圖像之間的差異往往很小,區分度較低。一些帶水印的酒店圖像示例如下圖所示。

一般的目標檢測問題可以看作是一個圖像部分區域的分類問題,在深度學習興起前,可變形部件模型(DPM)一直是流行的目標檢測方法,隨著深度學習技術的發展,以R-CNN、Fast R-CNN、Faster R-CNN和YOLO等為代表的一系列基于卷積神經網絡的目標檢測方法成為了主流。然而水印檢測和一般的目標檢測的區別在于,水印在一幅圖像中的位置基本是固定的,因此水印檢測可以看作是一個簡化的目標檢測問題,而其中的關鍵就是訓練水印分類器。

在訓練水印分類器的過程中,我們遇到的最大問題是沒有足夠的標注了水印類別的圖像數據用于訓練。為了解決這個問題,我們選擇自主地去生成訓練數據。具體地,我們在大量無水印圖像中隨機截取若干個矩形區域圖像,以這些矩形區域圖像作為無水印的訓練圖像數據;同時,我們將要檢測的水印信息圖形隨機縮放后嵌入這些不包含水印信息的矩形圖像內,從而形成帶水印的訓練圖像數據。通過這種方式,我們方便快捷地獲取了大量的圖像訓練數據。

我們在自主生成大量訓練數據后,訓練了一個專門針對水印分類任務的AlexNet。對于一張待檢測圖像,我們以一個可變框隨機在水印常見的位置(圖像的左右下角和中間位置)截取一系列矩形區域圖像,然后依次輸入分類網絡中進行分類,最后融合所有矩形區域圖像的分類結果即可獲取水印圖像的檢測結果。完整的水印圖像檢測流程如上圖所示。

我們使用計算機自動進行圖像快速去重和水印圖像檢測,兩者都達到了99%+的準確率,在實際圖像處理中有效地減少了大量人力成本的投入。

3、房型圖像分類

酒店圖像根據內容可以分為很多類別,比如外觀、內景和房型等。其中,房型圖像可以直觀地展示出房型的信息,對于用戶選擇入住房型尤為關鍵。我們希望優先展示吸引用戶的房型內容,以提升用戶的體驗和下單率。然而在實際中,房型圖片往往包含很多內容,人工并沒有一張張的進行甄別,所以導致房型首圖不合適的情況經常出現。解決房型首圖不合適問題的關鍵是需要將房型圖像進行分類,從而能夠優先展示吸引用戶的內容。具體地,我們把房型圖像按照優先級高低分為包含床的圖像、不包含床的圖像和衛生間的圖像三類。

隨著深度學習技術的出現,尤其是卷積神經網絡的興起,一個理想的房型圖像分類方法一般分為兩步:1)利用大量已經標注類別的房型圖像數據直接訓練一個深度卷積神經網絡,比如AlexNet、VGGNet、ResNet或者基于Inception的一系列網絡等;2)對于一張類別未知的房型圖像,將其輸入深度卷積神經網絡中,網絡最后一層直接輸出其屬于每個類別的概率。

和水印圖像檢測一樣,在真正實踐的過程中,我們遇到的最大問題依然是缺少標注了類別的房型圖像數據用于訓練。大量的訓練圖像如果通過人工標注代價極大,這顯然是不現實的。而沒有訓練圖像,卻要得到一個分類模型則是更加不現實的。所以我們還是花了一些時間對少量房型圖像的類別進行了標注。在這個很小規模的房型圖像數據集的基礎上,一般有兩種分類思路:1)因為房型圖像屬于場景圖像,所以可以提取房型圖像的HOG、SIFT和GIST特征,這些手工設計的特征已經被證明在場景分類中比較有效,然后再訓練傳統分類器實現分類;2)利用深度卷積神經網絡強大的特征遷移學習能力,先使用海量圖像數據訓練一個深度卷積神經網絡,然后將該網絡作為一個特征提取模型并結合傳統分類器實現分類。當然,如果有更多的人力和時間,在標注的房型圖像數據較多的情況下,直接對該網絡進行微調則是更佳的選擇。

在實際應用中,我們選擇了第二種思路。我們沒有借助應用最為廣泛的ImageNet數據集,因為該數據集圖像的內容和房型圖像差異過大,特征遷移達不到最優的效果。為了盡可能的提升網絡的特征遷移能力,我們借助了與房型圖像最為接近的場景圖像數據集,訓練VGGNet作為房型圖像特征提取器。最后,我們利用自己標注的小規模房型圖像數據集,訓練支持向量機模型來實現分類。具體的分類流程如下圖所示。

我們的房型圖像分類上線后,達到了98%的準確率。下圖展示了在房型圖像分類上線前后,一家酒店中多個房型的首圖變化的例子(紅色框為上線前,綠色框為上線后)。

4、圖像質量評價

在上一節中,我們介紹了通過房型圖像分類使含床的房型圖像得以優先展示。但是如果一個房型有多張含床的圖像,該選哪一張圖像作為該房型的首圖呢?所以我們希望能夠對房型圖像的質量進行評價,這樣在圖像的類別相同時,能夠按照質量高低進行排序。更廣泛地,我們還希望能對所有的酒店圖像都進行質量評價,這樣酒店首圖的選擇、酒店圖像的優選展示等都能夠以圖像的質量分數作為依據。

起初我們選擇清晰度這一客觀指標作為圖像質量評價的標準,我們認為清晰圖像變模糊丟失的信息要多于模糊圖像變模糊丟失的信息。根據這一思想,對于一張圖像,我們先將其灰度化,然后獲取對應的模糊圖像。接下來,我們分別對原圖像和對應的模糊圖像提取圖像邊緣信息,具體我們采用拉普拉斯卷積模板進行濾波。最后我們通過比較濾波后的兩張圖像的方差變化率即可對圖像進行清晰度的量化。

完整的計算流程如下圖所示。圖像的清晰度分數的區間在[0,1]之間,如果分數越大則表示圖像越清晰。我們對圖像的清晰度分數進行分段校驗,圖像清晰度的評價精度達到了91%。

然而在實際應用中,我們發現僅以清晰度作為圖像質量評價的標準還是存在一些不足,因為清晰度高但內容不好看的圖像為數不少。這些圖像因為清晰度高而被優先展示,但其不好看的內容卻影響了用戶的感受,所以我們希望能夠進一步從美學角度來對圖像質量進行評價。

圖像的美感度是一個非常主觀的概念,很難有一個統一的標準去量化,為了能夠盡可能準確地計算圖像的美感度,我們選擇深度卷積神經網絡模型來實現美感度評價。在實際應用中,我們又再次遇到了同樣的問題:缺少大量標注了好看/不好看標簽的訓練圖像。由于在房型圖像分類中,我們利用卷積神經網絡強大的遷移學習能力進行特征遷移取得了成功,所以我們決定繼續沿用這種方法。

因為酒店圖像的美感度受到內容、色彩和構圖等多方面的影響,所以我們不再像在房型圖像分類中那樣只使用內容單一的場景圖像數據集,而是將包羅萬象的ImageNet數據集和場景圖像數據集混合進行訓練,力求讓盡可能多的圖像參與深度卷積神經網絡的學習,令網絡能夠記住更多圖像的內容,從而進一步提高網絡的特征遷移能力。同時,為了保證深度卷積神經網絡的特征表達能力,我們采用比AlexNet和VGGNet的層數更深的ResNet作為特征提取器。最后我們為少量圖像標注好看/不好看的標簽,并訓練隨機森林實現了圖像好看/不好看的二分類模型。

我們將圖像被模型判為好看的概率作為圖像的美感度分數,美感度分數的區間在[0,1]之間,如果分數越大則表示圖像越好看。由于美感度評價模型并沒有考慮清晰度因素,所以最終我們融合圖像的清晰度和美感度來計算圖像質量分數。完整的圖像質量評價流程如下圖所示。通過圖像質量評價,我們使得清晰而又好看的圖像能夠被優先展示,此舉對酒店/房型首圖的選擇、酒店圖片的排序等方面都有較好的指導意義。

寫在最后

以上我們介紹了攜程四個真實的圖像數據處理需求,但機器學習對于攜程酒店圖像數據處理的價值遠遠不限于此。接下來我們將繼續在多個圖像應用場景進行深入挖掘,比如圖像的個性化展示、利用超分辨和解模糊技術提升圖像質量等,力求為攜程酒店圖像數據的智能化貢獻一份力量。
.


四、深瞐科技如何以“車臉識別”布局AI+安防

陳瑞軍告訴雷鋒網:

最開始考慮的是做人臉識別,但發現動態人臉識別的精準度還不夠,直到現在也是個需要解決的問題。對于深瞐來講,作為一個初創的新公司,這個方向可能暫時沒辦法落地,所以就想做一些別人沒做過的,結合用戶的需求,所以就定了“車臉識別”這個方向。


此后,從最基礎的圖片識別開始,繼而到視頻識別,再聚焦到視頻中的車輛分析,直到今天形成了以“車輛識別”為核心的軟硬件產品布局。總體來看,深瞐科技的產品體系主要包括以下幾個方面:
視頻基因譜引擎

視頻基因譜引擎是深瞐的核心產品,更通俗的名字叫做“視頻結構化”。據深瞐介紹,“視頻結構化”這一概念該由公安部第三研究所胡所長提出,指的是把視頻數據中的非結構信息轉化為結構信息。深瞐的視頻結構化產品可以高精度地自動識別不同視角、不同光照條件、不同監控場景、不同天氣狀況中的人物特征和車輛特征,便于公安機關達到后期快速檢索和布控的目的。

圖像處理引擎

深瞐科技的圖像處理引擎,主要應用于將復雜情況下的模糊車輛、車牌圖片進行清晰化處理,能夠做到的有去除噪點、去除重影模糊、圖像光照增強、去除雨天模糊、去除鏡面反光等。

人臉識別引擎

基于深瞐在深度學習和模式識別的研究和應用成果,采用人臉檢測、跟蹤和結構化對比算法模型,被應用于公安機關的人臉比對、檢索、身份識別、商業人流大數據等方面。
.


五、圖普科技從 “鑒黃” 到視頻&直播個性化推薦

來源于雷鋒網

1、幫企業省更多的錢:從 “鑒黃” 到內容審核

企業對圖普科技的認知更多的也是 “鑒黃”,映客、美拍、小米直播、迅雷、酷狗、唱吧等視頻和直播的頭部平臺,都是圖普的 “鑒黃服務” 的客戶。

圖普科技 CEO 李明強告訴雷鋒網新智造,其實從一開始,圖普提供的就不只是鑒黃,政治敏感信息、暴力恐怖信息和廣告的審核都是圖普的業務,這些統稱內容審核。

從去年開始,原來接入了鑒黃服務的客戶,開始接受圖普的其他內容審核服務。例如,知名的原創糗事笑話 UGC 內容社區糗事百科,就面臨著流量巨大,違規廣告的人工審核成本極高的問題。

和鑒黃的過程類似,清除違規小廣告同樣基于大量圖片進行學習訓練。基于糗百的違規圖片集中為帶有違規文字的圖片以及含有推廣二維碼的小廣告圖片,圖普基于圖像識別技術及糗百的廣告圖片的特征,批量制作具有針對性的廣告圖進行優化訓練,極大的提高了廣告圖片識別的精確度和準確率,降低了模型迭代的周期。

糗百接入圖普定制化的廣告識別模型后,機器自動識別糗百社區的圖片,將圖片識別判斷為正常、二維碼還是帶文字圖片,再利用 OCR 技術,檢測出帶文字圖片中的文字位置并識別,將識別出來的含有敏感、違規文字的圖片自動過濾。大大降低了內容審核成本。

現在,已經有越來越多的企業全面接入圖普的內容審核平臺。最近,圖普還與阿里云達成了合作,在阿里云上發布色情圖片和暴恐圖片識別服務,阿里云的客戶可以直接調用。

此前,圖普曾透露其日處理圖片數量已經上漲到 9 億張左右,其中每萬張圖片的處理費用為 25 元。李明強告訴雷鋒網新智造,去年,圖普的營收實現了十倍的增長。
.

2、幫人賺錢:視頻大數據標簽和個性化推薦

從一開始,圖普就沒有將自己局限在 “鑒黃” 或內容審核內,去年接受雷鋒網采訪時,李明強給圖普的定位是給視頻時代建立連接。文字時代,有了計算機對文字的理解就有了內容間的連接,同樣,圖像和視頻被計算機理解后,也能形成內容間的連接。

圖普已經開始著手這方面的工作。在內容審核之外,圖普開始發力視頻和直播的大數據標簽和個性化推薦服務。

大數據標簽主要用于短視頻和直播平臺,系統會通過對海量的標注過的數據的學習,根據主播的行為、場景、人物風格、年齡、性別等,自動為當前直播建立標簽。例如,一個喜歡做嘟嘴表情的年輕女孩,會有很大可能被打上 “萌妹子” 的標簽。而通過對人工標注的系統的學習,圖普甚至可以判斷主播的顏值。當然,李明強也解釋,和有硬性指標的鑒黃不同,“萌妹子”、“顏值” 這些標簽很多時候帶有很大的主觀因素。

但是,對于做視頻推薦來說,這些基本符合主流審美標準的標簽已經足夠了:新用戶注冊后,直播平臺可以根據該用戶選擇關注的標簽,在他的首頁呈現相應的直播;直播平臺還可以根據顏值和熱門等綜合因素,在首頁推薦直播內容;另外,當用戶關注的主播不在線時,系統還可以推薦一些和他關注的直播類型相似的主播。

李明強還告訴雷鋒網新智造,目前還有一個產品在研發中,即在搜索的標簽欄,用戶可以直接根據標簽去搜索。例如用戶喜歡跳舞的、場景在 KTV 里的直播,都可以根據相應標簽搜索。

圖普表示,僅這個推薦功能,應用表較好的平臺,可以使新用戶的留存增加一倍以上;對老用戶,也能使其停留時長至少增加 30%-40%。對短視頻和直播平臺來說,留存增加意味著用戶體驗的提升,更重要的是,廣告、打賞等收入會得到顯著提升。

如果說之前的內容審核是節約人力成本,為企業省錢的話,視頻推薦則是在實打實地幫企業賺錢。

.


六、利用目標檢測制作-電子相冊

——印刷快照行業的改革

來源文章:CVaaS計算機視覺即服務 ——從算法,應用到服務的技術演變

在印刷行業或者快照行業,會陸續推出一項產品——電子相冊。

而電子相冊從技術層面主要是要解決兩個問題,1. 照片裁剪,2. 相框的匹配。

而當前,這些工作都是人工去完成,隨著日益增長的電子圖片的需求量,制作電子相冊的人力成本越來越大,而這個時候,利用之前所述的內容識別算法,我們可以幫助電腦自動實現圖片的裁剪,因為自動裁剪最大的擔憂可能是擔心把照片內的人裁剪掉了。

另一方面,我們進而可以結合圖片場景分類和人臉識別等算法技術,使用標簽匹配方法去自動匹配與照片本身更搭配的相框。
算法本身我們可以做出很多技術,例如使用物體檢測我們可以實現內容識別、除此之外我們還實現場景分類、人臉的識別、顏色的分類、人物表情等等。

而技術項目的組合,可以幫助我們是去實現更多行業內的目前人工完成的工作,例如實現自動裁剪、通過根據圖片的內容、場景的分類、人臉信息等,匹配出合適的相框作為推薦,根據不同顏色的印刷材料做不同的印刷批次排序等等。

于是,一個簡單的印刷快照行業的升級,我們可以歸納為如圖:

而由圖中,我們可以看到,技術和應用本質上是完全可以分開做橫向拓展的,于是我們可以看到同樣的技術可以用在不同的行業,也可以有很多不同行業特定的算法技術,如圖:

.


七、“搜你所想”之用戶搜索意圖識別——NLP

.

1、用戶搜索意圖的理解及其難點解析

分析一下理解用戶搜索詞背后的真實意圖識別存在哪些難點:

  • 用戶輸入不規范,輸入方式多樣化,使用自然語言查詢,甚至非標準的自然語言。比如上面提到的“附近的特價酒店”
    、“上海到揚州高速怎么走”都是自然語言查詢的例子,又如 “披星 ( ) 月”、“吾嘗終日而思矣, 下面“
  • 用戶的查詢詞表現出多意圖,比如用戶搜索“變形金剛”,是指變形金剛的電影還是游戲? 搜索“仙劍奇俠傳”是指游戲還是游戲軟件? 電影? 小說?
    電商網站搜索“水”是指礦泉水?還是女生用的護膚水?
  • 意圖強度,表現為不同用戶對相同的查詢有不同的需求強度。比如:宮保雞丁。宮保雞丁菜,菜譜需求占 90%。宮保雞丁歌曲,歌曲下載需求占
    10%。又比如:荷塘月色。荷塘月色歌曲,歌曲下載需求占 70%。荷塘月色小區,房產需求占 20%。荷塘月色菜,菜譜需求占 10%。
  • 意圖存在時效性變化,就是隨著時間的推移一些查詢詞的意圖會發生變化。比如:華為 P10 國行版 3 月 24 日上市。3 月 21
    日的查詢意圖:新聞 90%,百科 10%3 月 24 日的查詢意圖:新聞 70%,購買 25%,百科 5%5 月 1 日的查詢意圖:購買
    50%,資訊 40%,其他 10%5 年以后的查詢意圖:百科 100% 數據冷啟動的問題,用戶行為數據較少時,很難準確獲取用戶的搜索意圖。
  • 沒有固定的評估的標準,CTR、MAP、MRR、nDCG
    這些可以量化的指標主要是針對搜索引擎的整體效果的,具體到用戶意圖的預測上并沒有標準的指標。
    .

2、如何識別用戶搜索意圖

一般把搜索意圖歸類為 3 種類型:導航類、信息類和事務類雅虎的研究人員在此基礎上做了細化,將用戶搜索意圖劃分如下類別:

  • 導航類:用戶明確的要去某個站點,但又不想自己輸入 URL,比如用戶搜索“新浪網“
  • 信息類:又可以細分為如下幾種子類型,
    直接型:用戶想知道關于一個話題某個方面明確的信息,比如“地球為什么是圓的”、“哪些水果維生素含量高”。間接型:用戶想了解關于某個話題的任意方面的信息,比如粉絲搜索“黃曉明”。建議型:用戶希望能夠搜索到一些建議、意見或者某方面的指導,比如“如何選股票”。定位型:用戶希望了解在現實生活中哪里可以找到某些產品或服務,比如“汽車維修”。列表型:用戶希望找到一批能夠滿足需求的信息,比如“陸家嘴附近的酒店”。
  • 資源類:這種類型的搜索目的是希望能夠從網上獲取某種資源,又可以細分為以下幾種子類型,
    下載型:希望從網絡某個地方下載想要的產品或者服務,比如“USB
    驅動下載”。娛樂型:用戶出于消遣的目的希望獲得一些有關信息,比如“益智小游戲”。交互型:用戶希望使用某個軟件或服務提供的結果,用戶希望找到一個網站,這個網站上可以直接計算房貸利息。獲取型:用戶希望獲取一種資源,這種資源的使用場合不限于電腦,比如“麥當勞優惠券”,用戶希望搜到某個產品的折扣券,打印后在現實生活中使用。
    .

3、達觀搜索意圖識別引擎

達觀通過 RESTAPI 接口的方式向客戶提供基于公有云和私有云的搜索服務。其中語義分析模塊包含了對用戶 query 意圖的離線挖掘和在線預測。

達觀文本語義挖掘算法平臺是一個融合了多種算法的集成學習平臺,既包括經典的 SVM、LR、RF、LDA 等算法,也包括 CNN、RNN、LSTM、BILSTM 等深度學習算法。比如在實踐中,我們嘗試將線性統計模型 CRF 和神經網絡結構 LSTM 相融合的方法,在 LSTM 的輸出端將 softmax 與 CRF 結合起來,使用 LSTM 解決提取序列的特征問題,使用 CRF 有效利用了句子級別的標記信息,取得了不錯的效果。

八、算法專題|紡織業智能升級 高精度圖像檢索—服裝檢索算法

文章來源于極市平臺
高精度檢索算法也已經完成了搜衣和搜布兩個產業級應用,后續會擴展更多的實際應用,促進紡織業和服裝業更好得智能升級。

高精度檢索算法實現了業界領先的圖像檢索系統,融合了清晰度,尺度,角度,遮擋,光照等多種因素,利用此系統上傳服裝圖片可搜到同款和相似度很高的服裝或者布料。

1、算法應用——時尚搭配推薦

根據上傳的圖片智能推薦相關的時尚搭配。

2、紡織行業的搜衣和搜布

根據上傳的圖片檢索出同款和在顏色,款式等相似度非常高的服裝或者布料,已經應用于產業。

.


九、人工智能 LOGO 設計

來源于文章:真 · 人工智能 LOGO 設計,這次設計師危險了…

  • 首先輸入你想要制作 logo 的字母
  • 選擇你覺得不錯的 5 個圖形
  • 選擇你喜歡的色系
  • 寫一句 Slogan,介紹一下你自己
  • 選擇你喜歡的 ICON
  • logo 就這么生成了!
  • .


    十、美工終結者「魯班智能設計平臺」是如何工作的?

    來源文章《UCAN2017回顧!美工終結者「魯班智能設計平臺」是如何工作的?》

    我們要讓機器學習設計,首先必須要讓機器理解感知設計是什么。以這樣一張非常常見的廣告為例,在機器的眼里是有一堆像素點組成的。如果今天以像素為單位讓機器去理解設計,對設計的可控性非常弱,所以在前期技術方案選擇中沒有走像素級生產,而是走向了元素級生產。

    1、設計框架組成

    四個組成部分:設計框架、元素中心、行動器、評估網絡

    組成一,設計框架。還是以這個廣告為例,首先通過人工標注的方式,讓機器理解這張設計有哪些元素組成,比如它的商品主體,花的背景,蒙版。往上一層,我們通過設計的經驗知識,定義一些設計的手法和風格。手法指的是這些元素為什么可以這么構成,這個知識在設計腦子里機器是不知道的,所以會有手法這一層做輸入。最上面這一層是風格,當這些元素構成之后,它從美學或者視覺角度看是一個什么感受。讓機器知道它是用什么組成的,為什么可以這么組成,以及它組成后的效果。這個過程將一個設計問題轉化成數據問題,這就是設計數據化。

    下一步是準備設計的原始文件,比如一系列花朵和設計方法,輸入到深度學習系列網絡。這個網絡有一個很大特點:具備一定記憶功能。因為設計是個步驟很復雜的過程,經常有好幾十步才能完成一個設計。

    經過這層神經網絡學習之后,我們會得到一個設計框架。從技術上理解,它是一堆空間特征和視覺特征構成的模型。設計師的視角來理解的話,它相當于設計師腦子里面在做一組設計之前大概的框架印象,比如今天你接到一個任務要做一個花朵風格,思考這個設計大概會怎么做,然后從一堆文件里提取出了特征模型出來。

    組成二,元素中心。因為我們做的是元素級生成,所以必須準備一個元素的庫。我們會通過收集一些版權圖庫,以及自己造設計元素的方式,輸入到一個元素的分類器。這個分類器會把這些元素分布到各個類型里,比如背景、主體、修飾,也會完成圖片庫的提取。

    組成三,行動器。接下來,就是設計的具體過程。比如今天我們接到一個設計任務,要為這樣一件衣服設計一個花朵風格的廣告。這時候會有一個行動器,負責把前面準備好的底料放到設計框架里。這個過程和下圍棋很像,左邊是棋盤,右邊是下圍棋的棋子。行動器就是把元素放到棋盤里,這是整個行動器的生成原理。

    它很像設計師實際在做設計的過程,如設計師要做一個花朵的時候,也在軟件里面會不斷去調每個位置、每個像素、每個角度。同時,整個過程也是一個強化學習的過程,行動器會在不斷試錯中更智能。

    組成四,評估網絡。設計成品出來之后,我們要告訴機器人,從設計的角度是好還是不好。我們有一個設計評估網絡,最終實現的效果就是給它輸入任何一個設計成品,它能打個分。技術原理是,我們通過人工輸入大量歷史上投放過的一些設計圖評分,它從這里訓練出一個打分的模型出來。同時,專家也會人工干預打分,完成雙向反饋。

    .

    2、視覺設計的四個層次

    第二層,場景表達。今天你給它一個東西,它能理解,能表達對。比如今天你根據情人節,這些品牌能夠找到一種合適的設計手段,去表達出情人節的溫馨,這種手繪的方式會稍微難一點,也就是我們前面講到的語義這一層。

    第三層,創意洞見。它能夠有一些啟發性的東西出來。天貓品牌里面經常有把貓頭和品牌創意做聯合的事情,這是機器不可能做到的事情,或者在我有生之年沒有指望它能做到的。

    最后一層,創造趨勢。這一般是設計大師做的事情。它能定義明年、未來幾年的設計趨勢走向,這是更高的設計能力。比如今年“三八”女王節,天貓用了一種全新的設計手段,用這種很輕的質感、很細膩的方式來表達商品。它能夠代表一個新的趨勢和未來,代表一個新的手段,這件事情一定是人來做的。

    .


    十一、修正老電影或電視劇的畫面

    來源AI100文章《他在Google Brain實習了一年,總結出這么些心得》

    1、超分辨率的像素遞歸

    放大照片圖像時把相關像素所構成的合理圖形呈現出來,這還是有可能做到的。
    PixelCNN,它也比較有戲。(等我們啟動之后,用GAN解決來超分辨率問題的SRGAN就發布了,它生成的結果非常好。)
    PixelCNN是一種奇怪的反直覺模型。它將圖像生成問題重寫成每次選擇一個像素序列。像LSTM(長短時記憶網絡)這樣的門控制遞歸網絡在序列生成方面是非常成功的,它通常會用在單詞或字符上。PixelCNN巧妙地構建出一個卷積神經網絡(CNN),它能基于先前的像素的概率分布來精確生成像素。這是RNN和CNN的混合功能。

    意外的是,PixelCNN所生成的圖像看起來非常自然。不像艱難平衡兩種目標的對抗網絡,該模型的目標只有一個,因而面對超參數的變化,它有更好的穩健性。也就是說,它更易于優化。
    如何定量評估結果,則是另外一個難題。如何才能證明我們的圖像比基準模型好?衡量超分辨率質量的典型方法,是對比強化圖像與原始圖像的對應像素點之間的距離(峰值信噪比,PSNR)。雖說本模型輸出的臉部圖像在質量上明顯更好,但在像素對比上,平均看來它們還不如基準模型所輸出的模糊圖像。我們嘗試用PixelCNN本身的相似度測量來證明我們的樣本比基準版本有著更高的概率值,但同樣失敗了。最后,我們把這項任務眾包給人類評估員——詢問他們哪些圖像看上去更真實。這倒奏效了。
    .

    2、PixColor: 關于著色的嘗試

    Slim的創造者Sergio Guadarrama一直在嘗試給圖像著色。他跟我說過一個試驗:用分量接口(該接口中圖像的灰度、顏色相互分離)獲取一張224×224×3的圖像,將其顏色通道降至28×28×2的超低分辨率,然后用雙線性插值法再把顏色通道放大,所得圖像與顏色分辨率很高的原始圖像相比幾乎沒有差別。

    把問題變成僅預測低分辨率顏色,我們就可以簡化著色問題。我原本已準備好徹底放棄PixelCNN了,因為它顯然無法放大小圖像,但用來生成28×28×2的圖像還是很可行的。通過將顏色數值簡化為32個數字而非256,我們進一步簡化了著色問題。

    十二:微博:TensorFlow在微博的大規模應用與實踐

    來源:機器學習與微博:TensorFlow在微博的大規模應用與實踐
    圖像質量也是用戶體驗的基本要求。
    用戶可以容忍不感興趣的圖片,但很難容雜亂的圖像。
    例如左邊的美女圖,看起來賞心悅目,手機上刷過,即使不停下細看,也不會反感。
    右邊的圖片,里面也是美女,但加上文字之后,立刻變得雜亂,版式與酒店里的小卡片相仿。很可能被認定為騙子。
    明星臉識別是微博的特色,有海量的明星圖片,也有巨大的識別需求。
    明星臉識別有特別的困難:常用人臉識別研究所用的照片表情、造型較少,不同人之間的差別較大。而明星表情豐富,造型多變,無論男女都化妝!不少人妝容近似,有些整容臉連人腦都傻傻分不清,計算機就更難分清了。

    其他NLP相關的文章:

    1、阿里自然語言處理部總監分享:NLP技術的應用及思考
    2、電商客服自動問答系統的商品意圖識別
    3、專訪玻森數據:這款基于NLP技術的企業情報系統,商業化現狀是這樣的

    總結

    以上是生活随笔為你收集整理的创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。