计算机视觉(一)概述
一、什么是計算機視覺
計算機視覺(Computer Vision)是一門如何使計算機“看”的學問,讓攝像頭和電腦代替人眼對目標進行識別、跟蹤、測量等機器視覺。計算機視覺能夠模擬人類視覺的優越的能力,如識別物體、估計立體空間與距離、躲避障礙、理解圖像、想象圖像的能力,一定程度上,計算機視覺模擬的是人眼和人腦,不僅讓計算機“看”,還要讓計算機“思”。此外,計算機視覺還能夠彌補人類視覺的缺陷,如不擅長長時間觀察同一事物、容易忽略細節。
二、計算機視覺的主要目標
解決“像素值”與“語義”之間的差距(Gap)。計算機所接收到的圖像是一個個像素值矩陣,如何讓計算機通過這些數值矩陣認識圖片并完成特定的任務是計算機視覺的主要的目標。
三、計算機視覺的主要任務
傳統的計算機視覺的經典任務主要是三大類:分類(Classification)、檢測(Detection)、分割(Segmentation),分類解決的是“是什么”的問題,檢測和分割解決的是“在哪里的問題”。
現在,更多的問題涌現出來,像圖像描述(Image Captioning)、圖像問答(Image Q&A)、圖像生成(Image Generation)、圖像檢索(Content-based Image Retrieval)等。上述無論是傳統經典任務還是這些新出現的任務都屬于語義層面的問題,還有一類問題也屬于計算機視覺研究的范疇,屬于三維幾何領域內的問題,如三維建模、增強現實、雙目視覺等。
四、深度學習在計算機視覺中的應用
深度學習是引領計算機視覺的技術,各式各樣的神經網絡方法解決著計算機視覺領域中各式各樣的問題。
圖像分類——卷積神經網絡(CNN),目標檢測——區域卷積神經網絡(R-CNN),圖像分割——全卷積神經網絡(FCN),圖像生成——生成對抗網絡(GAN),圖像問答——循環神經網絡(RNN),我們將在后邊的學習中深入了解這些深度學習方法。
總結
以上是生活随笔為你收集整理的计算机视觉(一)概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PyTorch框架学习二——基本数据结构
- 下一篇: 数字图像-6空域滤波