當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频检索扫盲（一）

發(fā)布時間：2024/4/15 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了视频检索扫盲（一）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

開始做視頻檢索相關的東西，發(fā)現(xiàn)好多基本的概念都不懂……唉，真的是隔行如隔山啊……

加油：）

今天看了一篇Paper《A survey on Content based video retrieval》，從其中的一些關鍵詞的了解開始吧。

（四處粘貼，權(quán)作筆記，非原創(chuàng)，罪過罪過……）

------------------------------------------------------------------------------------------------

DCT 離散余弦變換(Discrete Cosine Transform)

百度百科：　　

?????? 離散余弦變換（DCT）是N.Ahmed等人在1974年提出的正交變換方法。它常被認為是對語音和圖像信號進行變換的最佳方法。為了工程上實現(xiàn)的需要，國內(nèi)外許多學者花費了很大精力去尋找或改進離散余弦變換的快速算法。由于近年來數(shù)字信號處理芯片（DSP）的發(fā)展，加上專用集成電路設計上的優(yōu)勢，這就牢固地確立離散余弦變換（DCT）在目前圖像編碼中的重要地位，成為H.261、JPEG、MPEG 等國際上公用的編碼標準的重要環(huán)節(jié)。在視頻壓縮中，最常用的變換方法是DCT,DCT被認為是性能接近K-L變換的準最佳變換，變換編碼的主要特點有：

　　（1）在變換域里視頻圖像要比空間域里簡單。

　　（2）視頻圖像的相關性明顯下降，信號的能量主要集中在少數(shù)幾個變換系數(shù)上，采用量化和熵編碼可有效地壓縮其數(shù)據(jù)。

　　（3）具有較強的抗干擾能力，傳輸過程中的誤碼對圖像質(zhì)量的影響遠小于預測編碼。通常,對高質(zhì)量的圖像，DMCP要求信道誤碼率，而變換編碼僅要求信道誤碼率。

　　DCT等變換有快速算法，能實現(xiàn)實時視頻壓縮。針對目前采用的幀內(nèi)編碼加運動補償?shù)囊曨l壓縮方法的不足, 我們在Westwater 等人提出三維視頻編碼的基礎上, 將三維變換的結(jié)構(gòu)應用于視頻圖像壓縮, 進一步實現(xiàn)了新的視頻圖像序列的編碼方法。

motion vector 運動矢量

Wikipedia：

?　　In video compression, a motion vector is the key element in the motion estimation process. It is used to represent a macroblock in a picture based on the position of this macroblock (or a similar one) in another picture, called the reference picture. The H.264/MPEG-4 AVC standard defines motion vector as:

　　motion vector: A two-dimensional vector used for inter prediction that provides an offset from the coordinates in the decoded picture to the coordinates in a reference picture.

MPEG 動態(tài)圖像專家組（Moving Pictures Experts Group/Motin Pictures Experts Group）

?百度百科：

　　MPEG標準的視頻壓縮編碼技術(shù)主要利用了具有運動補償?shù)膸g壓縮編碼技術(shù)以減小時間冗余度，利用DCT技術(shù)以減小圖像的空間冗余度，利用熵編碼則在信息表示方面減小了統(tǒng)計冗余度。這幾種技術(shù)的綜合運用，大大增強了壓縮性能。

IPB

http://blog.csdn.net/zblue78/archive/2009/04/10/4061623.aspx：

????? IF——I-frame的縮寫，即關鍵幀。關鍵幀是構(gòu)成一個幀組（GOP，Group of Picture）的第一個幀。IF保留了一個場景的所有信息。壓縮比為1：7。
????? PF——P-frame的縮寫，即未來單項預測幀，只儲存與之前一個已解壓畫面的差值。壓縮比為1：20。
????? BF——B-frame的縮寫，即雙向預測幀，除了參考之前解壓過了的畫面外，亦會參考后面一幀中的畫面信息。壓縮比為1：50。

B-Frame（在 MPEG-4 里面正確的名稱是 B-VOP）的預測模式有四種：

????? a. Forward 順向預測，參考前一張畫面，記錄和前一張畫面的差距。和 P-Frame 的預測方法一樣。
????? b. Backward 逆向預測，參考下一張畫面，記錄和下一張畫面的的差距。
????? c. Bi-Directionally 雙向預測，參考前面和后面兩張畫面，記錄的是和「前后兩張畫面的平均值」的差距。也叫做內(nèi)插預測，壓縮率最高。
????? d. Direct Mode，不搜尋、紀錄動作向量，直接由下一張的 P Frame推導出動作向量。譬如說 I B P，我們可以預測 B 畫面的動作必然是介于 I 和 P 兩個畫面之間，所以我們可以直接用 P 的 MV/2 作為B 的動作向量，這樣可以省去記錄 MV 的空間。
壓縮 B-Frame 的時候會從上面幾種預測模式中選壓出來最小的一個模式來使用。

轉(zhuǎn)載于:https://www.cnblogs.com/YFYkuner/archive/2010/09/04/1818250.html

總結(jié)

以上是生活随笔為你收集整理的视频检索扫盲（一）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

视频

上一篇：自动生成WebForm中对实体类的编辑页
下一篇： BizTalk Server 2010新

编程问答

视频检索扫盲 （一）

總結(jié)

视频检索扫盲（一）