OpenHarmony啃論文俱樂部——這些小風景你不應該錯過
【本期看點】
- 讓你意想不到的 PNG 工作方式。
- 詳解 MPEG 十八代隱秘關系。
- AV1 | H.266 王座之戰,誰才是最終贏家。
- 不妨走走未曾設想的醫學道路。
- 細胞神經網絡也可以很瘋狂!
- 懂了!原來這就是人眼視覺系統(HVS)。
【技術DNA】
【智慧場景】
圖像壓縮
歷史
圖像壓縮的研究起源于20世紀40年代。1948年香農的經典論文《通信的數學原理》中首次提到信息率失真函數的概念,1959年他又建立了率失真理論,從而奠定了信源編碼的理論基礎。隨后伯杰等人有對其進行了深入的研究,并取得了一定的進步,一些研究人員逐漸開始對聲音、文字和圖像信號的壓縮技術進行了研究。
80年代中后期,相關學科的迅速發展和新興學科的不斷涌現為圖像壓縮編碼注入量新的活力。人們對圖像信息需求的劇增也有利地促進了圖像壓縮技術的進步,許多學者結合模式識別、計算機圖形學、計算機視覺、神經網絡、小波分析和分析幾何等理論,開始探索研究圖像壓縮的新理論和新方法。
背景
在如今這個通信高度發展的時代,圖像壓縮已經成為一個要求很高的領域。短視頻、音視頻通話、直播等等,相信這些都是大家每天能都能見到且離不開的東西。多媒體數據,無論是圖形、音頻還是視頻數據,解壓時都需要相當大的傳輸帶寬和存儲容量;且圖像、視頻序列和計算機動畫的需求以非常高的速度增長,因此有必要研究和分析圖像壓縮的技術來壓縮圖像和所有多媒體應用程序,以節省存儲和傳輸時間。
如何壓縮
減少冗余和無關性一直是壓縮領域兩個重要和基本的部分,在圖像壓縮中也不例外。
其次圖像壓縮最終都是為人服務的,壓縮到什么程度并在這個程度將圖片壓縮到最優的情況是很最重要的。就像很多人總想著買高刷屏打游戲,但是實際上,很多不是經常打游戲的人是看不出來用不用高刷屏的區別的,而這就和我們的人眼視覺系統有關。
人眼視覺系統(HVS)
人眼的視覺系統是世界上最好的圖像處理系統,但它遠遠不是完美的。人眼的視覺系統對圖像的認知是非均勻的和非線性的,并不是對圖像中的任何變化都能感知。例如圖像系數的量化誤差引起的圖像變化在一定范圍內是不能為人眼所覺察的。因此,如果編碼方案能利用人眼視覺系統的一些特點,是可以得到高壓縮比的。對人眼視覺特性的深入研究及由此而建立的各種數學模型,一直是各種圖像數字壓縮算法的基礎。
比如分辨率:
當空間平面上兩個黑點相互靠攏到一定程度時,離開黑點一定距離的觀察者就無法區分它們,這意味著人眼分辨景物細節的能力是有限的,這個極限值就是分辨率。
研究表明人眼的分辨率有如下一些特點:
- 當光照度太強、太弱或當背景亮度太強時,人眼分辨率降低。
- 當視覺目標運動速度加快時,人眼分辨率降低。
- 人眼對彩色細節的分辨率比對亮度細節的分辨率要差,若黑白分辨率為1,則黑紅為0.4,綠藍為0.19。
長期以來,通過對人眼視覺現象的觀測和研究,人們已經發現人眼的視覺特性有很多特點,特別是視覺掩蓋效應,可以直接或間接地用于改善視頻信息的處理。如何充分利用人眼的視覺特性,已成為現代編碼技術中首先要考慮的一個基本問題。
醫學圖像的壓縮
隨著現代醫療水平的不斷進步和經濟實力的增強,更多的醫療成像設備投入臨床應用,數字化的醫學圖像在醫學臨床診斷中發揮的作用越來越重要,對醫學圖像壓縮技術的研究顯得尤為迫切。
DICOM
DICOM(Digital Imaging and Communications in Medicine) 即醫學數字成像和通信,是醫學圖像和相關信息的國際標準。它定義了質量能滿足臨床需要的可用于數據交換的醫學圖像格式。
從商業上來說,DICOM 數據壓縮和圖像質量是會極大地影響醫療機構企業成像效率的兩個因素。DICOM 數據壓縮有助于有效管理醫療機構的醫學圖像工作流程,是設計企業成像工作流程時要考慮的關鍵要素。由于數據壓縮和傳輸速度而導致的延遲造成的累計時間損失量會直接影響產生的收入水平。傳輸速度的提高會帶來更高的生產率,從而轉化為更多的收入。
但是從個人的生命安全上來說,DICOM 的數據壓縮和圖像質量關乎很多人的性命。例如,假設帶寬在 12 Mbps 左右,則發送平均為 930.17 MB 的 1542 圖像 CT 研究需要 5 分鐘。未壓縮的研究需要 10 分鐘才能路由,而 JPEG 無損壓縮則需要 6 分鐘,假設壓縮是在從模態接收圖像時完成的,其開銷最小,這會導致位延遲(6 分鐘對比 5 分鐘)。在急診室設置中,周轉時間縮短 4 分鐘至關重要,甚至可以挽救生命。
視頻壓縮
視頻編碼方式是指通過壓縮技術,將原始視頻格式的文件轉換成另一種視頻格式文件的方式。視頻流傳輸中最為重要的編解碼標準有國際電聯的H.261、H.263、H.264。從 1967 年引入 H.120 作為第一個數字編碼標準的開始,數字視頻編碼已經走了很長一段路。MPEG2 于 1994 年推出,MPEG4 于 1999 年推出,H.264 于 2003 年推出。本文接下來將列舉MPEG2、MPEG4和H.264的特點,并說明它們的區別。
MPEG2
MPEG2 是用于壓縮數字廣播視頻和 DVD 的編解碼器。使用 MPEG-2 編解碼器編碼的媒體文件通常具有文件擴展名 .mpg、.mpeg、.m2v、.mp2,或在某些情況下為 .mp3。它也被稱為 H.262,并且仍在數字電視廣播和 DVD 視頻標準中使用。
MPEG2 于 1994 年創建,以修復其前身 MPEG1 的缺點,需要與現有硬件和軟件相互兼容。它主要由索尼、湯姆遜和三菱電機開發,之后成為 DVD 和 SD 數字電視的標準視頻格式。
MPEG4
MPEG4 標準是 1995 年發起的一種 MPEG4 格式。最初是專門為非常低的比特率而創建的,現在它可以支持高達 4Mbps。MPEG4 包含六個部分:視覺、軟件、系統、交付多媒體集成框架 (DMIF)、一致性測試和音頻。
該視頻編碼標準旨在用于廣播、對話和交互環境。它還旨在執行基于內容的可擴展性。由于 MPEG4 的構建方式(采用了 MPEG1、MPEG2 和 VRML 的功能),可以在 Web 環境和電視中使用它,并且可以將來自兩個頻道的內容集成到同一個多媒體環境中。
H.264
H.264 視頻編碼格式,也稱為 H.264/MPEG-4 AVC(高級視頻編碼)是截至今最廣泛用于視頻內容的錄制、壓縮和分發的格式。如果使用過 Netflix 和 YouTube 等互聯網流媒體資源以及 Adobe Flash Player 等網絡軟件,那么肯定已經知道了 H.264 的作用。地面、有線和衛xing上的各種 HDTV 廣播也使用 H.264 視頻編碼格式。
它由 ITU-T 視頻編碼專家組 (VCEG) 和 ISO/IEC JTC1 動態圖像專家組 (MPEG) 標準化。第一個版本于 2003 年完成。H.264 視頻格式旨在以低于之前的視頻編碼格式的比特率提供良好的視頻質量,這樣做的目的是在不增加設計復雜性或實現成本太高的情況下做到這一點。它還具有靈活性,因此可以應用于各種網絡和系統。
其他關鍵技術
細胞神經網絡的圖像壓縮技術
各種細胞神經 N/w 通用機(CNNUM)算法提出了極快的壓縮靜態和運動圖像。其關鍵思想是將圖像分割成空間子帶,只存儲下一子帶的重建圖像和去除空間冗余的原始圖像。該算法在無損壓縮方面表現更好,在壓縮比和速度方面優于JPEG 標準。
- 優點:快速的壓縮效率
- 應用:射線照相,圖像存儲和多媒體應用程序
S樹陰影方法
1998年之后,提出了一種新的灰度圖像壓縮方法,圖像的比特率和質量表明STC方法比 BTCC 方法可靠。該方法的執行周期小于 BTCC 的一半。
- 優點:在每個塊中考慮噪聲并增加執行時間圖像的質量也保持在令人滿意的方式,提出的樹蔭樹方法可以得到非常高的速度改進。
- 應用:實時通信和檢索圖像。
雙層圖像壓縮算法
適合的無損壓縮集中在分組編碼算法上。對于二進制源符號概率 P0 和 p1算法,它解析其編碼區間。在 BAC 的基礎上,采用了跨雙級的模板移動方法。為了對概率表模板進行索引,我們構造了一個 12 位的上下文表。
- 優點:適應于每一位圖像信息。
基于模糊算法的壓縮
- 模糊向量量化算法:在滿足矢量量化問題的同時,提出了一種高效利用模糊聚類優勢的算法。
- 優點:快速簡捷、概念有吸引力
- 基于模糊算法的圖像壓縮:系統性能取決于基于小波的子帶和矢量量化分解。
- 優點:低計算要求及更好的圖像質量