首先,傳輸數(shù)字圖像所需的帶寬遠窄于未壓縮圖像。例如,NTSC圖像以大約640 x 480的分辨率,24bits/象素,每秒30幀的質(zhì)量傳輸時,其數(shù)據(jù)率達28M字節(jié)/秒或221M位/秒。此外,NTSC聲音信號還要使未壓縮圖像的比特率再增加一些。然而單速CD-ROM(1x)驅(qū)動器只能以1.2M位/秒的速率傳輸數(shù)據(jù)。
第二個原因是以28M字節(jié)/秒的速率,15秒的未壓縮圖像將占用420M字節(jié)的內(nèi)存空間,這對于大多數(shù)只能處理小圖像片斷的臺式計算機來說都是不可接受的。
當今把圖像加入電子信號的關(guān)鍵問題是壓縮方式。有幾種不同的壓縮方式,但MPEG是最有市場潛力的壓縮方式
MPEG沿革
MPEG(即Moving Picture Experts Group運動圖像專家小組)是個國際標準,即所謂ISO11172。它的兩個標準─MPEG-1和MPEG-2特別重要。MPEG-1于1991年引入,用于加速CD-ROM中圖像的傳輸。它的目的是把221Mbit/秒的NTSC圖像壓縮到1.2Mbit/秒,壓縮率為200:1。這是圖像壓縮的工業(yè)認可標準。
MPEG-2用于寬帶傳輸?shù)膱D像,圖像質(zhì)量達到電視廣播甚至HDTV的標準。和MPEG-1相比,MPEG-2支持更廣的分辨率和比特率范圍,將成為數(shù)字圖像盤(DVD)和數(shù)字廣播電視的壓縮方式。這些市場將和計算機市場交織在一起,從而使MPEG-2成為計算機的一種重要的圖像壓縮標準。這一點非常重要,因為將MPEG-1的比特流解壓縮時需要用到MPEG-2的解壓縮器。另一標準MPEG-4正在發(fā)展中,它將支持非常低的比特率的數(shù)據(jù)流的應用,如電視電話,視頻郵件和電子報刊等。
對MPEG的廣泛接受意味著對它的使用者的投資保護。許多零售商出售MPEG的軟件或硬件播放器,這種競爭造成了價格的下降和質(zhì)量的上升。MPEG-1可以和MPEG-2兼容,因此它是一種尚有發(fā)展余地的標準。
MPEG如何工作
MPEG-1的特點是它是一種有損的,非平衡編碼。有損意味著為達到低比特率,一些圖像和伴音信息將丟失。通常這些信息是人眼和人耳最不敏感的信息,因此即使以1x CD-ROM的速率壓縮也能達到VHS的圖像質(zhì)量和高保真立體聲的效果。MPEG采用非平衡編碼意味著壓縮一幅圖像比解壓縮慢的多。
MPEG-1的數(shù)據(jù)流包含3種成分:圖像流,伴音流和系統(tǒng)流。圖像流僅僅包含畫面信息,伴音流包含聲音信息,系統(tǒng)流實現(xiàn)圖像和伴音的同步。所有播放MPEG圖像和伴音數(shù)據(jù)所需的時鐘信息都包含在系統(tǒng)流中。
MPEG用復雜的數(shù)學和心理學技術(shù)達到它的壓縮結(jié)果。MPEG伴音壓縮編碼利用了人耳靈敏度的研究結(jié)果,圖像編碼利用人眼對亮度,顏色,運動的靈敏度的一些有利結(jié)果。
MPEG伴音
CD伴音兩個通道共包含1.4Mbit/秒的數(shù)據(jù)流。聽覺心理學研究表明,采用適當?shù)膲嚎s技術(shù),此數(shù)據(jù)流可以壓縮到256Kbit/秒而不會感覺到任何失真。MPEG伴音利用這個結(jié)果,盡管一些MPEG壓縮器不支持高質(zhì)量圖像。
MPEG伴音編碼可以實現(xiàn)3種壓縮等級。等級I是簡單壓縮,它是一種聽覺心理學模型下的亞抽樣編碼。等級II加入了更高的精度,等級III加入了非線性量化,Huffman編碼和其他實現(xiàn)低速率高保真圖像的先進技術(shù)。依次下去的等級提供了高質(zhì)量和越來越高的壓縮率,但要求計算機有越來越強的壓縮能力。MPEG等級II可以把一個1.4Mbit/秒的立體聲數(shù)據(jù)流壓縮到32Kbit/秒-384Kbit/秒而保持高保真的聲音。典型數(shù)據(jù)為,等級I的目標是每個通道192Kbit/秒,等級II的目標是每個通道128Kbit/秒,等級III的目標是每個通道64Kbit/秒。目標II要達到64Kbit/通道時不如等級III效果好,而在128Kbit/通道,等級II和等級III的效果一樣,而且都比等級I效果好。正如上面所說的,每通道128Kbit/秒或者說兩通道256Kbit/秒可以達到很好的保真度。因此,等級II對于高保真立體聲音響是必要的,但也已足夠了。
MPEG-1支持設置為單聲道,雙聲道,立體聲或聯(lián)合立體聲的兩個聲音通道,等級II的聯(lián)合立體聲把聲音信號的高頻部分(高于2KHz)結(jié)合起來,立體圖像整個保存下來,但僅傳輸瞬時包絡。等級I不支持兩和立體聲。有些MPEG壓縮器不能產(chǎn)生等時II的伴音流,從而聲音保真度較低而且沒有聯(lián)合立體聲功能。
MPEG圖像
MPEG圖像編碼包含3個成分:I幀,P幀和B幀。MPEG編碼過程中,一些圖像壓縮成I幀,一些壓縮成P幀,另一些壓縮成B幀。I幀壓縮可以得到6;1的壓縮比而不產(chǎn)生任何可覺察的模糊現(xiàn)象。I幀壓縮的同時使用P幀壓縮,可以達到更高的壓縮比而無可覺察的模糊現(xiàn)象。B幀壓縮可以達到200:1的壓縮比,其文件尺寸一般為I幀壓縮尺寸的15%,不到P幀壓縮尺寸的一半。I幀壓縮去掉圖像的空間冗余度,P幀和B幀去掉時間冗余度,下文將進一步解釋。
I幀壓縮采用基準幀模式,只提供幀內(nèi)壓縮,即把幀圖像壓縮到I幀時,僅僅考慮了幀內(nèi)的圖像。I幀壓縮不能除去幀間冗余度。幀內(nèi)壓縮基于離散余弦變換(DCT),類似于JPEG和H.261圖像中使用DCT的壓縮標準。
P幀采用預測編碼,利用相鄰幀的一般統(tǒng)計信息進行預測。也就是說,它考慮運動特性,提供幀間編碼。P幀預測當前幀與前面最近的I幀或P幀的差別。
B幀為雙向幀間編碼。它從前面和后面的I幀或P幀中提取數(shù)據(jù)。B幀基于當前幀與前一幀和后一幀圖像之間的差別進行壓縮。
MEPG數(shù)據(jù)流開始時對CCIR-601規(guī)定的SIF分辨率的未壓縮數(shù)字圖像進行抽樣。SIF分辨率,對于NTSC制,就是亮度信號為352 x 240各像素,每個色度信號都為176 x 120個象素。各信號都是每秒30幀。MPEG壓縮器決定了當前幀以I幀,P幀還是B幀。幀確定之后就采用DCT變換,對結(jié)果進行量化,舍入,行程編碼即變長編碼。編碼后的典型圖像幀序為:IBBPBBPBBPBBIBBPBBPBBPBBI…
B幀和P幀要求計算機有更強的功能。有些壓縮器不能產(chǎn)生B幀或者連P幀也不能產(chǎn)生,則圖像的壓縮結(jié)果將有很明顯的間斷。