加入收藏
 免費注冊
 用戶登陸
首頁 展示 供求 職場 技術 智造 職業(yè) 活動 視點 品牌 鐠社區(qū)
今天是:2026年3月17日 星期二   您現在位于: 首頁 →  技術 → 行業(yè)標準(家庭電子)
音頻壓縮編碼格式
2007/2/1 12:01:22    產通學院,365PR NET

音頻壓縮技術指的是對原始數字音頻信號運用適當的數字信號處理技術,因此也稱為壓縮編碼。它必須具有相應的逆變換,稱為解壓縮或解碼。數字音頻壓縮技術在各種音樂供應和傳送的體系中,扮演著一個重要的角色,其影響范圍涵蓋包括如CD、SACD、DVD、DVD-Audio、MP3-CD等媒體,或是包括如網絡、有線電視、衛(wèi)星等能提高儲存和頻帶效率的網絡媒體。在不同的產品領域中,我們發(fā)現不同的音頻壓縮技術已演變?yōu)榱餍校踔潦菑娭菩缘募夹g需求。隨著音頻市場不斷地迅速發(fā)展,不僅涌現出各種標準與新的音頻功能,而且業(yè)界也在持續(xù)地改進產品的音質。市場、消費者、以及技術在持續(xù)發(fā)展,我們已進入了新的數字音頻時代。

一般來講,可以將音頻壓縮技術分為無損(lossless)壓縮及有損(lossy)壓縮兩大類,對于無損編碼,一般著重討論其壓縮率,而對于有損壓縮除了考慮壓縮率外還要考慮其品質。按照壓縮方案的不同,又可將其劃分為時域壓縮、變換壓縮、子帶壓縮,以及多種技術相互融合的混合壓縮等等。各種不同的壓縮技術,其算法的復雜程度(包括時間復雜度和空間復雜度)、音頻質量、算法效率(即壓縮率),以及編解碼延時等都有很大的不同。為了讓讀者更加容易接受,下文對于具體的壓縮技術將不對其和具體分類對號入座,而是采用我們比較熟悉的名稱。


1、PCM編碼

PCM是1937年由法國工程師Alec Reeres提出來的。Bell實驗室于1946年實現了第一臺PCM數字電話機。20世紀70年代后期,超大規(guī)模集成電路的PCM編碼器、解碼器的出現,使PCM在光纖通信、數字微波通信、衛(wèi)星通信中獲得了廣泛的應用。因此PCM已經成為數字通信中一個十分基礎的問題。

PCM編碼的最大的優(yōu)點就是音質好。我們常見的Audio CD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。PCM主要包括采樣(Sampling)、量化(Quantization)和編碼(Coding)三個過程。采樣就是把模擬信號轉換成離散時間的采樣信號;很顯然,在一秒中內抽取的點越多,獲取得頻率信息更豐富。按照Nyquist采樣定理,為了復原波形,在聲波信號的一次振動中,必須有2個點或以上的采樣,換作頻域上的理解就是采樣頻率必須大于或等于信號頻率的兩倍。人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,采樣率則至少是40kHz。我們常見的CD,采樣率為44.1kHz。

不過,光有頻率信息是不夠的,我們還必須獲得該頻率的能量值并量化,用于表示信號強度。采樣信號只是表示原始模擬信號在離散時間上的某個點的值而已,量化就是把這些采樣信號轉換成離散幅度的數字信號。量化電平數為2的整次冪,所謂的采樣大小就是說要用多少bit的二進制數對采樣信號值進行標識。例如要轉換一系列的采樣信號需要23個電平等級,則采樣大小是3bit。我們常見的CD為16bit的采樣大小,可表示216(等于65536)個不同的采樣值。采樣率和采樣大小的值越大,記錄的波形更接近原始信號。而編碼過程就是對量化后的信號進行編碼而形成一個二進制碼組來輸出。舉例來說,假如對一個信號采樣8次,只采用2bit的采樣大小則我們只能表示4種不同的采樣值,因為2bit的采樣大小只是包括了00、01、10和11這四個二進制碼組,若每次的采樣值都不一樣,則我們必須放棄其中的4個采樣值。如果采樣大小是3bit,則包括了000、001、010、011、100、101、110、111這八個二進制碼組,這樣就可以表示8種不同的采樣值。

相對自然界的信號,音頻編碼最多只能做到無限接近,任何數字音頻編碼方案都是有損編碼(Lossy Coding),因為無法完全還原。在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用于素材保存及音樂欣賞,CD、DVD以及我們常見的WAV文件中均有應用。因此,PCM約定俗成了無損編碼(Lossless Coding),因為PCM代表了數字音頻中最佳的保真水準,但并不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。


2、WAVE

WAV是微軟提供的音頻格式,由于Windows本身的影響力,這個格式已經成為了事實上的通用音頻格式。WAV文件格式,符合 RIFF(Resource Interchange File Format)規(guī)范。所有的WAV都有一個文件頭,這個文件頭音頻流的編碼參數。WAV可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV,但這不表示WAV只能使用PCM編碼。WAV對音頻流的編碼沒有硬性規(guī)定,除了PCM之外,還有幾乎所有支持ACM規(guī)范的編碼都可以為WAV的音頻流進行編碼。在Windows平臺上通過ACM(Audio Compression Manager)結構及相應的CODEC(編碼解碼器),可以在WAV文件中存放超過20種的壓縮格式。只要有軟件支持,你甚至可以在WAV格式里面存放圖像,所以MP3編碼同樣也可以運用在WAV中。只要安裝好了相應的解碼器,就可以欣賞這些WAV了。

在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由于本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創(chuàng)作的首選格式。它的用途是存放音頻數據并用作進一步的處理,而不是像mp3那樣用于聆聽。因此,基于PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如mp3轉換成WMA。


3、mp3
 
mp3是1993年由Fraunhofer-IIS研究院和Thomson公司的研究成果。它是MPEG(Moving Picture Experts Group) Audio Layer-3的簡稱,是MPEG1的衍生編碼方案。mp3是第一個實用的有損音頻壓縮編碼,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮的格式的生存與流傳。各種與mp3相關的軟件產品層出不窮,現在各種支持mp3格式的硬件產品也是隨處可見了。

在mp3出現之前,一般的音頻編碼即使以有損方式進行壓縮能達到4:1的壓縮比例已經非常不錯了。mp3可以做到12:1的驚人壓縮比,這使得mp3迅速地流行起來。mp3之所以能夠達到如此高的壓縮比例同時又能保持相當不錯的音質是因為利用了知覺音頻編碼技術,也就是利用了人耳的特性,削減音樂中人耳聽不到的成分,同時嘗試盡可能地維持原來的聲音質量。

mp3編碼技術的發(fā)布之初其實是非常不完善的,由于缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質破壞嚴重。隨著新技術的不斷導入,mp3編碼技術一次一次的被改良,其中有2次重大技術上的改進。

第一次改進是VBR(Variant Bitrate 可變位率)的引入。我們知道,衡量mp3文件的壓縮比例通常使用位率(Bit Rate)來表示。通常位率越高,壓縮文件就越大,但音樂中獲得保留的成分就越多,音質就越好。由于位率與文件大小音質的關系,所以后來出現了VBR方式編碼的mp3。VBR編碼的特點是可根據編碼的內容動態(tài)地選擇合適的位率,因此編碼的結果是在保證了音質的同時又照顧了文件的大小,結果大受歡迎。同時,mp3格式的文件有一個有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征,也就是說播放器可以不用預讀文件的全部內容就可以播放,讀到哪里播放到哪里,即使是文件有部分損壞。VBR技術的優(yōu)越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配位率,這對沒有波形分析的編碼器而言,這種技術如同虛設。正是如此,VBR技術并沒有一出現就顯得光彩奪目。

第二次改進就是屏蔽效應的引入。專家們通過長期的聲學研究,發(fā)現人耳存在遮蔽效應。聲音信號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的反應就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小不同。人耳最容易聽到的就是4kHz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人耳就聽不到了,每一個頻率都有著不同的值。

從人耳聽覺等效曲線圖中,我們可以看到這條曲線基本成一個V字型,當頻率超過15kHz時,人耳會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20kHz的頻率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天,由于周圍噪聲源多,我們很難聽到電腦主機散熱風扇的聲音,但晚上卻聽得很清楚。根據這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息復雜度,增加壓縮比,而不明顯的降低音質。這種遮蔽被稱為同時遮蔽效應。但聲音A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內,遮蔽會更明顯,這個范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。

根據這種效應,專家們設計出人耳聽覺心理模型,這個模型被導入到mp3編碼中后,導致了一場翻天覆地的音質革命,mp3編碼技術一直背負著音質差的惡名,但這個惡名現在已經逐漸被洗脫。到了此時,mp3削減音樂中人耳聽不到的成分,同時嘗試盡可能地維持原來的聲音質量。一直被埋沒的VBR技術光彩四射,配合心理模型的運用便現實出強大的誘惑力與殺傷力。在中高位率下,編碼得當的mp3要比WMA優(yōu)秀很多,可以非常接近CD音質,在不太好的硬件設備支持下,沒有多少人可以區(qū)分兩者的差異。

目前屬于開放源代碼并且免費的編碼器是LAME。這個工具是公認的壓縮音質最好的mp3壓縮工具。另外,幾乎所有的音頻編輯工具都支持打開和保存mp3文件。到了現在,許多新一代的編碼技術都已經能在相同的位率下提供比mp3優(yōu)越得多的音質。應該說,mp3確實顯現出疲態(tài)了。不過由于mp3的影響力實在是太大了,支持mp3的軟件多如牛毛,更別提眾多支持mp3的硬件播放器了?傊,mp3依然是世界上最流行的音頻壓縮技術,要它真正退出舞臺相信還有好長一段時間。


4、mp3PRO

Thomson公司、Fraunhofer-IIS連同Coding Technologies于2001年6月發(fā)布了一種名為mp3PRO的音樂格式。mp3PRO是一種基于mp3編碼技術的改良方案,從官方公布的特征看來確實相當吸引人。從各方面的資料顯示,mp3PRO并不是一種全新的格式,完全是基于傳統mp3編碼技術的一種改良,本身最大的技術亮點就在于采用了SBR(Spectral Band Replication, 頻帶復制)技術,這是一種新的音頻編碼增強算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。

SBR最大的優(yōu)勢就是在低數據速率下實現非常高效的編碼,與傳統的編碼技術不同的是,SBR更像是一種后處理技術,因此解碼器的算法的優(yōu)劣直接影響到音質的好壞。高頻實際上是由解碼器(播放器)產生的,SBR編碼的數據更像是一種產生高頻的命令集,或者稱為指導性的信號源。我們可以看到,mp3PRO其實是一種mp3信號流和SBR信號流的混合數據流編碼,它在原來mp3技術的基礎上專門針對原來mp3技術中損失了的音頻細節(jié)進行獨立編碼處理并捆綁在原來的mp3數據上,在播放的時候通過再合成而達到良好的音質效果。這種改善可以讓64kbps的mp3達到128kbps的mp3的音質水平。Coding Technologies推出了最新的MPEG-4 AACPlus,通過將SBR技術應用在AAC(Advanced Audio Codec,先進音頻編解碼)技術中而獲得更卓越的音質。Coding Technologies表示SBR將會成為MPEG-4的核心技術。但由于技術專利費用的問題以及其他技術提供商(例如微軟)的競爭,mp3PRO并沒有得到很大的流行。由于得不到支持,mp3PRO這個優(yōu)良的音頻技術到底何去何從,誰也不敢肯定。


5、RA 和RAM

隨著互聯網的發(fā)展,Real Networks公司發(fā)明的Real Media出現了。RA、RMA這兩個文件類型就是RealAudio格式。RealAudio可以根據聽眾的帶寬來控制自己的位率,就算是在非常低的帶寬下也可以提供足夠好的音質讓用戶在線聆聽。

網絡流媒體的道理其實非常簡單,簡單地說就是將原來連續(xù)的音頻分割成一個一個帶有順序標記的小數據包,將這些小數據包通過網絡進行傳遞,在接收的時候再將這些數據包按順序組織起來播放。如果網絡質量太差,有些數據包收不到或者延緩了到達,它就跳過這些數據包不播放,以保證用戶在聆聽的內容是基本連續(xù)的。由于Real Media是從極差的網絡環(huán)境下發(fā)展過來的,所以Real Media的音質并不怎樣,包括在高位率的時候,甚至差于mp3。

后來Real Networks通過與SONY公司合作,利用SONY的ATRAC技術(也就是MD的壓縮技術)實現高位率的高保真壓縮。和WMA一樣,RA不但都支持邊讀邊放,也同樣支持使用特殊協議來隱匿文件的真實網絡地址,從而實現只在線播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要,在各方的大力推廣下,RA和WMA是目前互聯網上,用于在線試聽最多的音頻媒體格式。由于Real Media的用途是在線聆聽,并不適于編輯,所以相應的處理軟件并不多。一些主流軟件可以支持Real Media的讀/寫,可以實現直接剪輯的軟件是Real Networks自己提供的捆綁在Real Media Encoder編碼器中的Real Media Editor,但功能非常有限,這一點與現在的Windows Media相比就差得遠了。


6、WMA

前文提及的WMA是Windows Media Audio編碼后的文件格式。在意識到網絡流媒體之于互聯網的重要性之后,微軟很快就推出了Windows Media與Real Media相抗衡,同時開始對其他音頻壓縮技術一律不提供直接支持。最初版本的Windows Media在音質方面并沒有什么優(yōu)勢,不過最新的Windows Media 9攜帶了大量的新特性并在Windows Media Player的配合下已經是不可同日而語。特別在音頻方面,微軟是唯一能提供全部種類音頻壓縮技術(無損、有損、語音)的解決方案。微軟聲稱,在只有64kbps的速率情況下,WMA可以達到接近CD的音質。和以往的編碼不同,WMA支持防復制功能,她支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和次數甚至是播放的主機等。WMA支持流技術,即一邊讀一邊播放,因此WMA可以很輕松的實現在線廣播。WMA憑著本身的優(yōu)秀技術特征加上微軟的大力推廣,這種格式被越來越多的人所接受。

Windows Media是一種網絡流媒體技術,本質上跟Real Media是相同的。但Real Media是有限開放的技術,例如RTSP(Real Time Stream Protocol,實時流協議)網絡傳輸協議是提交到網絡工作組RFC網絡協議集的其中一個,而Windows Media則沒有公開任何技術細節(jié),據稱是為了更好地進行版權保護,因此要完全封閉,還創(chuàng)造出一種名為MMS(Multi-Media Stream多媒體流)的傳輸協議。目前Windows Media還是處于推廣期,播放器和編碼器可以免費下載,服務器端捆綁在Windows服務器版中,不另外收費。而且由于微軟的影響力,支持Windows Media的軟件非常多。雖然它也是用于聆聽用途,不能編輯,但幾乎所有的Windows平臺的音頻編輯工具都對它提供了讀/寫支持,至于第三方播放器更是無一例外了,連Real Player都支持其播放。通過微軟自己推出的Windows Media File Editor可以實現簡單的直接剪輯。微軟推出的Windows XP Media Center版本,通過在Windows XP中捆綁Windows Media 9技術以及相關娛樂媒體軟件來加強Windows作為家庭娛樂中心的作用。如果微軟繼續(xù)保持其在操作系統特別是桌面操作系統的壟斷地位的話,Windows Media的未來肯定是一片光輝。


7、OGG

2002年7月,網絡上出現了一種號稱MP3殺手的音頻編碼,叫Ogg Vorbis。Vorbis 是這種音頻壓縮機制的名字,而Ogg則是這個多媒體開發(fā)項目的名稱,它將涉及音/視頻等方面的編碼開發(fā)。

在壓縮技術上,Ogg Vorbis除了支持VBR還支持ABR(平均位率)方式進行編碼。 Vorbis是高質量的音頻編碼方案,可以在相對低的數據率下實現比MP3更好的音質。Vorbis文件的設計格式是非常靈活的,可以被分成小塊并以樣本粒度(granularity)進行編輯。Vorbis還具有位率縮放功能,可以不用重新編碼便可調節(jié)文件的位率。它的最大特點是在文件格式已經固定下來后還能對音質進行明顯的調節(jié)和新算法。現在創(chuàng)建的OGG文件可以在未來的任何播放器上播放,因此,這種文件格式可以不斷地進行大小和音質的改良,而不影響舊有的編碼器或播放器。Vorbis同時可以對所有的聲道進行編碼,而不是MP3只能編碼2個聲道。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化,尤其在欣賞交響時,會帶來更多現場感。而且,OGG源碼是完全開放與免費的且沒有專利限制的。Ogg Vorbis取得的最大成就是獲得英國BBC廣播公司的認可,使用Ogg Vorbis音頻流在線播放節(jié)目。


8、Dolby技術

a) Dolby Digital
 
Dolby Digital是杜比實驗室最聞名的數字技術,是一種利用了人類的聽覺特性,通過對高質量多聲道數字音頻信號壓縮進行有效的存儲與傳輸的音頻編解碼工藝。Dolby Digital有時也被稱為杜比AC-3,它是Dolby Digital技術的基礎。該技術通過不同介質提供多聲道環(huán)繞聲。Dolby Digital技術于1992年首次用于電影院中,是目前唯一的全球性多聲道音頻標準和ATSC數字電視及SCTE數字有線電視的音頻標準。

此外,Dolby Digital技術已被確認為DVB的音頻傳輸標準。目前許多歐洲的數字機頂盒均可對Dolby Digital數據流進行處理。

事實上全世界所售出的DVD播放機都裝有進行Dolby Digital解碼的電路。

Dolby Digital聲能夠提供從單聲道到5.1聲道環(huán)繞聲的各種制式的聲音。所謂5.1聲道環(huán)繞聲包括五個分離的全頻帶(20Hz-20k Hz)音頻信號-左,中,右,左環(huán)繞,右環(huán)繞聲道加上第六個分離的低頻(20-120 Hz)效果聲道,通常稱作LFE(低頻效果)聲道。而其所占用的存儲空間比CD上一路線性PCM編碼的聲道所占用的空間還要少。基于對人耳聽覺的研究,Dolby Digital音頻技術中的先進算法使存儲或者傳輸數字音頻信號時使用更少數據成為可能。在5.1聲道的條件下,可將碼率壓縮至384kbps,壓縮比約為10:1。Dolby AC-3最初是針對影院系統開發(fā)的,但目前已成為應用最為廣泛的環(huán)繞聲壓縮技術之一。

b) Dolby E

Dolby E是一種專業(yè)音頻編碼技術,是為Dolby Digital編解碼工藝無法應用的廣播傳送系統而專門設計的高品質8聲道音頻編解碼技術。Dolby E可以通過一對AES/EBU或者一對數字VTR音軌,給后期制作和發(fā)行提供多達8個聲道的廣播級質量的音頻信息。Dolby E可通過一個AES-3數據對進行傳送,或被錄制在數字視頻帶的兩個音頻軌上,并創(chuàng)造了一個標準的聲音與畫面同步切換制式。另外,杜比E的優(yōu)點還在于經過它編碼的信息可以經過多次編解碼轉換而沒有可察覺的音質降低。由于Dolby E的幀數與其相伴的視頻幀數相匹配,可以做到無噪聲地對磁帶上節(jié)目進行插入或組合編輯,以及對節(jié)目進行音頻隨視頻的剪切制作。Dolby E編碼與解碼能夠準確地做到與視頻幀一致,從而使音頻/視頻同步簡化,在Dolby E位流內,Dolby Digital的元數據(Metadata)也可被方便的進行傳輸。

→ 『關閉窗口』
 dav
 [ → 我要發(fā)表 ]
上篇文章:電磁((Electromagnetic)應用技術介紹
下篇文章:DTV波形監(jiān)視器全數字處理之優(yōu)點
→ 主題所屬分類:  行業(yè)標準 → 家庭電子
 熱門文章
 如何申請EtherCAT技術協會(ETG)會員資格 (200281)
 臺北國際計算機展(COMPUTEX 2015)參展商名… (107849)
 上海市集成電路行業(yè)協會(SICA) (96799)
 USB-IF Members Company List (89197)
 第十七屆中國專利優(yōu)秀獎項目名單(507項) (78098)
 蘋果授權MFi制造商名單-Authorized MFi Lic… (73527)
 臺北國際計算機展(COMPUTEX 2015)參展商名… (70800)
 中國130家太陽能光伏組件企業(yè)介紹(3) (59403)
 PLC論壇 (54258)
 中國130家太陽能光伏組件企業(yè)介紹(2) (50760)
 最近更新
 涉及圖形用戶界面的產品外觀設計專利申請指引 (12月18日)
 jpg、gif、png、webp等主流圖片格式選擇建議 (9月9日)
 AI演進推動5G與Wi-Fi連接方式的變革 (9月6日)
 晶振:人工智能時代的精密脈搏 (8月29日)
 晶振—機械臂高精度動作的“隱形指揮官” (8月29日)
 趨膚效應(Skin Effect)對電子電器的影響及應… (8月18日)
 一本面向設計工程師精心修訂和更新的《ESD應用手冊… (3月10日)
 表皮電子學的代表作:石墨烯紋身 (2月26日)
 在晶圓級大規(guī)模生產中引入脈沖激光沉積(PLD)技術 (1月21日)
 你聽說過PiezoMEMS技術嗎? (1月21日)
 文章搜索
搜索選項:            
  → 評論內容 (點擊查看)
您是否還沒有 注冊 或還沒有 登陸 本站?!
關于我們 ┋ 免責聲明 ┋ 產品與服務 ┋ 聯系我們 ┋ About 365PR ┋ Join 365PR
Copyright @ 2005-2008 365pr.net Ltd. All Rights Reserved. 深圳市產通互聯網有限公司 版權所有
E-mail:postmaster@365pr.net 不良信息舉報 備案號:粵ICP備06070889號