書簽 分享 收藏 舉報 版權申訴 / 54
上傳文檔賺錢

類型《多媒體計算機技術》課件第3章 音頻信息的獲取與處理.ppt

  • 上傳人(賣家):momomo
  • 文檔編號:7379753
  • 上傳時間:2023-12-15
  • 格式:PPT
  • 頁數:54
  • 大?。?10.50KB
  • 【下載聲明】
    1. 本站全部試題類文檔,若標題沒寫含答案,則無答案;標題注明含答案的文檔,主觀題也可能無答案。請謹慎下單,一旦售出,不予退換。
    2. 本站全部PPT文檔均不含視頻和音頻,PPT中出現的音頻或視頻標識(或文字)僅表示流程,實際無音頻或視頻文件。請謹慎下單,一旦售出,不予退換。
    3. 本頁資料《《多媒體計算機技術》課件第3章 音頻信息的獲取與處理.ppt》由用戶(momomo)主動上傳,其收益全歸該用戶。163文庫僅提供信息存儲空間,僅對該用戶上傳內容的表現方式做保護處理,對上傳內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知163文庫(點擊聯系客服),我們立即給予刪除!
    4. 請根據預覽情況,自愿下載本文。本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
    5. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007及以上版本和PDF閱讀器,壓縮文件請下載最新的WinRAR軟件解壓。
    配套講稿:

    如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。

    特殊限制:

    部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創性部分享有著作權。

    關 鍵  詞:
    多媒體計算機技術 多媒體計算機技術課件第3章 音頻信息的獲取與處理 多媒體 計算機技術 課件 音頻 信息 獲取 處理
    資源描述:

    1、第3章 音頻信息的獲取與處理 3.1 信號處理的基本術語信號處理的基本術語采樣與量化采樣長度的選擇與頻率分辨率 DFT和IDFT小波變換采樣和量化 信號的數字化處理包括兩個步驟,一個是信號在時間上的離散化,即采樣;另一個是幅度上的離散化,即量化。采樣也稱抽樣,是信號在時間上的離散化,即按照一定時間間隔t在模擬信號x(t)上逐點采取其瞬時值。它是通過采樣脈沖和模擬信號相乘來實現的t=采樣點之間的距離采樣和量化量化是對幅值進行離散化,即將振動幅值用二進制量化電平來表示。量化電平按級數變化,實際的幅度值是連續的物理量。具體幅度值用舍入法歸到靠近的量化電平上。對模擬信號采樣首先要確定采樣間隔。如何合理

    2、選擇t涉及到許多需要考慮的技術因素。過采樣信號低采樣產生的偏差信號采樣定理sfmfsfmfsfmf采樣定理證明,不產生頻率混疊的最低采采樣定理證明,不產生頻率混疊的最低采樣頻率樣頻率 應為信號中最高頻率應為信號中最高頻率 的兩倍,即即2考慮到計算機二進制表示考慮到計算機二進制表示=(2.564)方式的要求,一般取方式的要求,一般取采樣長度的選擇與頻率分辨率 cfnnffcTtNntnffs1156.21156.2NnTfTTfNm2 采樣長度就是采樣時間的長短。對周期信號,理論上采集一個周期信號就可以了。實際上,考慮信號平均的要求等因素,采樣總是有一定長度的,為了減少計算量,采樣長度也不宜過長

    3、。信號采樣要有足夠的長度,不但是為了保證信號的完整,而且是為了保證有較好的頻率分辨率。設分析頻率為,譜線數為,則頻率分辨率為改用采樣頻率表示式中,=2.56為采樣點數,為采樣長度。=l/可知,對給定的分析頻率,采樣長度(由即分辨率越高??梢?,頻率分辨率是與采樣長度呈反比的。在信號分析中,采樣點數一般選為,使用較多的有512、1024、2048、4096等。)越大,就越小,DFT和IDFT傅立葉分析是將原始信號分解成不同頻率成分的正弦波,將時域信號轉變為頻域信號的一種數學方法,在信號的分析和處理中有著十分重要的作用對數字信號,需要采用相關的離散化方法,這就是由傅立葉分析得到的離散傅立葉變換DFT

    4、,其逆變換表示為IDFT。DFT和IDFT設是連續函數h(t)的N個采樣值,則這N個點的寬度為N的DFT定義為IDFT定義為 稱為N點DFT的變換核函數 稱為N點IDFT的變換核函數1,1,0,10/2NkexXNnNnkjnk1,1,0,110/2NneXNxNkNnkjknNnkje/2Nnkje/2小波變換 一個小波是一個在有限周期內的波形,它的平均值為零。比較正弦波形和小波,正弦信號正是Fourier分析的基礎,它沒有限定的周期,它可以從負無窮擴展到正無窮,正弦信號是平滑并且是可預知的,小波信號是不規則的并且不對稱。圖3.3正弦信號和小波信號正弦波小波小波變換傅立葉分析是將信號分解為各

    5、種頻率的正弦信號,類似地,小波分析是將信號分解為滑動的、與母系小波成比例的各種子波。信號傅立葉變換不同頻率的連續正弦子波dtetfwFjwt)()()(F)(tf傅里葉變換的數學表達式為這個變換的結果稱為傅里葉系數,它表示為信號被一復指數(復指數可分解為實部和虛部組成的正弦成分)相乘后在所有時間范圍內的積分。信號小波變換不同尺度與位置的連續小波)(tfdttpositionscaletfpositionscaleC),()(),(連續小波變換(Continuous Wavelet Transform,CWT)定義為信號被小波關于比例、滑移位置函數在所有時間內的積分。相乘CCCWT的結果包含了許

    6、多小波系數,position的函數。每個系數乘以合適的標度和滑移位置小波可得出原始信號不同成分的小波。是scale和)(tf)(t假定小波函數=,當時,小波圖形分別如圖3-6所示。圖3-6 標度因素變化的曲線=1,2,4小波變換小波變換可以使得信號的低頻長時特性和高頻短時特性同時得到處理,具有良好的局部化性質,能有效地克服傅氏變換在處理非平穩復雜信號時存在的局限性,具有極強的自適應性。由于小波變換能夠有效地解決方塊效應和基本上解決蚊式噪聲,所以小波變換已經成為當今圖像壓縮編碼的主要研究方向。數字音頻基礎 模擬音頻和數字音頻 數字音頻的文件格式 在多媒體計算機中,存儲聲音信息的文件格式主要有WA

    7、V文件、VOC文件、MIDI 文件、AIF文件、SNO文件及RMI文件等 波形音頻波形音頻 波形音頻是多媒體計算機獲得聲音最直接、最簡便的方式。在這種方式中,通常以麥克風、立體聲錄音機或CD激光唱盤等作為聲音信號的輸入源,聲卡以一定的采樣頻率和量化級對輸入聲音進行數字化,將其從模擬聲音信號轉換為數字信號(模/數轉換),然后以適當的格式存在硬盤上。記錄下來的聲音重放時,聲卡將文件中的數字信號還原成模擬信號(數/模轉換),經混音器混合后由揚聲器輸出。波形文件是Windows所使用的標準數字音頻文件,文件的擴展名是.WAV,記錄了對實際聲音進行采樣的數據。優點:在適當的硬件及計算機控制下,使用波形文

    8、件能夠重現各種聲音。主要缺點:是產生的文件太大,不適合長時間記錄。VOC文件文件 VOC文件是Creative公司波形音頻文件格式,也是聲卡使用的音頻文件格式。每個VOC文件由文件頭塊和音頻數據塊組成。文件頭包含一個標識、版本號和一個指向數據塊起始的指針。VOC格式音頻文件的文件頭如下:(1)00H13H字節。文件類型說明。前19個字節包含正文:Creative Voice File。最后是EOF字節(1AH)。(2)14H15H字節。其值為001AH。(3)16H17H字節。文件的版本號。(4)18H19H字節。是一個識別碼。由這個代碼可以檢驗其文件是否是真正的VOC文件。MIDI文件文件

    9、MIDI音頻是多媒體計算機產生聲音(特別是音樂)的另一種方式,可以滿足長時間音樂的需要。由于MIDI文件記錄的不是聲音本身,因此它比較節省空間。與波形文件不同的是,MIDI文件(擴展名為.MID)并不對音樂進行采樣,而是將每個音符記錄為一個數字,MIDI標準規定了各種音調的混合及發音,通過輸出裝置就可以將這些數字重新合成為音樂。與波形文件相比,MIDI文件要小得多,例如,同樣半小時的立體聲音樂,MIDI文件只有200KB左右,而波形文件(.WAV)則要差不多300MB。CMF文件文件 CMF文件(creative music file)也是隨聲卡一起誕生的,是它自帶的MIDI文件存儲格式。CD

    10、音頻音頻 CD音頻是一種數字化聲音,以16位量化級、44.1kHz 采樣率的立體聲存儲,可完全重現原始聲音,每片CD唱盤能記錄約74min這種質量的音樂節目。在多媒體計算機上輸出CD音頻信號一般有兩種途徑,一種是通過CD-ROM驅動器前端的耳機插孔輸出,另一種使用特殊連線接入聲卡放大后由揚聲器輸出。音頻信號的特點 在多媒體系統中,音頻信號可分為兩類:語音信號和非語音信號。音頻信號處理的特點如下:(1)音頻信號是時間依賴的連續媒體。因此音頻處理的時序性要求很高。如果在時間上有25ms的延遲,就會感到斷續。(2)由于人接收聲音有兩個通道(左耳、有耳),因此為使計算機模擬自然聲音,也應有兩個聲道,即

    11、理想的合成聲音應是立體聲。(3)由于語音信號不僅僅是聲音的載體,同時還攜帶了情感的意向,故對語音信號的處理不僅是信號處理問題,還要抽取語意等其他信息,因此可能會涉及語言學、社會學、聲學等。3D音頻 隨著軟、硬件的不斷發展,傳統的雙聲道單層面立體聲音場,已經不能滿足人們的需要。為了得到更好的立體感受和空間感受,科學家借助數字化音頻生成了一種全新的聲音-模擬3D音頻。DirectSound 3D Aureal3D EAX Sensaura IAS 聲卡的組成與工作原理 聲卡的功能(1)錄制、編輯和回放數字聲音文件錄制、編輯和回放數字聲音文件。(2)控制聲音源的音量,混合后再數字化(3)記錄和回放數

    12、字聲音文件時進行壓縮和解壓縮以節省存儲語音文件的磁盤空間(4)文語轉換與語音識別(5)MIDI接口和音樂合成 聲卡的技術指標聲卡的技術指標 采樣率與量化位采樣率與量化位 衡量聲卡錄制和重放聲音質量的主要參數是采樣率與量化位(也稱為分辨率或解析度),采樣率與量化位越大,錄制和重放聲音質量與原始聲音就越接近。FM合成與波形表合成與波形表 FM合成法就是通過正弦波相互調制來模擬真實的樂器聲音。這種方法成本較低,但也導致了在游戲或音樂演奏中產生的音效與實際的樂器明顯不同?,F今聲卡的FM合成通常是使用日本Yamaha公司生產的OPL-2(老式聲卡上的芯片,也叫做M3812,可合成11種單聲道的聲音)或O

    13、PL-3(也叫做YMF262,可合成11種單聲道的聲音)合成芯片。較好的聲卡采用的是波形表合成技術來實現音樂合成(即所謂的波表卡)。波形表包含有真實樂器聲音波形的數字記錄,在演奏時將相應樂器的波形記錄播放出來。為了與原有的FM合成聲卡的兼容性,波表卡上的合成芯片能完成FM合成的所有功能,如Yamaha公司非常流行的OPL-4(可運行為較早的OPL-2和OPL-3芯片編寫的所有程序)就是典型的波表合成芯片。兼容性兼容性 外圍接口外圍接口 音頻壓縮音頻壓縮 DSP芯片芯片 軟件支持軟件支持 聲卡的分類聲卡的分類 按應用環境分類按應用環境分類 按照聲卡的應用環境,聲卡基本可以分為DOS/GAME和W

    14、indows兩種環境。這兩種聲卡分別以Sound Blaster和Windows Sound System為代表。前者Sound Blaster是 GAME聲卡的事實標準,幾乎所有的DOS環境下的游戲都支持Sound Blaster。從聲卡的技術角度分類從聲卡的技術角度分類 從聲卡所采用的技術上來看,聲卡主要可分為3類:一是DSP技術為基礎的聲卡。二是全硬件聲卡。三是結合一類和二類兩種聲卡的優點,采用有限可編程控制器,使聲卡具有一定能力的自管理功能,又不至于成本太高、復雜的聲卡。根據總線的不同分類根據總線的不同分類 根據總線的不同,把聲卡分為兩大類,一類是ISA聲卡,另一類是PCI聲卡,由于兩

    15、種端口不能互相通用,因此在安插聲卡時不能插錯。主板上的ISA插槽是黑色的,比PCI 槽長,其中的金屬簧片也比PCI的寬;PCI插槽呈白色,相對較短,其中的簧片很細,分布密集。當然還可以按照聲卡的組成結構分為普通聲卡和集成主板的聲卡。按照聲卡取樣分辨率的位數不同,可分為8位聲卡、準16位聲卡、真16位聲卡、32位聲卡等。按照聲卡功能的不同,可分為單聲道聲卡、真立體聲聲卡、準立體聲卡等。聲卡的組成和布局聲卡的組成和布局 MIDI/GAME端口端口I/O接口接口 CD-ROM接口接口 聲音處理芯片聲音處理芯片 功率放大芯片功率放大芯片 跳線和跳線和SB-link接口接口 聲卡的組成I/O接口接口 聲

    16、卡的工作原理 音頻卡的工作原理的主要組成部分聲音的合成與處理 混合信號處理器及功率放大器 計算機總線接口和控制器 SPDIF數字音頻接口 SPDIF是SONY、PHILPS數字音頻接口的簡稱。就傳輸載體而言,SPDIF又分為同軸和光纖兩種。就傳輸方式而言,SPDIF分為輸出(SPDIF OUT)和輸入(SPDIF IN)兩種。目前大多數的聲卡芯片都能夠支持SPDIF OUT。SPDIF在多媒體聲卡上應用的優勢和不足在多媒體聲卡上應用的優勢和不足 在目前的家用多媒體聲卡上,SPDIF同軸電信號輸出主要用來傳輸Dolby Digital AC-3信號和連接純數字音箱。光纖輸出則主要用來連接MD等數

    17、碼音頻設備,以實現幾乎無損的音頻錄制。SPDIF IN主要應用于傳輸數字CD信號,也就是讓計算機以數字方式播放唱片。SPDIF是傳輸通道:數字音箱與數字聲卡的關系 唱片數字式播放的問題 音頻卡的發展和改進 改善聲音質量改善聲音質量 統一音頻卡標準統一音頻卡標準 簡化安裝的即插即用音頻卡簡化安裝的即插即用音頻卡 三維環繞立體聲三維環繞立體聲 全雙工聲音處理全雙工聲音處理 與通信技術的結合與通信技術的結合 單一芯片單一芯片 音頻編碼基礎和標準 音頻編碼的基礎音頻編碼的基礎 從信息保持的角度講,只有當信源本身具有冗余度,才能對其進行壓縮。根據統計分析結果,語音信號存在著多種冗余度,其最主要部分可以分

    18、別從時域和頻域來考慮。另外由于語音主要是給人聽的,所以考慮了人的聽覺機理,也能對語音信號實行壓縮。時域信息的冗余度時域信息的冗余度(1)幅度的非均勻分布(3)周期之間的相關(2)樣本間的相關(4)基音之間的相關(5)靜止系數)靜止系數(6)長時自相關函數)長時自相關函數 頻域信息的冗余度頻域信息的冗余度(1)非均勻的長時功率譜密度(2)語音特有的短時功率譜密度人的聽覺感知機理人的聽覺感知機理(1)人的聽覺具有掩蔽效應 聲音在不同時間先后發生時,強聲使其周圍的弱聲難以聽見的現象稱為異時掩蔽。(2)人耳對不同頻段的聲音的敏感程度不同,通常對低頻端較之對高頻端更敏感即使是對同樣聲壓級的聲音,人耳實際

    19、感覺到的音量也是隨頻率而變化的。(3)人耳對語音信號的相位變化不敏感音頻編碼的分類音頻編碼的分類(1)基于音頻數據的統計特性進行編碼(2)基于音頻的聲學參數進行參數編碼(3)基于人的聽覺特性進行編碼 音頻編碼標準 當前編碼技術發展的一個重要方向就是綜合現有的編碼技術,制定全球的統一標準,使信息管理系統具有普遍的互操作性并確保未來的兼容性。國際上,對語音信號壓縮編碼的審議在CCITT下設的第15研究組進行,相應的建議為G系列,多由ITU發表。算法名稱資料率(kb/s)標準應用質量波形編碼PCM均勻量化公共網ISDN配音4.04.5(A)(A)64G.711APCM自適應量化DPCM差值量化ADP

    20、CM自適應差值量化32G.721SB-ADPCM子帶自適應差值量化64G.7225.36.3G.723參數編碼LPC線性預測編碼2.4保密話聲2.53.5混合編碼CELPC碼激勵LPC4.6移動通信4.03.7VSELP向量和激勵LPC8語音郵件RPE-LTP長時預測規則碼激勵13.2ISDNLD-CELP低延時碼激勵LPC16G.728G.729MPEG多子帶感知編碼128CD5.0AC-3感知編碼音響5.0G.711 本建議公布于1972年,它給出話音信號編碼的推薦特性。話音的取樣率為8 kHz,允許偏差是5010-6。每個樣值采用8位二進制編碼,推薦使用A律和律編碼。本建議中分別給出了A

    21、律和律的定義,它是將13位的PCM按A律、14位PCM按律轉換為8位編碼。主要用于公共電話網中。G.721 這個建議用于這個建議用于64 kb/s的的A律和律和律律PCM與與32 kb/s的的ADPCM之間的轉換。之間的轉換。G.722G.722建議的寬帶音頻壓縮仍采用波形編碼技術,因為要保證既能適用于話音,又能用于其他方式的音頻,只能考慮波形編碼。G.722編碼采用了高低兩個子帶內的ADPCM方案,高低子帶的劃分以4 kHz為界,然后再對每個子帶內采用類似G.721建議的ADPCM編碼,因此G.722建議的技術方案可以簡寫為SB-ADPCM(子帶自適應差分脈沖碼調制)。G.728為了進一步降

    22、低壓縮的速率,CCITT于1992年制定了G.728標準,使用基于低時延碼本激勵線性預測編碼(LD-CELP)算法,其速率為16kb/s,主要用于公共電話網中。MPEG音頻編碼標準 MPEG音頻編碼標準具有可伸縮性,根據采用的壓縮因子的不同可以獲得不同的音質。MPEG采用分層編碼方式,其層次與壓縮因子的關系如下表所示 MP3 MP3是MPEG Audio Layer3的縮寫,它是一種超級聲音文件的壓縮方法,具有文件小、音質佳的特點。MPEG是由音頻和視頻兩部分組成的,可以分別進行壓縮。MPEG在音頻上的壓縮可以分為MPEG Layer1、MPEG Layer2 和MPEG Layer3(如表所

    23、示)。MP4壓縮技術 MP4最初是一種音頻格式,使用的是MPEG-2AAC(Advanced Audio Coding,先進音頻編碼)技術。它的特點是音質更加完美而壓縮比更大(15:120:1)。MPEG-2AAC在采樣頻率為896kHz時可提供148個聲道可選范圍的高質量音頻編碼。AAC適用于從比特率為8kb/s單聲道的電話語音音質到160kb/s多聲道超高質量音頻信號范圍內的編碼,并且允許對多媒體進行編碼/解碼,增加了諸如對立體聲的完美再現、比特流效果音掃描、多媒體控制、降噪等MP3沒有的特性,使得在音頻壓縮后仍能完美的再現CD的音質。MP4的特點 MP4除了采用了先進的音頻壓縮技術之外,

    24、最重要的是,它采用特殊的技術實現了數碼版權保護,這是MP3所無法比擬的。由于AAC有版權保護功能,要使自己的播放器支持AAC,除了需要支付一定的版權費或專利費,采用AAC編碼音頻文件的來源也是個問題,不像MP3那么開放,網上來源極少,這使得MP4推廣難度大大增加。目前市場上的MP4多數是多媒體播放器,能夠播放AAC的很少,這種播放器其實不算是MP4,本質上是MP3,視頻播放只不過是其附件功能。音樂合成音樂合成 自1976年應用調頻(FM)音樂合成技術以來,其樂音已經很逼真。1984年又開發出另一種更真實的音樂合成技術波形表合成。目前這兩種音樂合成技術都應用于多媒體計算機的音頻卡中。一個樂音必備

    25、的三要素是:音高、音色和響度。若把一個樂音放在運動的旋律中,它還應具備時值持續時間。這些要素的理想配合是產生優美動聽的旋律的必要條件。MIDI規范規范 MIDI是樂器數字接口(Musical Instrument Digital Interface)的英文縮寫,是數字音樂/電子合成樂器的統一國際標準。MIDI規范不僅定義了電腦音樂程序、音樂合成器及其它電子音樂設備交換音樂信號的方式,而且還規定了不同廠家的電子樂器與電腦連接的電纜和硬件及設備間數據傳輸的協議,可用于為不同樂器創建數字聲音,能很容易地模擬鋼琴、小提琴等傳統樂器的聲音。相對于保存真實采樣數據的聲音文件,MIDI文件顯得更加緊湊,其文

    26、件的大小要比WAV文件小得多 MIDI本身并不能發出聲音,它是一個協議,只包含用于產生特定聲音的指令,而這些指令則包括調用何種MIDI設備的音色、聲音的強弱及持續的時間等。電腦把這些指令交由聲卡去合成相應的聲音(如依指令發出鋼琴聲或小提琴聲等)。電腦播放MIDI文件時,有兩種方法合成聲音:FM合成和波表合成。MIDI 規范語音識別語音識別 語音識別技術就是讓計算機通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費

    27、電子產品等各個領域。語音識別語音識別 人們對于計算機語音學的研究主要包括以下幾個方面:語音編碼、語音合成、語音識別、語種識別、說話人識別或說話人確認等。隨著計算機處理和存儲能力的不斷增強,如何把大量信息輸入計算機成為日益突出的問題,而語音識別就提供了一種最自然、最方便的方法。隨著計算機的普及,越來越多的人在使用計算機,如何給不熟悉計算機的人提供一個友好的人機交互手段,也逐漸引起了人們的重視,而語音識別技術就是其中最自然的一種交流手段。所以,隨著計算機技術與應用的發展,語音識別也引起了越來越多人的關注。語音識別的發展和分類 對于機器識別語音的研究,可以追溯到20世紀50年代。1952年美國的Da

    28、vis等研究成功了世界上第一個識別10個英文數字發音的實驗系統。在20世紀50年代后期,我國也曾經研制出一套“自動語音識別器”,用來識別漢語的10個元音。1960年,Denes 等研究成功了第一個計算機語音識別系統,從此開始了計算機語音識別的正式階段。進入20世紀70年代之后,語音識別,尤其是小詞匯量、特定人、孤立詞的識別方面,取得了許多實質性的進展,像線性預測分析技術(LPC)、動態時間規劃算法(DTW)、矢量量化技術(VQ)等都已經在語音識別領域得到了廣泛的應用。語音識別的發展和分類 從20世紀70年代后期開始,語音識別技術開始沿著3個不同方向來擴展研究領域:特定人向非特定人擴展;孤立詞向

    29、連接詞擴展;小詞匯量向大詞匯量擴展。在具體的應用系統中,采用了更加復雜的聚類算法,同時也產生了新的基于動態規劃的匹配算法。語音識別的發展和分類自20世紀80年代中期以來,新技術的不斷出現使語音識別有了實質性的進展。特別是隱馬爾可夫模型(HMM)的研究和廣泛應用,推動了語音識別的迅速發展,陸續出現了許多基于HMM模型的語音識別系統。其中美國CMU的Sphinx系統被認為是20世紀80年代末至20世紀90年代初的典型代表,該系統在英語的大詞匯量非特定人連續語音識別方面能夠達到97%的識別率。IBM的Tangora20及后來推出的商業系統 VoiceType 3.0等也具有相當的水準,諸如此類的實際

    30、系統還有DRAGON公司的 Dragon Dictate系統等 語音識別的發展和分類 當前,語音識別領域的研究正方興未艾。在這方面的新算法、新思想和新的應用系統不斷涌現。同時,語音識別領域也正處在一個非常關鍵的時期,世界各國的研究人員正在向語音識別的最高層次應用非特定人、大詞匯量、連續語音的聽寫機系統的研究和實用化系統進行沖刺??梢詷酚^地說,人們所期望的語音識別技術實用化的夢想很快就會變成現實。語音識別系統的分類 (1)按可識別的詞匯量多少,語音識別系統可分為小、中、大詞匯量3種。(2)按照語音的輸入方式,語音識別的研究集中于對孤立詞、連接詞和連續語音的識別。(3)按發音人可分為特定人、限定人

    31、和非特定人語音識別3種。(4)對說話人的聲紋進行識別稱為說話人識別。這是研究如何根據語音來辨別說話人的身份、確定說話人的姓名。漢語語音識別系統的應用 1漢語本身的特點對語音識別系統的影響 漢語與西方語言(例如英語)相比,在語音識別方面具有如下的一些優勢:(1)漢語是音節性很強的語言,每個字都是以單音節為單位的。漢語一共只有400 多個音節,加上四聲后也只有1340個左右,這表明只用很少的識別基元就可以通過組合來覆蓋幾乎所有的語言現象。(2)漢語音節的構成比較簡單和規整,一般是由聲母和韻母組成,個別的僅含有韻母。這使得我們根據其組成特點,采用全音節、聲韻母或半音節等來作為識別基元的策略都是可行的

    32、。(3)漢語是一種有調語言,每個音節發音時間較長,且有較穩定的有調段,這一點對把握連續語音中的語氣有很大的幫助。若能夠將音調信息加入語音識別系統中,將可以大大提高聽寫機語言模型分辨同音字詞,提高糾錯能力。(4)漢語音節的協同發音和音變問題不如英語等其他語種普遍,相對發音較為穩定,這對于聲學層面上的識別是很有利的。漢語本身的特點對語音識別系統的影響 與其他西方語言相比,漢語語音識別具有如下一些難點:(1)漢語的同音字太多。常用字為10000左右,而按照有調音節為1340左右來計算,平均每個音節擁有同音字大約為7至8個。中國地域遼闊,各地方言發音差異較大,再加上同一種方言中總是存在著許多發音差異很

    33、小的聲韻母,這就給聲學層識別和語言層糾錯帶來了不少困難。(2)漢語是一種內涵語言,實際上下文環境甚至語氣和語調都對意義的理解起決定性的作用。同時由于漢語的語義單元是詞,由于漢語構詞法的復雜、詞的邊界不確定、動詞沒有明顯的時態或單復數變化、對語言處理缺乏提示等,因而決定了語言模型處理的對象具有很高的復雜度。語音識別的應用語音郵件集成數據庫輸人和詢問應用 語音命令和控制應用 習題1數字音頻采樣和量化過程所用的主要硬件是什么?2目前音頻卡具備哪些功能?31984年公布的音頻編碼標準G.721采用的是什么編碼方式?4簡述AC-3數字音頻編碼提供了5個聲道的頻率范圍。5簡述MIDI的音樂合成器的原理。6簡述音頻編碼的分類及常用編碼算法和標準。

    展開閱讀全文
    提示  163文庫所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
    關于本文
    本文標題:《多媒體計算機技術》課件第3章 音頻信息的獲取與處理.ppt
    鏈接地址:http://www.630-632rhodeisland.com/p-7379753.html

    Copyright@ 2017-2037 www.630-632rhodeisland.com  網站版權所有  |  資源地圖   
    IPC備案號:蜀ICP備2021032737號  | 川公網安備 51099002000191號


    侵權投訴QQ:3464097650  資料上傳QQ:3464097650
       


    【聲明】本站為“文檔C2C交易模式”,即用戶上傳的文檔直接賣給(下載)用戶,本站只是網絡空間服務平臺,本站所有原創文檔下載所得歸上傳人所有,如您發現上傳作品侵犯了您的版權,請立刻聯系我們并提供證據,我們將在3個工作日內予以改正。

    163文庫
    国产原创中文AV|日本牲交大片免费观看|2019中文字字幕35页国产|亚洲色无码专区在线