語音芯片的語音芯片概述

芯片（chip）就是半導體元件產品的統稱。是集成電路（IC, integrated circuit）的載體，由晶圓分割而成。

矽片是壹塊很小的矽，內含集成電路，它是電腦或者其他電子設備的壹部分。語音芯片定義：將語音信號通過采樣轉化為數字，存儲在IC的ROM中，再通過電路將ROM中的數字還原成語音信號。

根據語音芯片的輸出方式分為兩大類，壹種是PWM輸出方式，壹種是DAC輸出方式，PWM輸出音量不可連續可調，不能接普通功放，目前市面上大多數語音芯片是PWM輸出方式。另外壹種是DAC經內部EQ放大，該語音芯片聲音連續可調，可數字控制調節，可外接功放。

普通語音芯片放音功能實質上是壹個DAC過程，而ADC過程資料是由電腦完成，其中包括對語音信號的采樣、壓縮、EQ等處理。

錄音芯片包括ADC和DAC兩個過程，都是由芯片本身完成的，包括語音數據的采集、分析、壓縮、存儲、播放等步驟。

ADC=Analog Digital Change 模數轉換

DAC= Digital Analog Change 數模轉換

音質的優劣取決於ADC和DAC位數的多少。例如：20秒到 340秒,最低從10秒到340秒.語音芯片直觀的從名稱上來看,就是與語音有關的芯片,語音就是存儲的電子聲音,凡是能發出聲音的芯片,就是語音芯片,俗稱聲音芯片,英文準確些來說應該是Voice IC.在語音芯片的大家庭中,根據聲音的類型不同可分為(Speech IC)和(Music IC)兩種.這兒應該算是語音芯片專業的區分方法. 掩膜生產。掩膜生產通俗的說就是先將聲音燒到芯片裏，然後再進行封裝，壹般有量的要求。

otp生產。所謂otp的意思是指的壹次性燒錄。先把芯片封裝好，再借用軟件燒進去聲音。

語音芯片有根據IC本身的物理結構的多個通道(同時發出多個通道的聲音)可分為多種類型:

壹, 單通道的：

1, 單通道的語音IC(Speech IC)(這種語音芯片不支持音樂IC音樂存儲方式); 常見的語音IC是單通道的語音芯片,DKC020-OTP20秒和DKA010動物叫聲是最典型的單通道語音芯片了,

2, 單通道的音樂IC(Music IC),同壹單位時間內只能發出壹種音樂的音樂IC, 電子聲音文件是只有壹個通道的.Mid後綴文件.

常說的單音片,是壹種最基本的音樂IC,由壹定時間內音符輸出的多少,決定了單音片的效果,有64音符多,128音符等等. 單音片應用場合廣,價格極其低廉,最常見的有單音片有生日快樂賀卡單音片.典型的有DK20S等

嚴格的說,單通道的音樂IC和單音片的兩者結構是不相同的

二, 2通道：

1, 2通道的語音IC, 2通道和多通道的語音芯片,實際應用中語音播放時壹般會按規定固定在某壹通道內進行聲音的播放(等同於單通道),但是這類產品比單通道的語音IC(Speech ic)成本要高,價格會高些,語音芯片廠家在設計時為了平衡產品價格和應用,壹般來說,功能支持和聲音效果方面都會做得更完美壹些.

這種結構也許是因為產品和方案實際應用領域和價格所決定的, 語音芯片輸出壹般都是單通道的聲音輸出,支持立體聲的產品很少, 要高端壹些的產品就要選MP3主控芯片之類的方案了

2, 2通道的音樂芯片, 通俗叫法是雙音片(Music With Dual Tone IC),顧名思義,同壹單位時間內二個通道都可以發出音樂的音樂IC. 電子聲音源文件壹般為.Mid的二通道文件.常見的聖誕系列音樂IC如:.

這裏得多補充兩句,市面上還有壹個叫melody的音樂芯片,她是個什麽定義呢?簡單的來說,比單音片的效果要好比和弦音樂芯片的效果要差的壹種音樂芯片,所以雙音片也有被叫成是melody音樂芯片,melody結構應該來說是壹種更高級的單音片,或者可以說是二倍效果的單音片.

三, 4通道,8通道或以上：

三通道以上的聲音.又稱為和弦音樂.常說的4和弦音樂IC就是指4通道的音樂IC,例如DKC040...

壹般多通道的語音芯片都是同時支持音樂IC(Music IC)和語音IC(Speech IC)功能的.

(a)“語音芯片”介紹：

（1）語音信號的量化

采樣率（f）、位數（n）、波特率（T）

采樣：將語音模擬信號轉化成數字信號。

采樣率：每秒采樣的個數（byte）。

波特率：每秒鐘采樣的位數(bit)。波特率直接決定音質。Bps: bit per second

采樣位數指在二進制條件下的位數。壹般在沒有特別說明的情況下，聲音的采樣位數指8位，由00H--FFH，靜音定為80H。

（2）采樣率

奈奎斯特抽樣定理（Nyquist Law）：要從抽樣信號中無失真地恢復原信號，抽樣頻率應大於2倍信號最高頻率。抽樣頻率小於2倍頻譜最高頻率時，信號的頻譜有混疊。抽樣頻率大於2倍頻譜最高頻率時，信號的頻譜無混疊。

嗓音的頻帶寬度為20～20K HZ左右，普通的聲音大概在3KHZ以下。所以，壹般CD取的音質為44.1K和16bit，如果碰到某些特別的聲音，如樂器，音質也有用48K和24bit的情況，但不是主流。

壹般在我們處理針對普通語音IC的時候，采樣率最高達到16K就夠了、說話聲壹般取8K（如電話音質）、6K左右。低於6K效果比較差。而DKC系列語音芯片采樣可以做到22K。

在應用單片機的過程中，采樣越高，定時器中斷速度越快，會影響到其他信號的監控和檢測，所以要綜合考慮。

（3）語音壓縮技術。

由於語音數據量龐大，對語音數據進行有效壓縮是很必要的，能夠使我們在有限的ROM空間裏錄入更多的語音內容。有以下幾種方式：

語音分段：將語音中可以重復的部分截取出來，通過排列組合將內容完整地回放出來。

語音采樣：壹般我們使用的喇叭頻響曲線在中頻部分，較少用到高頻，所以，在喇叭音質可以接受的情況下，適當降低采樣頻率，達到壓縮效果，這種過程是不可逆的，無法恢復原貌，叫有損壓縮。

數學壓縮：主要是針對采樣位數進行壓縮，這種方式也是有損壓縮。例如，我們經常采用的ADPCM壓縮格式，是將語音數據從16bit壓縮到4bit，壓縮率是4倍。MP3是對數據流進行壓縮，涉及到數據預測問題，它的波特率壓縮倍率為10倍左右。

通常，以上幾種壓縮方式都是綜合起來使用的。

（4）常用語音格式

PCM格式： Pulse Code Modulation 脈沖編碼調制，它將聲音模擬信號采樣後得到量化後的語音數據，是最基本最原始的壹種語音格式。同它極為類似的還有RAW格式和SND格式。它們都是純語音格式。

WAV格式：Wave Audio Files 是微軟公司開發的壹種聲音文件格式，也叫波形聲音文件，被Windows平臺及其應用程序廣泛支持。WAV格式支持許多壓縮算法，支持多種音頻位數、采樣頻率和聲道，但WAV格式對存儲空間需求太大不便於交流和傳播。WAV文件裏面存放的每壹塊數據都有自己獨立的標識，通過這些標識可以告訴用戶究竟這是什麽數據，這些數據包括采樣頻率和位數，單聲道(mono)還是立體聲(stero)等。

ADPCM格式：是利用對過去的幾個抽樣值來預測當前輸入的樣值，並使其具有自適應的預測功能與實際檢測值進行比較，隨時對測得的差值自動進行量化級差的處理，使之始終保持與信號同步變化。它適用於語音變化率適中的情況，而且聲音回放過程簡短。它的優點是對於人聲的處理比較逼真，壹般達到90%以上，已廣泛地應用於電話通信領域。

MP3格式： Moving Picture Experts Group Audio Layer III，簡稱為MP3。它是利用 MPEG Audio Layer 3 的技術，采取了名為“感官編碼技術”的編碼算法：編碼時先對音頻文件進行頻譜分析，然後用過濾器濾掉噪音電平，接著通過量化的方式將剩下的每壹位打散排列，最後形成具有較高壓縮比的mp3文件，並使壓縮後的文件在回放時能夠達到較接近原音源的聲音效果。它的實質是vbr（Variant Bitrate 可變波特率）可以根據編碼的內容動態地選擇合適的波特率，因此編碼的結果是在保證了音質的同時又照顧了文件的大小。

mp3壓縮率10倍甚至12倍。是最初出現的壹種高壓縮率的語音格式。

Linear Scale格式：根據聲音的變化率大小，把聲音分成若幹段，對每段用線性比例進行壓縮，但是它的比例是可變的。

Logpcm格式：基本上對整個聲音進行線性壓縮，將最後若幹位去掉。這種壓縮方式在硬件上很容易實現，但音質比Linear Scale差壹些，特別是音量較小聲音比較細膩的情況下效果較差。主要用於pure speech方面。mid格式。mid格式的語音所占的空間比較狹小，有時短短20幾秒的芯片就能裝進去十多首mid格式的音樂.

（b）“音樂芯片”介紹：

（1）音樂的通道與音色：

包絡（envelope）方波(patch) 通道（channel）

包絡：合成音色的壹部分，單位時間內音符輸出的變化，常見有“ADSR”

方波：合成音色的壹部分，單位時間內音符方波電流的變化。（另見三角波等）

通道：在同壹時間內，芯片輸出的音符個數，即“單音樂器”的個數。

PCT：模擬音色的壹種，通過采樣256個點的樂器聲音來模擬出各個音符的音高。(音色柔和，占空間小，但不夠真實)

FULL WAVE：通過采集壹種樂器聲音來模擬各個音符音高。（樂器聲真實，但占用空間大，且采集音色音質要求高）

（2）音樂的壓縮：

由於音樂數據量龐大，對音樂數據進行有效壓縮是很必要的，能夠使我們在有限的ROM空間裏錄入更多的音樂內容。有以下幾種方式：

音樂分段：將音樂中可以重復的部分截取出來，通過排列組合將內容完整地回放出來。

音色：根據音樂的豐滿程度、需求程度，來確定Full wave，PCT、dual tone的選擇，各個音色占用空間不懂，音色質量也不同。

數學壓縮：主要是針對采樣的音色（Full wave）進行壓縮，這種方式也是有損壓縮，對於要采集的音色進行降采樣、處理等減小采集音色的大小（同語音類的修音）。語音芯片為表述的形象化，由語音長度來表示

a)普通語音芯片以6K采樣率為語音長度計算標準，最大采樣到22K。

b)錄音IC以6K采樣率為語音長度計算標準。

即：以6k采樣率芯片可以播放的長度。相同品種的芯片成本與芯片的大小成正比。

a)I/O口的分配和ROM的大小（語音秒數）決定芯片成本。低秒數語音芯片其I/O口較少。

b)音質提高，采樣提高，語音秒數縮短。

音質降低，采樣降低，語音秒數變長 M---ROM大小（bit） n*f---波特率

聲音處理軟件介紹

1）SoundForge

2）Cooledit

3）goldwave

4）Calewalk