版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、蘭州工業(yè)學院畢業(yè)設計說明書(論文) PAGE 41摘要(zhiyo)讓機器聽懂人類(rnli)的語音,這是人們(rn men)長期以來夢寐以求的事情。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù), 語音識別是一門交叉學科,所涉及的領域有信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。其應用領域也非常廣,例如相對于鍵盤輸入方法的語音輸入系統(tǒng)、可用于工業(yè)控制的語音控制系統(tǒng)及服務領域的智能對話查詢系統(tǒng),在信息高度化的今天,語音識別技術(shù)及其應用已成為信息社會不可或缺的重要組成部分。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形
2、式。同時,語言也是人與機器之間進行通信的重要工具,它是一種理想的人機通信方式,因而可為信息處理系統(tǒng)建立良好的人機交互環(huán)境,進一步推動計算機和其他智能機器的應用,提高社會的信息化程度。 隨著嵌入式技術(shù)和通信技術(shù)的發(fā)展,智能機已成為電子技術(shù)發(fā)展的主流趨勢,目前在智能機領域,從處理器選型、操作系統(tǒng)選擇以及應用程序開發(fā)都是研究的熱點。本設計利用ARM處理器開發(fā)處理音頻信號,通過一個ARM9芯片S3C2410作為處理器的嵌入式語音采集系統(tǒng),結(jié)合LD 3320的嵌入式語音識別系統(tǒng)闡述了語音數(shù)據(jù)的采集與處理,采用帶漢字庫的12864顯示屏作為語音顯示系統(tǒng)。它完成了基于非特定人的語音識別系統(tǒng)的靜態(tài)測試,其對于
3、語音命令的平均識別率可達90%,并應用該系統(tǒng)構(gòu)成了語音文本顯示系統(tǒng),該系統(tǒng)能對近距離規(guī)范的語音進行采樣識別,在內(nèi)部處理轉(zhuǎn)換成文本信息在顯示屏上顯示。關鍵詞: 語音識別; ARM處理器; LD 3320; 12864; 信號。AbstractLet the machine to understand human speech,it is a long dreamed of things. The speech recognition technology is to make the machine hrough the recognition and understanding of the
4、process of speech signal transfer into the corresponding text or command of high technology,speech recognition is a cross-discipinary, involved in the areas of signal processing, pattern recognition theory, sound mechanism and auditory mechanism,artificial intelligence and so on.its application fiel
5、d is very wide,such as relative to the keyboard input mothod of speech input system, can be used for industrial control voice control system and service in the field of intelligent dialogue in the information inquiry system, highly today,speech recognition technology and its appliication in the info
6、rmation society has become an important part of.Through the phonetic transfer information is the most important and the most effective, most commonly used and the most convenient exchange information form. At the same time, the language is human and machine the important tool of communication betwee
7、n, it is a kind of ideal man-machine communication way, thus for information processing system to retablish good interactive environment, further promote computer and other intelligent machine application,improve the social information degree.With the embedded technology and communication technology
8、 development, the intelligent electronic technology has becom the mainstream of development trend,in the field of intelligent,from the processor selection,operating system selection and application development is the research hotspot. this design based on the ARM processor development processing aud
9、io signal trough a ARM9 processor S3C2410 chip as the embedded speech acquisition system, LD 3320 embedded speech recognition system elaborated the voice data acquisition and processing,the adoption of the beld which consists of 12864 display as a voice display system, It completed based on speaker-
10、independent speech recognition system static test,the voice commands for the average recognition rate of up to 90%,and application of the system constitutes the speech text display system,this system could be used for close standard speech sampling recognition,in the internal processing into text in
11、formation in the screen display.Keywords: speech recognition; ARM processor; LD 3320; 12864; Signal. TOC o 1-3 h z u 目錄(ml) TOC o 1-3 h z u HYPERLINK l _Toc351139730 摘要(zhiyo) HYPERLINK l _Toc351139730 Abstract HYPERLINK l _Toc351139728 前言(qin yn)11 系統(tǒng)整體方案 HYPERLINK l _Toc351139728 4 1.1 總體方案 HYPERL
12、INK l _Toc351139728 4 1.2 語音識別原理 HYPERLINK l _Toc351139728 42 系統(tǒng)硬件設計 HYPERLINK l _Toc351139728 7 2.1 硬件模塊主體關系 HYPERLINK l _Toc351139728 7 2.2 電源模塊 HYPERLINK l _Toc351139728 8 2.3 寄存器模塊 HYPERLINK l _Toc351139728 92.4 控制單元模塊 HYPERLINK l _Toc351139728 10 HYPERLINK l _Toc351139730 2.4.1 ARMS3C2410芯片簡介10
13、2.5 語音識別模塊 HYPERLINK l _Toc351139728 11 HYPERLINK l _Toc351139730 2.5.1 LD 3320芯片簡介12 HYPERLINK l _Toc351139730 2.5.2 LD 3320功能單元 13 HYPERLINK l _Toc351139730 2.5.3 LD 3320芯片模式選擇14 HYPERLINK l _Toc351139730 2.5.4 關鍵詞的ID及其設置16 HYPERLINK l _Toc351139730 2.5.5 反應時間16 2.6 GPRS模塊 HYPERLINK l _Toc35113972
14、8 18 2.7 語音撥號模塊 HYPERLINK l _Toc351139728 18 2.8 語音短信模塊 HYPERLINK l _Toc351139728 192.9 LCD顯示連接電路 HYPERLINK l _Toc351139728 19 HYPERLINK l _Toc351139730 2.9.1 12864芯片簡介213 系統(tǒng)軟件設計 HYPERLINK l _Toc351139728 23 3.1 語音識別操作(cozu)流程 HYPERLINK l _Toc351139728 23 3.2 系統(tǒng)(xtng)程序流程 HYPERLINK l _Toc351139728 2
15、44 軟件(run jin)調(diào)試 HYPERLINK l _Toc351139728 26 4.1 上電調(diào)試 HYPERLINK l _Toc351139728 26 4.2 讀寫寄存器調(diào)試 HYPERLINK l _Toc351139728 26 4.3 檢查存儲器初始值 HYPERLINK l _Toc351139728 265 硬件調(diào)試 HYPERLINK l _Toc351139728 28 5.1 硬件電路調(diào)試 HYPERLINK l _Toc351139728 28 5.2 硬件功能檢查 HYPERLINK l _Toc351139728 28 5.3 綜合調(diào)試 HYPERLINK
16、 l _Toc351139728 28 HYPERLINK l _Toc351139777 結(jié)論29 HYPERLINK l _Toc351139778 HYPERLINK l _Toc351139779 致謝30參考文獻 HYPERLINK l _Toc351139728 31 HYPERLINK l _Toc351139780 附錄32前言(qin yn)1、背景(bijng)介紹語言是人類傳遞信息的主要手段,語音識別(shbi)技術(shù)是目前世界上最熱門和最具發(fā)展前景的新型信息技術(shù)之一。語音識別技術(shù)是近年來十分活躍的研究領域。語音識別系統(tǒng)的實用化研究是語音識別研究的一個主要方向。語言是人類特
17、有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語音是語言的聲學表現(xiàn),是人類交流信息最 HYPERLINK /lixue/ 自然、最有效、最方便的手段。語言和語音與人類社會 HYPERLINK /gongxue/ 科學文化發(fā)展緊密相連。語音識別技術(shù)是讓機器接收,識別和理解語音信號,并將其轉(zhuǎn)換成相應的數(shù)字信號的技術(shù)。它是一門交叉學科,涉及到語音語言學、數(shù)理統(tǒng)計、 HYPERLINK /pc/ 計算機、信號處理等一系列學科。2、發(fā)展歷史語音識別技術(shù)的研究開始二十世紀50年代。1952年,AT&Tbell實驗室的Davis等人成功研制出了世界上第一個能識別十個英文數(shù)字發(fā)音的實驗系統(tǒng):Au
18、dry系統(tǒng)。60年代計算機的應用推動了語音識別技術(shù)的發(fā)展,提出兩大重要研究成果:動態(tài)規(guī)劃(Dynamic Planning, DP)和線性預測分析(Linear Predict, LP),其中后者較好的解決了語音信號產(chǎn)生模型的問題,對語音識別技術(shù)的發(fā)展產(chǎn)生了深遠影響。70年代,語音識別領域取得突破性進展。線性預測編碼技術(shù)(Linear Predict Coding, LPC)被Itakura成功應用于語音識別;Sakoe和Chiba將動態(tài)規(guī)劃的思想應用到語音識別并提出動態(tài)時間規(guī)整算法,有效的解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
19、80年代,連續(xù)語音識別成為語音識別的研究重點之一。Meyers和Rabiner研究出多級動態(tài)規(guī)劃語音識別算法(Level Building,LB)這一連續(xù)語音識別算法。80年代另一個重要的發(fā)展是概率統(tǒng)計方法成為語音識別研究方法的主流,其顯著特征是HMM模型在語音識別中的成功應用。1988年,美國卡內(nèi)基梅隆大學(CMU)用VQ/HMM方法實現(xiàn)了997詞的非特定人連續(xù)語音識別系統(tǒng)SPHINX。在這一時期,人工神經(jīng)網(wǎng)絡在語音識別中也得到成功應用。進入90年代后,隨著多媒體時代的來臨,迫切要求語音識別系統(tǒng)從實驗走向?qū)嵱?,許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都
20、為語音識別系統(tǒng)實用化的開發(fā)研究投以巨資。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系統(tǒng)。這些系統(tǒng)具有說話人自適應能力,新用戶不需要對全部詞匯進行訓練便可在使用中不斷提高識別率。我國在七十年代末就開始了語音技術(shù)的研究,但在很長一段時間內(nèi),都處于緩慢發(fā)展的階段。由于起步晚、基礎薄弱,計算機水平不發(fā)達,導致在整個八十年代,我國在語音識別研究方面并沒有形成自己的特色,更沒有取得顯著的成果和開發(fā)出大型性能優(yōu)良(yuling)的實驗系統(tǒng)。但進入九十年代后,我國語音識別研究的步伐就逐漸緊追國際先進水平了,在“八五”、“九五(ji w)”國家科技攻關計劃、國家自然科
21、學基金、國家863計劃的支持下,我國在中文語音技術(shù)的基礎(jch)研究方面也取得了一系列成果。但是,這些成果并沒有得到很好的應用,沒有轉(zhuǎn)化成產(chǎn)業(yè);相反,中文語音技術(shù)在技術(shù)、人才、市場等方面正面臨著來自國際競爭環(huán)境中越來越嚴峻的挑戰(zhàn)和壓力。3、具體應用 隨著計算機技術(shù)、模式識別等技術(shù)的發(fā)展,適應不同場合的語音識別系統(tǒng)相繼被開發(fā)出來,語音識別及處理技術(shù)已經(jīng)越來越突現(xiàn)出其強大的技術(shù)優(yōu)勢。近三十年來,語音識別在計算機、信息處理、通信與 HYPERLINK /dianzijixie/ 電子系統(tǒng)、自動控制等領域的應用越來越廣泛。 目前,語音識別技術(shù)己經(jīng)在生活中的諸多方面有了廣泛的應用,而這方面的例子已經(jīng)屢
22、見不鮮,其主要的應用場合如下: (1)聲控(shn kn)應用 在很多場合(chng h)與特定環(huán)境中,使用聲控系統(tǒng)可以大大提高生活質(zhì)量和便利程度。比如司機通過語音進行電話撥號,可以減少交通事故的發(fā)生率,而很多行動不便的人通過聲控系統(tǒng)更是可以將生活質(zhì)量提高。 (2)數(shù)據(jù)庫檢索(jin su) 在不少行業(yè)部門當中都需要對龐大的數(shù)據(jù)進行檢索和查詢,這是一項非常復雜的I作。語音識別的引入可以大大的減少勞動量,既方便又節(jié)約人力成本。 (3)語音聽寫機 用口述來代替人工輸入文檔,提高了輸入速度,而且更加方便,可以為辦公自動化帶來革命性的變化。比如IBM出品的Via Voicc系列產(chǎn)品就是這個方面典型的應
23、用。 (4)自動口譯 將語音識別應用于自動口語翻譯是未來的一大趨勢,不僅可以節(jié)省大量的人力。同時也讓翻譯工作變得更加輕松簡單。一些發(fā)達國家在自動口譯方面的研究己經(jīng)取得了一定的進展。目前,語音識別技術(shù)仍在高速發(fā)展之中。隨著時代的進步,越來越多的領域開始引入這項技術(shù),人類的日常生活會級此而帶來更大改變。 本設計介紹了一種以ARM為核心的嵌入式語音識別模塊的設計與實現(xiàn)。本模塊以對話管理單元為中心,通過以LD 3320芯片為核心的硬件單元實現(xiàn)語音識別功能,經(jīng)過大量的實驗數(shù)據(jù)驗證,本文設計的語音識別模塊具有高實時性、高識別率、高穩(wěn)定性的優(yōu)點。1 系統(tǒng)整體(zhngt)方案1.1 總體方案基于現(xiàn)有技術(shù)開發(fā)
24、嵌入式語音(yyn)交互系統(tǒng),目前主要有兩種方式:一種是直接在嵌入式處理器中調(diào)用語音開發(fā)包;另一種是嵌入式處理器外圍擴展語音芯片。第一種方法程序量大,計算復雜,需要占用大量的處理器資源,開發(fā)周期長;第二種方法相對簡單,只需要關注語音芯片的接口部分與微處理器相連,結(jié)構(gòu)簡單,搭建方便,微處理器的計算負擔大大降低,增強了可靠性,縮短了開發(fā)周期。本設計(shj)的語音識別方案是以嵌入式微處理器ARM S3C2410芯片為核心,配合A/D, D/A 電路,控制電路,接口電路和存儲電路來實現(xiàn)語音識別的訓練和識別過程。外圍加非特定人語音識別芯片及相關電路構(gòu)成。語音識別芯片選用ICRoute公司的LD 332
25、0芯片,由于LD 3320可以動態(tài)編輯的識別關鍵詞語列表,因此其可以應用的范圍大大超過了那些不可以改變識別列表的芯片。又由于LD 3320 是一顆真正的單芯片解決方案,不需要輔助的外圍 Flash/RAM/AD,從而降低了系統(tǒng)的成本。在用戶的語音進入語音識別部分后, LD 3320 將把處理過的數(shù)據(jù)并行傳輸?shù)街骺刂破?,主控制器處理后,發(fā)送命令數(shù)據(jù)到可擴展外圍串行設備實現(xiàn)控制操作.所接收的數(shù)據(jù)最后通過帶漢字庫的12864液晶屏顯示出相應的漢字。1.2 語音(yyn)識別原理(yunl)在計算機系統(tǒng)中,語音信號(xnho)本身的不確定性、動態(tài)性和連續(xù)性是語音識別的難點,主流的語音識別技術(shù)是基于統(tǒng)計
26、模式識別的基本理論,語音識別過程圖語音識別通常需要兩個階段完成。第一階段是訓練,主要是提取語音特征,用戶往往需要進行幾次語音訓練,經(jīng)過預處理和特征提取后獲得相應特征參數(shù)。第二階段是識別,識別過程就是將輸入的語音特征參數(shù)和模型庫中的參數(shù)進行相似性比較,最后輸出匹配度最高的特征參數(shù)完成識別過程。語音識別過程原理如圖1-1所示:預處理特征提取模式匹配后處理語音模型 庫輸入語音識別訓練識別結(jié)果圖1-1 語音識別過程語音識別過程圖語音識別通常需要兩個階段完成。第一階段是訓練,主要是提取語音特征,用戶往往需要進行幾次語音訓練,經(jīng)過預處理和特征提取后獲得相應特征參數(shù)。第二階段是識別,識別過程就是將輸入的語音
27、特征參數(shù)和模型庫中的參數(shù)進行相似性比較,最后輸出匹配度最高的特征參數(shù)完成識別過程。目前,語音識別技術(shù)按照識別對象的類型可以分為特定人和非特定人語音識別。特定人是指識別對象為專門的人,非特定人是指識別對象是針對大多數(shù)用戶,一般需要采集多個人的語音進行錄音和訓練,經(jīng)過學習,從而達到較高的識別率。語音識別技術(shù)在國內(nèi)外的發(fā)展(fzhn)十分迅速。在嵌入式應用領域,具有代表性的有凌陽的 SPCE061A、ICRoute 的 LD 3320。本文的語音識別方案(fng n)是以嵌入式微處理器為核心,外圍加非特定人語音識別芯片LD 3320 及相關電路(dinl)構(gòu)成。1、語音采集設備如話筒、電話等將語音轉(zhuǎn)
28、換成模擬信號。2、數(shù)字化一般包括預濾波、采樣和A/D變換。該過程將模擬信號轉(zhuǎn)變成計算機能處理的數(shù)字信號。 3、預處理一般包括預加重、加窗分幀。經(jīng)預處理后的信號被轉(zhuǎn)換成了幀序列的加窗的短時信號。 4、參數(shù)分析是對短時信號進行分析,提取語音特征參數(shù)的過程,如時域、頻域分析,矢量量化等。 5、語音識別是目標語音根據(jù)特征參數(shù)與模型庫中的參數(shù)進行匹配,產(chǎn)生識別結(jié)果的過程。一般有模板匹配法、隨機模型法和神經(jīng)網(wǎng)絡等。 6、應用程序根據(jù)識別結(jié)果產(chǎn)程預定動作。7、該過程是語音模型的學習過程。2 系統(tǒng)(xtng)硬件設計2.1 硬件(yn jin)模塊主體(zht)關系本設計由LD 3320芯片和三星公司的 S3
29、C2410 芯片為核心,配合 A/D、D/A 電路,控制電路,接口電路和存儲電路來實現(xiàn)語音識別的訓練和識別過程。S3C2410 主要負責系統(tǒng)的控制和識別工作,而語音信號的特征提取和訓練算法全部由 LD 3320來完成。S3C2410 處理器采用的是 ARM920T 內(nèi)核,5 級流水線指令結(jié)構(gòu),片內(nèi)鎖相環(huán),內(nèi)部時鐘可達到 200 MHz,因此可以用來進行復雜的控制算法以提高控制精度。S3C2410 有 117 個 I/O 口和 24 個外部中斷源,內(nèi)部具有豐富的接口控制器,可以簡化外圍電路,同時其內(nèi)部時鐘可達到200MHz。 LD 3320是一顆基于非特定人語音識別技術(shù)的語音識別/聲控芯片,該芯
30、片集成了語音識別處理器和一些外部電路,包括ADC、DAC、麥克風接口、聲音輸出接口等。該芯片不需要外接任何的輔助芯片如Flash、RAM等,直接集成在現(xiàn)有的產(chǎn)品中,即可以實現(xiàn)語音識別/聲控/人機對話功能。具有較強的中斷處理能力, 適合實時語音處理。芯片采用48腳QFN塑料封裝,工作供電為3.3V。其核心是語音識別運算器,配合輸入、輸出、AD/DA轉(zhuǎn)換等模塊,完成語音識別的功能。LD 3320還支持(zhch)并行和串行接口,串行方式可以簡化與其他模塊的連接并具有,為語音處理(chl)帶來了極大的便利。電路(dinl)主要由主控制器電路和語音識別電路組成。ARM S3C2410處理器控制LD 3
31、320語音識別電路,輸出結(jié)果由ARM S3C2410處理器處理,然后通過總線來控制不同的設備。12864漢字圖形點陣液晶顯示模塊,是12864點陣的漢字圖形型液晶顯示模塊,可顯示漢字及圖形,內(nèi)置8192個中文漢字(16X16 點陣)、128 個字符(8X16 點陣)及 64X256 點陣顯示 RAM(GDRAM)??膳cCPU直接接口,提供兩種界面來連接微處理機,8位并行及串行兩種連接方式。各硬件模塊關系圖如圖2-1所示:麥克風揚聲器語音識別芯片LD 3320ARM9S3C241012864液晶顯示器模擬信號模擬信號數(shù)字信號控制指令控制指令JTAG程序調(diào)試下載EPROMMFLASHJTAG程序調(diào)
32、試下載圖2-1 各硬件模塊(m kui)關系圖2.2 電源模塊本系統(tǒng)采用3.3V供電,主要控制(kngzh)及識別部分采用LM1117-3.3穩(wěn)壓芯片,語音播放及繼電器部分采用7812為其提供穩(wěn)定的電流電壓。電源模塊電路圖如圖2-2所示:圖2-2 電源模塊電路圖1、參數(shù)(cnsh)特性(1)輸入電壓(V):4.7512; (2)輸出電流(A):1; (3)輸出電壓(V):3.3; (4)壓差(V):1。2、封裝(1)類型:SOT-223; (2)引腳:3; (3)體寬:6.30-6.71 mm; (4)長度:3.30-3.71 mm;(5)引腳間距:2.29 mm。2.3 寄存器模塊本系統(tǒng)(x
33、tng)采用華邦SPI flash芯片(xn pin)W25Q40AVSNIG,大小為512Kbyte,用于存儲人機對話時的聲音素材(sci)。寄存器模塊電路圖如圖2-3所示:圖路圖2-3 寄存器模塊電路圖選用串行閃存的理由:1、能夠減少微處理器的封裝管腳數(shù)目; 2、線路板(PCB)可以更小,更簡單; 3、能夠減少系統(tǒng)電路切換噪聲;4、能夠減低系統(tǒng)功能及制造成本。2.4 控制單元模塊采用ARM9 S3C2410單片機作為系統(tǒng)的主控制單元。ARM9 S3C2410系列單片機具有強大的數(shù)據(jù)處理功能,且I/O口控制靈活。2.4.1 ARM S3C2410芯片簡介S3C2410處理器是Samsung公
34、司基于ARM公司的ARM920T處理器核,采用0.18um制造工藝的32位微控制器。該處理器擁有:獨立的16KB指令Cache和16KB數(shù)據(jù)Cache,MMU,支持TFT的LCD控制器,NAND閃存控制器,3路UART,4路DMA,4路帶PWM的Timer ,I/O口,RTC,8路10位ADC,Touch Screen接口,IIC-BUS 接口,IIS-BUS 接口,2個USB主機,1個USB設備,SD主機和MMC接口,2路SPI。S3C2410處理器最高可運行在203MHz,32位處理器。核心板的尺寸僅相當于名片的2/3大小,尺寸如此小巧的嵌入式核心板是國內(nèi)首創(chuàng)。開發(fā)商可以充分發(fā)揮想象力,設
35、計制造出小體積,高性能的嵌入式應用產(chǎn)品。S3C2410芯片(xn pin)功能單元:內(nèi)部(nib)1.8V,存儲器3.3V,外部I/O3.3V,16KB數(shù)據(jù)Cache,16KB指令(zhlng)Cache,MMU; 內(nèi)置外部存儲器控制器(SDRAM控制和芯片選擇邏輯); LCD控制器,一個LCD專業(yè)DMA; 4個帶外部請求線的DMA; 3個通用異步串行端口(IrDA1.0,16-Byte Tx FIFO and 16-Byte Rx FIFO);2通道SPI; 一個多主I2C總線,一個I2S總線控制器; SD主接口版本1.0和多媒體卡協(xié)議版本2.11兼容; 兩個USB HOST,一個USB D
36、EVICE(VER1.1);4個PWM定時器和一個內(nèi)部定時器;看門狗定時器;117個通用I/O;56個中斷源;24個外部中斷;電源控制模式:標準、慢速、休眠、掉電;8通道10位ADC和觸摸屏接口;帶日歷功能的實時時鐘;芯片內(nèi)置PLL;設計用于手持設備和通用嵌入式系統(tǒng);16/32位RISC體系結(jié)構(gòu),使用ARM920T CPU核的強大指令集;帶MMU的先進的體系結(jié)構(gòu)支持WinCE、EPOC32、Linux;指令緩存(Cache)、數(shù)據(jù)緩存、寫緩存和物理地址TAG RAM,減小了對主存儲器帶寬和性能的影響;ARM920T CPU核支持ARM調(diào)試的體系結(jié)構(gòu);內(nèi)部先進的位控制器總線(AMBA)(AMBA
37、2.0,AHB/APB)。S3C2410系統(tǒng)管理:小端/大端支持;地址空間:每個BANK128MB(全部為1GB);每個BANK可編程為8/16/32位數(shù)據(jù)總線;BANK0到BANK6為固定起始地址;BANK7可編程BANK起始地址和大小;一共8個存儲器BANK;前6個存儲器BANK用于ROM、SRAM和其它;兩個存儲器BANK用于ROM、SRAM、和SDRAM(同步隨機存儲器);支持等待信號用以擴展總線周期;支持SDRAM掉電模式下的自刷新;支持不同類型的ROM用于啟動(NOR/NAND Flash、EEPROM和其它)。 S3C2410芯片(xn pin)封裝與型號:272-FBGA封裝;
38、S3C2410A-20、S3C2410A-26; 區(qū)別(qbi):前者主頻最高為200MHZ、后者主頻最高為266MHZ。S3C2410連接(linji)電路圖2-4所示: 圖2-4 S3C2410連接電路圖2.5 語音識別模塊 LD 3320的內(nèi)部集成了快速穩(wěn)定的優(yōu)化算法,不需外接Fla-sh、RAM,不需要用戶事先訓練和錄音而完成非特定人語音識別,識別準確率高。LD 3320采用并行方式直接與AR9 S3C2410相接,均采用1 k電阻上拉,A0用于判斷是數(shù)據(jù)段還是地址段;控制信號RDB、WRB、CSB,復位信號RSTB以及中斷返回信號INTB與AR9 S3C2410直接相連,采用10k電
39、阻上拉,輔助系統(tǒng)穩(wěn)定工作;和AR9 S3C2410采用同一個外部8 MHz時鐘;發(fā)光二極管D1、D2用于復位后的上電指示;MBS(引腳12)作為麥克風偏置,接了一個RC電路,保證能輸出一個浮動電壓給麥克風。LD 3320語音識別單元設計原理圖如圖2-5所示:圖2-5 LD 3320語音(yyn)識別單元設計原理圖2.5.1 LD 3320芯片(xn pin)簡介(jin ji)LD 3320是一顆基于非特定人語音識別(SI-ASR,Speaker Independent Automatic Speech Recognition)技術(shù)的語音識別/聲控芯片。該芯片集成了語音識別處理器和一些外部電路
40、,包括ADC、DAC、麥克風接口、聲音輸出接口等。該芯片不需要外接任何的輔助芯片如Flash、RAM等,直接集成在現(xiàn)有的產(chǎn)品中,即可以實現(xiàn)語音識別/聲控/人機對話功能,并且,識別的關鍵詞語列表是可以任意動態(tài)編輯的。LD 3320完成非特定人語音識別,每次識別最多可以設置50項候選識別句,每個識別句可以是單字、詞組或短句,長度為不超過10個漢字或者79個字節(jié)的拼音串。另一方面,識別句內(nèi)容可以動態(tài)編輯修改,因此可由一個系統(tǒng)支持多種場景。芯片采用48腳QFN塑料封裝,工作供電為3.3V。其核心是語音識別運算器,配合輸入、輸出、AD/DA轉(zhuǎn)換等模塊,完成語音識別的功能。LD 3320還支持并行和串行接
41、口,串行方式可以簡化與其他模塊的連接。LD 3320 電路(dinl)說明:1、電壓(diny)要求 VDD: 數(shù)字電路用電源(dinyun)輸入3.0 V3.3 V ,VDDIO: 數(shù)字 I/O 電路用電源輸入1.65 VVDD ,VDDA:模擬電路用電源輸入3.0 V4.0 V。 2、芯片管腳輸入電壓范圍:高電壓(邏輯“1”):0.7*VDDIO VDDIO 低電壓(邏輯“0”):00.3*VDDIO 因此,開發(fā)者需要保證自己使用的主控 MCU 同樣工作在 3.3v,保證主控 MCU 向 LD 3320 的管腳輸出的高電壓不超過 3.3V。2.5.2 LD 3320功能單元1、時鐘(Clo
42、ck) 芯片必須連接外部時鐘,可接受的頻率范圍是 448MHz,而芯片內(nèi)部還有 PLL 頻率合成器,可產(chǎn)生特定的頻率供內(nèi)部模塊使用。 2、復位 對芯片的復位信號(RSTB*)必須在 VDD/VDDA/VDDIO 都穩(wěn)定后進行。無論芯片正在進行何種運算,復位信號都可以使它恢復初始狀態(tài),并使各寄存器復位。如果沒有后續(xù)的指令(對寄存器的設置),復位后芯片將進入休眠狀態(tài)。此后,一個 CSB*信號就可以重新激活芯片進入工作狀態(tài)。 3、并行接口 本芯片可通過并行方式和外部主CPU連接,此時使用8根數(shù)據(jù)線(P0-P7),4個控制信號(WRB*, RDB*, CS*,A0),以及一個中斷返回信號(INTB*)
43、。 4、串行接口 串行接口通過SPI協(xié)議和外部(wib)CPU連接,首先要將 MD 接高電平,而將(SPIS*)接地。此時只使用4個管腳:片選(SCS*)、SPI時鐘(SDCK)、SPI 輸入(SDI)和 SPI 輸出(SDO)。 5、寄存器對芯片(xn pin)的設置和命令,包括傳送數(shù)據(jù)和接受數(shù)據(jù),都是通過對寄存器的操作來完成的。例如進行語音識別時,設置識別的關鍵詞語列表,設定芯片的識別模式,識別完成后獲得識別結(jié)果都是通過讀/寫寄存器來完成。播放聲音時,就是將 MP3 格式的數(shù)據(jù)循環(huán)放入 FIFO 對應的寄存器。(識別結(jié)果是通過寄存器返回識別出的關鍵詞語在關鍵詞語列表中的排列序號 Index
44、 數(shù)值,該 Index 數(shù)值是在設置(shzh)關鍵詞語列表時指定)。 6、喇叭音量的外部控制除了特定寄存器來控制音量以外,芯片外部的電路可以控制喇叭的音量增益。使用的是 EP1、EP2、EP3 對應的管腳。 7、快速開發(fā)和評估驗證為了方便開發(fā)者對于LD 3320芯片進行快速開發(fā)和評估驗證,ICRoute 提供了開發(fā)板和模塊。2.5.3 LD 3320芯片模式選擇用戶可以通過編程,設置兩種不同的用戶使用模式:“觸發(fā)識別模式”和“循環(huán)識別模式”:1、觸發(fā)識別模式:系統(tǒng)的主控MCU在接受到外界一個觸發(fā)后(比如用戶按動某個按鍵),啟動LD 3320芯片的一個定時識別過程(比如5秒鐘),要求用戶在這個
45、定時過程中說出要識別的語音關鍵詞語。過了這個過程后,需要用戶再次觸發(fā)才能再次啟動一個識別過程。2、循環(huán)識別模式:系統(tǒng)(xtng)的主控MCU反復啟動識別過程。如果沒有人說話沒有識別結(jié)果,則每次識別過程的定時到時后再啟動一個識別過程;如果有識別結(jié)果,則根據(jù)識別作相應處理后(比如播放某個聲音作為回答)再啟動一個識別過程。一般來說,觸發(fā)識別適合識別精度要求比較高的場合。外界觸發(fā)后,產(chǎn)品可以播放提示音或者其他方式來提示用戶在接下來的幾秒鐘內(nèi)說出要識別的內(nèi)容,這樣來引導用戶在規(guī)定的時間內(nèi)只說出要識別的內(nèi)容,從而保證比較高的識別率。而循環(huán)識別比較適合需要始終進行語音監(jiān)控的場合,或者沒有按鍵等其他設備控制識
46、別開始的場合。而這種狀態(tài),識別準確度會有一定下降(xijing),在循環(huán)識別的過程中,用戶的其他說話聲音,或者外界的其他聲音,都有可能被識別引擎誤識別出錯誤的結(jié)果,需要產(chǎn)品的控制邏輯都作相應的處理。在識別精度要求(yoqi)高的場景中,應該采用“觸發(fā)識別”模式。原因是:(1)用戶在每次按鍵后,精神處于最集中的狀態(tài),此時用戶說的語音命令會比較認真、清晰。避免了用戶過時隨意的發(fā)音導致的識別誤差。(2)每次按鍵后,產(chǎn)品應該給以一個明顯的開始信號,比如發(fā)出“當”的一聲或者其他提示信號,可以給用戶一個明確開始的提示,方便用戶掌握說語音命令的時間。(3)由于按鍵觸發(fā)后,用戶就會貼近麥克風并說出語音命令,避
47、免了其他環(huán)境聲音被錄入LD 3320芯片導致的誤識別,這種方式還是一種省電的方式,在不識別時,徹底不讓芯片工作以省電。3、口令觸發(fā)模式在一些應用場合,希望識別精度高,但是又無法要求用戶每次都用手按鍵來“觸發(fā)識別”。此時,可以采用“口令觸發(fā)模式”。產(chǎn)品定義一句短語,作為觸發(fā)口令。比如,可以定義“你好”作為觸發(fā)口令。產(chǎn)品在等待用戶觸發(fā)時,啟動一個“循環(huán)識別”模式,把觸發(fā)口令“你好”和其他幾十個用來吸收錯誤的詞匯設置進LD 3320。只有當檢測到識別出的結(jié)果是觸發(fā)口令時,才認為是終端用戶叫了這個口令。此時,給出提示音,并啟動一個“觸發(fā)識別模式”,并把相應的識別列表設置進LD 3320,提示用戶在提示
48、音后幾秒鐘內(nèi)說出要執(zhí)行的操作。在等待用戶的過程時,如果識別的結(jié)果是那些(nxi)用來吸收錯誤的詞匯,則認為是誤識別,或者其他的聲音干擾,而不進行任何(rnh)的處理,直接再次進入“循環(huán)(xnhun)識別”模式。這種口令觸發(fā)模式,融合了其他兩種模式的優(yōu)點,并且結(jié)合第二節(jié)提到的“垃圾關鍵詞語”的方法,可以為產(chǎn)品提供更加方便實用的語音操作特性。2.5.4 關鍵詞的ID及其設置在把關鍵詞語設置進LD 3320時,是把關鍵詞語的拼音串傳入LD 3320,并同時傳入一個ID,用來代表這個關鍵詞語。LD 3320的識別結(jié)果,也是把識別出的關鍵詞語的ID作為結(jié)果輸出。在LD 3320芯片,不同的關鍵詞語是可以
49、對應同一個ID。 而且ID不需要是連續(xù)的。這樣就為產(chǎn)品開發(fā)者提供了很方便的編程手段。例如:“北京”,“首都”,可以設置為同一個ID,進行后續(xù)處理。例如:在使用第二節(jié)提到的“垃圾關鍵詞語”時,可以把添加的這些用來吸收錯誤的關鍵詞語的ID都標記成一個值,或者把它們標注為比較特殊的ID值,如大于200。在程序中就比較簡單,很容易處理誤識別,避免了添加進很多關鍵詞語后,寫程序中需要為這些關鍵詞語的處理增加過多的程序分支。終端用戶在說語音指令時,可能對同一個詞匯有不同的發(fā)音習慣。例如,“打開電燈”,用戶可能會說“開燈”,“打開燈”,“打開電燈”,“把燈打開”等等。充分利用LD 3320的50條可動態(tài)編輯
50、的關鍵識別條目的特性,開發(fā)者可以把這些習慣發(fā)音都設置進芯片,這樣無論用戶怎么說,都會被正確識別出來,進一步增加終端用戶的良好體驗。2.5.5 反應時間LD 3320芯片內(nèi)部是通過VAD(端點檢測)機制來判斷(pndun)人是否說完語音,并給出識別結(jié)果根據(jù)VAD機制,語音識別芯片監(jiān)測出有一段連續(xù)的背景噪音后,認為用戶已經(jīng)說完了語音識別命令,然后再給出識別結(jié)果。默認設置是監(jiān)測到在人聲開始后有連續(xù)的600毫秒的不說話時,才會給出識別結(jié)果。也就是說,根據(jù)默認設置,從人說話結(jié)束,到語音識別芯片(xn pin)主動送出結(jié)果中斷,至少要有600毫秒的間隔,如果用戶希望調(diào)節(jié)這個反應間隔,可以從以下幾方面入手:
51、1、改變(gibin)使用方式采用類似于步話機的方式,每次人按鍵后,按下不放,開始說命令,說完命令后,松開按鍵,每次檢測到松開按鍵時,主控的單片機通過設置BC寄存器來立即獲得識別結(jié)果。2、修改VAD判斷的寄存器Vad Silence End在語音檢測到語音數(shù)據(jù)段以后,又檢測到背景噪音段,連續(xù)檢測到多長時間的背景噪音段才可以確認為是真正的語音結(jié)束。每1單位,10毫秒。Default:60,相當于600毫秒數(shù)值范圍:20200(相當于2002000毫秒)但是這個修改會導致,如果這個時間過短,導致用戶在說話時的說話停頓也會造成VAD檢測認為說話結(jié)束,從而降低某些用戶的識別率。3、修改麥克風的音量35
52、寄存器,(建議調(diào)整范圍在40H58H之間),看哪個錄音增益適合使用的麥克風,以及使用的環(huán)境。4、修改B8寄存器比如修改為2,那么這意味著,無論如何,在每次識別開始后2秒鐘的時間內(nèi),必然會停止識別給出一個識別結(jié)果。 如果b8值特別小,比如設置:1, 2, 3,就需要在開始識別前,給用戶一個很明確的提示,要開始識別了。免得用戶還沒有準備就識別時間過去了。但這個間隔設置的過短,也必然會引起一些可能存在的誤識別,比如語音命令比較長,那么這個時間設置的太小,就會造成比較長的語音命令無法在特定時間內(nèi)完整念完引起誤識別。所以當這個數(shù)值設置比較小的時候,一般建議使用“觸發(fā)識別”的用戶界面,避免使用“循環(huán)識別”
53、的用戶界面。5、改變使用(shyng)環(huán)境或許在某些環(huán)境中的噪聲或者回聲會影響到判斷說話結(jié)束。以及(yj)說話人自己的音量,如果聲音很低,也會導致判斷人說話是否結(jié)束比較困難。改變命令詞語內(nèi)容,比較好念,開口音響亮等,方便使用者連續(xù)清晰念出語音命令。2.6 GPRS模塊(m kui)GPRS(General Packet Radio Service 通用分組無線業(yè)務)是在現(xiàn)有GSM(Global System for Mobile communication全球移動通信系統(tǒng))基礎上發(fā)展起來的一種新的承載業(yè)務,目的是為GSM用戶提供分組形式的數(shù)據(jù)業(yè)務。GPRS采用與GSM同樣的無線調(diào)制標準、頻帶、
54、TDMA幀結(jié)構(gòu),因此在現(xiàn)有的基站子系統(tǒng)中增加一些模塊即可提供 GPRS 服務。GPRS 允許用戶在分組交換模式下發(fā)送和接收數(shù)據(jù),從而提供了一種高效、低成本的無線數(shù)據(jù)分組業(yè)務。在GSM系統(tǒng)中,無線信道資源非常寶貴,而采用 GPRS 則可靈活運用無線信道,即每一個用戶可以有多個無線信道,而同一信道又可以由幾個用戶共享,極大地提高了無線資源的利用率。GPRS使現(xiàn)有GSM 網(wǎng)的數(shù)據(jù)業(yè)務突破了最高速率為9.6kbit/s的限制,最高數(shù)據(jù)速率可達171.2kbit/s。將計算機通過串行通信技術(shù)與 GPRS 無線通信網(wǎng)絡建立連接,可以實現(xiàn)手機與計算機的通信。計算機與GPRS網(wǎng)絡的連接可以采用GPRS模塊,也
55、可以采用GPRS Modem,此處采用基于AT指令的 M22 GPRS 模塊使計算機與 GPRS 網(wǎng)絡進行連接,系統(tǒng)組成結(jié)構(gòu)如圖2-4所示。本文在Windows環(huán)境下,利用VB6.0中的Macomb控件實現(xiàn)GPRS模塊與計算機的串行通信,采用ADO對象模型對數(shù)據(jù)庫進行訪問,實現(xiàn)語音撥號、語音發(fā)短信的功能?;贕PRS網(wǎng)絡的應用系統(tǒng)組成結(jié)構(gòu)如圖2-6所示:計算機ARM9微處理器BenQM22GPRS手機圖2-6 基于(jy)GPRS 網(wǎng)絡(wnglu)的應用系統(tǒng)組成結(jié)構(gòu)2.7 語音撥號模塊(m kui)摘機后無需再用手撥(前提是手機支語音撥號表面地來說就是摘機后手動指向手機語音撥號功能,說出被叫
56、者姓名,電話即自動拔向被叫者。一般分為6個步驟:1、從第一 HYPERLINK /view/905346.htm t _blank 畫面進入撥號 HYPERLINK /view/17674.htm t _blank 程序;2、聽到“請說出人名”的提示后說出要與之通信的人名;3、手機將根據(jù)你的語音計算出數(shù)名聲音類似的人名,第一條為首選;4、如果第一條正確,且該人名僅有一個號碼,按鍵撥號,或在默認時間內(nèi)自動撥號,通話;如果該人名的聯(lián)系電話多于一條,則啟動“個人電話表”,選擇,撥號;5、如果第一條不正確,其余條中有正確的,按動上下鍵選擇正確,按鍵,通話; 6、如果都不正確,按C鍵,返回第一畫面。在使
57、用語音撥號之前,必須要錄制聲控標簽,也就是說為 HYPERLINK /view/249627.htm t _blank 電話薄中的幾個電話號碼錄制聲控標簽。錄制聲控標簽的具體操作步驟為:首先在手機面板中選擇“加聲控標簽”按鈕,在隨后彈出的界面中選擇所需的姓名和電話號碼,接著再用手機按一下“功能鍵”,然后將手機貼近耳朵,用標準的話語來說出要錄制的詞語就算完成錄制聲控工作了。2.8 語音短信模塊語音發(fā)短信是一款功能強大的語音聲控助手(zhshu),只要對軟件下指令,軟件即可用迅速簡潔的方式協(xié)助用戶達成任務,包括打開關閉應用程序,發(fā)送短信,撥打電話,撰寫 HYPERLINK /view/300107
58、.htm t _blank 文本(wnbn)等等。重要的是,軟件支持中文。同時語音發(fā)短信是一款出色的語音控制軟件,其界面精美,簡單易用。語音識別率很高,并支持中文等語言,對完成手機(shu j)的基本操作非常實用。軟件的使用方法如下:1、單擊“ HYPERLINK /view/44516.htm t _blank 語音輸入”按鈕,進行語音短信輸入,短信內(nèi)容將會自動顯示; 2、編輯好語音內(nèi)容,單擊“發(fā)送短信”按鈕即可進入短信界面,進行短信發(fā)送; 3、也可以通過清空按鈕清空短信框中的內(nèi)容。2.9 LCD顯示連接電路漢字一般是以點陣式存儲的,如1616, HYPERLINK /tech/dr/200
59、010060034/328502.html t _blank 2424點陣,漢字的字模其實是漢字字形的圖形化,所謂16點陣字模,就是把漢字寫在一個1616的網(wǎng)格內(nèi),漢字的筆劃通過某網(wǎng)格時該網(wǎng)格就對應1,否則該網(wǎng)格對應0,這樣,每一網(wǎng)格均對應1或0,把對應1的網(wǎng)格連起來看,就是這個漢字,漢字就是這樣通過字節(jié)表示其點陣存儲在字符字庫中的,為了方便查找所需漢字的點陣,每個漢字都與一個雙字節(jié)的內(nèi)碼一一對應,通過漢字的內(nèi)碼可以計算出它的點陣起始字節(jié)?,F(xiàn)以16點陣為例來進行說明,首先,可由內(nèi)碼計算出它在漢字庫中的區(qū)位碼,其計算公式為:BQ=Bn1-160BW=Bn2-160式中,BQ表示區(qū)碼,Bw為表示位
60、碼,而Bn1和Bn2則分別表示內(nèi)碼的第一字節(jié)和內(nèi)碼的第二字節(jié)。當這些區(qū)位碼被計算出來之后,就可以用區(qū)位碼得到它在漢字庫中字模第一個字節(jié)的位置,即:(BQ94+Bw)32。這樣,接下來就可以向連續(xù)讀出由32個字節(jié)組成的該字的點陣數(shù)據(jù)。液晶顯示器作為一種低功耗顯示器件,廣泛應用于計算器、數(shù)字式儀表等低功耗系統(tǒng)中。但一般使用的液晶顯示器均為七段筆劃式,只能顯示數(shù)字和少量字符,對于較復雜的字符或圖形則無能為力。而點陣式液晶顯示模塊可以顯示各種各樣的字符(包括簡單的漢字),而且點陣顯示模塊具有可編程能力。由于以上優(yōu)點,點陣式液晶顯示模塊獲得了廣泛的應用。LCD顯示連接電路如圖2-7所示:圖2-7 LCD
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 年度硬面堆、藥芯焊線戰(zhàn)略市場規(guī)劃報告
- 年度鐘表與計時儀器競爭策略分析報告
- 二零二五年度特種吊車租賃與運輸服務合同3篇
- 二零二五版高管勞動合同樣本:股權(quán)激勵與競業(yè)禁止條款3篇
- 二零二五年空調(diào)銷售與節(jié)能產(chǎn)品認證合同3篇
- 2025年度城市綠地養(yǎng)護及植物配置優(yōu)化合同4篇
- 2025年度私人診所與患者之間的遠程醫(yī)療服務合同
- 2024版簡易協(xié)議管理軟件解決方案一
- 二零二五年度新能源材料采購代理協(xié)議3篇
- 二零二四年太陽能光伏發(fā)電項目合同
- 2024年智能科技項目開發(fā)戰(zhàn)略合作框架協(xié)議
- 精神科健康宣教手冊-各種精神疾病宣教
- 人才交流中心聘用合同模板
- 騰訊云人工智能工程師認證考試題(附答案)
- 2024版新能源汽車充電樁建設與運營合作框架協(xié)議3篇
- 掛靠免責協(xié)議書范本
- 廣東省廣州市天河區(qū)2023-2024學年高一上學期期末考試數(shù)學試卷(解析版)
- 鋼構(gòu)樓板合同范例
- 四年級全一冊《勞動與技術(shù)》第四單元 活動4《飼養(yǎng)動物的學問》課件
- 2024-2025學年人教版(2024)信息技術(shù)四年級上冊 第11課 嘀嘀嗒嗒的秘密 說課稿
- 2024中考物理真題匯編:電與磁(含解析)
評論
0/150
提交評論