智能語音技術(shù)與應(yīng)用-基于Python實現(xiàn)（高職）全套教學(xué)課件

上傳人：b*** IP屬地：浙江上傳時間：2024-03-02 格式：PPTX 頁數(shù)：452 大?。?9.62MB 積分：35 舉報 版權(quán)申訴

智能語音技術(shù)與應(yīng)用-基于Python實現(xiàn)（高職）全套教學(xué)課件_第2頁

智能語音技術(shù)與應(yīng)用-基于Python實現(xiàn)（高職）全套教學(xué)課件_第3頁

智能語音技術(shù)與應(yīng)用-基于Python實現(xiàn)（高職）全套教學(xué)課件_第4頁

智能語音技術(shù)與應(yīng)用-基于Python實現(xiàn)（高職）全套教學(xué)課件_第5頁

已閱讀5頁，還剩447頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

智能語音全套可編輯PPT課件緒論智能語音技術(shù)概述目錄一、什么是智能語音二、智能語音技術(shù)流程三、智能語音產(chǎn)業(yè)技術(shù)現(xiàn)狀四、智能語音產(chǎn)業(yè)應(yīng)用現(xiàn)狀五、智能語音產(chǎn)業(yè)人才現(xiàn)狀一、什么是智能語音

智能語音是以語音信號識別為基礎(chǔ)，搭配自然語言處理和對話管理等技術(shù)，將語音輸入信息提取、分析，最終通過語音合成等方式輸出并完成響應(yīng)的人機語音交互技術(shù)。智能語音的優(yōu)點(1)操作方式便捷簡單語音操作貼近本能。語言是人天生具備的能力，無需后天特定的學(xué)習(xí)。(2)無界面流程限制智能語音對答可以直達用戶需求，無需傳統(tǒng)圖形用戶界面多層級界面操作。(3)人性化聲音可以更加親切直觀地表現(xiàn)情緒，而文字符號等反饋方式相對缺乏鮮活體驗。(4)場景開放可以在一定距離空間內(nèi)完成交互行為，可以在家庭場景下多人使用。1.聊天機器人體驗更好了，比10年前2.語料庫更豐富（應(yīng)對的話多）3.不標準的普通化，識別有誤差（說什么。。。）4.沒有男朋友怎么賣給她？（語義理解效果不好）5.智商約3歲（個人感覺聊天方面）二、智能語音技術(shù)流程語音，是指人類通過發(fā)音器官發(fā)出來的、具有一定意義的、目的是用來進行社會交際的聲音。在語言的形、音、義三個基本屬性當中，語音是第一屬性，人類的語言首先是以語音的形式形成。語音信號處理，就是對語音信號進行表示，分析，變換，處理，綜合等的總稱。它是一門涉及計算機，通信，語音學(xué)，語言學(xué)，數(shù)理統(tǒng)計學(xué)以及神經(jīng)生理學(xué)等多學(xué)科的一門交叉學(xué)科,是難度大的高科技領(lǐng)域。補充：語音增強語音增強是指當語音信號被各種各樣的噪聲干擾、甚至淹沒后，從噪聲背景中提取有用的語音信號，抑制、降低噪聲干擾的技術(shù)。一句話，從含噪語音中提取盡可能純凈的原始語音。語音增強語音噪聲含噪語音增強語音補充：語音增強智能語音技術(shù)流程用戶：“明天出門要帶傘嗎？”音箱：“您好，成都明天晴，氣溫5-10℃，不需要帶傘哦?！敝悄苷Z音主要技術(shù)領(lǐng)域就包含了“信號處理”“語音識別”“自然語言處理”“語音合成”4個主要方向。希望實現(xiàn)人與機器以語言為紐帶的通信(“能聽、會說、懂你”).可以將任意的文字信息轉(zhuǎn)化為自然流暢的語音,相當于給機器裝上了人工嘴巴。可以將語音中內(nèi)容、說話人、語種等信息識別出來，相當于給機器裝上了人工耳朵。語音識別鍵盤輸入手寫輸入語音輸入應(yīng)用語音識別技術(shù)涉及日常生活的各個方面如電信、金融、新聞、公共事業(yè)等各個行業(yè)，通過采用語音識別技術(shù)，可以極大的簡化這些領(lǐng)域的業(yè)務(wù)流程以及操作；提高系統(tǒng)的應(yīng)用效率。語音監(jiān)聽語音撥號語音命令語音導(dǎo)航語音搜索語音聽寫語音翻譯語音合成語音合成是人機語音通信的一個重要組成部分，語音合成技術(shù)賦予機器“人工嘴巴”的功能，它解決的是如何讓機器象人那樣說話的問題。鍵盤光電掃描手寫識別網(wǎng)絡(luò)/數(shù)據(jù)庫文本語言處理韻律處理語音合成結(jié)果輸出詞典/規(guī)則語音庫語音合成發(fā)展情況粵語合成系統(tǒng)中文男聲系統(tǒng)純英文語音合成系統(tǒng)STOPSTOPSTOP年份1995年1998年1999年2001年2003年自然度<3.03.03.53.84.3STOPTrainable語音合成20世紀末，可訓(xùn)練的語音合成方法基于統(tǒng)計建模和機器學(xué)習(xí)的方法，根據(jù)一定的語音數(shù)據(jù)進行訓(xùn)練并快速構(gòu)建合成系統(tǒng)。中文女聲系統(tǒng)中文男聲系統(tǒng)純英文語音合成系統(tǒng)STOPSTOPSTOPEmotion（情感）語音合成在現(xiàn)在陳述語氣合成的基礎(chǔ)上實現(xiàn)感嘆，疑問，強調(diào)的效果在正常情緒合成的基礎(chǔ)上增強系統(tǒng)在高興，生氣，悲傷等多種情緒方面的表現(xiàn)能力

中立合成情感合成生氣難過應(yīng)用—語音轉(zhuǎn)換在已有語音合成系統(tǒng)基礎(chǔ)上模擬各種發(fā)音人說話使合成系統(tǒng)有快速適應(yīng)能力，根據(jù)用戶的需要提供個性化語音合成服務(wù)擴展語音服務(wù)在信息服務(wù)以外領(lǐng)域的功能（如娛樂）音色轉(zhuǎn)換的漸進過程演示STOP自然語言處理技術(shù)

自然語言處理（NLP）是人工智能（AI）的一個領(lǐng)域，它使機器可以理解人類的語言。NLP結(jié)合語言學(xué)和計算機科學(xué)的力量來研究語言的規(guī)則和結(jié)構(gòu)，并創(chuàng)建能夠理解、分析和提取文本和語音含義的智能系統(tǒng)（運行在機器學(xué)習(xí)和NLP算法上）。

垃圾郵件過濾讓計算機理解自然語言文本的意義。“善解人意”是智能的必要條件。自然語言：是指人類種族集團的本族語言，是我們?nèi)粘Ｊ褂玫恼Z言。自然語言是相對于人工語言（程序設(shè)計語言C++）而言的。語言是思維的載體，是人際交流的重要工具。八大語系漢藏語系、印歐語系、亞非語系、阿爾泰語系、烏拉爾語系、尼日爾-剛果語系、馬來-玻里尼西語系和德拉維達語系。5600多種不同的語言和方言使用人口最多的語言有漢語、英語、俄語、日語、法語和德語等。序號語言表達形式1魯迅出生于1881年2魯迅出生在1881年3魯迅誕生于1881年4周樹人是1881年出生的5魯迅先生生于1881年6魯迅生于光緒7年一個能理解語言的計算機應(yīng)該能夠判斷多種的表達都是同一個意思，這不是一件容易的事情。人們以為他對她有“意思”，于是，建議他對她“意思意思”。他說，他沒那種“意思”。她則反問，你們是什么“意思”。大伙中有的覺得很有“意思”，有的則認為真沒“意思”。應(yīng)用與場景假如某公司發(fā)布了一款全新的手機產(chǎn)品。新產(chǎn)品的發(fā)布帶來了來自不同媒體的相關(guān)報道、用戶反饋。面對這些數(shù)據(jù)，你/老板可能希望了解：?大家關(guān)注的是這款手機的哪些特性；?大家對這款手機的評價如何；?有哪些用戶表達了購買的意愿。在面對海量數(shù)據(jù)的情況下，使用人力分析這些數(shù)據(jù)顯然是不切實際的。這種場景下，計算機語言分析就派上了用場。應(yīng)用與場景幫助商家進行產(chǎn)品分析，輔助用戶進行消費決策評論觀點抽取字符串操作和處理是基礎(chǔ)！英文文本預(yù)處理中文不太友好（涉及編碼解碼問題）自然語言處理：文本分析---熱點最新補充：ChatGPTGPT是GenerativePre-trainedTransformer（生成式預(yù)訓(xùn)練變換模型）的縮寫。需要非常大量的算力（芯片），輕量型的模型（我們用）ChatGPT是黑盒模型。目前還未能對內(nèi)在算法邏輯進行分解！卷積神經(jīng)網(wǎng)絡(luò)長短期記憶人工神經(jīng)網(wǎng)絡(luò)三、智能語音產(chǎn)業(yè)技術(shù)現(xiàn)狀(1)語音識別存在場景受限問題在真實使用場景中，考慮到遠場、方言、噪音、斷句等問題，準確率會大打折扣。目前業(yè)內(nèi)普遍宣稱的97%識別準確率，更多的是人工測評結(jié)果，只在安靜室內(nèi)的進場識別中才能實現(xiàn)。很多口語化表達，如閑聊式的對話，識別效果也不理想。(2)語義分析仍是淺層處理語言中往往一詞多義，人在理解時會基于已有知識儲備和上下文環(huán)境，但機器很難做到。(3)語音合成仍偏機械感提高合成語音的自然度、豐富合成語音的表現(xiàn)力、降低語音合成技術(shù)的復(fù)雜度、多語種語音合成等。全球智能語音市場份額占比：Nuance：業(yè)務(wù)：語音識別、T9智能文字輸入法（移動設(shè)備）為微軟開發(fā)出“Siri”，2021年被微軟收購百度語音識別準確度語音交互更能將人的雙手、眼睛從圖形界面交互中解放出來。（語音助手會在越來越多沒有屏幕的設(shè)備上出現(xiàn)）沒有一個受訪者每天使用Siri，或者更具體是，沒有一位受訪者是每星期都使用Siri的。屏幕上幾乎所有的設(shè)計都是在誘惑你去點擊、滑動或者完成更復(fù)雜的『手指交互』。問題不在于用戶是否需要，而在于技術(shù)能否滿足用戶?？偨Y(jié)：『不智能』的確是現(xiàn)狀四、智能語音產(chǎn)業(yè)應(yīng)用現(xiàn)狀中國智能語音產(chǎn)業(yè)規(guī)模用戶端和商業(yè)端①移動設(shè)備智能語音技術(shù)在可穿戴設(shè)備中的應(yīng)用量較少。可穿戴設(shè)備雖然沒有屏幕或屏幕較小，更適合語音交互，但大多（比如智能手表）都是非生活必需品，沒有太多交互需求智能手機中的各類應(yīng)用軟件大多都配備了語音功能，相比觸摸和文字交互，使用率也不算高。微信語音輸入功能思考：

關(guān)愛老人既是中華民族的傳統(tǒng)美德，也是人類進步科學(xué)發(fā)展的前提。關(guān)愛老人，就要尊重老人的思維方式和自主選擇，就要提供更多的便利使老人感受到關(guān)愛。您認為智能語音技術(shù)可以為老人帶來什么服務(wù)與便利？②汽車由于人在車內(nèi)雙手和雙眼被占用，而需求又十分明確，因此智能語音成了這一場景下最合適的交互方式。智能語音在車內(nèi)的應(yīng)用主要以車載導(dǎo)航為主。③家居智能電視、音箱、家用機器人智能家電的語音控制可能通過一個中樞設(shè)備來實現(xiàn)。(2)商業(yè)端①客服客服作為勞動密集型行業(yè)。智能機器人客服可以在很大程度上解決簡單、重復(fù)性工作，幫助企業(yè)節(jié)省人工和坐席成本，提升運營效率。由于客服問題主要集中在特定的產(chǎn)品或單一垂直領(lǐng)域，因此需要企業(yè)擁有完整的結(jié)構(gòu)化知識庫，幫助機器人更好地查詢和匹配問答內(nèi)容。目前，按照行業(yè)平均水平，機器人客服可以解決70%左右問題，其余的問題可由人工處理。②教育教育領(lǐng)域的應(yīng)用包括中英文口語評測，以及部分教育機器人的交互功能。科大訊飛作為智能語音和教育市場的龍頭企業(yè)，通過為一些全國性考試提供技術(shù)支持，已經(jīng)成為中英文口語測評方面的主要提供方。科大訊飛與新東方聯(lián)合成立了東方訊飛，用新東方的數(shù)據(jù)和訊飛的技術(shù)，推動教育、培訓(xùn)、學(xué)習(xí)的智能化進程，智能語音測評技術(shù)有望在其中發(fā)揮重要作用。③醫(yī)療醫(yī)療領(lǐng)域的應(yīng)用目前主要是電子病歷錄入。醫(yī)生在臨床診斷時使用專業(yè)麥克風(fēng)，可將診斷信息實時轉(zhuǎn)化成文字，錄入醫(yī)院系統(tǒng)，方便后續(xù)查詢和問答，提高醫(yī)生工作效率。④金融由于金融行業(yè)帶有明顯的客戶服務(wù)屬性，加上完整而龐大的業(yè)務(wù)及數(shù)據(jù)積累，因此成為智能語音的重要應(yīng)用陣地。當前，一些商業(yè)銀行已經(jīng)通過使用語音識別技術(shù)，實現(xiàn)了語音業(yè)務(wù)導(dǎo)航、語音交易、業(yè)務(wù)辦理等基礎(chǔ)服務(wù)。思考：現(xiàn)在銀行業(yè)務(wù)上有很多識別方式，比如指紋、虹膜、人臉、語音等識別方式。您接觸到最多的是哪種識別方式？您認為語音識別與其相比有什么優(yōu)劣？智能語音商用服務(wù)機器人也逐漸成熟，有望在商場、醫(yī)院等各類服務(wù)場所開辟新的應(yīng)用領(lǐng)地。點餐機、訂票機泛娛樂：一個巨大的有待開發(fā)的市場。配音：利用語音合成技術(shù)，可以大大降低配音的成本和周期;

短視頻：利用語音合成技術(shù)可以非常容易地為自己的視頻配上有趣的聲音來展現(xiàn)內(nèi)容;虛擬主持人：利用語音合成技術(shù)，可以提升信息的時效性，同時大大緩解主持人的工作壓力，降低其工作強度。四、智能語音產(chǎn)業(yè)人才現(xiàn)狀把智能語音算法和具體產(chǎn)業(yè)相結(jié)合落地，使用現(xiàn)有智能語音工具，根據(jù)應(yīng)用場景解決具體問題，做規(guī)?；?、產(chǎn)業(yè)化工程應(yīng)用。形成終身學(xué)習(xí)的意識，以獲得更高的職業(yè)發(fā)展空間?；A(chǔ)層技術(shù)層語音識別算法工程師語音合成算法工程師語音信號處理算法工程師自然語言處理算法工程師架構(gòu)師建模應(yīng)用工程師

語音前端處理工程師語音開發(fā)工程師語音數(shù)據(jù)處理工程師自然語言處理開發(fā)工程師測試工程師對話系統(tǒng)工程師數(shù)據(jù)標注工程師智能語音相關(guān)工作崗位市場調(diào)查與測評品牌方言辨識度（方言類型）有趣的問答內(nèi)容（舉例）優(yōu)點不足您認為可改進的地方天貓精靈

小度

小愛

團隊成員名單

學(xué)生活動總結(jié)

活動評價

創(chuàng)意園地語音技術(shù)應(yīng)用方向是誰在說話？ ——說話人識別說的是什么內(nèi)容？——語音識別有干擾怎么辦？ ——語音增強話里有話？ ——語音隱藏說話人在哪？ ——聲源定位說話人的情緒？ ——情感識別計算機說話？ ——語音合成有效的傳輸 ——語音編碼作業(yè)：提交“是誰在說話？”相關(guān)領(lǐng)域的小視頻，必須轉(zhuǎn)換為mp4格式上傳，時長1-3分鐘；“說話人的不同情緒如何判定；或以不同情緒說話”領(lǐng)域的小視頻，必須轉(zhuǎn)換為mp4格式上傳，時長1-3分鐘；文件命名規(guī)則：核心主題(自命名)-姓名THANKS智能語音語音的采集與轉(zhuǎn)換CONTENT目錄聲音的拾取裝置語音信號的數(shù)字化聲音/人聲的特性(擴充)一、聲音/人聲的特性人類發(fā)音系統(tǒng)語音：由人體發(fā)音器官在大腦控制下的生理運動產(chǎn)生。發(fā)音器官：由肺和氣管、喉（包括聲帶）、聲道（咽腔、鼻腔和口腔）三部分組成。

◆肺和氣管：整個語音系統(tǒng)的能源提供者

◆喉：主要的聲音生成機構(gòu)

◆聲道：則對生成的聲音進行調(diào)制交叉學(xué)科---快速了解發(fā)聲和聽覺生物機理人類發(fā)音系統(tǒng)肺的功能：◆呼吸功能，進行氣體交換

◆提供能量，將壓縮空氣供給發(fā)音器官氣管：連接肺和喉，是肺與聲道聯(lián)系的通道喉：由軟骨和肌肉組成的復(fù)雜系統(tǒng)，含聲帶（發(fā)音器官）聲帶：

◆是閥門，又是振動部件

◆聲帶緊繃在喉頭的前后壁上，有折疊

◆聲帶的長度約10~14mm聲帶的聲學(xué)功能：為語音提供主要的激勵源人類發(fā)音系統(tǒng)空氣作用：使聲帶開啟/閉合，形成脈動氣流（聲門脈沖串）基音周期（振動周期）：聲帶每開啟/閉合一次的時間基音頻率（基頻）：基音周期的倒數(shù)基頻隨人性別、年齡而不同基頻：通常為50~450Hz

◆男性一般為50~250Hz

◆女性一般為200~450Hz老年男性偏低，小孩和青年女性偏高基頻高則音調(diào)高，基頻低則音調(diào)低基頻與聲帶的大小、厚薄、松緊程度以及聲門上下之間的氣壓差等有關(guān)人類發(fā)音系統(tǒng)聲道：從聲門至口唇的所有發(fā)音器官包括咽腔、口腔和鼻腔成男聲道：長17cm/面積20cm2聲道可看成非均勻截面的聲管，是時間函數(shù)?？谇桓髌鞴賲f(xié)同動作，空氣流通過時

形成不同阻礙，并產(chǎn)生振顫，發(fā)出

不同聲音。口腔是聲道最重要的部分，其大小

和形狀可以通過調(diào)整舌、唇、齒和腭來改變。咽腔與口腔使聲道的形狀變化增多，能發(fā)出較多的聲音。聲道縱剖面圖鼻鼻腔齒齦上唇牙齒下唇下腭骨舌骨甲狀軟骨氣管鼻咽軟腭口腔小舌舌根會咽喉管聲帶環(huán)形軟骨食道eiueao人類發(fā)音系統(tǒng)在發(fā)音過程中，肺部與相連的肌肉相當于聲道系統(tǒng)的激勵源濁音：聲帶處于收緊狀態(tài)時，氣流使聲帶振動產(chǎn)生的聲音清音：聲帶處于放松狀態(tài)時，

無伴有聲帶振動產(chǎn)生的音兩種清音：摩擦音，爆破音摩擦音：舌在聲道的某處形成狹窄部位（收緊點）氣流經(jīng)過時產(chǎn)生湍流形成噪聲型的聲音爆破音：松懈聲帶，用舌和嘴唇關(guān)閉聲道，暫時阻止氣流。氣壓升高，突然放開舌與嘴唇，氣流釋放產(chǎn)生短暫沖音

◆不同的聲道收緊點和聲道形狀，形成不同的摩擦音

◆不同的聲道閉緊點和聲道形狀，形成不同的爆破音肺肌力聲帶

鼻腔鼻音口腔口音軟上腭和小舌咽腔聲門語音產(chǎn)生的機理圖人類聽覺系統(tǒng)1）耳的結(jié)構(gòu)人的聽覺系統(tǒng)?！艚M成：外耳、中耳和內(nèi)耳。◆外耳和中耳有導(dǎo)音的作用，合稱為導(dǎo)音系；◆內(nèi)耳有感音作用，稱感音器。其感音作用起始于蝸神經(jīng)的終端螺旋器。人的聽覺系統(tǒng)砧骨錘骨鼓膜外耳道耳翼聽神經(jīng)耳蝸內(nèi)耳中耳咽鼓管鐙骨半規(guī)管人類聽覺系統(tǒng)外耳：由耳翼、外耳道和鼓膜組成?！舳恚河斜Ｗo耳孔和定向作用?！敉舛溃菏且粭l耳管，聲音沿其傳至鼓膜。有許多共振頻率，封閉時最低共振頻率約為3060

Hz。共振效應(yīng)會使聲音得到10dB左右的放大?！艄哪ぃ何挥谕舛纼?nèi)端的韌性錐形結(jié)構(gòu)，聲音的振動通過鼓膜傳到內(nèi)耳。日常談話中，鼓膜位移約為10?8cm。外耳的作用：對聲源定位和聲放大。頭部的衍射效應(yīng)也會增大鼓膜處的聲壓，系統(tǒng)總放大：20dB左右。人類聽覺系統(tǒng)中耳的結(jié)構(gòu)。中耳：為充氣腔體，由鼓膜將其與外耳隔離，通過圓形窗和前庭窗兩個小孔與內(nèi)耳相通。通過咽鼓管與外界相連，以平衡氣壓，保護鼓膜。聽骨鏈：由錘骨、砧骨和鐙骨三塊聽小骨組成，由韌帶懸掛在中耳的腔體內(nèi)?！袈牴擎湆⒄駝觽鞯絻?nèi)耳并放大，起到杠桿的作用。◆放大30倍左右。聽小骨在不同聲強范圍內(nèi)實現(xiàn)

聲音的線性或非線性傳遞。中耳的作用：通過聽小骨進行聲阻抗變換，放大聲壓；保護內(nèi)耳。中耳的結(jié)構(gòu)韌帶錘骨鼓膜外耳道半規(guī)管砧骨鐙骨前庭窗膜中耳咽鼓管聽骨耳機（骨傳導(dǎo)耳機）人類聽覺系統(tǒng)內(nèi)耳(迷路)：在顱骨腔內(nèi)，由半規(guī)管、前庭窗和耳蝸組成。半規(guī)管和前庭窗屬于本體感受器，與機體的平衡機能有關(guān)?！舭胍?guī)管內(nèi)的感受器能感受旋轉(zhuǎn)變速運動的刺激，◆前庭窗內(nèi)的感受器能感受靜止的位置和直線變速運動。耳蝸：由鼓階、中階和前庭階三個分隔的部分組成。◆聽覺接受器，把聲音經(jīng)機械變換產(chǎn)生神經(jīng)發(fā)放信號。前庭階中階鼓階前庭階中階鼓階骨螺旋板蝸孔覆膜中階基底膜耳蝸神經(jīng)骨質(zhì)層前庭階鼓階(a)耳蝸（通過蝸軸的剖面）(b)耳蝸橫截面耳蝸示意圖說話過程的五個階段說話過程可分五個階段：想說、說出、傳送、接收、理解1、想說階段：（與大腦中樞的活動有關(guān)）

◆大腦決策產(chǎn)生說話動機◆講話神經(jīng)中樞選單詞、短語，按規(guī)則組合表達內(nèi)容和情感2、說出階段：（與發(fā)音器官的活動有關(guān)）

◆大腦中樞決策，向發(fā)音器官發(fā)指令，使舌、唇、顎、聲帶、肺等協(xié)調(diào)動作，發(fā)出聲音

◆大腦也發(fā)指令給其它器官，產(chǎn)生各種動作來配合

◆根據(jù)聽覺系統(tǒng)接收的反饋語音信息，來幫助修改語音3、傳送階段：（傳送聲波信息的物理過程）

◆聲波以空氣為媒介傳送到聽者的耳中說話過程的五個階段4、接收階段：（與聽覺系統(tǒng)活動有關(guān)）

聲波鼓膜振動

聽小骨傳遞

耳蝸基底膜振動

產(chǎn)生神經(jīng)脈沖5、理解階段：（至今尚未完全了解，機理不很清楚）

聽覺神經(jīng)中樞收到脈沖信息，辨認話者及所說信息個人因素：話者口音、用詞造句特色聽者的聽力、理解力。社會因素：話者、聽者的社會基礎(chǔ)、環(huán)境等語言要素：分語言的語素、詞、短語和句子等不同層次及詞法、句法、文脈等語法和語義內(nèi)容等。句法的最小單位是單詞，詞法的最小單位是音節(jié)。不同語言有不同語言規(guī)則語音的產(chǎn)生和理解：與神經(jīng)系統(tǒng)和大腦有關(guān)，是高級活動。搞清大腦產(chǎn)生和理解語音的機理，對語音技術(shù)有極重要意義。例，語音合成：◆目前，按規(guī)則合成只能從尋找各種語言的規(guī)則入手，盡可能得出較好的人工語言。◆如果發(fā)音時大腦智能活動的機理之迷揭開，就可以獲得高度自然的語音合成。例，語音識別：◆目前，只能從語音信號出發(fā)，用“隱過程”（如隱馬爾可夫模型）來模擬神經(jīng)系統(tǒng)的聽覺過程，不是按人的聽覺過程建立處理模型。不能達到理想的識別和理解效果。說話過程的五個階段聽覺感知特性聽覺系統(tǒng)的兩個重要特性：

耳蝸對于聲信號的時頻分析特性；聽覺掩蔽效應(yīng)。耳蝸的時頻分析特性：◆聲音使耳蝸內(nèi)流體壓強變化，引起行波沿基底膜的傳播?！袈曨l不同，產(chǎn)生的行波不同，峰值出現(xiàn)在基底膜的位置不同。為對數(shù)型分布。◆頻率低，峰值出現(xiàn)在基底膜的頂附近；◆頻率高，峰值出現(xiàn)在基底膜的底附近?！粽駝訌姸仍黾?，基底膜運動幅度加大，耳蝸：有頻譜分析作用?；啄さ念l率響應(yīng)分布圖1943頂部7291051431872382973654455366437669081073126414851741203723802777323737704386510059271915816774144691247810759927479916883基部聽覺感知特性行波（travellingwave）是指平面波在傳輸線上的一種傳輸狀態(tài)，其幅度沿傳播方向按指數(shù)規(guī)律變化，相位沿傳輸線按線性規(guī)律變化?！艋啄び蓄l率選擇性和對數(shù)分布性的重要因素。人的聽覺范圍：20Hz~20kHz，0~130dB的聲音信號?！袈犛X范圍外的信號分量可忽略掉，以節(jié)省處理成本?！羧硕母杏X不是絕對的，隨著信號特性的不同而不同。聽覺感知特性聽覺掩蔽效應(yīng)：在一個強信號附近，弱信號將變得不可聞，被掩蔽掉。分為同時掩蔽和短時掩蔽。同時掩蔽：同時存在的一個弱信號和一個強信號頻率接近時，強信號會提高弱信號的聽閥，當弱信號的聽閥被升高到一定程度時就會導(dǎo)致這個弱信號變得不可聞。短時掩蔽：例掩蔽聲即使消失后，其掩蔽作用仍將持續(xù)一段時間，約0.5～2秒，這是由于人耳的存儲效應(yīng)所致。掩蔽門限：被掩蔽掉的不可聞信號的最大聲壓級，在這個掩蔽閾值以下的聲音將被掩蔽掉。聽覺感知特性被掩蔽掉的不可聞信號的最大聲壓級稱為掩蔽門限或掩蔽閾值，在這個掩蔽閾值以下的聲音將被掩蔽掉。最底端的曲線表示最小可聽閾曲線，即在安靜環(huán)境下，人耳對各種頻率聲音可以聽到的最低聲壓，可見人耳對低頻率和高頻率是不敏感的，而在1kHz附近最敏感。低于掩蔽曲線的聲音即使閾值高于安靜聽閾也將變得不可聞。聽覺感知特性掩蔽效應(yīng)是指人的耳朵只對最明顯的聲音反應(yīng)敏感，而對于不敏感的聲音，反應(yīng)則較不為敏感。MP3等壓縮編碼便是聽覺掩蔽的重要應(yīng)用，在這些編碼中只突出記錄了人耳朵較為敏感的中頻段聲音，而對較高和較低的頻率的聲音則簡略記錄。人聲的特性-激勵模型語音生成系統(tǒng)分成三個部分：1）在聲門（聲帶）以下，稱為“聲門子系統(tǒng)”，它負責產(chǎn)生激勵振動，是“激勵系統(tǒng)”；2）從聲門到嘴唇的呼氣通道是聲道，是“聲道系統(tǒng)”；3）語音從嘴唇輻射出去，所以嘴唇以外是“輻射系統(tǒng)”。人聲的特性-激勵模型語音分成清音和濁音，清音由隨機噪聲激勵產(chǎn)生

濁音由準周期脈沖串激勵產(chǎn)生，其周期稱為基音周期。濁音情況下，激勵信號的產(chǎn)生示意圖如下。◆沖激串發(fā)生器輸出的單位沖激序列（沖激間隔為基音周期）?！艟€性激勵系統(tǒng)函數(shù)為G(z)，經(jīng)幅度控制后輸出為濁音激勵。濁音信號激勵的產(chǎn)生基音周期增益控制Av沖激串發(fā)生器G(z)

脈沖波人聲的特性-激勵模型清音情況下，發(fā)塞音或摩擦音，聲道被阻形成湍流?！艏羁赡M成隨機白噪聲，

圖示為考慮濁音和清音的激勵因素，混合激勵的數(shù)字模型。

語音產(chǎn)生的數(shù)學(xué)模型基音周期增益控制Avam,GPL(n)增益控制AN沖激串發(fā)生器G(z)白噪聲發(fā)生器V(z)R(z)

人聲的特性-聲道模型一般分為兩類：聲管模型和共振峰模型無損聲管模型（行波型模型）：由多個不同截面積的無損耗管子串聯(lián)而成的系統(tǒng)，是最簡單的聲道模型。圖示為10級的無損聲管級聯(lián)模型。語音信號的某一“短時”期間，聲道可表示為形狀穩(wěn)定的管道。每個管子可看作為一個四端網(wǎng)

絡(luò)，該網(wǎng)絡(luò)具有反射系數(shù)，此

時聲道可由一組截面積或一組

反射系數(shù)來表示。10級無損聲管級聯(lián)聲門

嘴唇A1l1A2l2A3l3A4l4A5l5A6l6A7l7A8l8A9l9A10l10人聲的特性-共振模型共振峰：元音激勵聲道時，引起共振，產(chǎn)生的一組共振頻率稱為共振峰頻率（共振峰）◆共振峰是區(qū)別元音的重要參數(shù)，包括其位置和頻帶寬度精確描述語音，應(yīng)該用盡可能多的共振峰工程中，常用前三個共振峰參數(shù)

◆第一共振峰F1、第二共振峰F2、第三共振峰F3元音的共振峰特性與發(fā)音機制有關(guān)F1與舌位高低有關(guān)，舌位高F1低；舌位低F1高舌位越低，嘴張得越大（開口度大）；舌位越高開口度越小F2與舌位前后密切相關(guān)，舌位靠前F2高，舌位靠后F2低◆前元音[i]的舌位靠前，F(xiàn)2達2000Hz◆后元音[u]的舌位靠后，F(xiàn)2只有500Hz人聲的特性-共振模型F1和F2和嘴唇的圓展程度也有關(guān)系，◆如圓唇可使F2降低等。F3與舌位有關(guān)，并不密切，◆但受舌尖活動的影響，舌尖抬高卷起時，F(xiàn)3就明顯下降舌位前后、唇形圓展和開口度大小對F1和F2

的影響情況。F2

F1后低圓低?。ǜ撸┣案哒垢叽螅ǖ停┥辔?開口度)舌位前后唇形圓度舌位、唇形和開口度對F1和F2的影響人聲的特性-共振模型成年女子和兒童的基頻高于成年男子。區(qū)分語音是男聲還女聲，是成人聲音還是兒童聲音，更重要的因素是共振峰頻率的高低。10個英語單元音前3個共振峰頻率的平均值。◆成年女性和男性的共振峰頻率有明顯的差別（約高25%）表2.2

10個英語單元音前3個共振峰頻率的平均值/Hz元音ii:e?aΛuu:?F1男270390530660730570440300640490女310430610860850590470370760500F2男22901990184017201090840102087011901350女27902480233020501220920116095014001640F3男3010255024802410244024102240224023901690女3310307029902810281027102610267027801960人聲的特性-共振模型將聲道看成為諧振腔，共振峰是該腔體的諧振頻率。實踐證明：◆元音用前3個共振峰?！糨o音或鼻音，用到5個以上的共振峰。均勻斷面聲管的共振峰頻率:例：成人聲道約為17.5

cm，可計算出：f1

500

Hz，f2

=1500

Hz，f3

=2500

Hz。發(fā)[e]時聲道最接近均勻斷面，其共振峰最接近上述值。從語音信號求出共振峰頻率、帶寬和幅度的方法是重要的。人聲的特性-共振模型級聯(lián)型共振峰模型級聯(lián)型共振峰模型認為聲道是一組串聯(lián)的二階諧振器。級聯(lián)型共振峰模型G激勵模型V1語音V2V3V4V5輻射模型三種實用的共振峰模型：級聯(lián)型、并聯(lián)型、混合型。人聲的特性-共振模型并聯(lián)型共振峰模型模型。并聯(lián)型共振峰模型語音A1＋V1A2V2A3V3A4V4A5V5G激勵模型輻射模型人聲的特性-共振模型混合型共振峰模型級聯(lián)型簡單，可描述一般元音。級數(shù)取決于聲道長度，取3~5級鼻音、塞音或摩擦音時，級聯(lián)模型不能勝任。采用并聯(lián)型可解決其不足。它比級聯(lián)型復(fù)雜些?；旌闲停杭壜?lián)型與并聯(lián)型相混合。一種較完備共振峰模型?；旌闲凸舱穹迥Ｐ驼Z音A1＋V1A2V2A3V3A4V4A5V5AF輻射模型隨機噪聲發(fā)生器低通濾波V2V3V4V5V1Av沖激序列發(fā)生器低通濾波AB音調(diào)周期濁/清開關(guān)人聲的特性-輻射模型從聲道模型輸出的是速度波

，而語音信號是聲壓波

，二者之倒比稱為輻射阻抗

。該阻抗表征口唇的輻射效應(yīng)，也包括圓形的繞射效應(yīng)等。其頻響曲線表現(xiàn)出一階高通濾波器的特性。在實際信號分析時，常用所謂“預(yù)加重技術(shù)”，即在取樣之后，插入一個一階的高通濾波器。此時，只剩下聲道部分，就便于聲道參數(shù)的分析。數(shù)學(xué)模型的實現(xiàn)完整的語音信號的數(shù)字模型可以用三個子模型激勵模型、聲道模型和輻射模型的串聯(lián)來表示。人耳聽覺特性在人耳的聲域范圍內(nèi)，聲音聽覺心理的主觀感受主要有響度、音高、音色等特征和掩蔽效應(yīng)、高頻定位等特性。其中響度（音強）、音高、音色可以在主觀上用來描述具有振幅、頻率和相位三個物理量的任何復(fù)雜的聲音，故又稱為聲音“三要素”；而在多種音源場合，人耳掩蔽效應(yīng)等特性更重要，它是心理聲學(xué)的基礎(chǔ)。人耳聽覺特性人耳聽覺特性強度與響度強度是一個物理測量值，以dBIL（聲強級）、dBSPL（聲壓級）、dBHL（聽力級）或dBSL（感覺級）為單位。響度屬于心理范疇即人耳辨別聲音由強到弱的等級概念。小量增加一個微弱聲音的強度，感覺的響度會增加很大。若使響的聲音更響比使弱的聲音更響，需要增加更大的強度。人耳聽覺特性聲壓與聲壓級聲壓是定量描述聲波的最基本的物理量。大氣壓受到聲波擾動后產(chǎn)生的變化，相當于在大氣壓強上的疊加一個聲波擾動引起的壓強變化。聲壓級是聲音的有效聲壓與基準聲壓之比，取以10為底的對數(shù)，再乘以20。人耳聽覺特性聲強與聲強級聲強：在物理學(xué)中，聲波在單位時間內(nèi)作用在與其傳遞方向垂直的單位面積上的能量。聲強級：用對數(shù)尺度來表示聲音強度的等級。在聲學(xué)中,參考聲強

I0的大小為10-12W/m2。人耳聽覺特性在物理上，客觀測量聲音強弱，單位：

dyn/cm2（聲壓,達因每平方厘米），或W/cm2（聲強）。在心理上，主觀測量聲音強弱的單位：

方（phon）（響度級），或宋（sone）（響度）。國際協(xié)議規(guī)定，

0dB聲強級的1kHz純音的響度級定義為0方，

ndB聲強級的1kHz純音的響度級定義為n

方。響度人耳聽覺特性聽閾：當聲音的強度小到人耳剛剛可聽見時的聲強。◆1kHz純音，聽閾為10?16W/cm2聲強（0dB聲強度級）；◆0dB聲強級是非常小的單位，僅使鼓膜移動約10?9cm。痛閾：當聲音的強度大到人耳感到疼痛時的聲強?！?kHz純音，痛閾約為10?4W/cm2聲強（120dB聲強度級）；◆120dB使鼓膜的位移約為10?3cm。人耳聽覺特性等響度曲線：當不同頻率的聲音有同樣響度的時候，它們的強度并不一定是一樣的。等響度曲線就是把不同頻率和不同強度的純音和1kHz的純音做等響度的配對。等響度曲線與聲強/聲強級的關(guān)系聲強/W·cm2

10-410-610-810-1010-1210-1410-16聲強級/dB12010080604020020

100

200

5001k2k5k

10k

頻率/Hz120方1101009080706050403020100方例：1kHz，10dB聲強級的聲音，響度級為10方；與200Hz，30dB

聲強級的聲音，感覺響度相同。人耳聽覺特性音調(diào)：是描述聽覺分辨聲音高低時的一種特性。◆客觀上，用頻率表示聲音的音調(diào)，其單位是Hz，◆主觀上，感覺音調(diào)的單位采用美（mel）標度。感音范圍：20Hz~20kHz，約1000倍頻程，9~10個八度音。實驗表明：音調(diào)與頻率是非線性的，與聲強及波形有關(guān)。音調(diào)和頻率f近似地表示為頻率與音高“音調(diào)-頻率”曲線30002500200015001000500020501002005001k2k5k10k

頻率/Hz主觀感覺的音調(diào)／美人耳聽覺特性從頻率到Mel頻率的轉(zhuǎn)換公式為：其中f為語音信號的頻率，單位赫茲（Hz）。defhz2mel(hz):'''把頻率hz轉(zhuǎn)化為梅爾頻率'''return2595*numpy.log10(1+hz/700.0)defmel2hz(mel):'''把梅爾頻率轉(zhuǎn)化為hz'''return700*(10**(mel/2595.0)-1)人耳聽覺特性音色與音質(zhì)音色又稱音品，指的是聲音的感覺特性，由聲音波形的諧波頻譜和包絡(luò)決定。聲音波形的基頻所產(chǎn)生的最清楚的音稱為基音，各次諧波的微小振動所產(chǎn)生的聲音稱泛音。不同的發(fā)聲體由于材料、結(jié)構(gòu)不同，發(fā)出聲音的音色也就不同?！耙糍|(zhì)”籠統(tǒng)的意義是聲音的品質(zhì)，在音響技術(shù)中包含了三方面的內(nèi)容：聲音的音高，即音頻的強度或幅度；聲音的音調(diào)，即音頻的頻率或每秒變化的次數(shù)；聲音的音色，即音頻泛音或諧波成分。二、聲音的拾取裝置麥克風(fēng):是將空氣中的壓力波(聲音信號)轉(zhuǎn)換為電信號的能量轉(zhuǎn)換器件。(1)動圈式麥克風(fēng)：將聲音的振動傳到麥克風(fēng)的振膜上，推動里邊的磁鐵形成變化的電流（電磁感應(yīng)原理），電流送到后面的聲音處理電路進行放大處理。(2)電容式麥克風(fēng)：當振膜受到振動時，使兩極板間距改變，即改變了電容C，從而引起電壓的變化，電壓幅度反映外界聲壓的強弱。電容式麥克風(fēng)原理動圈式麥克風(fēng)原理三、聲音的數(shù)字化過程智能語音技術(shù)應(yīng)用的一個基礎(chǔ)環(huán)節(jié)就是語音信號的采集，采集器把采集到的模擬信號通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換成數(shù)字信號，作為語音識別等算法的輸入。語音信號的采集包含聲音信號的拾取和數(shù)字化過程，聲音的拾取過程是指通過麥克風(fēng)將空氣中傳播的聲波接收，并轉(zhuǎn)化成模擬信號。數(shù)字化過程是將連續(xù)變化的模擬信號轉(zhuǎn)換成離散數(shù)字信號的過程，一般需要完成采樣、量化和編碼三個步驟。聲學(xué)場景聲學(xué)場景=需要識別的聲音+不需要識別的聲音（對應(yīng)場景下的“信號處理”直接決定了語音入口體驗。）一個好的智能語音產(chǎn)品，“信號處理”和“語音識別”能力必然是針對其投放的“聲學(xué)場景”深度適配優(yōu)化后的，如此才能保障后續(xù)的語音交互體驗。聲學(xué)場景語音信號從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時間而變化的，所以它是一個非平穩(wěn)態(tài)過程。語音信號具有短時平穩(wěn)性。在按幀進行語音分析，提取語音參數(shù)之前，有一些經(jīng)常使用的、共同的短時分析技術(shù)必須預(yù)先進行;如語音信號的數(shù)字化、預(yù)加重、分幀和加窗、語音信號的端點檢測等。

語音信號的數(shù)字化

聲音是一種模擬信號，想要用于計算機，就必須將模擬信號轉(zhuǎn)化為數(shù)字信號聲音的數(shù)字化需要經(jīng)歷三個階段：采樣，量化，編碼語音信號的數(shù)字化

采樣：從一個時間上連續(xù)變化的模擬信號中取出若干個有代表性的樣本值，來代表這個連續(xù)變化的模擬信號。按照奈奎斯特采樣定理：要從采樣值序列中完全恢復(fù)成原始波形，采樣頻率必須大于原始信號最高頻率的2倍采樣周期即相鄰兩個采樣點的時間間隔，采樣頻率是采樣周期的倒數(shù)常用的采樣率包括8kHz和16kHz語音信號的數(shù)字化

量化要用某種數(shù)字化來表示在某個時刻聲波幅度的電壓值大小，該值的大小影響音量的高低。對聲波波形幅度的數(shù)字化表示成稱為“量化”。量化的過程就是將采樣后的信號按整個聲波的幅度劃分成有限個區(qū)段的集合，把落入某個區(qū)段的樣值歸為一類，并賦予相同的量化值，常見8bit和16bit劃分縱軸。8bit把縱軸劃分為256個量化等級，量化位數(shù)越高，量化值越接近采樣值，其精度越高，但要求的信息存儲量就越大。語音信號的數(shù)字化

編碼

編碼是整個聲音數(shù)字化的最后一步，為了方便計算機的儲存和處理，我們需要對它進行編碼，以減少數(shù)據(jù)量。語音文件格式的重要參數(shù)：采樣率：8K(電話、嵌入式),16K(PC),44.1K(CD)采樣精度(量化位數(shù))：即每次取樣信息量，例如16bit。比特率/數(shù)據(jù)傳輸率（bps:bitspersecond），如8k16bit為128kbps.語音通道數(shù)：語音通道的個數(shù)表明語音產(chǎn)生的波形數(shù)，一般分為單聲道和立體聲道。單聲道產(chǎn)生一個波形，立體聲道則產(chǎn)生兩個波形。語音信號的數(shù)字化

數(shù)據(jù)傳輸率（bps）=采樣頻率*精度*聲道數(shù)聲音信號的數(shù)據(jù)量（byte）=數(shù)據(jù)傳輸率*持續(xù)時間/8例：CD唱片上所存儲的立體聲高保真音樂的采樣頻率為44.1kHZ，量化精度為16位，雙聲道，計算一小時的數(shù)據(jù)量：?44.1kHZ*16bit*2*3600s/8=6350400B≈605.6MB數(shù)字非常大，所以，在編碼的時候常常使用壓縮的方式來減少儲存提高傳輸效率。語音信號的數(shù)字化

不同的語音編碼有不同的比特率范圍（略）。音頻格式：AMR：每秒鐘的AMR音頻大小可控制在1K字節(jié)左右，常用于彩信、微信語音，但失真比較厲害。WAV：無損音頻，比較大。WAV文件有兩種，分別對應(yīng)于單聲道(11KHz采樣率、8Bit的采樣值)和雙聲道(44KHz采樣率、16Bit的采樣值)。WMA：為抗衡MP3，微軟公司推出的一種新的音頻格式，在壓縮比和音質(zhì)方面都超過了MP3。MP3：MP3對音頻信號采用的是有損壓縮方式，壓縮率高達10:1~12:1。M4A:MPEG-4音頻標準的文件的擴展名，.m4a文件是使用AAC格式的。語音信號的數(shù)字化

練習(xí)：任意一段語音信號，格式間相互轉(zhuǎn)換。https://convertio.co/zh/任務(wù)一語音信號的采集python-mpipinstallpyaudio

（python3.6嘗試！）pyaudio

暫時不支持python3.7和3.8，需要下載whl

文件后再離線進行安裝。首先：下載安裝pyaudio

的whl

文件下載網(wǎng)址：/~gohlke/pythonlibs/。打開網(wǎng)頁，搜索Pyaudiio。*特別注意*：下載對應(yīng)的PyAudio.whl文件例如python

3.8版本，64位操作系統(tǒng)對應(yīng)下載PyAudio?0.2.11?cp38?cp38?win_amd64.whlPython版本查看任務(wù)一安裝SpeechRecogintion庫，輸入：pipinstallSpeechRecognition

SpeechRecogintion是Python的一個語音識別框架，已經(jīng)對接了如谷歌和微軟的STT（語音轉(zhuǎn)文本）服務(wù)。注意：安裝SpeechRecognition

需要提前裝好Python的

PyAudio

框架。第三方庫、包的安裝！?。‰y點任務(wù)一方法二：pycharm解釋器中添加庫：打開“File->Settings->Project:工程名->PythonInterpreter->查看

Package里是否存在已安裝的Python函數(shù)庫”任務(wù)一importspeech_recognitionassr"""定義音頻錄制函數(shù)speech_record()"""defspeechrecord(rate,filepath):#設(shè)置采樣頻率,filepath為音頻文件的存放地址及名稱r=sr.Recognizer()withsr.Microphone(sample_rate=rate)assource:print("請說話......")audio=r.listen(source)#監(jiān)聽麥克風(fēng)的輸入語音，并將語音賦值給aduiowithopen(filepath,"wb")asf:#將音頻文件以WAV格式存到指定地址dst處f.write(audio.get_wav_data())print("錄音完成！")"""主程序"""scr=“C:\abc\23年錄音.wav"#設(shè)置錄音音頻的存放地址speechrecord(16000,scr)#錄制音頻主程序中調(diào)音頻錄制函數(shù)。首先設(shè)置錄制音頻的存放地址和文件名稱，然后調(diào)用speech_record()函數(shù)，并設(shè)置存放地址為scr和采樣頻率rate=16000Hz。任務(wù)二獲取音頻文件信息（一段語音文件，格式轉(zhuǎn)化為.wav）wave.getparams()Returnsanamedtuple()(nchannels,sampwidth,framerate,nframes,comptype,compname)輸出信息（聲道，采樣寬度，幀速率，幀數(shù)，唯一標識，無損）語音信號可用1，2，3，4標識，NONE無標識任務(wù)二importwave#wave模塊

file=wave.open("C:/abc/loveyou.wav","rb")

print('---------聲音信息------------')

foriteminenumerate(file.getparams()):#枚舉

print(item)

a=file.getparams().nframes#幀總數(shù)

f=file.getparams().framerate#采樣頻率

sample_time=1/f#采樣點的時間間隔

time=a/f#聲音信號的長度

print(time)聲道，采樣寬度，幀速率，幀數(shù)，唯一標識，無損時間任務(wù)三：音頻參數(shù)的轉(zhuǎn)換庫安裝wave庫、numpy庫和audioop庫音頻參數(shù)的轉(zhuǎn)換當錄制的wav音頻文件參數(shù)與實際應(yīng)用所需不一致時，就需要對其進行調(diào)整。例如，音頻文件的聲道數(shù)量nchannels=2，幀速率framerate=48kHz。

百度云平臺音頻輸入?yún)?shù)要求是nchannels=1，framerate=16kHz。任務(wù)三關(guān)鍵代碼定義wav音頻文件參數(shù)轉(zhuǎn)換函數(shù)wavechange(scr,dst,inrate,outrate,inchannels,outchannels)作用方法將立體聲音頻轉(zhuǎn)換為單聲道音頻audioop.tomono(fragment,

width,

lfactor,

rfactor)轉(zhuǎn)換輸入語音幀速率audioop.ratecv(fragment,width,nchannels,inrate,outrate,state[,weightA[,weightB]])以元組形式將設(shè)置的所有參數(shù)file_write.setparams((nchannels,sampwidth,framerate,nframes,comptype,compname))將左聲道音頻數(shù)據(jù)寫入新的音頻文件file_write.writeframes(wavedata_left)任務(wù)三執(zhí)行結(jié)果將雙聲道、48kHz幀速率的音頻轉(zhuǎn)換成了單聲道、16kHz幀速率的音頻。THANKS智能語音語音信號時域分析CONTENT目錄時域分析語音的端點檢測語音分幀與加窗基音周期估計一、語音分幀與加窗任何語音信號的分析和處理必須建立在“短時”基礎(chǔ)上，將語音信號分為一段一段來分析其特征參數(shù)。通常，每一段被稱為一“幀”，幀長一般取10~30ms。此時，對于整體的語音信號來講，分析出得到的參數(shù)應(yīng)該是由每一幀特征參數(shù)組成的特征參數(shù)時間序列。語音分幀語音分幀幀長與幀移的示例分幀一般采用交疊分段的方法。前一幀和后一幀的交疊部分稱為幀移。幀移與幀長的比值一般取為0～1/2。語音分幀幀長一般設(shè)置為10~30毫秒(ms)，幀移與幀長的比值一般取為0~1/2。若設(shè)定幀長為20ms，幀移為7.5ms。幀速率framerate，將幀長和幀移從時間單位轉(zhuǎn)換為數(shù)據(jù)點數(shù)。例1：當音頻文件的幀速率framerate=44100時，則表示1秒時間的語音段包含了44100個數(shù)據(jù)點。那么20ms對應(yīng)約880個數(shù)據(jù)點，7.5ms對應(yīng)約330個數(shù)據(jù)點。為此，在程序中設(shè)定wlen=880，inc=330。舉例2：當音頻文件的幀速率framerate=16000時，則表示1秒時間的語音段包含了16000個數(shù)據(jù)點。那么20ms對應(yīng)約320個數(shù)據(jù)點，7.5ms對應(yīng)約120個數(shù)據(jù)點。加窗分幀是用可移動的有限長度窗口進行加權(quán)的方法來實現(xiàn):用一定的窗函數(shù)ω(n)來乘s(n)，從而形成加窗語音信號sω(n)=s(n)*ω(n)。常用的窗函數(shù)是矩形窗、漢寧窗、漢明窗等，表達式如下（N為幀長）：矩形窗：漢寧窗：Hanning漢明窗（海明窗）：Hamming加窗1.窗口的形狀對于窗函數(shù)的選用原則是:保持最大信息和消除旁瓣的綜合效果使窗函數(shù)頻譜中的主瓣寬度應(yīng)盡量窄，以獲得較陡的過渡帶旁瓣衰減應(yīng)盡量大，以提高阻帶的衰減從語音信號截取一個時間片段;對信號進行傅里葉變換，F(xiàn)FT分析中為了減少或消除頻譜能量泄漏及柵欄效應(yīng)采用不同的窗函數(shù)對信號進行截短。不同窗函數(shù)的形狀對短時語音信號的特性影響大加窗優(yōu)點是主瓣比較集中，缺點是旁瓣較高，導(dǎo)致變換中帶進了高頻干擾和泄漏，甚至出現(xiàn)負譜現(xiàn)象。頻率識別精度最高，幅值識別精度最低。矩形窗使用最多，習(xí)慣上不加窗就是使信號通過了矩形窗。加窗漢寧窗又稱升余弦窗。主瓣加寬并降低，旁瓣則顯著減小，從減小泄漏觀點出發(fā)，漢寧窗優(yōu)于矩形窗。但漢寧窗主瓣加寬，相當于分析帶寬加寬，頻率分辨力下降。它與矩形窗相比，泄漏、波動都減小了,并且選擇性也提高。加窗海明窗（漢明窗）又稱改進的升余弦窗，只是加權(quán)系數(shù)不同，使旁瓣達到更小。但其旁瓣衰減速度比漢寧窗衰減速度慢。加窗2.窗口的長度采樣周期Ts=1/fs，窗口長度N和頻率分辨率Δf之間關(guān)系：Δf=1/NTs采樣周期一定時，Δf隨窗口寬度N的增加而減小，即頻率分辨率相應(yīng)得到提高，但同時時間分辨率降低；如果窗口取短，頻率分辨率下降，而時間分辨率提高，因而二者是矛盾的。應(yīng)該根據(jù)不同的需要選擇合適的窗口長度。通常在10kHz采樣頻率下，N折中選擇為100～200點為宜(即10～20ms持續(xù)時間)。語音分幀與加窗經(jīng)過上面介紹的預(yù)處理過程（分幀與加窗）語音信號就已經(jīng)被分割成一幀一幀的加過窗函數(shù)的短時信號，然后再把每一個短時語音幀看成平穩(wěn)的隨機信號，利用數(shù)字信號處理技術(shù)來提取語音特征參數(shù)。在進行處理時，按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù)，處理完成后再取下一幀，等等，最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時間序列。根據(jù)所分析出的參數(shù)的性質(zhì)的不同可以分為：時域分析、頻域分析、倒頻域分析等。二、語音信號的時域分析即分析和提取語音信號的時域參數(shù)。（短時能量、短時幅值、短時過零率、短時自相關(guān)、短時平均幅差）語音信號本身就是時域信號，時域分析是最早使用，應(yīng)用最廣泛的方法。時域分析通常用于最基本的參數(shù)分析及應(yīng)用，如語音的分割、預(yù)處理等。特點是：①表示語音信號比較直觀、物理意義明確。②實現(xiàn)起來比較簡單、運算量少。③可以得到語音的一些重要的參數(shù)。時域分析時域表示語音信號可用其時間波形表示，觀察波形可看出語音信號的一些重要特性。時域分析語音信號的時域特征參數(shù)主要有：(1)短時能量(2)短時平均幅度(3)短時平均過零率(4)短時自相關(guān)函數(shù)(5)短時平均幅度差函數(shù)時域分析短時能量設(shè)語音波形時域信號為x(t)、加窗分幀處理后得到的第n幀語音信號為xn(m),則xn(m)滿足下式：xn(m)=ω(m)x(n+m)其中，n=0,1T,2T,…,并且N為幀長，T為幀移長度。設(shè)第n幀語音信號xn(m)的短時能量用En表示，則其計算公式如下：短時能量體現(xiàn)信號在不同時刻的強弱程度。時域分析短時能量主要用于區(qū)分濁音段和清音段，因為濁音時E值比清音時大得多；區(qū)分聲母與韻母的分界和無話段與有話段分界。例：python語音信號處理，語音信號為普通話的“藍天，白云”，可以比較清晰的看出短時能量的四個部分。時域分析短時平均幅度En是一個度量語音信號幅度值變化的函數(shù)，但它有一個缺陷，即它對高電平非常敏感（因為它計算時用的是信號的平方)。為此，可采用另一個度量語音信號幅度值變化的函數(shù)，即短時平均幅度函數(shù)Mn，它定義為：Mn也是語音信號能量大小的表征，它與En的區(qū)別在于計算時小取樣值和大取樣值不會因取平方而造成較大差異。時域分析時域分析短時過零率短時過零率表示一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)。對于連續(xù)語音信號，過零即意味著時域波形通過時間軸；而對于離散信號，如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。定義語音信號xn(m)的短時過零率Zn為：式中，sgn[]是符號函數(shù)，即時域分析利用短時平均過零率還可以從背景噪聲中找出語音信號,可用于判斷寂靜無話段與有話段的起點和終點位置。在背景噪聲較小時,用平均能量識別較為有效;而在背景噪聲較大時,用短時平均過零率識別較為有效。時域分析女聲“我到北京去”的短時平均過零次數(shù)的變化曲線:時域分析作用和局限性作用：（1）區(qū)分清/濁音,濁音平均過零率低，清音平均過零率高。（2）從背景噪聲中找出是否有語音，以及語音的起點，即端點檢測。局限性：對于濁音和清音重疊區(qū)域，只根據(jù)短時平均過零率不能明確地判別清、濁音。

時域分析短時自相關(guān)函數(shù)定義語音信號xn(m)的短時自相關(guān)函數(shù)Rn(k)的計算式如下：這里K是最大的延遲點數(shù)。自相關(guān)函數(shù)用于研究信號自身，如波形的同步性、周期性等若序列是周期性的，則自相關(guān)函數(shù)是同周期性的周期函數(shù)自相關(guān)函數(shù)為偶函數(shù)R(0)表示確定性信號的能量或隨機信號的平均功率。對濁音語音可用自相關(guān)函數(shù)求出語音波形序列的基音周期時域分析濁音的短時自相關(guān)函數(shù)時域分析清音的短時自相關(guān)函數(shù)時域分析短時自相關(guān)函數(shù)的作用：1）區(qū)分清音(噪聲)/濁音：

濁音語音的自相關(guān)函數(shù)具有一定的周期性。清音語音的自相關(guān)函數(shù)不具有周期性，也不具有明顯突出的峰值，類似噪聲。2）估計基音周期：短時自相關(guān)函數(shù)可以很明顯的反映出濁音信號的周期性。缺陷：乘法運算量大，所需時間長。時域分析短時平均幅度差函數(shù)即：平均幅度差函數(shù)和自相關(guān)函數(shù)有密切的關(guān)系，兩者關(guān)系可由下式表達：平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進行語音分析，原因：如果信號是完全的周期信號，則相距為周期的整數(shù)倍的樣點上的幅值是相等的，差值為零。音頻具有周期特性，平穩(wěn)噪聲情況下利用短時平均幅度差可以更好地觀察周期特性。時域分析一幀濁音的的短時自相關(guān)函數(shù)時域分析一幀清音的的短時自相關(guān)函數(shù)非周期性時域分析語音端點檢測就是指從包含語音的一段信號中確定出語音的起始點和結(jié)束點，使有效的語音信號和無用的噪聲信號得以分離。正確的端點檢測對于語音識別和語音編碼系統(tǒng)都有重要的意義。利用短時過零率來檢測清音，用短時能量來檢測濁音，兩者相配合便實現(xiàn)了信號信噪比較大情況下的端點檢測，檢測出語音段（清音和濁音）及靜音段?；谀芰亢瓦^零率的語音端點檢測方法主要有兩種：（1）門限比較法和（2）能零比值法。語音端點檢測時域分析含噪語音與非含噪語音對比說話區(qū)間能量的數(shù)值大，而過零率數(shù)值?。欢肼暥蔚那闆r正好相反。所以把能量值和過零率做比值，更能突顯出說話區(qū)間，從而更容易檢測出語音端點。時域分析需要做除法運算，可能會出現(xiàn)數(shù)據(jù)溢出等情況，需要對結(jié)果進行平滑處理。任務(wù)一語音信號的分幀1.錄制音頻“智能語音技術(shù)”或“蘇州市職業(yè)大學(xué)”；2.并設(shè)置合適的幀長和幀移等參數(shù)；3.繪制出其中的3幀語音幀數(shù)據(jù)。任務(wù)一庫安裝

庫查詢：DOS界面輸入：piplist方法1：pipinstall-i/pypi/simple/matplotlib方法2：pipinstallmatplotlib雙版本：python3.6-mpipinstallpackage_namematplotlib庫：數(shù)據(jù)可視化第三方庫matplotlib模塊依賴于numpy模塊和tkinter模塊，可以繪制多種形式的圖形，包括線圖、直方圖、餅狀圖、散點圖、誤差線圖等等。NumPy：是Python語言的一個擴展程序庫，支持大量的維度數(shù)組與矩陣運算，此外也針對數(shù)組運算提供大量的數(shù)學(xué)函數(shù)庫。（自動安裝）tkinter：Python的標準GUI工具包的接口.任務(wù)一pycharm解釋器中添加庫：添加importwave

importnumpyasnp

importmatplotlib.pyplotasplt

plt.rcParams[‘font.sans-serif’]=[‘SimHei’]

plt.rcParams[‘a(chǎn)xes.unicode_minus’]=False

“”“定義wav音頻文件讀取函數(shù)waveread()”“”

defwaveread(filepath):

#已封裝

file=wave.open(filepath,'rb')#打開WAV音頻，filename為音頻文件地址

params=file.getparams()

#獲取音頻文件的格式信息(聲道數(shù)、量化位數(shù)、采樣頻率、采樣點數(shù)、壓縮類型、壓縮類型的描述)

print('--------音頻文件參數(shù)---------')

print(params)

nchannels,sampwidth,framerate,nframes=params[:4]#從音頻參數(shù)矩陣params中取出各參數(shù)

Totaltime=nframes/framerate#計算音頻信號的總時間長度

print('--------音頻時長(秒)---------')

print(Totaltime)

"""將音頻數(shù)據(jù)整理為時間序列"""

strdata=file.readframes(nframes)#獲得音頻文件的幀數(shù)據(jù)

wavedata=np.frombuffer(strdata,dtype=np.short)#將幀數(shù)據(jù)轉(zhuǎn)換為數(shù)組，得到一維的short類型的數(shù)組

wavedata=wavedata*1.0/(max(abs(wavedata)))#音頻數(shù)據(jù)幅值歸一化

time=np.arange(0,nframes)*(1.0/framerate)#計算出每個數(shù)據(jù)點的時間序列，用于繪圖

file.close()#關(guān)閉文件

return[time,wavedata]“”“定義音頻數(shù)據(jù)分幀函數(shù)enframe()”“”

defenframe(data,wlen,inc):#wlen為設(shè)定的幀長，inc為設(shè)定的幀移

nx=len(data)#計算數(shù)據(jù)長度

print(‘--------音頻數(shù)據(jù)長度(采樣點)---------’)

print(nx)

nf=(nx-wlen+inc)//inc#計算分幀總數(shù)，//取整除

print(‘--------音頻分幀后的總幀數(shù)---------’)

print(nf)

frameout=np.zeros((nf,wlen))

#np.zero，返回來一個nf行wlen列的用0填充的數(shù)組,后續(xù)填充語音幀數(shù)據(jù)

indf=np.multiply(inc,np.array([iforiinrange(nf)]))#遍歷nf取值

foriinrange(nf):

frameout[i,:]=data[indf[i]:indf[i]+wlen]

#用于將幀數(shù)量為nf，幀長度為wlen的語音幀一次填充到二維數(shù)組frameout中

ifisinstance(wlen,list):#判斷wlen是否為列表類型

frameout=np.multiply(frameout,np.array(wlen))#是，并將其作為參數(shù)傳入#將frameout和wlen中的每個元素相乘，得到一個新的二維數(shù)組

returnframeoutmultiply(a,b)就是個乘法，如果a,b是兩個數(shù)組，那么對應(yīng)元素相乘frameout[i,:]=data[indf[i]:indf[i]+wlen]

含義：將一個一維數(shù)組data中的一段數(shù)據(jù)按照指定的長度wlen分割，并將分割后的數(shù)據(jù)按行填充到一個二維數(shù)組frameout的第i行中。data是一個一維數(shù)組，indf也是一個一維數(shù)組，表示每個分段的起始位置。indf[i]表示第i個分段的起始位置，indf[i]+wlen則表示這個分段的結(jié)束位置。frameout[i,:]表示frameout這個二維數(shù)組的第i行，:表示這一行的所有列。任務(wù)一任務(wù)一"""主程序"""

scr="C://abc//jssvc.wav"#設(shè)定wav音頻文件的地址

[time,wavedata]=waveread(scr)#調(diào)用waveread()讀取音頻文件參數(shù)

inc=330;

wlen=880;

speechframe=enframe(wavedata,wlen,inc)#分幀,wlen:幀長,inc:幀移

print('--------音頻分幀后的幀數(shù)據(jù)---------')

print(speechframe)#打印出各幀數(shù)據(jù)任務(wù)一#繪制音頻幀數(shù)據(jù)

i=150#設(shè)置plot顯示的起始幀數(shù),第150號幀的波形

tlabel=i

plt.figure(1)

plt.subplot(3,1,

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

智能語音技術(shù)與應(yīng)用-基于Python實現(xiàn)（高職）全套教學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔