工業(yè)機器人應用技術(第三版)課件 6.2 人工智能技術_第1頁
工業(yè)機器人應用技術(第三版)課件 6.2 人工智能技術_第2頁
工業(yè)機器人應用技術(第三版)課件 6.2 人工智能技術_第3頁
工業(yè)機器人應用技術(第三版)課件 6.2 人工智能技術_第4頁
工業(yè)機器人應用技術(第三版)課件 6.2 人工智能技術_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第六篇拓展篇——人工智能與智能機器人任務二人工智能技術第六篇拓展篇——人工智能與智能機器人1.了解語音識別技術2.了解機器人視覺技術3.了解深度學習6.2人工智能技術6.2.1語音識別技術與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。自動語音識別技術ASR(AutomaticSpeechRecognition)就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產品等各個領域。語音識別的最大優(yōu)勢在于使得人機用戶界面更加自然和容易使用。6.2人工智能技術1.手機應用語音輸入將語音實時識別為文字,適用于語音聊天、語音輸入、語音搜索、語音下單、語音指令、語音問答等多種場景。2.機器人對話通過語音識別實現(xiàn)人機對話。將語音對話實時識別為文字,實現(xiàn)自然流暢的人機對話。6.2人工智能技術3.語音內容分析將音頻內容識別為文字進行返回,從中提取關鍵信息,對內容進行追蹤、處理及打標簽等操作。4.實時語音轉寫可將會議記錄、筆記、總結、音視頻直播內容等音頻實時轉寫為文字,進行內容記錄、實時展示。6.2人工智能技術任務實施使用Python實現(xiàn)以下語音識別功能:對著電腦說一段10S鐘內的語言,進行錄音,并將聲音上傳到百度智能云進行識別,將識別結果返回。百度智能云語音識別開發(fā)的過程如圖6-15所示。6.2人工智能技術圖6-15百度智能云語音開發(fā)過程本任務需要用到的python模塊有:PyAudio(錄音接口)、wave(打開錄音文件并設置音頻參數(shù))、requests(GET/POST)。1.創(chuàng)建百度智能云語言應用登錄百度智能云/,注冊賬號,如有賬號可以直接登錄,在應用列表中,創(chuàng)建一個語言技術的應用。應用的名稱自定義,可設為“語音識別”。6.2人工智能技術圖6-16登錄百度智能云圖6-17創(chuàng)建百度智能云語音技術應用創(chuàng)建應用完成后,獲取該應用的APIkey和SecretKey6.2人工智能技術圖6-18應用創(chuàng)建完成2.錄音功能實現(xiàn)百度智能云支持的語音格式包含pcm(不壓縮)、wav(不壓縮,pcm編碼)、amr(壓縮格式)。推薦使用pcm格式(采樣率16000,編碼:16bit位的單聲道),如使用其他格式百度智能云端會將非pcm格式,轉為pcm格式,因此使用wav、amr會有額外的轉換耗時。實現(xiàn)錄音功能的具體python代碼如下。6.2人工智能技術importwavefrompyaudioimportPyAudio,paInt16framerate=16000#采樣率num_samples=2000#采樣點channels=1#聲道sampwidth=2#采樣寬度2bytesFILEPATH='speech.wav'6.2人工智能技術defsave_wave_file(filepath,data):wf=wave.open(filepath,'wb')wf.setnchannels(channels)wf.setsampwidth(sampwidth)wf.setframerate(framerate)wf.writeframes(b''.join(data))6.2人工智能技術wf.close()#錄音defmy_record():pa=PyAudio()#打開一個新的音頻streamstream=pa.open(format=paInt16,channels=channels,rate=framerate,input=True,frames_per_buffer=num_samples)my_buf=[]#存放錄音數(shù)據(jù)6.2人工智能技術t=time.time()print('正在錄音...')whiletime.time()<t+9:#設置錄音時間(10秒)

#循環(huán)read,每次read2000framesstring_audio_data=stream.read(num_samples)my_buf.append(string_audio_data)print('錄音結束.')save_wave_file(FILEPATH,my_buf)stream.close()6.2人工智能技術3.獲取百度語音識別服務通過文檔組裝url獲取token,以JSON格式POST到百度語音識別服務器,獲得返回結果。具體代碼如下。importrequestsimportbase64#百度語音要求對本地語音二進制數(shù)據(jù)進行base64編碼#組裝url獲取token6.2人工智能技術base_url="/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"APIKey="U6sTWixskuPvbBUSHtNnMCVL"SecretKey="Crv0kw*******R00****"HOST=base_url%(APIKey,SecretKey)defgetToken(host):res=requests.post(host)returnres.json()['access_token']6.2人工智能技術#傳入語音二進制數(shù)據(jù),token#dev_pid為百度語音識別提供的幾種語言選擇defspeech2text(speech_data,token,dev_pid=1537):FORMAT='wav'RATE='16000'CHANNEL=1CUID='********'SPEECH=base64.b64encode(speech_data).decode('utf-8')6.2人工智能技術data={'format':FORMAT,'rate':RATE,'channel':CHANNEL,'cuid':CUID,'len':len(speech_data),'speech':SPEECH,'token':token,'dev_pid':dev_pid }6.2人工智能技術url='/server_api'headers={'Content-Type':'application/json'}#r=requests.post(url,data=json.dumps(data),headers=headers)print('正在識別...')r=requests.post(url,json=data,headers=headers)Result=r.json()if'result'inResult:returnResult['result'][0]else:returnResult6.2人工智能技術完整程序,見ASR-demo.py,使用中文普通話錄音后返回文字如圖6-19如下。讀者可下載程序,在百度智能云創(chuàng)建應用,修改程序中APIKey和SecretKey,運行程序后進行錄音并識別。6.2人工智能技術圖6-19語音識別結果6.2.2機器視覺技術機器視覺作為人工智能的一個分支既是機遇也是挑戰(zhàn),工業(yè)機器人賦予“慧眼”的機器視覺,大大提升了工業(yè)機器人效率。在智能制造過程中,機器視覺主要用計算機,來模擬人的視覺功能,也就是要把客觀事物的圖像信息提取、處理并理解,最終用于實際檢測、測量和控制。目前,日漸成熟的圖像識別技術已經被應用在各個行業(yè)各個領域,如網絡搜索、智能家居、電商購物、農林業(yè)、金融、安防、醫(yī)療等。6.2人工智能技術在智能家居領域,可實現(xiàn)在門口安裝了攝像頭,當有物體出現(xiàn)在攝像頭范圍內的時候,攝像頭自動拍攝圖像進行識別,如果發(fā)現(xiàn)是可疑的人或物體,就可以及時報警給戶主。如果圖像和主人的面部匹配,則會主動為主人開門,如圖6-20所示。該技術也普遍應用于安防系統(tǒng)。6.2人工智能技術圖6-20智能家居將圖像識別技術應用到醫(yī)療領域,可以更精準更快速地分辨X光片、MRI和CT掃描圖片,上至診斷預防癌癥,下至加速發(fā)現(xiàn)治病救命的新藥。一個放射科醫(yī)生一生可能會看上萬張掃描圖像,但是,一臺計算機可能會看上千萬張,如圖6-21所示。6.2人工智能技術圖6-21機器人分析X光片機器視覺針對瑕疵檢測,也是人工智能的一大“場景”,是人工智能在工業(yè)場景的一大落地應用。經視覺準確分析定位后引導動作,避免了產品傳送中的偏差,增強了不同產品的生產適應性,同時大幅提升產品的加工精度。此外,機器視覺還能檢測成品的精度,免除人工抽檢帶來的低效、誤差與漏檢。6.2人工智能技術圖6-22視覺分揀任務實施使用在線識圖搜索,上傳圖片至百度識圖搜索進行識別。1.準備好需要識別的圖片。準備好如圖6-23所示的機械手圖片。2.打開百度識圖搜索,如圖6-24所示。6.2人工智能技術圖6-23機械手圖片圖6-24百度識圖3.上傳圖片并識圖上傳機械手的圖片,根據(jù)該圖像特征匹配到“可能是越疆魔術師機械臂”,并提供相似圖片以供參考,如圖6-25所示。6.2人工智能技術圖6-25百度識圖結果6.2.3深度學習技術深度學習是機器學習的一種,而機器學習是實現(xiàn)人工智能的必經路徑。深度學習的概念源于人工神經網絡的研究,含多個隱藏層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。研究深度學習的動機在于建立模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本等。6.2人工智能技術典型的深度學習模型有卷積神經網絡(convolutionalneuralnetwork)、DBN和堆棧自編碼網絡(stackedauto-encodernetwork)模型等。1.卷積神經網絡模型在無監(jiān)督預訓練出現(xiàn)之前,訓練深度神經網絡通常非常困難,而其中一個特例是卷積神經網絡。6.2人工智能技術圖6-26卷積神經網絡。卷積神經網絡受視覺系統(tǒng)的結構啟發(fā)而產生。第一個卷積神經網絡計算模型是在Fukushima(D的神經認知機中提出的,基于神經元之間的局部連接和分層組織圖像轉換,將有相同參數(shù)的神經元應用于前一層神經網絡的不同位置,得到一種平移不變神經網絡結構形式。后來,LeCun等人在該思想的基礎上,用誤差梯度設計并訓練卷積神經網絡,在一些模式識別任務上得到優(yōu)越的性能。至今,基于卷積神經網絡的模式識別系統(tǒng)是最好的實現(xiàn)系統(tǒng)之一,尤其在手寫體字符識別任務上表現(xiàn)出非凡的性能。6.2人工智能技術2.深度信任網絡模型DBN可以解釋為貝葉斯概率生成模型,由多層隨機隱變量組成,上面的兩層具有無向對稱連接,下面的層得到來自上一層的自頂向下的有向連接,最底層單元的狀態(tài)為可見輸入數(shù)據(jù)向量。DBN由若2F結構單元堆棧組成,結構單元通常為RBM(RestIlctedBoltzmannMachine,受限玻爾茲曼機)。堆棧中每個RBM單元的可視層神經元數(shù)量等于前一RBM單元的隱層神經元數(shù)量。根據(jù)深度學習機制,采用輸入樣例訓練第一層RBM單元,并利用其輸出訓練第二層RBM模型,將RBM模型進行堆棧通過增加層來改善模型性能。在無監(jiān)督預訓練過程中,DBN編碼輸入到頂層RBM后,解碼頂層的狀態(tài)到最底層的單元,實現(xiàn)輸入的重構。RBM作為DBN的結構單元,與每一層DBN共享參數(shù)。6.2人工智能技術3.堆棧自編碼網絡模型堆棧自編碼網絡的結構與DBN類似,由若干結構單元堆棧組成,不同之處在于其結構單元為自編碼模型(auto-en-coder)而不是RBM。自編碼模型是一個兩層的神經網絡,第一層稱為編碼層

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論