




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、解秘:百度PaddlePaddle深度學(xué)習(xí)框架和搜索引擎基礎(chǔ)架構(gòu) 前不久在百度世界大會上,百度首席科學(xué)家吳恩達(dá)首次宣布對外開放百度深度學(xué)習(xí)平臺,以推動(dòng)人工智能技術(shù)的快速普及,把在搜索、圖像識別、語音識別、自然語言處理、用戶畫像及情感分析等人工智能領(lǐng)域的優(yōu)勢整合升級,為程序開發(fā)者提供了一個(gè)功能更全、效果更好的深度學(xué)習(xí)框架。其實(shí),百度很重視對于開源軟件的使用,也愿意把內(nèi)部的技術(shù)以開源的形式貢獻(xiàn)出來,正如在10月22號由百度開發(fā)者中心、百度開源委員會聯(lián)合舉辦的第67期“百度開源專場”技術(shù)沙龍上,來自百度的工程師于洋和顏世光,分別分享了百度開源的兩個(gè)最新項(xiàng)目:PaddlePaddle百度深度學(xué)習(xí)框架和
2、百度搜索架構(gòu)開源產(chǎn)品線(例如 Tera、BFS、Galaxy 等),并結(jié)合具體的產(chǎn)品案例,分享百度開源技術(shù)最新實(shí)踐經(jīng)驗(yàn)。目前這些項(xiàng)目都已經(jīng)在github/baidu上開源。什么是PaddlePaddle 深度學(xué)習(xí)平臺?首先做個(gè)簡單的介紹,PaddlePaddle 是百度自主研發(fā)的性能優(yōu)先、靈活易用的深度學(xué)習(xí)平臺,是一個(gè)已經(jīng)解決和將要解決一些實(shí)際問題的平臺。目前百度有超過30個(gè)主要產(chǎn)品都在使用 PaddlePaddle。關(guān)于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和淺層學(xué)習(xí)的內(nèi)容就不詳細(xì)介紹了,接下來重點(diǎn)講述一下PaddlePaddle 的整體架構(gòu)。關(guān)于 PaddlePaddle 整體架構(gòu)說到PaddlePaddle
3、的整體架構(gòu),主要從這幾個(gè)方面入手:多機(jī)并行架構(gòu)、多 GPU 并行架構(gòu)、Sequence 序列模型和大規(guī)模稀疏訓(xùn)練。多機(jī)的并行架構(gòu)和序列模型的實(shí)現(xiàn)都是實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)最復(fù)雜的東西,那么具體怎么實(shí)現(xiàn)全連接?PaddlePaddle 是2013年啟動(dòng)時(shí)比較流行的架構(gòu)是 Pserver 和 Trainer 的架構(gòu)。在多機(jī)并行架構(gòu)中數(shù)據(jù)分配到不同節(jié)點(diǎn),下圖里灰色部分表示機(jī)器,方框里表示一個(gè)進(jìn)程,Pserver 和 Trainer 是分布在兩個(gè)進(jìn)程里,中間的部分是網(wǎng)絡(luò)通訊連接。下面來介紹一下什么是大規(guī)模稀疏模型訓(xùn)練。稀疏模型訓(xùn)練是說輸入數(shù)據(jù)是稀疏的,由于稀疏輸入,那么灰色的神經(jīng)元和連接在訓(xùn)練中都沒有作用,灰色
4、神經(jīng)元的輸出是0,灰色連接的梯度是0,梯度是0的話,簡單的 SGD 不更新權(quán)重。所以只有藍(lán)色的連接有價(jià)值,需要從 PServer 服務(wù)器獲得最新參數(shù),需要計(jì)算梯度,并將梯度傳送回參數(shù)服務(wù)器。(如下圖)除了上面所提到的,還有兩外兩種情況下的稀疏模型:大規(guī)模稀疏模型(多機(jī)器)每個(gè) Trainer Prefetch 出自身需要的參數(shù)和服務(wù)器通信。大規(guī)模稀疏模型(正則化)簡單的 SGD 確實(shí)在梯度為0的時(shí)候,不去更新參數(shù),但是加上正則化就不一定了;比如L2正則化,就要求參數(shù)的2范數(shù)持續(xù)減小。PaddlePaddle 實(shí)現(xiàn)時(shí)的一些思考基于 OP(操作)還是基于 Layer(層)?基于 OP從矩陣乘法配起
5、,一步一步對應(yīng)一個(gè)一個(gè)數(shù)學(xué)運(yùn)算?;趯又苯訉懸粋€(gè)全連接層,LSTM 層?;?OP 的優(yōu)勢 Tensorflow更靈活,更可以讓研究人員構(gòu)造新的東西基于 Layer 的優(yōu)勢 Caffe更易用,讓細(xì)節(jié)暴露的更少;更容易優(yōu)化?;?OP還是基于 Layer?支持大部分 Layer,但是也支持從 OP 開始配網(wǎng)絡(luò)(矩陣乘發(fā),加法,激活等等);對于成型的 Layer(LSTM)使用 C+重新優(yōu)化。原因在于,PaddlePaddle 是企業(yè)解決現(xiàn)有問題的框架,不是純粹的科研框架;企業(yè)需要性能,也需要靈活性。多機(jī)通信基于 MPI 還是 Spark 還是 K8s + Docker?PaddlePaddle
6、底層通信不依賴于任何網(wǎng)絡(luò)框架,PaddlePaddle 的網(wǎng)絡(luò)任務(wù)需求相對簡單,根源在于任務(wù)周期短(連續(xù)運(yùn)行幾周);任務(wù)可以失?。ǘ啻鎐heckpoint)。同時(shí),PaddlePaddle 的網(wǎng)絡(luò)需要高性能,從頭手寫網(wǎng)絡(luò)庫更方便性能調(diào)優(yōu),RDMA 可以更好的支持。同理,PaddlePaddle 底層不依賴任何 GPU 通信框架。百度搜索開源基礎(chǔ)架構(gòu)顏世光是百度搜索基礎(chǔ)架構(gòu)負(fù)責(zé)人,在這次沙龍上介紹了百度當(dāng)前的這套搜索引擎,以及搜索引擎背后的事件。重點(diǎn)部分是百度這套開源的基礎(chǔ)架構(gòu)軟件站,它包括分布式數(shù)據(jù)庫、文件系統(tǒng)、管理系統(tǒng)、分布式協(xié)調(diào)服務(wù)、網(wǎng)絡(luò)通信框架。下面來一一介紹。當(dāng)前,用戶通過互聯(lián)網(wǎng)搜索引
7、擎的期望在不斷的變化,整個(gè)搜索引擎的期望從之前的幾周變成現(xiàn)在的幾分鐘,之前幾周之內(nèi)可以處理幾百億的數(shù)據(jù),現(xiàn)在要在幾分鐘之內(nèi)處理幾萬億的數(shù)據(jù),這是個(gè)鮮明的矛盾。其實(shí)解決方案就是構(gòu)建一個(gè)大數(shù)據(jù)處理平臺,也稱之為“基礎(chǔ)架構(gòu)系統(tǒng)”。這個(gè)基礎(chǔ)架構(gòu)系統(tǒng)目標(biāo)首先是海量的目標(biāo)數(shù)據(jù)。其次就是在于集群利用率的保證,這個(gè)利用率可能是 CPU 利用率,它會為你節(jié)省成本。這里可以簡單介紹一下百度內(nèi)從事開發(fā)的平臺百度 stack(如上圖)。這個(gè)平臺分三層,最的底層是網(wǎng)絡(luò)通訊,是一個(gè)高性能的 RPC 框架,它會把所有的網(wǎng)絡(luò)問題屏蔽掉,讓上層的系統(tǒng)在開發(fā)中不需要考慮網(wǎng)絡(luò)拓?fù)?。中間一層是基礎(chǔ)服務(wù),包括分布式文件系統(tǒng),它解決了數(shù)
8、據(jù)處理。第二就是集群管理系統(tǒng),它管理的數(shù)據(jù)可以讓程序部署變得代價(jià)很小。第三是分布式的協(xié)調(diào)服務(wù),一方面用做服務(wù)發(fā)現(xiàn),另外就是分布式。最上層是核心數(shù)據(jù)庫和數(shù)據(jù)處理系統(tǒng)。在理解上可以將這套系統(tǒng)和 Hadoop 相關(guān)的系統(tǒng)類比。從中間這層說起,Hadoop 有 HDPS,Hadoop 在分布式服務(wù)這塊使用 Cukaber,比如也有 Sidom、Sbark 這些。整個(gè)基礎(chǔ)架構(gòu)系統(tǒng)的設(shè)計(jì)思想有兩個(gè),第一是分層。無論是 Hadoop 系還是谷歌,他們都使用類似的思想,這個(gè)思想主要是分工和借用,讓不同分工解決不同問題。另外一個(gè)思想就是高效,解決用戶對處理速度的期望。百度主要使用 SSD、萬兆網(wǎng)卡,這套分布式基
9、礎(chǔ)架構(gòu)完全是用 C+實(shí)現(xiàn)的。首先是核心的數(shù)據(jù)庫 Tera,這里列了 Tera 數(shù)據(jù)庫的核心功能,包括全局有序、自動(dòng)分裂、合并、支持快照。Tera 的架構(gòu)可以看(如上簡圖),從圖上我們可以看到它有核心就是綠色兩部分,是 Master 和 TableServer,提供整個(gè)數(shù)據(jù)節(jié)點(diǎn)都是 TableServer,所有的訪問經(jīng)過 Master,讓它擴(kuò)展到幾千臺服務(wù)器中?;疑牡讓訑?shù)據(jù)都是在分布式文件系統(tǒng)上,自身沒有任何數(shù)據(jù),被設(shè)計(jì)成無狀態(tài),當(dāng)一個(gè)TableServer宕機(jī)后,會從另外一個(gè)機(jī)器拉取數(shù)據(jù),不會有任何損失。同樣底層的分布式文件系統(tǒng)可以提供很大的幫助,它是通過 Nexus 做的。這里簡單介紹一下 Tera 的核心技術(shù)。水平擴(kuò)展方面能做到無單點(diǎn);在線分裂、合并;自動(dòng)負(fù)載均衡;通過 LSM-Tree 做到實(shí)時(shí)同步,并且Tera還具有多語言支持的特點(diǎn)。Tera 在百度內(nèi)部有非常廣泛的應(yīng)用,強(qiáng)大的 DNS 系統(tǒng)支撐著搜索引擎獲取網(wǎng)頁,而這套DNS系統(tǒng)就是通過 Tera 實(shí)現(xiàn)的。也就是說大家在百度上搜索、點(diǎn)擊這些日志是通過導(dǎo)到 Tera 系統(tǒng)上進(jìn)行分析的。這里再
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度茶樓合伙協(xié)議書:茶樓投資合作項(xiàng)目合作協(xié)議
- 量子化學(xué)軟件發(fā)展-深度研究
- 二零二五年度離婚后子女醫(yī)療費(fèi)用承擔(dān)協(xié)議書
- 二零二五年度文化產(chǎn)業(yè)公司股權(quán)受讓協(xié)議書范例
- 核能合作機(jī)制研究-深度研究
- 2025年度高端資產(chǎn)管理正規(guī)委托理財(cái)合同
- 2025年度汽車行業(yè)員工轉(zhuǎn)正合同規(guī)范文本
- 財(cái)務(wù)咨詢服務(wù)的合同范文-2025年度:文化產(chǎn)業(yè)發(fā)展財(cái)務(wù)規(guī)劃
- 二零二五年度購房合同公證與房屋租賃合同續(xù)租服務(wù)協(xié)議
- 2025年度湖南省勞動(dòng)合同續(xù)簽與變更協(xié)議
- 建設(shè)工程安全生產(chǎn)管理模擬練習(xí)題及答案
- (高清版)JTGT 5440-2018 公路隧道加固技術(shù)規(guī)范
- 2024年高三新高考英語模擬試卷試題及答案詳解 (二)
- 職業(yè)健康檢查質(zhì)量管理工作手冊
- 2024年國家教育部學(xué)位與研究生教育發(fā)展中心招聘6人(非事業(yè)編制)歷年公開引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 一年級下冊語文課件《2-我多想去看看》人教部編版-20
- 叉車高級工培訓(xùn)課件
- TIAC 27-2019《機(jī)動(dòng)車保險(xiǎn)車聯(lián)網(wǎng)數(shù)據(jù)采集規(guī)范》
- 歌唱二小放牛郎 金巍 女聲合唱譜
- 平面構(gòu)成全套教學(xué)課件
- 創(chuàng)新素養(yǎng)的培養(yǎng)
評論
0/150
提交評論