版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
認(rèn)知計算與深度學(xué)習(xí)基于物聯(lián)網(wǎng)云平臺的智能應(yīng)用
深度學(xué)習(xí)和社交分析應(yīng)用認(rèn)知計算與深度學(xué)習(xí)基于物聯(lián)網(wǎng)云平臺的智能應(yīng)用深度學(xué)習(xí)和社交目錄CONTENT1深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2使用ANN和CNN算法的文本和圖像識別3深度增強(qiáng)學(xué)習(xí)的應(yīng)用4社交媒體應(yīng)用程序的數(shù)據(jù)分析5本章小結(jié)目錄CONTENT1深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2使用ANN和2深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)相關(guān)的軟件庫和平臺是由工業(yè)界和學(xué)術(shù)界為其研發(fā)相關(guān)應(yīng)用程序開發(fā)的。正如前面章節(jié)所學(xué)習(xí)到的那樣,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)方法的更廣泛的一部分。不同之處在于對數(shù)據(jù)不同的學(xué)習(xí)方式。例如:X射線圖像的檢查以多種方式表示,例如矢量,矩陣或張量。這些便是受到神經(jīng)科學(xué)進(jìn)步的啟發(fā)。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)3深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)我們已經(jīng)對機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法有了一定了解.。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個分支。在大量訓(xùn)練數(shù)據(jù)“喂養(yǎng)”模型來達(dá)到最優(yōu)效果的情況下,云提供了有效的資源來完成實(shí)時的學(xué)習(xí)。表9-1從平臺、接口、性能、建模能力等方面對五個當(dāng)今較為流行的深度學(xué)習(xí)軟件庫進(jìn)行了比較,其中建模能力是評估軟件庫在深度學(xué)習(xí)應(yīng)用中的實(shí)用性的關(guān)鍵指標(biāo)。
深度學(xué)習(xí)系統(tǒng)和軟件支持深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)我們已經(jīng)對機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算4深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2.增強(qiáng)學(xué)習(xí)原則增強(qiáng)學(xué)習(xí)的學(xué)習(xí)目標(biāo)是在深度學(xué)習(xí)過程中實(shí)現(xiàn)最大的獎勵。增強(qiáng)學(xué)習(xí)是無監(jiān)督機(jī)器學(xué)習(xí)的子類,因?yàn)樵鰪?qiáng)學(xué)習(xí)中給定的數(shù)據(jù)沒有標(biāo)簽。增強(qiáng)學(xué)習(xí)被認(rèn)為是人工智能的通用框架。在數(shù)學(xué)上,其學(xué)習(xí)環(huán)境被認(rèn)為是馬爾可夫決策過程(MDP)。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2.增強(qiáng)學(xué)習(xí)原則5深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)增強(qiáng)學(xué)習(xí)模型由以下5個部分構(gòu)成:●以一組狀態(tài)為特征的學(xué)習(xí)環(huán)境。●RL智能體可以采取的一組行動。其中每個行動都會影響智能體的未來狀態(tài),智能體具有評估其行動的長期后果的能力。●RL狀態(tài)之間的轉(zhuǎn)換規(guī)則。●確定狀態(tài)轉(zhuǎn)移的立即回報規(guī)則。●指定代理可以觀察的內(nèi)容的規(guī)則。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)增強(qiáng)學(xué)習(xí)模型由以下5個部分構(gòu)成:6深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)RL算法鼓勵使用樣本來優(yōu)化性能和使用函數(shù)近似來處理大型環(huán)境。有兩種方法使得RL在處理以下三種機(jī)器學(xué)習(xí)環(huán)境時特別有吸引力:一個缺乏解決方案的已知模型環(huán)境;基于模擬的優(yōu)化環(huán)境;通過與環(huán)境交互來收集有關(guān)環(huán)境的信息。強(qiáng)化學(xué)習(xí)環(huán)境的基本假設(shè)包括:●所有事件都作為一系列劇集的情節(jié)。當(dāng)達(dá)到一些終端狀態(tài)時,情節(jié)結(jié)束。●無論智能體可能采取什么樣的行動,終止都是不可避免的?!駥τ谌魏螞Q策和狀態(tài)的初始分配,總報酬的期望是明確的。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)RL算法鼓勵使用樣7深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)智能算法必須能夠制定RL算法來找到一個具有最大預(yù)期收益的決策。該算法需要搜索最優(yōu)策略以獲得最大獎勵。通常,我們使用確定的固定策略,僅基于所訪問的當(dāng)前或最后狀態(tài)來確定性地選擇動作。設(shè)計強(qiáng)化學(xué)習(xí)算法有許多方法。
一個粗暴的方法是選擇具有最大預(yù)期回報的政策,這種方法的主要困難是決策選擇集可能非常大甚至是無窮的。價值函數(shù)方法試圖找到一個策略,能夠通過保留一些策略的預(yù)計回報估計值來尋找最大的回報。
其他RL方案包括時間差方法,其允許在回報估計值確定之前改變策略。直接策略搜索方法通過直接從策略空間中搜索找到良好的策略,基于梯度和基于無梯度的方法都屬于這種方法?;跐u變的方法從有限維(參數(shù))空間到策略空間的映射開始。策略搜索方法通常太慢而無法收斂到最佳選擇。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)智能算法必須能夠8深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)3.社交媒體行業(yè)和全球影響
社交媒體行業(yè)正在遠(yuǎn)離平面媒體,如報紙、雜志或電視節(jié)目。另一方面,電子書、移動支付、Uber汽車、在線購物和社交網(wǎng)絡(luò)正在逐漸成為主流,其核心是在理想地點(diǎn)的最佳時機(jī)去捕捉或定位用戶,且最終目的是服務(wù)或傳達(dá)符合消費(fèi)者心態(tài)的消息或內(nèi)容。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)3.社交媒體行業(yè)和全球影響9深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)社交媒體服務(wù)體現(xiàn)在我們的日常生活活動的以下4個領(lǐng)域:●社交媒體服務(wù)Web2.0是Web服務(wù)應(yīng)用程序的一部分●用戶生成的內(nèi)容是社交媒體的命脈●用戶為社交媒體和網(wǎng)站針對不同的服務(wù)創(chuàng)建特定的配置文件●社交媒體促進(jìn)社交和商業(yè)活動中的在線社交網(wǎng)絡(luò)的發(fā)展深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)社交媒體服務(wù)體現(xiàn)在我們的日常生活活10使用ANN和CNN算法的文本和圖像識別手寫數(shù)字識別是一個分類問題。如圖9-1所示,輸入是手寫數(shù)字圖像,輸出為由圖像表示的數(shù)字。為了讓讀者易于學(xué)習(xí)和練習(xí),我們使用經(jīng)典的手寫數(shù)字集Mnist作為應(yīng)用程序數(shù)據(jù)集。Mnist包括60000個手寫數(shù)字的圖像,并且每個圖像都是28×28像素。使用ANN和CNN算法的文本和圖像識別手寫數(shù)字11使用ANN和CNN算法的文本和圖像識別在ANN中使用TensorFlow進(jìn)行數(shù)字識別
以下示例顯示如何在編寫人工神經(jīng)網(wǎng)絡(luò)(ANN)的過程中中使用TensorFlow,將其稱為Mnist分類器。我們考慮一個4層ANN的構(gòu)造,稱為Mnist分類器。由4個步驟來構(gòu)造他們的ANN。Step1:收集數(shù)據(jù):我們使用從YannLeCun(/index.html)獲取的Mnist數(shù)據(jù)。Step2:建造ANN模型:我們選擇一個4層神經(jīng)網(wǎng)絡(luò)來構(gòu)造分類器,它包含1個輸入層,2個隱藏層和1個輸出層。使用ANN和CNN算法的文本和圖像識別在ANN中使用Tens12使用ANN和CNN算法的文本和圖像識別Step4:網(wǎng)絡(luò)測試:算法將會比較測試數(shù)據(jù)的輸出及其相應(yīng)的標(biāo)簽并且計算其精度。Step3:訓(xùn)練模型:通過比較訓(xùn)練數(shù)據(jù)的輸出及其標(biāo)簽,算法將調(diào)整網(wǎng)絡(luò)的參數(shù)。圖9?2基于一個人工神經(jīng)網(wǎng)絡(luò)編程的TensorFlow的結(jié)果使用ANN和CNN算法的文本和圖像識別Step4:網(wǎng)絡(luò)測試13使用ANN和CNN算法的文本和圖像識別2.使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)字識別
深度學(xué)習(xí)使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和分類。圖9?3所示包括5層的卷積深神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中包括2個卷積層,每一個卷積層后是一個池化層,連接一個全連接層,最后進(jìn)行分類輸出。圖9?3手寫數(shù)字識別卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用ANN和CNN算法的文本和圖像識別2.使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)14使用ANN和CNN算法的文本和圖像識別Step1:讀入數(shù)據(jù)集首先,讀入數(shù)據(jù)集,預(yù)處理訓(xùn)練集train_x和標(biāo)簽集train_y。Step2:初始化CNN初始化卷積層和池化層結(jié)構(gòu)。Step3:訓(xùn)練CNN在訓(xùn)練過程中,首先輸入手寫數(shù)字圖像。前向傳播算法得到輸入圖像的分類結(jié)果。然后,使用后向傳播算法計算輸出類別和標(biāo)注類別的誤差。最后,調(diào)整每一層的參數(shù)。訓(xùn)練結(jié)束后,固定網(wǎng)絡(luò)的參數(shù),得到訓(xùn)練好的CNN。Step4:測試CNN使用ANN和CNN算法的文本和圖像識別Step1:讀入數(shù)據(jù)15使用ANN和CNN算法的文本和圖像識別3.利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識別
人臉識別是計算機(jī)視覺領(lǐng)域一個非常重要的研究方向,目前深度學(xué)習(xí)在人臉識別領(lǐng)域已經(jīng)達(dá)到或超過人類水平,在LFW數(shù)據(jù)集上達(dá)到99.47%的識別率,超過人眼在此數(shù)據(jù)集上的識別率99.25%。圖9?4DeepID人臉識別系統(tǒng)結(jié)構(gòu)使用ANN和CNN算法的文本和圖像識別3.利用卷積神經(jīng)網(wǎng)16使用ANN和CNN算法的文本和圖像識別DeepID算法如下:Input:輸入層輸入LFW數(shù)據(jù)集中人臉圖像,39×31像素Convolution1:卷積核大小設(shè)置為4×4,共使用20個卷積核。這層需要設(shè)置20個4×4的權(quán)重矩陣,卷積步長設(shè)置為1。卷積之后獲得20個特征圖,每個特征圖大小為((39-4)+1)×((28-4)+1)=36×28。激活函數(shù)使用RELU(x)=max(0,x)函數(shù)。Pooling1:對上層Convolution1輸出的20個特征圖操作,每個不重疊的2*2區(qū)域進(jìn)行最大Pooling,得到20個特征圖,每個特征圖大小為(36/2)×(28/2)=18×14。使用ANN和CNN算法的文本和圖像識別DeepID算法如下17使用ANN和CNN算法的文本和圖像識別Convolution2:以上層Pooling1的輸出作為輸入,卷積核大小3×3,共使用40個卷積核(40個3×3的權(quán)重矩陣),卷積步長設(shè)置為1。同樣使用RELU函數(shù)作為激活函數(shù),卷積之后得到40個特征圖,每個特征圖大小為((18-3)+1)×((14-3)+1)=16×12。Pooling2:對上層Convoluation2輸出的40個特征圖操作,每個不重疊的2*2區(qū)域進(jìn)行最大Pooling,得到40個特征圖,每個特征圖大小為(16/2)×(12/2)=8×6。Convolution3:使用上層Pooling2的輸出作為輸入,卷積核大小3×3,共使用60個卷積核(設(shè)置60個3*3的權(quán)重矩陣),卷積步長與Convolution2和Convolution3相同設(shè)置為1。卷積之后獲得60個特征圖,每個特征圖大小為((8-3)+1)×((6-3)+1)=6×4。激活函數(shù)使用RELU函數(shù)。使用ANN和CNN算法的文本和圖像識別Convolution18使用ANN和CNN算法的文本和圖像識別Pooling3:對上層Convolution3輸出的60個特征圖進(jìn)行池化操作。對每個不重疊的2*2區(qū)域進(jìn)行最大Pooling,得到60個特征圖,每個特征圖大小為(6/2)×(14/2)=3×2。Convolution4:以上層Pooling3的輸出作為輸入,卷積核大小2×2,共使用80個卷積核(80個2*2的權(quán)重矩陣)。卷積步長設(shè)置為1,卷積操作得到80個特征圖,每個特征圖大小為((3-2)+1)×((2-2)+1)=2×1。激活函數(shù)使用RELU函數(shù)。DeepID:算法中,DeepID層是全連接層,包含160個隱藏神經(jīng)元,與Convolution4和Pooling3的輸出進(jìn)行全連接。softmax(輸出層):使用softmax全連接的分類器,輸出識別結(jié)果(所有的n個類別)。使用ANN和CNN算法的文本和圖像識別Pooling3:對上19使用ANN和CNN算法的文本和圖像識別4.卷積神經(jīng)網(wǎng)絡(luò)醫(yī)療文本分析使用深度學(xué)習(xí)方法進(jìn)行文本的分析時,首先需要對文本進(jìn)行數(shù)字化的表示,然后使用深度學(xué)習(xí)算法進(jìn)行文本的特征學(xué)習(xí)和提取及相應(yīng)的理解。圖9-5所示為深度學(xué)習(xí)文本理解的示意圖。使用ANN和CNN算法的文本和圖像識別4.卷積神經(jīng)網(wǎng)絡(luò)醫(yī)20使用ANN和CNN算法的文本和圖像識別(1)
文本表示法自然語言理解要轉(zhuǎn)化為深度學(xué)習(xí)問題,首先要將文本中的每一個詞用數(shù)字化的方法表示,通常使用詞向量(wordembedding)的方法表示。詞向量文本表示方法就是建立一個詞匯表,每一個詞在詞匯表中對應(yīng)一個向量。詞向量的表示方法有兩種:一元表示法(one-hotrepresentation)和分布式表示法(distributedrepresentation)。使用ANN和CNN算法的文本和圖像識別(1)文本表示法21使用ANN和CNN算法的文本和圖像識別(2)
醫(yī)療文本理解模型建立基于卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)療文本理解模型,主要包括三部分:●學(xué)習(xí)詞向量?!裼?xùn)練CNN學(xué)習(xí)醫(yī)療文本特征?!駵y試和應(yīng)用。使用ANN和CNN算法的文本和圖像識別(2)醫(yī)療文本理解模22使用ANN和CNN算法的文本和圖像識別3.卷積神經(jīng)網(wǎng)絡(luò)
對于輸入文本的詞向量表示xw(xw1,xw2,…,xwN),依次計算xw中的每個詞的卷積向量。第n個詞的卷積向量計算如圖9-9所示。(1)卷積層使用ANN和CNN算法的文本和圖像識別3.卷積神經(jīng)網(wǎng)絡(luò)23使用ANN和CNN算法的文本和圖像識別(2)池化層池化操作分為最大池化操作和平均池化操作,這里將進(jìn)行最大池化操作。選擇最大池化操作的原因是文本中每一個詞的作用并不是完全相等的,也就是通過最大池化選擇出文本中能起到關(guān)鍵作用的元素。(3)輸出層池化層后連接一個神經(jīng)網(wǎng)絡(luò)的全連接層,使用softmax分類器輸出分類結(jié)果。(4)CNN訓(xùn)練使用隨機(jī)梯度下降法進(jìn)行參數(shù)θ的訓(xùn)練,參數(shù)的修改使用下式,其中α是學(xué)習(xí)率。使用ANN和CNN算法的文本和圖像識別(2)池化層24深度增強(qiáng)學(xué)習(xí)的應(yīng)用1.DeepMind利用深度增強(qiáng)學(xué)習(xí)玩游戲谷歌DeepMind在一些創(chuàng)新的智能應(yīng)用上,結(jié)合深度學(xué)習(xí)和增強(qiáng)算法來實(shí)現(xiàn)人類水平的性能,這種新的算法稱為深度增強(qiáng)學(xué)習(xí)(DRL)。DRL采用一組智能體來選擇最優(yōu)的行動。第一個DRL方法稱為DeepQ-network(DQN),由DeepMind的DavidSilver提出,他是AlphaGo的作者之一。DQN結(jié)合了CNN和Q-network算法。Q-network用來評估智能體執(zhí)行一個特定動作后的獎勵。圖9-12顯示了谷歌的一個通用增強(qiáng)學(xué)習(xí)架構(gòu),稱為Gorila。深度增強(qiáng)學(xué)習(xí)的應(yīng)用1.DeepMind利用深度增強(qiáng)學(xué)習(xí)25深度增強(qiáng)學(xué)習(xí)的應(yīng)用2.深度增強(qiáng)學(xué)習(xí)算法深度增強(qiáng)學(xué)習(xí)是將深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)結(jié)合起來的算法。其中增強(qiáng)是一個序列決策的問題,通過不斷地選擇行動來最大化未來總獎勵。它和監(jiān)督學(xué)習(xí)不一樣,它沒有監(jiān)督值,但是有獎勵值,而這個獎勵值是執(zhí)行一系列行動之后的獎勵累計值。圖9-13是增強(qiáng)學(xué)習(xí)的簡單示意圖。深度增強(qiáng)學(xué)習(xí)的應(yīng)用2.深度增強(qiáng)學(xué)習(xí)算法26深度增強(qiáng)學(xué)習(xí)的應(yīng)用增強(qiáng)學(xué)習(xí)的目的是尋找最優(yōu)策略,使之最大化累積獎勵值:
策略是狀態(tài)到動作的映射,也就是根據(jù)當(dāng)前狀態(tài)智能體要怎么做。有兩種典型的策略:一種是決定性策略,在特定狀態(tài)下明確執(zhí)行一些動作,即a=π(s);另一種是隨機(jī)策略,即π(a|s)=P[a|s],它表示在某種狀態(tài)s下執(zhí)行某個動作a的概率。深度增強(qiáng)學(xué)習(xí)的應(yīng)用增強(qiáng)學(xué)習(xí)的目的是尋找最優(yōu)策略,使之最大化累27深度增強(qiáng)學(xué)習(xí)的應(yīng)用
策略通常是通常價值函數(shù)來確定,預(yù)測未來獎勵,體現(xiàn)了當(dāng)前狀態(tài)或狀態(tài)行動的好壞。價值函數(shù)分為狀態(tài)價值函數(shù)v(s)和行動價值函數(shù)q(s,a)。狀態(tài)價值函數(shù)vπ(s)是從狀態(tài)s起,執(zhí)行策略π能得到的期望獎勵值。立即獎勵值指在狀態(tài)s時選擇行動a瞬間得到的獎勵值深度增強(qiáng)學(xué)習(xí)的應(yīng)用策略通常是通常價值函數(shù)來確定,預(yù)測28深度增強(qiáng)學(xué)習(xí)的應(yīng)用通過迭代,可以得到狀態(tài)價值函數(shù)和行動價值函數(shù)的關(guān)系:
對于任意的馬爾可夫決策過程,總能找到最優(yōu)策略,所有的最優(yōu)策略都對應(yīng)最優(yōu)狀態(tài)價值函數(shù)v*(s)和行動價值函數(shù)q*(s,a),二者關(guān)系為:深度增強(qiáng)學(xué)習(xí)的應(yīng)用通過迭代,可以得到狀態(tài)價值函數(shù)和行動價值函29深度增強(qiáng)學(xué)習(xí)的應(yīng)用(1)由<狀態(tài),價值,獎勵值,下一個狀態(tài)>對組成回放池(replaymemory),每次從回放池中隨機(jī)取樣?;胤懦卮蚱屏藬?shù)據(jù)之間的相關(guān)性,使數(shù)據(jù)獨(dú)立相等地分布。(2)固定目標(biāo)Q-network來避免波動,打破Q-network和目標(biāo)之間的相關(guān)性。(3)將獎勵或網(wǎng)絡(luò)標(biāo)準(zhǔn)調(diào)整到一個合理的范圍,這需要一個強(qiáng)大的梯度方法。狀態(tài)作為輸入對每個可能的行動輸出一個Q值。經(jīng)過一次神經(jīng)網(wǎng)絡(luò)的正向傳播,更新所有行動的Q值。DQN有幾個顯著的特點(diǎn):深度增強(qiáng)學(xué)習(xí)的應(yīng)用(1)由<狀態(tài),價值,獎勵值,下一個狀態(tài)>30深度增強(qiáng)學(xué)習(xí)的應(yīng)用對當(dāng)前的狀態(tài)s執(zhí)行前向傳播,獲得對所有行動的預(yù)測Q值對下一狀態(tài)s'執(zhí)行前向傳播,計算網(wǎng)絡(luò)輸出的最大Q值:設(shè)置行動的目標(biāo)Q值為,這里的max值在第二步已經(jīng)算出。預(yù)測值為第一步計算出的4.使用后向傳播算法更新權(quán)重。損失函數(shù)為:給定轉(zhuǎn)移,Q值表更新規(guī)則變動如下:深度增強(qiáng)學(xué)習(xí)的應(yīng)用對當(dāng)前的狀態(tài)s執(zhí)行前向傳播,獲得對所有行動31深度增強(qiáng)學(xué)習(xí)的應(yīng)用3.深度增強(qiáng)學(xué)習(xí)訓(xùn)練平臺——OpenAIGym2016年4月28日,人工智能公司OpenAI對外發(fā)布了一款用于研發(fā)和比較深度強(qiáng)化學(xué)習(xí)算法的工具包OpenAIGym(/),提供各種環(huán)境(主要是小游戲)的開源包。監(jiān)督學(xué)習(xí)的評測工具主要是數(shù)據(jù)標(biāo)簽,將一堆數(shù)據(jù)去掉標(biāo)簽后進(jìn)行訓(xùn)練,然后把訓(xùn)練結(jié)果和原來的標(biāo)簽進(jìn)行比較,通過準(zhǔn)確率等因素來評測效果。增強(qiáng)學(xué)習(xí)則不然,智能體與環(huán)境交互,因此需要提供一個環(huán)境,智能體在環(huán)境中做出行動,環(huán)境針對智能體的行動給出獎勵,改變環(huán)境狀態(tài),最后根據(jù)累計獎勵值評測增強(qiáng)學(xué)習(xí)策略的好壞。下面以一個簡單的例子來說明OpenAIGym的使用。深度增強(qiáng)學(xué)習(xí)的應(yīng)用3.深度增強(qiáng)學(xué)習(xí)訓(xùn)練平臺——OpenAI32深度增強(qiáng)學(xué)習(xí)的應(yīng)用4.AlphaGo原理解析AlphaGo程序由以下4部分組成:策略網(wǎng)絡(luò)(PolicyNetwork)、快速走棋(Fastrollout)、估值網(wǎng)絡(luò)(ValueNetwork)、蒙特卡羅樹搜索(MonteCarloTreeSearch,MCTS)。(1)AlphaGo的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建和它的訓(xùn)練過程如圖9?16所示,構(gòu)建一個卷積神經(jīng)網(wǎng)絡(luò),選擇成功率較大的位置落子。圖9?16圍棋棋盤的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建深度增強(qiáng)學(xué)習(xí)的應(yīng)用4.AlphaGo原理解析Alp33深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?17解釋了監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。圖9?17策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)之間的自我對弈深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?17解釋了監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。圖34深度增強(qiáng)學(xué)習(xí)的應(yīng)用(2)AlphaGo程序中的深度增強(qiáng)學(xué)習(xí)系統(tǒng)架構(gòu)步驟1:最左邊框圖是線下深度學(xué)習(xí)的過程。一個有監(jiān)督的深度學(xué)習(xí)方法通過輸入專業(yè)玩家的棋譜訓(xùn)練實(shí)現(xiàn),目的是并行執(zhí)行下面兩項任務(wù):(1)使用線性模型提取特征值,產(chǎn)生快速走棋網(wǎng)絡(luò)用于蒙特卡洛樹搜索。(2)使用特征圖更新策略網(wǎng)絡(luò)。為接下來的兩個步驟程作準(zhǔn)備。步驟2:該步驟通過增強(qiáng)學(xué)習(xí)更新之前的策略網(wǎng)絡(luò),為步驟3做準(zhǔn)備。根據(jù)自我對弈的棋譜,在步驟3隨機(jī)選擇行動。步驟3:該步驟使用自我對弈棋譜隨機(jī)走U步,然后進(jìn)行三個并行的任務(wù)——判斷勝負(fù),提取有用特征,提取當(dāng)前玩家棋子的顏色。這三個任務(wù)的輸出合并起來,輸入深度logistic回歸模型,以訓(xùn)練價值網(wǎng)絡(luò)。更新的快速走子,策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)應(yīng)用到圖9?18線上學(xué)習(xí)過程的5個步驟。深度增強(qiáng)學(xué)習(xí)的應(yīng)用(2)AlphaGo程序中的深度增強(qiáng)學(xué)習(xí)35深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)習(xí)過程在圖9?19,我們展示了AlphaGo線上學(xué)習(xí)的5個步驟步驟1;基于當(dāng)前棋盤提取特征。步驟2:使用策略網(wǎng)絡(luò)估計每個可能落子位置落子的概率。步驟3:根據(jù)落子概率計算往下發(fā)展的權(quán)重。圖9?18AlphaGo的線下學(xué)習(xí)過程深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)36深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)習(xí)過程步驟4:使用價值網(wǎng)絡(luò)和快速走子網(wǎng)絡(luò)更新獎勵。步驟5:選擇權(quán)重最大的位置落子。權(quán)重的更新可以并行。當(dāng)估算某位置的時間超過一定值,下一步就使用蒙特卡洛樹搜索。圖9?18AlphaGo的線下學(xué)習(xí)過程深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)37深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?19AlphaGo的線上學(xué)習(xí)過程蒙特卡洛樹同時使用價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò):(1)根據(jù)當(dāng)前棋局,選擇對手可能的落子策略。(2)根據(jù)對手的落子,選擇對我們最有利的行動,展開至勝率最大的落子模式。(3)選擇下一步最優(yōu)行動有兩種方法。一種需要估值網(wǎng)絡(luò)估計的勝率,另一種是使用蒙特卡洛樹做更深層的預(yù)測。AlphaGo使用混合系數(shù)將兩種方法的結(jié)果進(jìn)行整合得出新的結(jié)果。(4)決定了最優(yōu)行動之后,我們估計對手可能的下一步行動,基于最優(yōu)行動的位置使用策略網(wǎng)絡(luò)估計對手相應(yīng)的策略。深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?19AlphaGo的線上學(xué)習(xí)過程38社交媒體應(yīng)用程序的數(shù)據(jù)分析
傳統(tǒng)的在線社區(qū)是以群體為導(dǎo)向的,而現(xiàn)代社交網(wǎng)站則與其完全不同。社交網(wǎng)絡(luò)的建立基于個人友誼、親屬關(guān)系、專業(yè)、共同興趣、經(jīng)濟(jì)交流、社區(qū)或種族群體、宗教或政治信仰、知識或聲望以及粉絲等。在社交網(wǎng)絡(luò)中,節(jié)點(diǎn)代表個人,節(jié)點(diǎn)之間的紐帶表示友誼、親屬關(guān)系和同事之間的關(guān)系等。在線社交網(wǎng)絡(luò)服務(wù)旨在反映人們之間的社會關(guān)系。這些服務(wù)作為通信工具出現(xiàn)在人們的生活中。社交媒體應(yīng)用程序的數(shù)據(jù)分析傳統(tǒng)的在線社區(qū)是以群體為導(dǎo)39社交媒體應(yīng)用程序的數(shù)據(jù)分析1.
社交媒體應(yīng)用中的大數(shù)據(jù)需求
目前有許多組織在使用企業(yè)社交網(wǎng)絡(luò)。移動社交媒體會收集用戶的地點(diǎn)和時間等敏感特征的大數(shù)據(jù)。他們的目標(biāo)是管理客戶關(guān)系,促進(jìn)銷售和制定激勵計劃,我們將分別在如下4個領(lǐng)域?qū)ζ溥M(jìn)行評估?!袷袌稣{(diào)查?!裆缃幻襟w交流中的通信?!翊黉N和折扣?!耠娮由虅?wù)。社交媒體應(yīng)用程序的數(shù)據(jù)分析1.社交媒體應(yīng)用中的大數(shù)據(jù)需40社交媒體應(yīng)用程序的數(shù)據(jù)分析2.社交網(wǎng)絡(luò)和圖表分析
一般來說,社交網(wǎng)絡(luò)是自發(fā)組織的且緊急而復(fù)雜的,這使得構(gòu)成系統(tǒng)的本地元素在交互中出現(xiàn)了全局一致的模式。隨著網(wǎng)絡(luò)規(guī)模的增加,這些模式變得更加明顯。然而,對世界上所有人際關(guān)系進(jìn)行網(wǎng)絡(luò)分析是不可行的。其中主要的限制條件是出于對道德、參與者的招聘以及經(jīng)濟(jì)方面的考慮。(1)社交媒體網(wǎng)絡(luò)的等級網(wǎng)絡(luò)可能落入三類水平:微觀水平、中等水平和宏觀水平。社交媒體應(yīng)用程序的數(shù)據(jù)分析2.社交網(wǎng)絡(luò)和圖表分析一41社交媒體應(yīng)用程序的數(shù)據(jù)分析(2)社交圖特征
社交圖中的節(jié)點(diǎn)對應(yīng)于用戶或角色,圖形邊緣或鏈接指的是節(jié)點(diǎn)之間的聯(lián)系或關(guān)系。圖可以是復(fù)雜的或是有層次的結(jié)構(gòu),以反映所有級別的關(guān)系。
社交網(wǎng)絡(luò)在解決問題、組織運(yùn)營以及個人成功實(shí)現(xiàn)其目標(biāo)方面發(fā)揮著關(guān)鍵作用。(3)社交網(wǎng)絡(luò)圖屬性:社交媒體應(yīng)用程序的數(shù)據(jù)分析(2)社交圖特征社交圖中42社交媒體應(yīng)用程序的數(shù)據(jù)分析節(jié)點(diǎn)度數(shù),距離,路徑長度和間隔:節(jié)點(diǎn)度數(shù)是與一個節(jié)點(diǎn)直接相鄰的節(jié)點(diǎn)數(shù)量,用來定義網(wǎng)絡(luò)中的一個節(jié)點(diǎn)可以到達(dá)網(wǎng)絡(luò)中的其他節(jié)點(diǎn)的數(shù)量。親密度和凝聚力:它表示網(wǎng)絡(luò)中的一個節(jié)點(diǎn)與所有其他節(jié)點(diǎn)(直接或間接)的耦合程度。中心性和集中性:中心性表示基于節(jié)點(diǎn)連接網(wǎng)絡(luò)的社交能力。社交圈或集群:這是指一些結(jié)構(gòu)化群體。集中式與分散式網(wǎng)絡(luò):中心性基于其“連接”網(wǎng)絡(luò)的程度,給出了節(jié)點(diǎn)的社交能力的粗略指示。社交媒體應(yīng)用程序的數(shù)據(jù)分析節(jié)點(diǎn)度數(shù),距離,路徑長度和間隔:節(jié)43社交媒體應(yīng)用程序的數(shù)據(jù)分析橋和本地橋:如果刪除一條邊會導(dǎo)致其端點(diǎn)位于圖的不同群集或組件中,則這條邊便是橋。聲望和徑向:在社交圖中,聲望描述節(jié)點(diǎn)的中心性?!奥曂取?、“聲望接近”和“聲望狀態(tài)”都是描述聲望的。徑向是網(wǎng)絡(luò)達(dá)到的程度,它提供新的信息和影響。
結(jié)構(gòu)內(nèi)聚,等價和孔:結(jié)構(gòu)內(nèi)聚是指代最小數(shù)量的成員,這些成員如果被從組中刪除,將會使組斷開。結(jié)構(gòu)等價是指節(jié)點(diǎn)具有到其他節(jié)點(diǎn)的共同鏈接集合的程度,這些節(jié)點(diǎn)彼此沒有任何關(guān)系。社交媒體應(yīng)用程序的數(shù)據(jù)分析橋和本地橋:如果刪除一條邊會導(dǎo)致其44社交媒體應(yīng)用程序的數(shù)據(jù)分析(4)社交圖分析例子通過身份、對話、分享、遠(yuǎn)程視頻、關(guān)系、聯(lián)系等方式可以將在線社交網(wǎng)絡(luò)服務(wù)組合在一起。下面我們將針對提供在線社交網(wǎng)絡(luò)服務(wù)提出一點(diǎn)想法:通過社交關(guān)系鏈接的每個用戶的個人頁面或個人資料沿著特定的社交鏈接或網(wǎng)絡(luò)遍歷的社交圖參與者或注冊用戶之間的通信工具社交媒體應(yīng)用程序的數(shù)據(jù)分析(4)社交圖分析例子通過身份、對45社交媒體應(yīng)用程序的數(shù)據(jù)分析與朋友或?qū)I(yè)群體分享特殊信息,如音樂,照片,視頻等在特殊小眾主題領(lǐng)域(如醫(yī)療健康、運(yùn)動、愛好等)中建立一個圈子可能需要特定的軟件工具或數(shù)據(jù)庫來建立社交網(wǎng)絡(luò)服務(wù)強(qiáng)大的客戶忠誠度和瘋狂的會員成長是社交網(wǎng)絡(luò)社區(qū)的典型特征社交網(wǎng)絡(luò)通過銷售高級會員和訪問高級內(nèi)容的資格來獲得收入社交媒體應(yīng)用程序的數(shù)據(jù)分析與朋友或?qū)I(yè)群體分享特殊信息,如音46社交媒體應(yīng)用程序的數(shù)據(jù)分析(5)
過濾技術(shù)和推薦系統(tǒng)
我們需要為電影,旅游,餐館建立推薦系統(tǒng),使我們的日常生活活動更有條理、方便且輕松。通過搜尋群眾的意見,根據(jù)評級結(jié)果做出決定,來對不想要的數(shù)據(jù)進(jìn)行社交或協(xié)作過濾?;诋a(chǎn)品的特征和用戶的評價來推薦項目時需要基于內(nèi)容的過濾。(6)推進(jìn)針對云/網(wǎng)絡(luò)安全實(shí)施的數(shù)據(jù)分析
這是一個將大數(shù)據(jù)用于網(wǎng)絡(luò)安全執(zhí)法的熱門研究領(lǐng)域。網(wǎng)絡(luò)安全、企業(yè)事件分析、網(wǎng)絡(luò)流監(jiān)視迫切需要大數(shù)據(jù)分析,用來識別僵尸網(wǎng)絡(luò)、監(jiān)測持續(xù)威脅,同時信譽(yù)系統(tǒng)的信任管理也需要數(shù)據(jù)共享、找到數(shù)據(jù)來源、管理技術(shù)。社交媒體應(yīng)用程序的數(shù)據(jù)分析(5)過濾技術(shù)和推薦系統(tǒng)47社交媒體應(yīng)用程序的數(shù)據(jù)分析(7)物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)應(yīng)用程序中的云支持(8)在線社交網(wǎng)絡(luò)架構(gòu)
在信息物理系統(tǒng)(CPS)中,分析算法可以在系統(tǒng)配置、物理知識和工作原理方面更準(zhǔn)確地執(zhí)行。使用云存儲和分析系統(tǒng)極大地改進(jìn)了人與機(jī)器之間的耦合模型。這涉及到感測、存儲、同步、合成和服務(wù)等具體操作。智能和普及的云應(yīng)用受到個人、家庭、社區(qū)、公司和政府等的高度需求。在云環(huán)境中非常需要傳統(tǒng)集群部署、網(wǎng)格、P2P、社交網(wǎng)絡(luò)等應(yīng)用。
需要定制OSN以維持該領(lǐng)域的競爭。社交網(wǎng)絡(luò)提供商應(yīng)選擇具有自己的API接口和配置文件變量的品牌,所選擇的論壇類別必須與足夠大的用戶群體相關(guān)。OSN平臺必須具有使用戶容易加入且易于享受服務(wù)的特點(diǎn)。此外,提供商必須遵循在線營銷概念來允許會員自由加入和離開。社交媒體應(yīng)用程序的數(shù)據(jù)分析(7)物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)應(yīng)用程序48社交媒體應(yīng)用程序的數(shù)據(jù)分析3.
預(yù)測分析軟件工具
下面介紹一些商業(yè)預(yù)測分析工具,這些工具在大數(shù)據(jù)資源的社交媒體和業(yè)務(wù)應(yīng)用中是不可或缺的,它們可以應(yīng)用于許多重要的實(shí)際應(yīng)用程序中。這些應(yīng)用程序使用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計技術(shù)從業(yè)務(wù)或政府?dāng)?shù)據(jù)集中提取信息,目的是揭示隱藏的模式和趨勢,并預(yù)測未來的結(jié)果。開源的商業(yè)分析工具可以從大型或小型軟件公司或研究機(jī)構(gòu),如IBM,SAP,Oracle,MATHLAB,SAS,Predixion等獲得。社交媒體應(yīng)用程序的數(shù)據(jù)分析3.預(yù)測分析軟件工具49社交媒體應(yīng)用程序的數(shù)據(jù)分析(1)預(yù)測分析應(yīng)用程序回歸和機(jī)器學(xué)習(xí)技術(shù)經(jīng)常應(yīng)用于以下應(yīng)用程序?!窨蛻絷P(guān)系分析管理(CRM)?!衽R床決策支持和疾病預(yù)測?!衿墼p檢測、貸款審批和收集分析。●兒童保護(hù)、醫(yī)療健康和老人護(hù)理?!窨蛻舯A艉椭苯訝I銷。●投資組合、產(chǎn)品或經(jīng)濟(jì)預(yù)測。●承保和風(fēng)險管理。社交媒體應(yīng)用程序的數(shù)據(jù)分析(1)預(yù)測分析應(yīng)用程序回歸和機(jī)50社交媒體應(yīng)用程序的數(shù)據(jù)分析(2)預(yù)測分析商業(yè)軟件在表9-4中,我們總結(jié)了五個代表性的預(yù)測分析軟件包的功能和應(yīng)用領(lǐng)域。社交媒體應(yīng)用程序的數(shù)據(jù)分析(2)預(yù)測分析商業(yè)軟件在表9-51社交媒體應(yīng)用程序的數(shù)據(jù)分析4.社交網(wǎng)絡(luò)中的社區(qū)檢測
在社會科學(xué)中,社區(qū)(或集群)由一群具有某種有限關(guān)系的人形成。在社會學(xué)、生物學(xué)和計算機(jī)科學(xué)中,發(fā)現(xiàn)社會關(guān)系是非常重要的。社區(qū)結(jié)構(gòu)通常由社交圖表示。良好社區(qū)的每個社交圖都由一些具有連接社區(qū)的內(nèi)部節(jié)點(diǎn)和一些連接到原始全局圖中的外部節(jié)點(diǎn)構(gòu)成。社區(qū)可以是不相交的或重疊的,不相交的社區(qū)不共享節(jié)點(diǎn),而重疊的社區(qū)共享一些節(jié)點(diǎn)。如圖9?25所示,這六個圖形的操作可以改變圖形拓?fù)?。如同人類社區(qū)一樣,社交圖也可以在其生命周期中發(fā)生變化。圖9?25通過連接,消亡,增長,生成,拆分和收縮形成社區(qū)圖社交媒體應(yīng)用程序的數(shù)據(jù)分析4.社交網(wǎng)絡(luò)中的社區(qū)檢測52社交媒體應(yīng)用程序的數(shù)據(jù)分析
為了檢測社交圖中的社區(qū)聯(lián)系,我們認(rèn)識到非重疊社區(qū)比重疊社區(qū)更容易檢測。因此我們列出三種方法來檢測社交圖中的社區(qū)。這些方法通過應(yīng)用成員關(guān)系規(guī)則來區(qū)分。這些結(jié)果的產(chǎn)生基于spin-spin模型相互作用,隨機(jī)游走和同步這三種方法?!駍pin-spin模型:旋轉(zhuǎn)系統(tǒng)用于在q個可能狀態(tài)之間轉(zhuǎn)換。相互作用是磁性相吸的,它有利于自旋對齊,所以在零度下所有自旋處于相同的狀態(tài)。如果還存在互斥作用,則系統(tǒng)的基態(tài)可能不是所有自旋對準(zhǔn)的基態(tài),而是同質(zhì)簇中不同自旋值共存的狀態(tài)?!耠S機(jī)游走:隨機(jī)游走對于尋找社區(qū)非常有用。如果圖具有很強(qiáng)的社區(qū)結(jié)構(gòu),則隨機(jī)游走者在社區(qū)內(nèi)將花費(fèi)很長時間,這是由于內(nèi)部邊的高密度以及隨后可以跟隨的路徑的數(shù)目較多。●同步:在同步狀態(tài)下,系統(tǒng)的單元每次處于相同或相似的狀態(tài)。同步也已應(yīng)用于在圖中查找社區(qū)。社交媒體應(yīng)用程序的數(shù)據(jù)分析為了檢測社交圖中的社53社交媒體應(yīng)用程序的數(shù)據(jù)分析
聚類算法的最終目標(biāo)是試圖推斷出頂點(diǎn)之間的屬性和關(guān)系,并旨在理解實(shí)際系統(tǒng)的應(yīng)用程序。我們還提到了一些應(yīng)用程序和其他類型的網(wǎng)絡(luò)。其他社交媒體網(wǎng)絡(luò)也存在于當(dāng)今的IT世界中,這些網(wǎng)絡(luò)在做出分析決策時還可以生成向云平臺反饋的雙向數(shù)據(jù)集,下面簡要介紹下它們?!駞f(xié)作網(wǎng)絡(luò):
在這樣的社交網(wǎng)絡(luò)中,個人鏈接在一起以交流共同興趣或進(jìn)行商業(yè)合作。通過隱含的客觀的認(rèn)識概念進(jìn)行協(xié)作?!褚木W(wǎng)絡(luò):
用于了解作者的引文模式,并揭示學(xué)科之間的關(guān)系。●立法網(wǎng)絡(luò):
它使人們能夠通過議會活動推斷政治家之間的聯(lián)系,這可能與黨派關(guān)系有關(guān),也可能無關(guān)。通過使用美國國會圖書館數(shù)據(jù)中的數(shù)據(jù),人們對這一主題進(jìn)行了大量研究。社交媒體應(yīng)用程序的數(shù)據(jù)分析聚類算法的最終目標(biāo)是試圖推斷出54本章小結(jié)
許多有趣的認(rèn)知功能可以通過各種類型的人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)工具來構(gòu)建。特別是,我們展示了通過使用TensorFlow在今天的云端上實(shí)現(xiàn)認(rèn)知智能系統(tǒng),并研究了強(qiáng)化學(xué)習(xí)方法。特別地,我們研究深度學(xué)習(xí)和重新融合訓(xùn)練的結(jié)合使用,已經(jīng)在圍棋游戲比賽中成功應(yīng)用。預(yù)測分析被認(rèn)為是具有強(qiáng)力潛能的,以支持社交網(wǎng)絡(luò)中的大數(shù)據(jù)應(yīng)用,例如社區(qū)檢測和篩選朋友圈。本章小結(jié)許多有趣的認(rèn)知功能可以通過各種類型的人工神經(jīng)55THANKSFORWATCHINGTHANKSFORWATCHING56認(rèn)知計算與深度學(xué)習(xí)基于物聯(lián)網(wǎng)云平臺的智能應(yīng)用
深度學(xué)習(xí)和社交分析應(yīng)用認(rèn)知計算與深度學(xué)習(xí)基于物聯(lián)網(wǎng)云平臺的智能應(yīng)用深度學(xué)習(xí)和社交目錄CONTENT1深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2使用ANN和CNN算法的文本和圖像識別3深度增強(qiáng)學(xué)習(xí)的應(yīng)用4社交媒體應(yīng)用程序的數(shù)據(jù)分析5本章小結(jié)目錄CONTENT1深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2使用ANN和58深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)相關(guān)的軟件庫和平臺是由工業(yè)界和學(xué)術(shù)界為其研發(fā)相關(guān)應(yīng)用程序開發(fā)的。正如前面章節(jié)所學(xué)習(xí)到的那樣,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)方法的更廣泛的一部分。不同之處在于對數(shù)據(jù)不同的學(xué)習(xí)方式。例如:X射線圖像的檢查以多種方式表示,例如矢量,矩陣或張量。這些便是受到神經(jīng)科學(xué)進(jìn)步的啟發(fā)。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)59深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)我們已經(jīng)對機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法有了一定了解.。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個分支。在大量訓(xùn)練數(shù)據(jù)“喂養(yǎng)”模型來達(dá)到最優(yōu)效果的情況下,云提供了有效的資源來完成實(shí)時的學(xué)習(xí)。表9-1從平臺、接口、性能、建模能力等方面對五個當(dāng)今較為流行的深度學(xué)習(xí)軟件庫進(jìn)行了比較,其中建模能力是評估軟件庫在深度學(xué)習(xí)應(yīng)用中的實(shí)用性的關(guān)鍵指標(biāo)。
深度學(xué)習(xí)系統(tǒng)和軟件支持深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)我們已經(jīng)對機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算60深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2.增強(qiáng)學(xué)習(xí)原則增強(qiáng)學(xué)習(xí)的學(xué)習(xí)目標(biāo)是在深度學(xué)習(xí)過程中實(shí)現(xiàn)最大的獎勵。增強(qiáng)學(xué)習(xí)是無監(jiān)督機(jī)器學(xué)習(xí)的子類,因?yàn)樵鰪?qiáng)學(xué)習(xí)中給定的數(shù)據(jù)沒有標(biāo)簽。增強(qiáng)學(xué)習(xí)被認(rèn)為是人工智能的通用框架。在數(shù)學(xué)上,其學(xué)習(xí)環(huán)境被認(rèn)為是馬爾可夫決策過程(MDP)。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)2.增強(qiáng)學(xué)習(xí)原則61深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)增強(qiáng)學(xué)習(xí)模型由以下5個部分構(gòu)成:●以一組狀態(tài)為特征的學(xué)習(xí)環(huán)境?!馬L智能體可以采取的一組行動。其中每個行動都會影響智能體的未來狀態(tài),智能體具有評估其行動的長期后果的能力?!馬L狀態(tài)之間的轉(zhuǎn)換規(guī)則。●確定狀態(tài)轉(zhuǎn)移的立即回報規(guī)則。●指定代理可以觀察的內(nèi)容的規(guī)則。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)增強(qiáng)學(xué)習(xí)模型由以下5個部分構(gòu)成:62深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)RL算法鼓勵使用樣本來優(yōu)化性能和使用函數(shù)近似來處理大型環(huán)境。有兩種方法使得RL在處理以下三種機(jī)器學(xué)習(xí)環(huán)境時特別有吸引力:一個缺乏解決方案的已知模型環(huán)境;基于模擬的優(yōu)化環(huán)境;通過與環(huán)境交互來收集有關(guān)環(huán)境的信息。強(qiáng)化學(xué)習(xí)環(huán)境的基本假設(shè)包括:●所有事件都作為一系列劇集的情節(jié)。當(dāng)達(dá)到一些終端狀態(tài)時,情節(jié)結(jié)束。●無論智能體可能采取什么樣的行動,終止都是不可避免的?!駥τ谌魏螞Q策和狀態(tài)的初始分配,總報酬的期望是明確的。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)RL算法鼓勵使用樣63深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)智能算法必須能夠制定RL算法來找到一個具有最大預(yù)期收益的決策。該算法需要搜索最優(yōu)策略以獲得最大獎勵。通常,我們使用確定的固定策略,僅基于所訪問的當(dāng)前或最后狀態(tài)來確定性地選擇動作。設(shè)計強(qiáng)化學(xué)習(xí)算法有許多方法。
一個粗暴的方法是選擇具有最大預(yù)期回報的政策,這種方法的主要困難是決策選擇集可能非常大甚至是無窮的。價值函數(shù)方法試圖找到一個策略,能夠通過保留一些策略的預(yù)計回報估計值來尋找最大的回報。
其他RL方案包括時間差方法,其允許在回報估計值確定之前改變策略。直接策略搜索方法通過直接從策略空間中搜索找到良好的策略,基于梯度和基于無梯度的方法都屬于這種方法?;跐u變的方法從有限維(參數(shù))空間到策略空間的映射開始。策略搜索方法通常太慢而無法收斂到最佳選擇。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)智能算法必須能夠64深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)3.社交媒體行業(yè)和全球影響
社交媒體行業(yè)正在遠(yuǎn)離平面媒體,如報紙、雜志或電視節(jié)目。另一方面,電子書、移動支付、Uber汽車、在線購物和社交網(wǎng)絡(luò)正在逐漸成為主流,其核心是在理想地點(diǎn)的最佳時機(jī)去捕捉或定位用戶,且最終目的是服務(wù)或傳達(dá)符合消費(fèi)者心態(tài)的消息或內(nèi)容。深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)3.社交媒體行業(yè)和全球影響65深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)社交媒體服務(wù)體現(xiàn)在我們的日常生活活動的以下4個領(lǐng)域:●社交媒體服務(wù)Web2.0是Web服務(wù)應(yīng)用程序的一部分●用戶生成的內(nèi)容是社交媒體的命脈●用戶為社交媒體和網(wǎng)站針對不同的服務(wù)創(chuàng)建特定的配置文件●社交媒體促進(jìn)社交和商業(yè)活動中的在線社交網(wǎng)絡(luò)的發(fā)展深度學(xué)習(xí)系統(tǒng)和社交媒體行業(yè)社交媒體服務(wù)體現(xiàn)在我們的日常生活活66使用ANN和CNN算法的文本和圖像識別手寫數(shù)字識別是一個分類問題。如圖9-1所示,輸入是手寫數(shù)字圖像,輸出為由圖像表示的數(shù)字。為了讓讀者易于學(xué)習(xí)和練習(xí),我們使用經(jīng)典的手寫數(shù)字集Mnist作為應(yīng)用程序數(shù)據(jù)集。Mnist包括60000個手寫數(shù)字的圖像,并且每個圖像都是28×28像素。使用ANN和CNN算法的文本和圖像識別手寫數(shù)字67使用ANN和CNN算法的文本和圖像識別在ANN中使用TensorFlow進(jìn)行數(shù)字識別
以下示例顯示如何在編寫人工神經(jīng)網(wǎng)絡(luò)(ANN)的過程中中使用TensorFlow,將其稱為Mnist分類器。我們考慮一個4層ANN的構(gòu)造,稱為Mnist分類器。由4個步驟來構(gòu)造他們的ANN。Step1:收集數(shù)據(jù):我們使用從YannLeCun(/index.html)獲取的Mnist數(shù)據(jù)。Step2:建造ANN模型:我們選擇一個4層神經(jīng)網(wǎng)絡(luò)來構(gòu)造分類器,它包含1個輸入層,2個隱藏層和1個輸出層。使用ANN和CNN算法的文本和圖像識別在ANN中使用Tens68使用ANN和CNN算法的文本和圖像識別Step4:網(wǎng)絡(luò)測試:算法將會比較測試數(shù)據(jù)的輸出及其相應(yīng)的標(biāo)簽并且計算其精度。Step3:訓(xùn)練模型:通過比較訓(xùn)練數(shù)據(jù)的輸出及其標(biāo)簽,算法將調(diào)整網(wǎng)絡(luò)的參數(shù)。圖9?2基于一個人工神經(jīng)網(wǎng)絡(luò)編程的TensorFlow的結(jié)果使用ANN和CNN算法的文本和圖像識別Step4:網(wǎng)絡(luò)測試69使用ANN和CNN算法的文本和圖像識別2.使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)字識別
深度學(xué)習(xí)使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和分類。圖9?3所示包括5層的卷積深神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中包括2個卷積層,每一個卷積層后是一個池化層,連接一個全連接層,最后進(jìn)行分類輸出。圖9?3手寫數(shù)字識別卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用ANN和CNN算法的文本和圖像識別2.使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)70使用ANN和CNN算法的文本和圖像識別Step1:讀入數(shù)據(jù)集首先,讀入數(shù)據(jù)集,預(yù)處理訓(xùn)練集train_x和標(biāo)簽集train_y。Step2:初始化CNN初始化卷積層和池化層結(jié)構(gòu)。Step3:訓(xùn)練CNN在訓(xùn)練過程中,首先輸入手寫數(shù)字圖像。前向傳播算法得到輸入圖像的分類結(jié)果。然后,使用后向傳播算法計算輸出類別和標(biāo)注類別的誤差。最后,調(diào)整每一層的參數(shù)。訓(xùn)練結(jié)束后,固定網(wǎng)絡(luò)的參數(shù),得到訓(xùn)練好的CNN。Step4:測試CNN使用ANN和CNN算法的文本和圖像識別Step1:讀入數(shù)據(jù)71使用ANN和CNN算法的文本和圖像識別3.利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識別
人臉識別是計算機(jī)視覺領(lǐng)域一個非常重要的研究方向,目前深度學(xué)習(xí)在人臉識別領(lǐng)域已經(jīng)達(dá)到或超過人類水平,在LFW數(shù)據(jù)集上達(dá)到99.47%的識別率,超過人眼在此數(shù)據(jù)集上的識別率99.25%。圖9?4DeepID人臉識別系統(tǒng)結(jié)構(gòu)使用ANN和CNN算法的文本和圖像識別3.利用卷積神經(jīng)網(wǎng)72使用ANN和CNN算法的文本和圖像識別DeepID算法如下:Input:輸入層輸入LFW數(shù)據(jù)集中人臉圖像,39×31像素Convolution1:卷積核大小設(shè)置為4×4,共使用20個卷積核。這層需要設(shè)置20個4×4的權(quán)重矩陣,卷積步長設(shè)置為1。卷積之后獲得20個特征圖,每個特征圖大小為((39-4)+1)×((28-4)+1)=36×28。激活函數(shù)使用RELU(x)=max(0,x)函數(shù)。Pooling1:對上層Convolution1輸出的20個特征圖操作,每個不重疊的2*2區(qū)域進(jìn)行最大Pooling,得到20個特征圖,每個特征圖大小為(36/2)×(28/2)=18×14。使用ANN和CNN算法的文本和圖像識別DeepID算法如下73使用ANN和CNN算法的文本和圖像識別Convolution2:以上層Pooling1的輸出作為輸入,卷積核大小3×3,共使用40個卷積核(40個3×3的權(quán)重矩陣),卷積步長設(shè)置為1。同樣使用RELU函數(shù)作為激活函數(shù),卷積之后得到40個特征圖,每個特征圖大小為((18-3)+1)×((14-3)+1)=16×12。Pooling2:對上層Convoluation2輸出的40個特征圖操作,每個不重疊的2*2區(qū)域進(jìn)行最大Pooling,得到40個特征圖,每個特征圖大小為(16/2)×(12/2)=8×6。Convolution3:使用上層Pooling2的輸出作為輸入,卷積核大小3×3,共使用60個卷積核(設(shè)置60個3*3的權(quán)重矩陣),卷積步長與Convolution2和Convolution3相同設(shè)置為1。卷積之后獲得60個特征圖,每個特征圖大小為((8-3)+1)×((6-3)+1)=6×4。激活函數(shù)使用RELU函數(shù)。使用ANN和CNN算法的文本和圖像識別Convolution74使用ANN和CNN算法的文本和圖像識別Pooling3:對上層Convolution3輸出的60個特征圖進(jìn)行池化操作。對每個不重疊的2*2區(qū)域進(jìn)行最大Pooling,得到60個特征圖,每個特征圖大小為(6/2)×(14/2)=3×2。Convolution4:以上層Pooling3的輸出作為輸入,卷積核大小2×2,共使用80個卷積核(80個2*2的權(quán)重矩陣)。卷積步長設(shè)置為1,卷積操作得到80個特征圖,每個特征圖大小為((3-2)+1)×((2-2)+1)=2×1。激活函數(shù)使用RELU函數(shù)。DeepID:算法中,DeepID層是全連接層,包含160個隱藏神經(jīng)元,與Convolution4和Pooling3的輸出進(jìn)行全連接。softmax(輸出層):使用softmax全連接的分類器,輸出識別結(jié)果(所有的n個類別)。使用ANN和CNN算法的文本和圖像識別Pooling3:對上75使用ANN和CNN算法的文本和圖像識別4.卷積神經(jīng)網(wǎng)絡(luò)醫(yī)療文本分析使用深度學(xué)習(xí)方法進(jìn)行文本的分析時,首先需要對文本進(jìn)行數(shù)字化的表示,然后使用深度學(xué)習(xí)算法進(jìn)行文本的特征學(xué)習(xí)和提取及相應(yīng)的理解。圖9-5所示為深度學(xué)習(xí)文本理解的示意圖。使用ANN和CNN算法的文本和圖像識別4.卷積神經(jīng)網(wǎng)絡(luò)醫(yī)76使用ANN和CNN算法的文本和圖像識別(1)
文本表示法自然語言理解要轉(zhuǎn)化為深度學(xué)習(xí)問題,首先要將文本中的每一個詞用數(shù)字化的方法表示,通常使用詞向量(wordembedding)的方法表示。詞向量文本表示方法就是建立一個詞匯表,每一個詞在詞匯表中對應(yīng)一個向量。詞向量的表示方法有兩種:一元表示法(one-hotrepresentation)和分布式表示法(distributedrepresentation)。使用ANN和CNN算法的文本和圖像識別(1)文本表示法77使用ANN和CNN算法的文本和圖像識別(2)
醫(yī)療文本理解模型建立基于卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)療文本理解模型,主要包括三部分:●學(xué)習(xí)詞向量?!裼?xùn)練CNN學(xué)習(xí)醫(yī)療文本特征?!駵y試和應(yīng)用。使用ANN和CNN算法的文本和圖像識別(2)醫(yī)療文本理解模78使用ANN和CNN算法的文本和圖像識別3.卷積神經(jīng)網(wǎng)絡(luò)
對于輸入文本的詞向量表示xw(xw1,xw2,…,xwN),依次計算xw中的每個詞的卷積向量。第n個詞的卷積向量計算如圖9-9所示。(1)卷積層使用ANN和CNN算法的文本和圖像識別3.卷積神經(jīng)網(wǎng)絡(luò)79使用ANN和CNN算法的文本和圖像識別(2)池化層池化操作分為最大池化操作和平均池化操作,這里將進(jìn)行最大池化操作。選擇最大池化操作的原因是文本中每一個詞的作用并不是完全相等的,也就是通過最大池化選擇出文本中能起到關(guān)鍵作用的元素。(3)輸出層池化層后連接一個神經(jīng)網(wǎng)絡(luò)的全連接層,使用softmax分類器輸出分類結(jié)果。(4)CNN訓(xùn)練使用隨機(jī)梯度下降法進(jìn)行參數(shù)θ的訓(xùn)練,參數(shù)的修改使用下式,其中α是學(xué)習(xí)率。使用ANN和CNN算法的文本和圖像識別(2)池化層80深度增強(qiáng)學(xué)習(xí)的應(yīng)用1.DeepMind利用深度增強(qiáng)學(xué)習(xí)玩游戲谷歌DeepMind在一些創(chuàng)新的智能應(yīng)用上,結(jié)合深度學(xué)習(xí)和增強(qiáng)算法來實(shí)現(xiàn)人類水平的性能,這種新的算法稱為深度增強(qiáng)學(xué)習(xí)(DRL)。DRL采用一組智能體來選擇最優(yōu)的行動。第一個DRL方法稱為DeepQ-network(DQN),由DeepMind的DavidSilver提出,他是AlphaGo的作者之一。DQN結(jié)合了CNN和Q-network算法。Q-network用來評估智能體執(zhí)行一個特定動作后的獎勵。圖9-12顯示了谷歌的一個通用增強(qiáng)學(xué)習(xí)架構(gòu),稱為Gorila。深度增強(qiáng)學(xué)習(xí)的應(yīng)用1.DeepMind利用深度增強(qiáng)學(xué)習(xí)81深度增強(qiáng)學(xué)習(xí)的應(yīng)用2.深度增強(qiáng)學(xué)習(xí)算法深度增強(qiáng)學(xué)習(xí)是將深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)結(jié)合起來的算法。其中增強(qiáng)是一個序列決策的問題,通過不斷地選擇行動來最大化未來總獎勵。它和監(jiān)督學(xué)習(xí)不一樣,它沒有監(jiān)督值,但是有獎勵值,而這個獎勵值是執(zhí)行一系列行動之后的獎勵累計值。圖9-13是增強(qiáng)學(xué)習(xí)的簡單示意圖。深度增強(qiáng)學(xué)習(xí)的應(yīng)用2.深度增強(qiáng)學(xué)習(xí)算法82深度增強(qiáng)學(xué)習(xí)的應(yīng)用增強(qiáng)學(xué)習(xí)的目的是尋找最優(yōu)策略,使之最大化累積獎勵值:
策略是狀態(tài)到動作的映射,也就是根據(jù)當(dāng)前狀態(tài)智能體要怎么做。有兩種典型的策略:一種是決定性策略,在特定狀態(tài)下明確執(zhí)行一些動作,即a=π(s);另一種是隨機(jī)策略,即π(a|s)=P[a|s],它表示在某種狀態(tài)s下執(zhí)行某個動作a的概率。深度增強(qiáng)學(xué)習(xí)的應(yīng)用增強(qiáng)學(xué)習(xí)的目的是尋找最優(yōu)策略,使之最大化累83深度增強(qiáng)學(xué)習(xí)的應(yīng)用
策略通常是通常價值函數(shù)來確定,預(yù)測未來獎勵,體現(xiàn)了當(dāng)前狀態(tài)或狀態(tài)行動的好壞。價值函數(shù)分為狀態(tài)價值函數(shù)v(s)和行動價值函數(shù)q(s,a)。狀態(tài)價值函數(shù)vπ(s)是從狀態(tài)s起,執(zhí)行策略π能得到的期望獎勵值。立即獎勵值指在狀態(tài)s時選擇行動a瞬間得到的獎勵值深度增強(qiáng)學(xué)習(xí)的應(yīng)用策略通常是通常價值函數(shù)來確定,預(yù)測84深度增強(qiáng)學(xué)習(xí)的應(yīng)用通過迭代,可以得到狀態(tài)價值函數(shù)和行動價值函數(shù)的關(guān)系:
對于任意的馬爾可夫決策過程,總能找到最優(yōu)策略,所有的最優(yōu)策略都對應(yīng)最優(yōu)狀態(tài)價值函數(shù)v*(s)和行動價值函數(shù)q*(s,a),二者關(guān)系為:深度增強(qiáng)學(xué)習(xí)的應(yīng)用通過迭代,可以得到狀態(tài)價值函數(shù)和行動價值函85深度增強(qiáng)學(xué)習(xí)的應(yīng)用(1)由<狀態(tài),價值,獎勵值,下一個狀態(tài)>對組成回放池(replaymemory),每次從回放池中隨機(jī)取樣?;胤懦卮蚱屏藬?shù)據(jù)之間的相關(guān)性,使數(shù)據(jù)獨(dú)立相等地分布。(2)固定目標(biāo)Q-network來避免波動,打破Q-network和目標(biāo)之間的相關(guān)性。(3)將獎勵或網(wǎng)絡(luò)標(biāo)準(zhǔn)調(diào)整到一個合理的范圍,這需要一個強(qiáng)大的梯度方法。狀態(tài)作為輸入對每個可能的行動輸出一個Q值。經(jīng)過一次神經(jīng)網(wǎng)絡(luò)的正向傳播,更新所有行動的Q值。DQN有幾個顯著的特點(diǎn):深度增強(qiáng)學(xué)習(xí)的應(yīng)用(1)由<狀態(tài),價值,獎勵值,下一個狀態(tài)>86深度增強(qiáng)學(xué)習(xí)的應(yīng)用對當(dāng)前的狀態(tài)s執(zhí)行前向傳播,獲得對所有行動的預(yù)測Q值對下一狀態(tài)s'執(zhí)行前向傳播,計算網(wǎng)絡(luò)輸出的最大Q值:設(shè)置行動的目標(biāo)Q值為,這里的max值在第二步已經(jīng)算出。預(yù)測值為第一步計算出的4.使用后向傳播算法更新權(quán)重。損失函數(shù)為:給定轉(zhuǎn)移,Q值表更新規(guī)則變動如下:深度增強(qiáng)學(xué)習(xí)的應(yīng)用對當(dāng)前的狀態(tài)s執(zhí)行前向傳播,獲得對所有行動87深度增強(qiáng)學(xué)習(xí)的應(yīng)用3.深度增強(qiáng)學(xué)習(xí)訓(xùn)練平臺——OpenAIGym2016年4月28日,人工智能公司OpenAI對外發(fā)布了一款用于研發(fā)和比較深度強(qiáng)化學(xué)習(xí)算法的工具包OpenAIGym(/),提供各種環(huán)境(主要是小游戲)的開源包。監(jiān)督學(xué)習(xí)的評測工具主要是數(shù)據(jù)標(biāo)簽,將一堆數(shù)據(jù)去掉標(biāo)簽后進(jìn)行訓(xùn)練,然后把訓(xùn)練結(jié)果和原來的標(biāo)簽進(jìn)行比較,通過準(zhǔn)確率等因素來評測效果。增強(qiáng)學(xué)習(xí)則不然,智能體與環(huán)境交互,因此需要提供一個環(huán)境,智能體在環(huán)境中做出行動,環(huán)境針對智能體的行動給出獎勵,改變環(huán)境狀態(tài),最后根據(jù)累計獎勵值評測增強(qiáng)學(xué)習(xí)策略的好壞。下面以一個簡單的例子來說明OpenAIGym的使用。深度增強(qiáng)學(xué)習(xí)的應(yīng)用3.深度增強(qiáng)學(xué)習(xí)訓(xùn)練平臺——OpenAI88深度增強(qiáng)學(xué)習(xí)的應(yīng)用4.AlphaGo原理解析AlphaGo程序由以下4部分組成:策略網(wǎng)絡(luò)(PolicyNetwork)、快速走棋(Fastrollout)、估值網(wǎng)絡(luò)(ValueNetwork)、蒙特卡羅樹搜索(MonteCarloTreeSearch,MCTS)。(1)AlphaGo的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建和它的訓(xùn)練過程如圖9?16所示,構(gòu)建一個卷積神經(jīng)網(wǎng)絡(luò),選擇成功率較大的位置落子。圖9?16圍棋棋盤的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建深度增強(qiáng)學(xué)習(xí)的應(yīng)用4.AlphaGo原理解析Alp89深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?17解釋了監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。圖9?17策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)之間的自我對弈深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?17解釋了監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。圖90深度增強(qiáng)學(xué)習(xí)的應(yīng)用(2)AlphaGo程序中的深度增強(qiáng)學(xué)習(xí)系統(tǒng)架構(gòu)步驟1:最左邊框圖是線下深度學(xué)習(xí)的過程。一個有監(jiān)督的深度學(xué)習(xí)方法通過輸入專業(yè)玩家的棋譜訓(xùn)練實(shí)現(xiàn),目的是并行執(zhí)行下面兩項任務(wù):(1)使用線性模型提取特征值,產(chǎn)生快速走棋網(wǎng)絡(luò)用于蒙特卡洛樹搜索。(2)使用特征圖更新策略網(wǎng)絡(luò)。為接下來的兩個步驟程作準(zhǔn)備。步驟2:該步驟通過增強(qiáng)學(xué)習(xí)更新之前的策略網(wǎng)絡(luò),為步驟3做準(zhǔn)備。根據(jù)自我對弈的棋譜,在步驟3隨機(jī)選擇行動。步驟3:該步驟使用自我對弈棋譜隨機(jī)走U步,然后進(jìn)行三個并行的任務(wù)——判斷勝負(fù),提取有用特征,提取當(dāng)前玩家棋子的顏色。這三個任務(wù)的輸出合并起來,輸入深度logistic回歸模型,以訓(xùn)練價值網(wǎng)絡(luò)。更新的快速走子,策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)應(yīng)用到圖9?18線上學(xué)習(xí)過程的5個步驟。深度增強(qiáng)學(xué)習(xí)的應(yīng)用(2)AlphaGo程序中的深度增強(qiáng)學(xué)習(xí)91深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)習(xí)過程在圖9?19,我們展示了AlphaGo線上學(xué)習(xí)的5個步驟步驟1;基于當(dāng)前棋盤提取特征。步驟2:使用策略網(wǎng)絡(luò)估計每個可能落子位置落子的概率。步驟3:根據(jù)落子概率計算往下發(fā)展的權(quán)重。圖9?18AlphaGo的線下學(xué)習(xí)過程深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)92深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)習(xí)過程步驟4:使用價值網(wǎng)絡(luò)和快速走子網(wǎng)絡(luò)更新獎勵。步驟5:選擇權(quán)重最大的位置落子。權(quán)重的更新可以并行。當(dāng)估算某位置的時間超過一定值,下一步就使用蒙特卡洛樹搜索。圖9?18AlphaGo的線下學(xué)習(xí)過程深度增強(qiáng)學(xué)習(xí)的應(yīng)用(3)AlphaGo和人類玩家對弈的線上學(xué)93深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?19AlphaGo的線上學(xué)習(xí)過程蒙特卡洛樹同時使用價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò):(1)根據(jù)當(dāng)前棋局,選擇對手可能的落子策略。(2)根據(jù)對手的落子,選擇對我們最有利的行動,展開至勝率最大的落子模式。(3)選擇下一步最優(yōu)行動有兩種方法。一種需要估值網(wǎng)絡(luò)估計的勝率,另一種是使用蒙特卡洛樹做更深層的預(yù)測。AlphaGo使用混合系數(shù)將兩種方法的結(jié)果進(jìn)行整合得出新的結(jié)果。(4)決定了最優(yōu)行動之后,我們估計對手可能的下一步行動,基于最優(yōu)行動的位置使用策略網(wǎng)絡(luò)估計對手相應(yīng)的策略。深度增強(qiáng)學(xué)習(xí)的應(yīng)用圖9?19AlphaGo的線上學(xué)習(xí)過程94社交媒體應(yīng)用程序的數(shù)據(jù)分析
傳統(tǒng)的在線社區(qū)是以群體為導(dǎo)向的,而現(xiàn)代社交網(wǎng)站則與其完全不同。社交網(wǎng)絡(luò)的建立基于個人友誼、親屬關(guān)系、專業(yè)、共同興趣、經(jīng)濟(jì)交流、社區(qū)或種族群體、宗教或政治信仰、知識或聲望以及粉絲等。在社交網(wǎng)絡(luò)中,節(jié)點(diǎn)代表個人,節(jié)點(diǎn)之間的紐帶表示友誼、親屬關(guān)系和同事之間的關(guān)系等。在線社交網(wǎng)絡(luò)服務(wù)旨在反映人們之間的社會關(guān)系。這些服務(wù)作為通信工具出現(xiàn)在人們的生活中。社交媒體應(yīng)用程序的數(shù)據(jù)分析傳統(tǒng)的在線社區(qū)是以群體為導(dǎo)95社交媒體應(yīng)用程序的數(shù)據(jù)分析1.
社交媒體應(yīng)用中的大數(shù)據(jù)需求
目前有許多組織在使用企業(yè)社交網(wǎng)絡(luò)。移動社交媒體會收集用戶的地點(diǎn)和時間等敏感特征的大數(shù)據(jù)。他們的目標(biāo)是管理客戶關(guān)系,促進(jìn)銷售和制定激勵計劃,我們將分別在如下4個領(lǐng)域?qū)ζ溥M(jìn)行評估?!袷袌稣{(diào)查?!裆缃幻襟w交流中的通信?!翊黉N和折扣。●電子商務(wù)。社交媒體應(yīng)用程序的數(shù)據(jù)分析1.社交媒體應(yīng)用中的大數(shù)據(jù)需96社交媒體應(yīng)用程序的數(shù)據(jù)分析2.社交網(wǎng)絡(luò)和圖表分析
一般來說,社交網(wǎng)絡(luò)是自發(fā)組織的且緊急而復(fù)雜的,這使得構(gòu)成系統(tǒng)的本地元素在交互中出現(xiàn)了全局一致的模式。隨著網(wǎng)絡(luò)規(guī)模的增加,這些模式變得更加明顯。然而,對世界上所有人際關(guān)系進(jìn)行網(wǎng)絡(luò)分析是不可行的。其中主要的限制條件是出于對道德、參與者的招聘以及經(jīng)濟(jì)方面的考慮。(1)社交媒體網(wǎng)絡(luò)的等級網(wǎng)絡(luò)可能落入三類水平:微觀水平、中等水平和宏觀水平。社交媒體應(yīng)用程序的數(shù)據(jù)分析2.社交網(wǎng)絡(luò)和圖表分析一97社交媒體應(yīng)用程序的數(shù)據(jù)分析(2)社交圖特征
社交圖中的節(jié)點(diǎn)對應(yīng)于用戶或角色,圖形邊緣或鏈接指的是節(jié)點(diǎn)之間的聯(lián)系或關(guān)系。圖可以是復(fù)雜的或是有層次的結(jié)構(gòu),以反映所有級別的關(guān)系。
社交網(wǎng)絡(luò)在解決問題、組織運(yùn)營以及個人成功實(shí)現(xiàn)其目標(biāo)方面發(fā)揮著關(guān)鍵作用。(3)社交網(wǎng)絡(luò)圖屬性:社交媒體應(yīng)用程序的數(shù)據(jù)分析(2)社交圖特征社交圖中98社交媒體應(yīng)用程序的數(shù)據(jù)分析節(jié)點(diǎn)度數(shù),距離,路徑長度和間隔:節(jié)點(diǎn)度數(shù)是與一個節(jié)點(diǎn)直接相鄰的節(jié)點(diǎn)數(shù)量,用來定義網(wǎng)絡(luò)中的一個節(jié)點(diǎn)可以到達(dá)網(wǎng)絡(luò)中的其他節(jié)點(diǎn)的數(shù)量。親密度和凝聚力:它表示網(wǎng)絡(luò)中的一個節(jié)點(diǎn)與所有其他節(jié)點(diǎn)(直接或間接)的耦合程度。中心性和集中性:中心性表示基于節(jié)點(diǎn)連接網(wǎng)絡(luò)的社交能力。社交圈或集群:這是指一些結(jié)構(gòu)化群體。集中式與分散式網(wǎng)絡(luò):中心性基于其“連接”網(wǎng)絡(luò)的程度,給出了節(jié)點(diǎn)的社交能力的粗略指示。社交媒體應(yīng)用程序的數(shù)據(jù)分析節(jié)點(diǎn)度數(shù),距離,路徑長度和間隔:節(jié)99社交媒體應(yīng)用程序的數(shù)據(jù)分析橋和本地橋:如果刪除一條邊會導(dǎo)致其端點(diǎn)位于圖的不同群集或組件中,則這條邊便是橋。聲望和徑向:在社交圖中,聲望描述節(jié)點(diǎn)的中心性。“聲望度”、“聲望接近”和“聲望狀態(tài)”都是描述聲望的。徑向是網(wǎng)絡(luò)達(dá)到的程度,它提供新的信息和影響。
結(jié)構(gòu)內(nèi)聚,等價和孔:結(jié)構(gòu)內(nèi)聚是指代最小數(shù)量的成員,這些成員如果被從組中刪除,將會使組斷開。結(jié)構(gòu)等價是指節(jié)點(diǎn)具有到其他節(jié)點(diǎn)的共同鏈接集合的程度,這些節(jié)點(diǎn)彼此沒有任何關(guān)系。社交媒體應(yīng)用程序的數(shù)據(jù)分析橋和本地橋:如果刪除一條邊會導(dǎo)致其100社交媒體應(yīng)用程序的數(shù)據(jù)分析(4)社交圖分析例子通過身份、對話、分享、遠(yuǎn)程視頻、關(guān)系、聯(lián)系等方式可以將在線社交網(wǎng)絡(luò)服務(wù)組合在一起。下面我們將針對提供在線社交網(wǎng)絡(luò)服務(wù)提出一點(diǎn)想法:通過社交關(guān)系鏈接的每個用戶的個人頁面或個人資料沿著特定的社交鏈接或網(wǎng)絡(luò)遍歷的社交圖參與者或注冊用戶之間的通信工具社交媒體應(yīng)用程序的數(shù)據(jù)分析(4)社交圖分析例子通過身份、對101社交媒體應(yīng)用程序的數(shù)據(jù)分析與朋友或?qū)I(yè)群體分享特殊信息,如音樂,照片,視頻等在特殊小眾主題領(lǐng)域(如醫(yī)療健康、運(yùn)動、愛好等)中建立一個圈子可能需要特定的軟件工具或數(shù)據(jù)庫來建立社交網(wǎng)絡(luò)服務(wù)強(qiáng)大的客戶忠誠度和瘋狂的會員成長是社交網(wǎng)絡(luò)社區(qū)的典型特征社交網(wǎng)絡(luò)通過銷售高級會員和訪問高級內(nèi)容的資格來獲得收入社交媒體應(yīng)用程序的數(shù)據(jù)分析與朋友或?qū)I(yè)群體分享特殊信息,如音102社交媒體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度坡屋面小青瓦施工質(zhì)量監(jiān)督與整改服務(wù)合同
- 二零二五年度新加坡留學(xué)就業(yè)輔導(dǎo)合同4篇
- 2025專業(yè)級防雷系統(tǒng)設(shè)計與施工監(jiān)管合同3篇
- 商場自動扶梯安裝與維護(hù)服務(wù)合同(2025年度)
- 二零二五版羅絲與楊洋的離婚協(xié)議及財產(chǎn)分割及子女撫養(yǎng)協(xié)議4篇
- 2025年度家具退貨及維修保養(yǎng)服務(wù)協(xié)議范本
- 2025版GB∕T30057(環(huán)保)固體廢物處理與資源化利用合同3篇
- 二零二五年度歷史文化遺址草坪保護(hù)與旅游合同3篇
- 二零二五年度醫(yī)療信息化系統(tǒng)建設(shè)與維護(hù)合同2篇
- 2025版新型綠色建筑勞務(wù)分包合同范本3篇
- 副總經(jīng)理招聘面試題與參考回答(某大型國企)2024年
- PDCA循環(huán)提高護(hù)士培訓(xùn)率
- 2024-2030年中國智慧水務(wù)行業(yè)應(yīng)用需求分析發(fā)展規(guī)劃研究報告
- 《獅子王》電影賞析
- 河北省保定市定州市2025屆高二數(shù)學(xué)第一學(xué)期期末監(jiān)測試題含解析
- 中醫(yī)護(hù)理人文
- 2024-2030年中國路亞用品市場銷售模式與競爭前景分析報告
- 貨物運(yùn)輸安全培訓(xùn)課件
- 前端年終述職報告
- 2024小說推文行業(yè)白皮書
- 市人民醫(yī)院關(guān)于開展“改善就醫(yī)感受提升患者體驗(yàn)主題活動”2023-2025年實(shí)施方案及資料匯編
評論
0/150
提交評論