版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Janet'Janet'發(fā)布于2017-10-24,閱讀468次,熱度4次開發(fā)者必看:超全機器學習術語詞匯表!#精選算法人工智能機器學習A準確率(accuracy分類模型預測準確的比例。在多類別分類中,準確率定義如下:在二分類中,準確率定義為:激活函數(shù)(Activationfunction)一種函數(shù)(例如ReLU或Sigmoid),將前一層所有神經元激活值的加權和輸入到一個非線性函數(shù)中,然后向下一層傳遞該函數(shù)的輸出值(典型的非線性)。AdaGrad一種復雜的梯度下降算法,重新調節(jié)每個參數(shù)的梯度,高效地給每個參數(shù)一個單獨的學習率。AUC(曲線下面積)一種考慮到所有可能的分類閾值的
2、評估標準。ROC曲線下面積代表分類器隨機預測真正類(TurePositive要比假正類(FalsePositives概率大的確信度。B反向傳播(Backpropagation)神經網絡中完成梯度下降的重要算法。首先,在前向傳播的過程中計算每個節(jié)點的輸出值。然后,在反向傳播的過程中計算與每個參數(shù)對應的誤差的偏導數(shù)。基線(Baseline)被用為對比模型表現(xiàn)參考點的簡單模型。基線幫助模型開發(fā)者量化模型在特定問題上的預期表現(xiàn)。批量模型訓練中一個迭代(指一次梯度更新)使用的樣本集。批量大/4(batchsize)一個批量中樣本的數(shù)量。例如,SGD的批量大小為1,而mini-batch的批量大小通常在1
3、0-1000之間。批量大小通常在訓練與推理的過程中確定,然而TensorFlow不允許動態(tài)批量大小。偏置(bias)與原點的截距或偏移量。偏置(也稱偏置項)被稱為機器學習模型中的b或者w0o例如,偏置項是以下公式中的b:y'=b+w1x1+w2x2+-wnxn。注意不要和預測偏差混淆。二元分類器(binaryclassification)一類分類任務,輸出兩個互斥(不相交)類別中的一個。例如,一個評估郵件信息并輸出垃圾郵件或非垃圾郵件的機器學習模型就是一個二元分類器。binning/bucketing根據(jù)值的范圍將一個連續(xù)特征轉換成多個稱為buckets或者bins二元特征,稱為buc
4、kets或者bins。例如,將溫度表示為單一的浮點特征,可以將溫度范圍切割為幾個離散的bins。假如給定的溫度的敏感度為十分之一度,那么分布在0.0度和15.0度之間的溫度可以放入一個bin中,15.1度到30.0度放入第二個bin,30.1度到45.0度放入第三個bin。標定層(calibrationlayer)一種調整后期預測的結構,通常用于解釋預測偏差。調整后的預期和概率必須匹配一個觀察標簽集的分布。候選采樣(candidatesamplincj)一種優(yōu)化訓練時間的,使用Softmax等算法計算所有正標簽的概率,同時只計算一些隨機取樣的負標簽的概率。例如,有一個樣本標記為小獵兔狗和狗,候
5、選取樣將計算預測概率,和與小獵兔狗和狗類別輸出(以及剩余的類別的隨機子集,比如貓、棒棒糖、柵欄)相關的損失項。這個想法的思路是,負類別可以通過頻率更低的負強化(negativereinforcement)進行學習,而正類別經常能得到適當?shù)恼龔娀瑢嶋H觀察確實如此。候選取樣的動力是計算有效性從所有負類別的非計算預測的得益。檢查點(checkpoint)在特定的時刻標記模型的變量的狀態(tài)的數(shù)據(jù)。檢查點允許輸出模型的權重,也允許通過多個階段訓練模型。檢查點還允許跳過錯誤繼續(xù)進行(例如,搶占作業(yè))。注意其自身的圖式并不包含于檢查點內。類別(clasS)所有同類屬性的目標值作為一個標簽。例如,在一個檢測垃
6、圾郵件的二元分類模型中,這兩個類別分別是垃圾郵件和非垃圾郵件。而一個多類別分類模型將區(qū)分狗的種類,其中的類別可以是貴賓狗、小獵兔狗、哈巴狗等等。類別不平衡數(shù)據(jù)集(class-imbalanceddataset這是一個二元分類問題,其中兩個類別的標簽的分布頻率有很大的差異。比如,一個疾病數(shù)據(jù)集中若0.01%的樣本有正標簽,而99.99%的樣本有負標簽,那么這就是一個類別不平衡數(shù)據(jù)集。但對于一個足球比賽預測器數(shù)據(jù)集,若其中51%的樣本標記一隊勝利,而49%的樣本標記其它隊伍勝利,那么這就不是個類別不平衡數(shù)據(jù)集。分類模型(classification)機器學習模型的一種,將數(shù)據(jù)分離為兩個或多個離散類
7、別。例如,一個自然語言處理分類模型可以將一句話歸類為法語、西班牙語或意大利語。分類模型與回歸模型(regressionmodel)成對比。分類閾值(classificationthreshold)應用于模型的預測分數(shù)以分離正類別和負類別的一種標量值標準。當需要將logistic回歸的結果映射到二元分類模型中時就需要使用分類閾值。例如,考慮一個確定給定郵件為垃圾郵件的概率的logistic回歸模型,如果分類閾值是0.9,那么logistic回歸值在0.9以上的被歸為垃圾郵件,而在0.9以下的被歸為非垃圾郵件?;煜仃嚕╟onfusionmatrix)總結分類模型的預測結果的表現(xiàn)水平(即,標簽和模
8、型分類的匹配程度)的NxN表格。混淆矩陣的一個軸列出模型預測的標簽,另一個軸列出實際的標簽。N表示類別的數(shù)量。在一個二元分類模型中,N=20例如,以下為一個二元分類問題的簡單的混淆矩陣:上述混淆矩陣展示了在19個確實為月中瘤的樣本中,有18個被模型正確的歸類(18個真正),有1個被錯誤的歸類為非月中瘤(1個假負類)。類似的,在458個確實為非月中瘤的樣本中,有452個被模型正確的歸類(452個真負類),有6個被錯誤的歸類(6個假正類)。多類別分類的混淆矩陣可以幫助發(fā)現(xiàn)錯誤出現(xiàn)的模式。例如,一個混淆矩陣揭示了一個識別手寫數(shù)字體的模型傾向于將4識別為9,或者將7識別為1。混淆矩陣包含了足夠多的信息
9、可以計算很多的模型表現(xiàn)度量,比如精度(precision)和召回(recall)率。連續(xù)特征(continuousfeature)擁有無限個取值點的浮點特征。和離散特征(discretefeature)相反。收斂(convergence)訓練過程達到的某種狀態(tài),其中訓練損失和驗證損失在經過了確定的迭代次數(shù)后,在每一次迭代中,改變很小或完全不變。換句話說就是,當對當前數(shù)據(jù)繼續(xù)訓練而無法再提升模型的表現(xiàn)水平的時候,就稱模型已經收斂。在深度學習中,損失值下降之前,有時候經過多次迭代仍保持常量或者接近常量,會造成模型已經收斂的錯覺。凸函數(shù)(concexfunction)一種形狀大致呈字母U形或碗形的函
10、數(shù)。然而,在退化情形中,凸函數(shù)的形狀就像一條線。例如,以下幾個函數(shù)都是凸函數(shù):L2損失函數(shù)Log損失函數(shù)L1正則化函數(shù)L2正則化函數(shù)凸函數(shù)是很常用的損失函數(shù)。因為當一個函數(shù)有最小值的時候(通常就是這樣),梯度下降的各種變化都能保證找到接近函數(shù)最小值的點。類似的,隨機梯度下降的各種變化有很大的概率(雖然無法保證)找到接近函數(shù)最小值的點兩個凸函數(shù)相加(比如,L2損失函數(shù)+L1正則化函數(shù))后仍然是凸函數(shù)。深度模型通常是非凸的。出乎意料的是,以凸優(yōu)化的形式設計的算法通常都能在深度網絡上工作的很好,雖然很少能找到最小值。成本(cost)loss的同義詞。交叉嫡(cross-entropy)多類別分類問題
11、中對Log損失函數(shù)的推廣。交叉嫡量化兩個概率分布之間的區(qū)別。參見困惑度(perplexity)。D數(shù)據(jù)集(dataset)樣本的集合。決策邊界(decisionboundary)在一個二元分類或多類別分類問題中模型學習的類別之間的分離器。例如,下圖就展示了一個二元分類問題,決策邊界即橙點類和藍點類的邊界。深度模型(deepmodel)一種包含多個隱藏層的神經網絡。深度模型依賴于其可訓練的非線性性質。和寬度模型對照(widemodel)。密集特征(densefeature)大多數(shù)取值為非零的一種特征,通常用取浮點值的張量(tensor)表示。和稀疏特征(sparsefeature)相反。派生特征
12、(derivedfeature)合成特征(syntheticfeature)的同義詞。離散特征(discretefeature)只有有限個可能取值的一種特征。例如,一個取值只包括動物、蔬菜或礦物的特征就是離散(或類別)特征。和連續(xù)特征(continuousfeature)對照。dropout正貝堆(dropoutregularization)訓練神經網絡時一種有用的正則化方法。dropout正則化的過程是在單次梯度計算中刪去一層網絡中隨機選取的固定數(shù)量的單元。刪去的單元越多,正則化越強。動態(tài)模型(dynamicmodel)以連續(xù)更新的方式在線訓練的模型。即數(shù)據(jù)連續(xù)不斷的輸入模型。E早期停止法(
13、earlystopping)一種正則化方法,在訓練損失完成下降之前停止模型訓練過程。當驗證數(shù)據(jù)集(validationdataset)的損失開始上升的時候,即泛化表現(xiàn)變差的時候,就該使用早期停止法了。嵌入(embeddings)一類表示為連續(xù)值特征的明確的特征。嵌入通常指將高維向量轉換到低維空間中。例如,將一個英語句子中的單詞以以下任何一種方式表示:擁有百萬數(shù)量級(高維)的元素的稀疏向量,其中所有的元素都是整數(shù)。向量的每一個單元表示一個單獨的英語單詞,單元中的數(shù)字表示該單詞在一個句子中出現(xiàn)的次數(shù)。由于一個句子中的單詞通常不會超過50個,向量中幾乎所有的單元都是0。少量的非零的單元將取一個小的整
14、數(shù)值(通常為1)表示句子中一個單詞的出現(xiàn)次數(shù)。擁有數(shù)百個(低維)元素的密集向量,其中每一個元素取0到1之間的浮點數(shù)。在TensorFlow中,嵌入是通過反向傳播損失訓練的,正如神經網絡的其它參量一樣。經驗風險最小化(empiricalriskminimization,ERM)選擇能最小化訓練數(shù)據(jù)的損失的模型函數(shù)的過程。和結構風險最小化(structualriskminimization)對照。集成(ensemble)多個模型預測的綜合考慮??梢酝ㄟ^以下一種或幾種方法創(chuàng)建一個集成方法:設置不同的初始化;設置不同的超參量;設置不同的總體結構深度和廣度模型是一種集成。評估器(Estimator,)t
15、f.Estimator類的一個例子,封裝logic以建立一個TensorFlow圖并運行一個TensorFlowsession你可以通過以下方式創(chuàng)建自己的評估器:/extend/estimators樣本(example)一個數(shù)據(jù)集的一行內容。一個樣本包含了一個或多個特征,也可能是一個標簽。參見標注樣本(labeledexample)和無標注樣本(unlabeledexample)。F假負類(falsenegative,FN)被模型錯誤的預測為負類的樣本。例如,模型推斷一封郵件為非垃圾郵件(負類),但實際上這封郵件是垃圾郵件。假正類(falsep
16、ositive,FP5)被模型錯誤的預測為正類的樣本。例如,模型推斷一封郵件為垃圾郵件(正類),但實際上這封郵件是非垃圾郵件。假正類率(falsepositiverate,FPrate)ROC曲線(ROCcurve中的x軸。FP率的定義是:假正率h貿正類數(shù)/(假正類數(shù)+真負類數(shù))特征(feature)輸入變量,用于做出預測特征歹U(featurecolumns/FeatureColumn)具有相關性的特征的集合,比如用戶可能居住的所有可能的國家的集合。一個樣本的一個特征列中可能會有一個或者多個特征。TensorFlow中的特征列還可以壓縮元數(shù)據(jù)比如下列情況:特征的數(shù)據(jù)類型;一個特征是固定長度的
17、或應該轉換為嵌入。一個特征列可以僅包含一個特征。特征列是谷歌專用的術語。在VW系統(tǒng)(Yahoo/Microsoft)中特征列的意義是命名空間(namespace,或者場(巾eld)。特征交叉(featurecross)將特征進行交叉(乘積或者笛卡爾乘積)運算后得到的合成特征。特征交叉有助于表示非線性關系。特征工程(featureengineering)在訓練模型的時候,決定哪些特征是有用的,然后將記錄文件和其它來源的原始數(shù)據(jù)轉換成上述特征的過程。在TensorFlow中特征工程通常意味著將原始記錄文件輸入tf.Example協(xié)議緩存中。參見tf.Transform。特征工程有時候也稱為特征提取
18、。特征集(featureset)機器學習模型訓練的時候使用的特征群。比如,郵政編碼,面積要求和物業(yè)狀況可以組成一個簡單的特征集,使模型能預測房價。特征定義(featurespec)描述所需的信息從tf.Example協(xié)議緩存中提取特征數(shù)據(jù)。因為tf.Example協(xié)議緩存只是數(shù)據(jù)的容器,必須明確以下信息:需要提取的數(shù)據(jù)(即特征的關鍵信息)數(shù)據(jù)類型(比如,浮點數(shù)還是整數(shù))數(shù)據(jù)長度(固定的或者變化的)EstimatorAPI提供了從一群特征列中生成一個特征定義的工具。完全softmax(fullsoftmax)參見softmax。和候選采樣對照。G泛化(generalization)指模型利用新的
19、沒見過的數(shù)據(jù)而不是用于訓練的數(shù)據(jù)作出正確的預測的能力。廣義線性模型(generalizedlinearmodel)最小二乘回歸模型的推廣/泛化,基于高斯噪聲,相對于其它類型的模型(基于其它類型的噪聲,比如泊松噪聲,或類別噪聲)。廣義線性模型的例子包括:logistic回歸多分類回歸最小二乘回歸廣義線性模型的參數(shù)可以通過凸優(yōu)化得到,它具有以下性質:最理想的最小二乘回歸模型的平均預測結果等于訓練數(shù)據(jù)的平均標簽。最理想的logistic回歸模型的平均概率的預測結果等于訓練數(shù)據(jù)的平均標簽。廣義線性模型的能力局限于其特征的性質。和深度模型不同,一個廣義線性模型無法學習新的特征。梯度(gradient)所
20、有變量的偏導數(shù)的向量。在機器學習中,梯度是模型函數(shù)的偏導數(shù)向量。梯度指向最陡峭的上升路線。梯度截斷(gradientclipping)在應用梯度之前先修飾數(shù)值,梯度截斷有助于確保數(shù)值穩(wěn)定性,防止梯度爆炸出現(xiàn)。梯度下降(gradientdescent)通過計算模型的相關參量和損失函數(shù)的梯度最小化損失函數(shù),值取決于訓練數(shù)據(jù)。梯度下降迭代地調整參量,逐漸靠近權重和偏置的最佳組合,從而最小化損失函數(shù)。圖(graph)在TensorFlow中的一種計算過程展示。圖中的節(jié)點表示操作。節(jié)點的連線是有指向性的,表示傳遞一個操作(一個張量)的結果(作為一個操作數(shù))給另一個操作。使用TensorBoard能可視化
21、計算圖。H啟發(fā)式(heuristic)一個問題的實際的和非最優(yōu)的解,但能從學習經驗中獲得足夠多的進步。隱藏層(hiddenlayer)神經網絡中位于輸入層(即特征)和輸出層(即預測)之間的合成層。一個神經網絡包含一個或多個隱藏層。折頁損失函數(shù)(Hingelos§損失函數(shù)的一個類型,用于分類模型以尋找距離每個樣本的距離最大的決策邊界,即最大化樣本和邊界之間的邊緣。KSVMs使用hinge損失函數(shù)(或相關的函數(shù),比如平方hinge函數(shù))。在二元分類中,hinge損失函數(shù)按以下方式定義:10ss=max(0,1(y'?y)其中y'是分類器模型的列輸出:y'=b+w1
22、x1+w2x2-+-wnxny是真實而標簽,-1或+1。因此,hinge損失將是下圖所示的樣子:測試數(shù)據(jù)(holdoutdata)有意不用于訓練的樣本。驗證數(shù)據(jù)集(validationdataset)和測試數(shù)據(jù)集(testdataset)是測試數(shù)據(jù)(holdoutdata)的兩個例子。測試數(shù)據(jù)幫助評估模型泛化到除了訓練數(shù)據(jù)之外的數(shù)據(jù)的能力。測試集的損失比訓練集的損失提供了對未知數(shù)據(jù)集的損失更好的估計。超參數(shù)(hyperparameter)連續(xù)訓練模型的過程中可以擰動的旋鈕。例如,相對于模型自動更新的參數(shù),學習率(learningrate)是一個超參數(shù)。和參量對照。I獨立同分布(independ
23、entlyandidenticallydistributed,i.i.d)從不會改變的分布中獲取的數(shù)據(jù),且獲取的每個值不依賴于之前獲取的值。i.i.d.是機器學習的理想情況一一一種有用但在現(xiàn)實世界中幾乎找不到的數(shù)學構建。例如,網頁訪客的分布可能是短暫時間窗口上的i.i.d;即分布不會在該時間窗口發(fā)生改變,每個人的訪問都與其他人的訪問獨立。但是,如果你擴展了時間窗口,則會出現(xiàn)網頁訪客的季節(jié)性差異。推斷(inference)在機器學習中,通常指將訓練模型應用到無標注樣本來進行預測的過程。在統(tǒng)計學中,推斷指在觀察到的數(shù)據(jù)的基礎上擬合分布參數(shù)的過程。輸入層(inputlayer)神經網絡的第一層(接收
24、輸入數(shù)據(jù))評分者問一致性(inter-rateragreement)用來衡量一項任務中人類評分者意見一致的指標。如果意見不一致,則任務說明可能需要改進。有時也叫標注者問信度(inter-annotatoragreement)或評分者問信度(inter-raterreliability)。Kernel支持向量機(KernelSupportVectorMachines/KSVM一種分類算法,旨在通過將輸入數(shù)據(jù)向量映射到更高維度的空間使正類和負類之間的邊際最大化。例如,考慮一個輸入數(shù)據(jù)集包含一百個特征的分類問題。為了使正類和負類之間的間隔最大化,KSVM從內部將特征映射到百萬維度的空間。KSVM使用
25、的損失函數(shù)叫作hinge損失。L1損失函數(shù)(L1losS>損失函數(shù)基于模型對標簽的預測值和真實值的差的絕對值而定義。L1損失函數(shù)比起L2損失函數(shù)對異常值的敏感度更小。L1正貝化(L1regularization)一種正則化,按照權重絕對值總和的比例進行懲罰。在依賴稀疏特征的模型中,L1正則化幫助促使(幾乎)不相關的特征的權重趨近于0,從而從模型中移除這些特征。L2損失(L210ss參見平方損失。L2正貝化(L2regularization)一種正則化,按照權重平方的總和的比例進行懲罰。L2正則化幫助促使異常值權重更接近0而不趨近于00(可與L1正則化對照閱讀。)L2正則化通常改善線性模型
26、的泛化效果。標簽(label)在監(jiān)督式學習中,樣本的答案或結果。標注數(shù)據(jù)集中的每個樣本包含一或多個特征和一個標簽。比如,在房屋數(shù)據(jù)集中,特征可能包括臥室數(shù)量、衛(wèi)生問數(shù)量、房齡,而標簽可能就是房子的價格。在垃圾郵件檢測數(shù)據(jù)集中,特征可能包括主題、發(fā)出者何郵件本身,而標簽可能是垃圾郵件或非垃圾郵件標注樣本(labeledexample)包含特征和標簽的樣本。在監(jiān)督式訓練中,模型從標注樣本中進行學習lambda正則化率的同義詞。(該術語有多種含義。這里,我們主要關注正則化中的定義。)層(layer)神經網絡中的神經元序列,可以處理輸入特征序列或神經元的輸出。它也是TensorFlow的一種抽象化概念
27、。層是將張量和配置選項作為輸入、輸出其他張量的Python函數(shù)。一旦必要的張量出現(xiàn),用戶就可以通過模型函數(shù)將結果轉換成估計'命°學習率(learningrate)通過梯度下降訓練模型時使用的一個標量。每次迭代中,梯度下降算法使學習率乘以梯度,乘積叫作gradientstep。學習率是一個重要的超參數(shù)。最小二乘回歸(leastsquaresregression通過L2損失最小化進行訓練的線性回歸模型。線性回歸(linearregression)對輸入特征的線性連接輸出連續(xù)值的一種回歸模型。logistic回歸(logisticregression)將sigmoid函數(shù)應用于線性
28、預測,在分類問題中為每個可能的離散標簽值生成概率的模型。盡管logistic回歸常用于二元分類問題,但它也用于多類別分類問題(這種情況下,logistic回歸叫作多類別logistic回歸或多項式回歸對數(shù)損失函數(shù)(LogLoss二元logistic回歸模型中使用的損失函數(shù)損失度量模型預測與標簽距離的指標,它是度量一個模型有多糟糕的指標。為了確定損失值,模型必須定義損失函數(shù)。例如,線性回歸模型通常使用均方差作為損失函數(shù),而logistic回歸模型使用對數(shù)損失函數(shù)。機器學習(machinelearning)利用輸入數(shù)據(jù)構建(訓練)預測模型的項目或系統(tǒng)。該系統(tǒng)使用學習的模型對與訓練數(shù)據(jù)相同分布的新數(shù)
29、據(jù)進行有用的預測。機器學習還指與這些項目或系統(tǒng)相關的研究領域。均方誤差(MeanSquaredError/MSE每個樣本的平均平方損失。MSE可以通過平方損失除以樣本數(shù)量來計算。TensorFlowPlayground展示訓練損失和測試損失的值是MSE小批量(mini-batch)在訓練或推斷的一個迭代中運行的整批樣本的一個小的隨機選擇的子集。小批量的大小通常在10到1000之間。在小批量數(shù)據(jù)上計算損失比在全部訓練數(shù)據(jù)上計算損失要高效的多。小批量隨機梯度下降(mini-batchstochasticgradientdescent)使用小批量的梯度下降算法。也就是,小批量隨機梯度下降基于訓練數(shù)據(jù)
30、的子集對梯度進行評估。VanillaSGD使用size為1的小批量。模型(model)機器學習系統(tǒng)從訓練數(shù)據(jù)中所學內容的表示。該術語有多個含義,包括以下兩個相關含義:TensorFlow圖,顯示如何計算預測的結構。TensorFlow圖的特定權重和偏差,由訓練決定模型訓練(modeltraining)確定最佳模型的過程。動量(Momentum)一種復雜的梯度下降算法,其中的學習步不只依賴于當前步的導數(shù),還依賴于先于它的步。動量包括隨著時間計算梯度的指數(shù)加權移動平均數(shù),類似于物理學中的動量。動量有時可以阻止學習陷于局部最小值。多類別(multi-class)在多于兩類的類別中進行分類的分類問題。
31、例如,有約128種楓樹,那么分類楓樹品種的模型就是多類別的。反之,把電子郵件分成兩個類別(垃圾郵件和非垃圾郵件)的模型是二元分類器模型。NNaNtrap訓練過程中,如果模型中的一個數(shù)字變成了NaN,則模型中的很多或所有其他數(shù)字最終都變成NaN。NaN是NotaNumberj的縮寫。負類(negativeclas§在二元分類中,一個類別是正類,另外一個是負類。正類就是我們要找的目標,負類是另外一種可能性。例如,醫(yī)療測試中的負類可能是非腫瘤,電子郵件分類器中的負類可能是非垃圾郵件。神經網絡(neuralnetwork)該模型從大腦中獲取靈感,由多個層組成(其中至少有一個是隱藏層),每個層
32、包含簡單的連接單元或神經元,其后是非線性。神經元(neuron)神經網絡中的節(jié)點,通常輸入多個值,生成一個輸出值。神經元通過將激活函數(shù)(非線性轉換)應用到輸入值的加權和來計算輸出值。歸一化(normalization)將值的實際區(qū)間轉化為標準區(qū)間的過程,標準區(qū)間通常是-1到+1或0到1。例如,假設某個特征的自然區(qū)間是800到6000。通過減法和分割,你可以把那些值標準化到區(qū)間-1至"1。參見縮放。numpyPython中提供高效數(shù)組運算的開源數(shù)學庫。pandas基于numpy構建。O目標(objective)算法嘗試優(yōu)化的目標函數(shù)。離線推斷(offlineinference)生成一組
33、預測并存儲,然后按需檢索那些預測。可與在線推斷對照閱讀。one-hot編碼(one-hotencoding)一個稀疏向量,其中:一個元素設置為1。所有其他的元素設置為0獨熱編碼常用于表示有有限可能值集合的字符串或標識符。例如,假設一個記錄了15000個不同品種的植物數(shù)據(jù)集,每一個用獨特的字符串標識符來表示。作為特征工程的一部分,你可能將那些字符串標識符進行獨熱編碼,每個向量的大小為150000一對多(one-vs.-all)給出一個有N個可能解決方案的分類問題,一對多解決方案包括N個獨立的二元分類器一一每個可能的結果都有一個二元分類器。例如,一個模型將樣本分為動物、蔬菜或礦物,則一對多的解決方
34、案將提供以下三種獨立的二元分類器:動物和非動物蔬菜和非蔬菜礦物和非礦物在線推斷(onlineinference)按需生成預測。可與離線推斷對照閱讀。運算(Operation/op)TensorFlow圖中的一個節(jié)點。在TensorFlow中,任何創(chuàng)建、控制或損壞張量的步驟都是運算。例如,矩陣乘法是一個把兩個張量作為輸入、生成一個張量作為輸出的運算。優(yōu)化器(optimizer)梯度下降算法的特定實現(xiàn)。TensorFlow的基類優(yōu)化器是tf.train.Optimizer。不同的優(yōu)化器(tf.train.Optimizer的子類)對應不同的概念,如:動量(Momentum)更新頻率(AdaGrad
35、=ADAptiveGRADientdescentAdam=ADAptivewithMomentum;RMSProp)稀疏性/正則化(Ftrl)更復雜的數(shù)學(Proximal及其他)你甚至可以想象NN-drivenoptimizer。異常值(outlier)與大多數(shù)值差別很大的值。在機器學習中,下列都是異常值:高絕對值的權重。與實際值差距過大的預測值。比平均值多大約3個標準差的輸入數(shù)據(jù)的值。異常值往往使模型訓練中出現(xiàn)問題。輸出層(outputlayer)神經網絡的最后一層。這一層包含整個模型所尋求的答案。過擬合(overfitting)創(chuàng)建的模型與訓練數(shù)據(jù)非常匹配,以至于模型無法對新數(shù)據(jù)進行正確
36、的預測。Ppandas一種基于列的數(shù)據(jù)分析API。很多機器學習框架,包括TensorFlow,支持pandas數(shù)據(jù)結構作為輸入。參見pandas文檔。參數(shù)(parameter)機器學習系統(tǒng)自行訓練的模型的變量。例如,權重是參數(shù),它的值是機器學習系統(tǒng)通過連續(xù)的訓練迭代逐漸學習到的。可與超參數(shù)對照閱讀。參數(shù)服務器(ParameterServer/PS用于在分布式設置中跟蹤模型參數(shù)。參數(shù)更新(parameterupdate)在訓練過程中調整模型參數(shù)的操作,通常在梯度下降的單個迭代中進行偏導數(shù)(partialderivative)一個多變量函數(shù)的偏導數(shù)是它關于其中一個變量的導數(shù),而保持其他變量恒定。例
37、如,f(x,y)對于x的偏導數(shù)就是f(x)的導數(shù),y保持恒定。x的偏導數(shù)中只有x是變化的,公式中其他的變量都不用變化。分區(qū)策略(partitioningstrategy)在多個參數(shù)服務器中分割變量的算法性能(performance)具有多種含義:在軟件工程中的傳統(tǒng)含義:軟件運行速度有多快/高效?在機器學習中的含義:模型的準確率如何?即,模型的預測結果有多好?困惑度(perplexity)對模型完成任務的程度的一種度量指標。例如,假設你的任務是閱讀用戶在智能手機上輸入的單詞的頭幾個字母,并提供可能的完整單詞列表。該任務的困惑度(perplexity,P)是為了列出包含用戶實際想輸入單詞的列表你需
38、要進行的猜測數(shù)量。困惑度和交叉嫡的關系如下:流程(pipeline)機器學習算法的基礎架構。管道包括收集數(shù)據(jù)、將數(shù)據(jù)放入訓練數(shù)據(jù)文件中、訓練一或多個模型,以及最終輸出模型。正類(positiveclass)在二元分類中,有兩種類別:正類和負類。正類是我們測試的目標。(不過必須承認,我們同時測試兩種結果,但其中一種不是重點。)例如,醫(yī)療測試中正類可能是月中瘤,電子郵件分類器中的正類可能是垃圾郵件??膳c負類對照閱讀。精度(precision)分類模型的一種指標。準確率指模型預測正類時預測正確的頻率。即:預測(prediction)模型在輸入樣本后的輸出結果預測偏差(predictionbias)揭
39、示預測的平均值與數(shù)據(jù)集中標簽的平均值的差距。預制評估器(pre-madeEstimator)已經構建好的評估器。TensorFlow提供多個預制評估器,包括DNNClassfierDNNRegressor和LinearClassifie后你可以根據(jù)指導(/extend/estimators)構建自己的預制評估器。預訓練模型(pre-trainedmodel)已經訓練好的模型或模型組件(如嵌入)。有時,你將預訓練嵌入饋送至神經網絡。其他時候,你的模型自行訓練嵌入,而不是依賴于預訓練嵌入。先驗信念(priorbelief)訓練開始之前你對數(shù)據(jù)的信念
40、。例如,L2正則化依賴于權重值很小且正常分布在0周圍的信念。Q隊歹!J(queue)實現(xiàn)隊列數(shù)據(jù)結構的TensorFlow操作。通常在卒&入/輸出(I/O)中使用。R秩(rank)機器學習領域中包含多種含義的術語:張量中的維度數(shù)量。比如,標量有1個秩,向量有1個秩,矩陣有2個秩。(注:在這個詞匯表中,秩的概念和線性代數(shù)中秩的概念不一樣,例如三階可逆矩陣的秩為3。)機器學習問題中類別的序數(shù)位置,按從高到低的順序給類別分類。比如,行為排序系統(tǒng)可以把狗的獎勵按從高(牛排)到低(甘藍)排序。評分者(rater)為樣本提供標簽的人,有時也叫標注者。召回率(recall)分類模型的一個指標,可以回
41、答這個問題:模型能夠準確識別多少正標簽?即:修正線性單元(RectifiedLinearUnit/ReLlJ一種具備以下規(guī)則的激活函數(shù):如果輸入為負或零,則輸出為00如果輸入為正,則輸出與輸入相同?;貧w模型(regressionmodel)一種輸出持續(xù)值(通常是浮點數(shù))的模型。而分類模型輸出的是離散值,如daylily或tigerlily。正貝堆(regularization)對模型復雜度的懲罰。正則化幫助防止過擬合。正則化包括不同種類:L1正則化L2正則化dropout正則化earlystopping(這不是正式的正則化方法,但可以高效限制過擬合)正貝U化率(regularizationra
42、te)一種標量級,用lambda來表示,指正則函數(shù)的相對重要性。從下面這個簡化的損失公式可以看出正則化率的作用:minimize(lossfunction+入(regularizationfunction)提高正則化率能夠降低過擬合,但可能會使模型準確率降低。表征將數(shù)據(jù)映射到有用特征的過程。受試者工作特征曲線(receiveroperatingcharacteristic/ROCCurve反映在不同的分類閾值上,真正類率和假正類率的比值的曲線。參見AUG根目錄(rootdirectory)指定放置TensorFlow檢查點文件子目錄和多個模型的事件文件的目錄。均方根誤差(RootMeanSqu
43、aredError/RMSE均方誤差的平方根。Saver負責存儲模型檢查點文件的TensorFlow對象縮放(scalincj)特征工程中常用的操作,用于控制特征值區(qū)間,使之與數(shù)據(jù)集中其他特征的區(qū)間匹配。例如,假設你想使數(shù)據(jù)集中所有的浮點特征的區(qū)間為0到1。給定一個特征區(qū)間是0到500,那么你可以通過將每個值除以500,縮放特征值區(qū)間。還可參見正則化。scikit-learn一種流行的開源機器學習平臺。網址:序歹U模型(sequencemodel)輸入具有序列依賴性的模型。例如,根據(jù)之前觀看過的視頻序列對下一個視頻進行預測。會話(session)保持Te
44、nsorFlow程序的狀態(tài)(如變量)Sigmoid函數(shù)(sigmoidfunction)把logistic或多項式回歸輸出(對數(shù)幾率)映射到概率的函數(shù),返回的值在0到1之間。sigmoid函數(shù)的公式如下:其中o在logistic回歸問題中只是簡單的:在有些神經網絡中,sigmoid函數(shù)和激活函數(shù)一樣。softmax為多類別分類模型中每個可能的類提供概率的函數(shù)。概率加起來的總和是1.0例如,softmax可能檢測到某個圖像是一只狗的概率為0.9,是一只貓的概率為0.08,是一匹馬的概率為0.02。(也叫作fullsoftmax)。稀疏特征(sparsefeature)值主要為0或空的特征向量。比
45、如,一個向量的值有1個1,、一百萬個0,則該向量為稀疏向量。再比如,搜索查詢中的單詞也是稀疏向量:在一種語言中有很多可以用的單詞,但給定的查詢中只用了其中的一些??膳c稠密特征對照閱讀。平方損失(squaredlos§線性回歸中使用的損失函數(shù)(也叫作L2Loss。該函數(shù)計算模型對標注樣本的預測值和標簽真正值之間差的平方。在平方之后,該損失函數(shù)擴大了不良預測的影響。即,平方損失比L1Loss對異常值(outlier)的反應更加強烈。靜態(tài)模型(staticmodel)離線訓練的模型。穩(wěn)態(tài)(stationarity)數(shù)據(jù)集中的一種數(shù)據(jù)屬性,數(shù)據(jù)分布在一或多個維度中保持不變。通常情況下,維度是
46、時間,意味著具備平穩(wěn)性的數(shù)據(jù)不會隨著時間發(fā)生變化。比如,具備平穩(wěn)性的數(shù)據(jù)從9月到12月不會改變。步(step)一個批量中的前向和后向評估。步長(stepsize)學習速率(learningrate)乘以偏導數(shù)的值,即梯度下降中的步長。隨機梯度下降(stochasticgradientdescent/SGD批量大小為1的梯度下降算法。也就是說,SGD依賴于從數(shù)據(jù)集中隨機均勻選擇出的一個樣本,以評估每一步的梯度。結構風險最小化(structuralriskminimization/SRM)這種算法平衡兩個目標:構建預測性最強的模型(如最低損失)。使模型盡量保持簡單(如強正則化)。比如,在訓練集上的
47、損失最小化+正則化的模型函數(shù)就是結構風險最小化算法。更多信息,參見/srm/??膳c經驗風險最小化對照閱讀。摘要(summary)在TensorFlow中,特定步計算的值或值的集合,通常用于跟蹤訓練過程中的模型指標。監(jiān)督式機器學習(supervisedmachinelearning利用輸入數(shù)據(jù)及其對應標簽來訓練模型。監(jiān)督式機器學習類似學生通過研究問題和對應答案進行學習。在掌握問題和答案之間的映射之后,學生就可以提供同樣主題的新問題的答案了。可與非監(jiān)督機器學習對照閱讀。合成特征(syntheticfeature)不在輸入特征中,而是從一個或多個輸入特征中派生出的特征。合成特征的類型包括:特征與自己或其他特征相乘(叫作特征交叉)。兩個特征相除。將連續(xù)的特征放進rangebin中。由歸一化或縮放單獨創(chuàng)建的特征不是合成特征。T張量(tensor)TensorFlow項目的主要數(shù)據(jù)結構。張量是N維數(shù)據(jù)結構(N的值很大),經常是標量、向量或矩陣。張量可以包括整數(shù)、浮點或字符串值。張量處理單元(TensorProcessingUnitTPU優(yōu)化TensorFlow性能的ASIC(ap
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智慧社區(qū)建設承諾協(xié)議書合同3篇
- 2025年度冷鏈儲藏設施建設合同3篇
- 二零二五年度醫(yī)療健康產業(yè)模塊八交易磋商及合同訂立指南4篇
- 二零二五年度電商虛擬現(xiàn)實技術應用合同8篇
- 二零二五年度促銷員健康管理與保障合同3篇
- 2025年度個人果園品牌建設與市場推廣承包協(xié)議4篇
- 供應鏈智能決策支持-深度研究
- 2025年度智能大門改造工程全面升級施工合同4篇
- 地下空間利用研究-深度研究
- 代碼克隆檢測技術-深度研究
- 不同茶葉的沖泡方法
- 光伏發(fā)電并網申辦具體流程
- 建筑勞務專業(yè)分包合同范本(2025年)
- 企業(yè)融資報告特斯拉成功案例分享
- 五年(2020-2024)高考地理真題分類匯編(全國版)專題12區(qū)域發(fā)展解析版
- 《阻燃材料與技術》課件 第8講 阻燃木質材料
- 低空經濟的社會接受度與倫理問題分析
- GB/T 4732.1-2024壓力容器分析設計第1部分:通用要求
- 6第六章 社會契約論.電子教案教學課件
- 運動技能學習與控制課件
- 六編元代文學
評論
0/150
提交評論