《機(jī)器學(xué)習(xí)項(xiàng)目案例開發(fā)》課件全套 張明 1.1人工智能概述-26.推系統(tǒng)_第1頁
《機(jī)器學(xué)習(xí)項(xiàng)目案例開發(fā)》課件全套 張明 1.1人工智能概述-26.推系統(tǒng)_第2頁
《機(jī)器學(xué)習(xí)項(xiàng)目案例開發(fā)》課件全套 張明 1.1人工智能概述-26.推系統(tǒng)_第3頁
《機(jī)器學(xué)習(xí)項(xiàng)目案例開發(fā)》課件全套 張明 1.1人工智能概述-26.推系統(tǒng)_第4頁
《機(jī)器學(xué)習(xí)項(xiàng)目案例開發(fā)》課件全套 張明 1.1人工智能概述-26.推系統(tǒng)_第5頁
已閱讀5頁,還剩273頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能技術(shù)與應(yīng)用1.1概述課程概況—基本情況PART01概述人工智能概述開發(fā)流程機(jī)器學(xué)習(xí)人工智能概述人工智能概述機(jī)器學(xué)習(xí)和人工智能,深度學(xué)習(xí)的關(guān)系:機(jī)器學(xué)習(xí)是人工智能的一個(gè)實(shí)現(xiàn)途徑深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)方法發(fā)展而來1956年達(dá)特茅斯會(huì)議-人工智能的起點(diǎn)機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí):用在挖掘、預(yù)測(cè)領(lǐng)域:應(yīng)用場(chǎng)景:店鋪銷量預(yù)測(cè)、量化投資、廣告推薦、企業(yè)客戶分類用在圖像領(lǐng)域:應(yīng)用場(chǎng)景:街道交通標(biāo)志檢測(cè)、人臉識(shí)別等等用在自然語言處理領(lǐng)域:應(yīng)用場(chǎng)景:文本分類、情感分析、自動(dòng)聊天、文本檢測(cè)等等機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí):監(jiān)督學(xué)習(xí)定義:輸入數(shù)據(jù)是由輸入特征值和目標(biāo)值所組成。函數(shù)的輸出可以是一個(gè)連續(xù)的值(稱為回歸),或是輸出是有限個(gè)離散值(稱作分類)。分類k-近鄰算法、貝葉斯分類、決策樹與隨機(jī)森林、邏輯回歸、神經(jīng)網(wǎng)絡(luò)回歸線性回歸、嶺回歸機(jī)器學(xué)習(xí):無監(jiān)督學(xué)習(xí)定義:輸入數(shù)據(jù)是由輸入特征值所組成。聚類k-means開發(fā)流程開發(fā)流程:數(shù)據(jù)集特征工程特征抽取特征預(yù)處理特征降維特征選擇建模訓(xùn)練模型應(yīng)用模型敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用1.2使用簡(jiǎn)單線性回歸預(yù)測(cè)廣告投入的收入-數(shù)據(jù)分析課程概況—基本情況PART01數(shù)據(jù)分析項(xiàng)目概述開發(fā)流程機(jī)器學(xué)習(xí)人工智能概述項(xiàng)目背景:公司統(tǒng)計(jì)了近期公司在微信、微博、電視和其他廣告媒體上的投入,現(xiàn)在需要預(yù)測(cè)在廣告媒體上投入多少資金,公司能獲得多大的收益。數(shù)據(jù)集:

特征:wechat、weibo、others標(biāo)簽:sales處理流程-加載數(shù)據(jù)加載數(shù)據(jù):Pandasread_csv函數(shù):打開CSV文件,返回一個(gè)data.frame對(duì)象使用head()、info()、describe()函數(shù)查看數(shù)據(jù):

處理流程-相關(guān)性分析數(shù)據(jù)相關(guān)性分析:corr()函數(shù):檢查兩個(gè)變量之間變化趨勢(shì)的方向以及程度,值范圍-1到+1,0表示兩個(gè)變量不相關(guān),正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),值越大相關(guān)性越??梢允褂脽崃Dheatmap來顯示相關(guān)系數(shù)

處理流程-相關(guān)性分析數(shù)據(jù)相關(guān)性分析:使用seaborn繪制pairplot圖,也可以分析出單個(gè)特征和標(biāo)簽之間的一種關(guān)系。例如“wechat”微信的投入基本和收益呈現(xiàn)一種線性關(guān)系。處理流程-選取數(shù)據(jù)選取數(shù)據(jù):通過對(duì)數(shù)據(jù)現(xiàn)相關(guān)性的分析,我們夠可以從數(shù)據(jù)集中取出“wechat”微型的數(shù)據(jù)作為X,“sales”作為y建立一個(gè)線性模型并訓(xùn)練模型。

處理流程-選取數(shù)據(jù)選取數(shù)據(jù):張量-tensor是現(xiàn)代機(jī)器學(xué)習(xí)的基礎(chǔ)。它的核心是一個(gè)數(shù)據(jù)容器,多數(shù)情況下,它包含數(shù)字,有時(shí)候它也包含字符串,但這種情況比較少。因此把它想象成一個(gè)數(shù)字的水桶。0維度張量--標(biāo)量--一個(gè)數(shù)字1維度張量—向量—1維數(shù)組—1個(gè)人單列或者單行的數(shù)據(jù)2維度張量—矩陣—2維數(shù)組—由行和列構(gòu)成的數(shù)據(jù)3維度張量—三個(gè)軸(axis)—3階(Rank)—秩為3的數(shù)組*張量的維度為軸,軸的個(gè)數(shù)為階,numpy中也叫秩處理流程-選取數(shù)據(jù)選取數(shù)據(jù):張量-tensor750x7502維度張量黑白照片(750,750)750x7503維度張量彩色照片(750,750,3)750x7504維度張量15秒(4500幀視頻)(4500,750,750,3)處理流程-線性回歸線性回歸模型:簡(jiǎn)單線性回歸也稱為一元線性回歸,也就是回歸模型中只含一個(gè)自變量,否則稱為多重線性回歸。簡(jiǎn)單線性回歸模型為:y=a*x+b有時(shí)候也可這樣表述y=weight*x+bias,其中weight-權(quán)重,bias-偏置值。我們需要根據(jù)給定的y-企業(yè)的收入和x-企業(yè)的廣告收入,去預(yù)測(cè)w和b,最終得到一個(gè)一元線性方程,通過這個(gè)方程,可以預(yù)測(cè)出企業(yè)投入的廣告資金大概可以獲得多大的收益,

處理流程-選取數(shù)據(jù)選取數(shù)據(jù):通過對(duì)數(shù)據(jù)現(xiàn)相關(guān)性的分析,我們夠可以從數(shù)據(jù)集中取出“wechat”微型的數(shù)據(jù)作為X,“sales”作為y建立一個(gè)線性模型并訓(xùn)練模型。使用narray轉(zhuǎn)為張量

處理流程-拆分?jǐn)?shù)據(jù)集數(shù)據(jù)集:訓(xùn)練集-----------學(xué)生的課本;學(xué)生根據(jù)課本里的內(nèi)容來掌握知識(shí)。驗(yàn)證集------------作業(yè),通過作業(yè)可以知道不同學(xué)生學(xué)習(xí)情況、進(jìn)步的速度快慢。測(cè)試集-----------考試,考的題是平常都沒有見過,考察學(xué)生舉一反三的能力處理流程-數(shù)據(jù)歸一化數(shù)據(jù)歸一化:在機(jī)器學(xué)習(xí)中,為何要經(jīng)常對(duì)數(shù)據(jù)做歸一化,歸一化后加快了梯度下降求最優(yōu)解的速度。歸一化有可能提高精度。我們?cè)谶@里使用線性歸一化。

處理流程-數(shù)據(jù)歸一化數(shù)據(jù)歸一化:min-max標(biāo)準(zhǔn)化(Min-MaxNormalization)歸一化也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0-1]之間。轉(zhuǎn)換函數(shù)如下:處理流程-數(shù)據(jù)歸一化數(shù)據(jù)歸一化:min-max標(biāo)準(zhǔn)化(Min-MaxNormalization)歸一化也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0-1]之間。轉(zhuǎn)換函數(shù)如下:敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用2.使用多元線性回歸預(yù)測(cè)廣告投入的收入課程概況—基本情況PART01多元線性模型項(xiàng)目概述歸一化和反歸一化多元線性模型模型的準(zhǔn)確率損失函數(shù)項(xiàng)目概述項(xiàng)目背景:

公司統(tǒng)計(jì)了近期公司在微信、微博、電視和其他廣告媒體上的投入,現(xiàn)在需要預(yù)測(cè)在廣告媒體上投入多少資金,公司能獲得多大的收益。在項(xiàng)目一種我們使用微型的投入預(yù)測(cè)公司的預(yù)期收入,但是公司在微博和其他媒體中也投入資金,現(xiàn)在需要預(yù)測(cè)在所有這個(gè)媒體上投入資金的收益就需要使用多元線性回歸模型。數(shù)據(jù)集:

特征:wechat、weibo、others標(biāo)簽:sales多元線性模型

歸一化歸一化和反歸一化:歸一化:在機(jī)器學(xué)習(xí)中,為何要經(jīng)常對(duì)數(shù)據(jù)做歸一化,歸一化后加快了梯度下降求最優(yōu)解的速度,歸一化有可能提高精度。我們?cè)谶@里使用線性歸一化。反歸一化:反歸一化函數(shù)用于數(shù)據(jù)的復(fù)原,保存y_min,y_max,y_gap,計(jì)算訓(xùn)練集最大,最小值以及他們的差,用于后面反歸一化過程,同時(shí)保留一份原始的數(shù)據(jù)。多元線性方程

梯度下降

梯度下降

梯度下降

準(zhǔn)確率準(zhǔn)確率:Acc:先計(jì)算預(yù)測(cè)值y_pred和實(shí)際值y的差值,并使用np.abs()求絕對(duì)值,然后使用np.mean()求全部距離的平均值,這是值是y_pred和實(shí)際值y的”距離”,我們可以通過“距離”的遠(yuǎn)近作為模型的準(zhǔn)確率。敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用項(xiàng)目3:使用scikit-learn預(yù)測(cè)廣告收入課程概況—基本情況PART01多元線性模型項(xiàng)目概述歸一化、標(biāo)準(zhǔn)化和中心化Scikit-learn簡(jiǎn)介模型的準(zhǔn)確率sklearnLinearRegression模型

項(xiàng)目概述項(xiàng)目背景:

公司統(tǒng)計(jì)了近期公司在微信、微博、電視和其他廣告媒體上的投入,現(xiàn)在需要預(yù)測(cè)在廣告媒體上投入多少資金,公司能獲得多大的收益。在項(xiàng)目一種我們使用微型的投入預(yù)測(cè)公司的預(yù)期收入,但是公司在微博和其他媒體中也投入資金,現(xiàn)在需要預(yù)測(cè)在所有這個(gè)媒體上投入資金的收益就需要使用多元線性回歸模型。數(shù)據(jù)集:

特征:wechat、weibo、others標(biāo)簽:sales多元線性模型scikit-learn:多元線性回歸,也就是回歸模型中包含多個(gè)自變量。多元線性回歸Scikit-learn(以前稱為scikits.learn,也稱為sklearn)是針對(duì)Python編程語言的免費(fèi)軟件機(jī)器學(xué)習(xí)庫,是一個(gè)Python的機(jī)器學(xué)習(xí)項(xiàng)目,是一個(gè)簡(jiǎn)單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具?;贜umPy、SciPy和matplotlib構(gòu)建它具有各種分類,回歸和聚類、降維、模型選擇、預(yù)處理六大功能。歸一化Seaborn-distplot:SeabornSeaborn是一種基于matplotlib的圖形可視化pythonlibraty。它提供了一種高度交互式界面,便于用戶能夠做出各種有吸引力的統(tǒng)計(jì)圖表。distplot:seaborn中的distplot主要功能是繪制單變量的直方圖,且還可以在直方圖的基礎(chǔ)上施加kdeplot和rugplot的部分內(nèi)容(直方圖+核密度估計(jì))。歸一化Seaborn-KDE-直方圖:質(zhì)量分布圖-histogram是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。語法

sns.distplot(x,kde=False,rug=True)#利用bins可以方便設(shè)置矩形條的數(shù)量#kde=False關(guān)閉核密度分布,rug表示在x軸上每個(gè)觀測(cè)上生成的小細(xì)條(邊際毛毯)歸一化Seaborn-KDE-直方圖:密度圖核密度估計(jì)是在概率論中用來估計(jì)未知的密度函數(shù),屬于非參數(shù)檢驗(yàn)方法之一。是一種從數(shù)據(jù)樣本本身出發(fā)研究數(shù)據(jù)分布特征的方法。核密度圖意義

可以看作是概率密度圖,其縱軸可以粗略看做是數(shù)據(jù)出現(xiàn)的次數(shù),與橫軸圍成的面積是1.格式sns.distplot(x,hist=False,rug=True);#關(guān)閉直方圖,開啟rug細(xì)條歸一化Seaborn-pairolot-兩兩關(guān)系圖:pairolotpairplot中pair是成對(duì)的意思,pairplot主要展現(xiàn)的是變量?jī)蓛芍g的關(guān)系(線性或非線性,有無較為明顯的相關(guān)關(guān)系核密度圖意義格式sns.pairplot(data[['wechat','weibo','others']])sns.pairplot(data,x_vars=['wechat','weibo','others'],

y_vars='sales',height=4,aspect=1,kind='scatter')多元線性方程多元線性方程的loss_function:敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用項(xiàng)目4:使用scikit-learn實(shí)現(xiàn)多項(xiàng)式回歸課程概況—基本情況PART01多項(xiàng)式回歸多項(xiàng)式概述管道用法特征增擴(kuò)多項(xiàng)式概述項(xiàng)目背景:前面我們使用簡(jiǎn)單線性回歸和多元線性回歸來擬合廣告收入的例子,但是在實(shí)際生活中,很多數(shù)據(jù)之間是非線性關(guān)系,雖然也可以用線性回歸擬合非線性回歸,但是效果將會(huì)很差,這時(shí)候就需要對(duì)線性回歸模型進(jìn)行改進(jìn),使之能夠擬合非線性數(shù)據(jù)。

右圖數(shù)據(jù)呈現(xiàn)非線性關(guān)系,需要多項(xiàng)式回歸模型。多項(xiàng)式回歸是在線性回歸基礎(chǔ)上進(jìn)行改進(jìn),相當(dāng)于為樣本再添加特征項(xiàng)。如右圖所示,為樣本添加一個(gè)x^2的特征項(xiàng),可以較好地?cái)M合非線性的數(shù)據(jù)。多項(xiàng)式回歸:一個(gè)因變量與一個(gè)或多個(gè)自變量間多項(xiàng)式的回歸分析方法,稱為多項(xiàng)式回歸,如果自變量只有一個(gè)時(shí),稱為一元多項(xiàng)式回歸,如果有多個(gè)自變量時(shí)稱為多元多項(xiàng)式回歸。由于任何函數(shù)都可以使用多項(xiàng)式逼近,因此多項(xiàng)式回歸有著廣泛的應(yīng)用。

多項(xiàng)式概述特征增擴(kuò)

pipeline:Python中的pipeline和linux中的pipeline類似,把若干個(gè)命令連接起來,前一個(gè)命令的輸出是后一個(gè)命令的輸入,最終完成一個(gè)類似于流水線的功能。函數(shù):sklearn.pipeline.Pipeline(steps)參數(shù):steps:一個(gè)列表,列表的元素為(name,transform)元組,其中name是學(xué)習(xí)器的名字,用于輸出和日志;transform是學(xué)習(xí)器,Pipeline管道敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用6.1機(jī)器學(xué)習(xí)分類課程概況—基本情況PART01機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)算法一覽表機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):例如用戶點(diǎn)擊、預(yù)測(cè)購買、房?jī)r(jià)預(yù)測(cè)無監(jiān)督學(xué)習(xí):郵件分類、新聞聚類強(qiáng)化學(xué)習(xí):如動(dòng)態(tài)系統(tǒng)及機(jī)器人控制機(jī)器學(xué)習(xí)分類有監(jiān)督學(xué)習(xí)-訓(xùn)練、學(xué)習(xí)身高頭發(fā)長(zhǎng)度是否抽煙性別1.881.4cm是男1.6622.6cm否女機(jī)器學(xué)習(xí)分類有監(jiān)督學(xué)習(xí)-預(yù)測(cè)身高頭發(fā)長(zhǎng)度是否抽煙性別1.803.4cm是?1.6425.6cm否?機(jī)器學(xué)習(xí)分類無監(jiān)督學(xué)習(xí)-訓(xùn)練、學(xué)習(xí)領(lǐng)子衣袖材質(zhì)顏色V領(lǐng)長(zhǎng)袖纖維紅色V領(lǐng)短袖棉麻白色圓領(lǐng)短袖材質(zhì)黑色圓領(lǐng)長(zhǎng)袖纖維紅色立領(lǐng)長(zhǎng)袖棉麻白色機(jī)器學(xué)習(xí)分類無監(jiān)督學(xué)習(xí)-預(yù)測(cè)領(lǐng)子衣袖材質(zhì)顏色V領(lǐng)長(zhǎng)袖纖維紅色V領(lǐng)短袖棉麻白色圓領(lǐng)短袖材質(zhì)黑色圓領(lǐng)長(zhǎng)袖纖維紅色立領(lǐng)長(zhǎng)袖棉麻白色聚類類別聚類1

聚類2

聚類3聚類4聚類5機(jī)器學(xué)習(xí)分類無監(jiān)督學(xué)習(xí)春裝夏裝冬裝機(jī)器學(xué)習(xí)分類增強(qiáng)式學(xué)習(xí)行為認(rèn)知啟發(fā)下的機(jī)器學(xué)習(xí)分支Agent感知環(huán)境,做出動(dòng)作,根據(jù)獎(jiǎng)懲狀態(tài)/feedback做出調(diào)整和選擇機(jī)器學(xué)習(xí)分類算法一覽表:MachineLearningAlgorithms(機(jī)器學(xué)習(xí)算法)ContinuousCategoricalUnsupervisedSupervisedClusteriingDimensionalityReductionSVDPCAK-meansRegressionLinear

PolynomialDecisionTreeRandomForestsAssociationAnalysis

AprioriFP-GrowthHiddenMarkowModelClassificationKNNTreeLogisticsReGression

Na?ve-Bayes

SVM機(jī)器學(xué)習(xí)分類算法一覽表:敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用6.2邏輯回歸-判定邊界課程概況—基本情況PART01機(jī)器學(xué)習(xí)-邏輯回歸什么是邏輯回歸機(jī)器學(xué)習(xí)算法一覽表機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)-Classification線性回歸:預(yù)測(cè)是一個(gè)連續(xù)的值,房?jī)r(jià)、收入邏輯回歸:預(yù)測(cè)是一個(gè)離散值,郵件分類、新聞聚類解決分類問題:我們討論的垃圾郵件分類實(shí)際上就是一個(gè)分類問題。類似的例子還有很多,例如一個(gè)在線交易網(wǎng)站判斷一次交易是否帶有欺詐性。再如,判斷一個(gè)腫瘤是良性的還是惡性的,也是一個(gè)分類問題。在以上的這些例子中,預(yù)測(cè)的是一個(gè)二值的變量,或者為0,或者為1;或者是一封垃圾郵件,或者不是;或者是帶有欺詐性的交易,或者不是;或者是一個(gè)惡性腫瘤,或者不是。機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)-Classification可以將因變量(dependantvariable)可能屬于的兩個(gè)類分別稱為負(fù)向類(negativeclass)和正向類(positiveclass)。可以使用0來代表負(fù)向類,1來代表正向類。分類問題僅僅局限在兩類上:0或者1。之后我們會(huì)討論多分類問題,也就是說,變量y可以取多個(gè)值,例如0,1,2,3。(Yes)1(No)0惡性?腫瘤大小機(jī)器學(xué)習(xí)分類Classification-根據(jù)腫瘤大小判定良性惡性訓(xùn)練集如上圖所示,橫軸代表腫瘤大小,縱軸表示腫瘤的良性與否,注意,縱軸只有兩個(gè)取值,1(代表惡性腫瘤)和0(代表良性腫瘤)。分類問題僅僅局限在兩類上:良性-0的和惡性的-1(Yes)1(No)0惡性?腫瘤大小機(jī)器學(xué)習(xí)分類Classification-根據(jù)腫瘤大小判定良性惡性線性回歸來處理,實(shí)際上就是用一條直線去擬合這些數(shù)據(jù)??梢韵仁褂镁€性回歸去擬合,然后設(shè)定一個(gè)閥,0.5,小于閥值的是0-不是惡性腫瘤,大于閥值是1-是惡性腫瘤。用公式表示如下圖所示:(Yes)1(No)0惡性?腫瘤大小

機(jī)器學(xué)習(xí)分類xxxxxxxxxxx惡性腫瘤?腫瘤大小(Yes)1(No)0閥值

Classification-根據(jù)腫瘤大小判定良性惡性上面的例子似乎很好解決了惡性腫瘤的預(yù)測(cè)問題,但是這種模型有一個(gè)最大問題是對(duì)噪聲很敏感(魯棒性不夠),如果增加兩個(gè)訓(xùn)練樣本,按照線性回歸+閥值的思路,使用線性回歸會(huì)得到一條直線,然后設(shè)置閥值為0.5,如下圖所示:這時(shí)會(huì)產(chǎn)生兩個(gè)誤判點(diǎn),這是如果再使用0.5來做閥值來預(yù)測(cè)是否是惡性腫瘤就不合適了。機(jī)器學(xué)習(xí)分類xxxxxxxxxxx癌癥?腫瘤大小(Yes)1(No)0x閥值誤判點(diǎn)Classification-根據(jù)腫瘤大小判定良性惡性這時(shí)會(huì)產(chǎn)生兩個(gè)誤判點(diǎn),這是如果再使用0.5來做閥值來預(yù)測(cè)是否是惡性腫瘤就不合適了。機(jī)器學(xué)習(xí)分類xxxxxxxxxxx癌癥?腫瘤大小(Yes)1(No)0x閥值誤判點(diǎn)Classification-根據(jù)腫瘤大小判定良性惡性這時(shí)會(huì)產(chǎn)生兩個(gè)誤判點(diǎn),這是如果再使用0.5來做閥值來預(yù)測(cè)是否是惡性腫瘤就不合適了。機(jī)器學(xué)習(xí)分類Sigmoid函數(shù)這里使用sigmoid函數(shù)將將一個(gè)(?∞,+∞)之內(nèi)的實(shí)數(shù)值變換到區(qū)間0-1之間,單調(diào)增,定義域是(?∞,+∞),值域是(0,1)函數(shù)如下所示:機(jī)器學(xué)習(xí)分類xxxxxxxxxxx

機(jī)器學(xué)習(xí)分類xxxxxxxxxxx

xxxxxxxxx

機(jī)器學(xué)習(xí)分類判定邊界通過上面的例子可以看出,邏輯回歸就是去尋找判定邊界,如果給高維的多項(xiàng)式,可以得到很負(fù)責(zé)的判定邊界,下圖所示:敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用6.2邏輯回歸-判定邊界課程概況—基本情況PART01機(jī)器學(xué)習(xí)-邏輯回歸什么是邏輯回歸機(jī)器學(xué)習(xí)算法一覽表機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)-Classification線性回歸:預(yù)測(cè)是一個(gè)連續(xù)的值,房?jī)r(jià)、收入邏輯回歸:預(yù)測(cè)是一個(gè)離散值,郵件分類、新聞聚類解決分類問題:我們討論的垃圾郵件分類實(shí)際上就是一個(gè)分類問題。類似的例子還有很多,例如一個(gè)在線交易網(wǎng)站判斷一次交易是否帶有欺詐性。再如,判斷一個(gè)腫瘤是良性的還是惡性的,也是一個(gè)分類問題。在以上的這些例子中,預(yù)測(cè)的是一個(gè)二值的變量,或者為0,或者為1;或者是一封垃圾郵件,或者不是;或者是帶有欺詐性的交易,或者不是;或者是一個(gè)惡性腫瘤,或者不是。機(jī)器學(xué)習(xí)分類機(jī)器學(xué)習(xí)-Classification可以將因變量(dependantvariable)可能屬于的兩個(gè)類分別稱為負(fù)向類(negativeclass)和正向類(positiveclass)。可以使用0來代表負(fù)向類,1來代表正向類。分類問題僅僅局限在兩類上:0或者1。之后我們會(huì)討論多分類問題,也就是說,變量y可以取多個(gè)值,例如0,1,2,3。(Yes)1(No)0惡性?腫瘤大小機(jī)器學(xué)習(xí)分類Classification-根據(jù)腫瘤大小判定良性惡性訓(xùn)練集如上圖所示,橫軸代表腫瘤大小,縱軸表示腫瘤的良性與否,注意,縱軸只有兩個(gè)取值,1(代表惡性腫瘤)和0(代表良性腫瘤)。分類問題僅僅局限在兩類上:良性-0的和惡性的-1(Yes)1(No)0惡性?腫瘤大小機(jī)器學(xué)習(xí)分類Classification-根據(jù)腫瘤大小判定良性惡性線性回歸來處理,實(shí)際上就是用一條直線去擬合這些數(shù)據(jù)??梢韵仁褂镁€性回歸去擬合,然后設(shè)定一個(gè)閥,0.5,小于閥值的是0-不是惡性腫瘤,大于閥值是1-是惡性腫瘤。用公式表示如下圖所示:(Yes)1(No)0惡性?腫瘤大小

機(jī)器學(xué)習(xí)分類xxxxxxxxxxx惡性腫瘤?腫瘤大小(Yes)1(No)0閥值

Classification-根據(jù)腫瘤大小判定良性惡性上面的例子似乎很好解決了惡性腫瘤的預(yù)測(cè)問題,但是這種模型有一個(gè)最大問題是對(duì)噪聲很敏感(魯棒性不夠),如果增加兩個(gè)訓(xùn)練樣本,按照線性回歸+閥值的思路,使用線性回歸會(huì)得到一條直線,然后設(shè)置閥值為0.5,如下圖所示:這時(shí)會(huì)產(chǎn)生兩個(gè)誤判點(diǎn),這是如果再使用0.5來做閥值來預(yù)測(cè)是否是惡性腫瘤就不合適了。機(jī)器學(xué)習(xí)分類xxxxxxxxxxx癌癥?腫瘤大小(Yes)1(No)0x閥值誤判點(diǎn)Classification-根據(jù)腫瘤大小判定良性惡性這時(shí)會(huì)產(chǎn)生兩個(gè)誤判點(diǎn),這是如果再使用0.5來做閥值來預(yù)測(cè)是否是惡性腫瘤就不合適了。機(jī)器學(xué)習(xí)分類Sigmoid函數(shù)這里使用sigmoid函數(shù)將將一個(gè)(?∞,+∞)之內(nèi)的實(shí)數(shù)值變換到區(qū)間0-1之間,單調(diào)增,定義域是(?∞,+∞),值域是(0,1)函數(shù)如下所示:機(jī)器學(xué)習(xí)分類xxxxxxxxxxx

機(jī)器學(xué)習(xí)分類xxxxxxxxxxx

xxxxxxxxx

機(jī)器學(xué)習(xí)分類判定邊界通過上面的例子可以看出,邏輯回歸就是去尋找判定邊界,如果給高維的多項(xiàng)式,可以得到很負(fù)責(zé)的判定邊界,下圖所示:敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用8.K-MEANS聚類課程概況—基本情況PART01聚類算法什么是聚類KMEANS算法KMEANS流程KMEANS優(yōu)缺點(diǎn)聚類的概念聚類的概念:聚類(

clustering):

是一種典型的“無監(jiān)督學(xué)習(xí)”,是把物理對(duì)象或抽象對(duì)象的集合分組為由彼此類似的對(duì)象組成的多個(gè)類的分析過程。聚類的應(yīng)用:

客戶分類、模式識(shí)別、數(shù)據(jù)預(yù)處理、圖像分割聚類的概念聚類的概念:有監(jiān)督和無監(jiān)督學(xué)習(xí):有監(jiān)督問題:數(shù)據(jù)有l(wèi)abel無監(jiān)督問題數(shù)據(jù)沒有l(wèi)abel聚類:相似的東西分到一組難點(diǎn):如何評(píng)估,如何調(diào)參K-MEANS算法

KMEANS工作流程KMEANS工作流程:https:///p/37503452/blog/visualizing-k-means-clustering/KMEANS工作流程KMEANS工作流程:原始數(shù)據(jù)

(a)

(c)

(b)

(d)

指定K的值K=3計(jì)算每個(gè)質(zhì)心到點(diǎn)的距離劃分點(diǎn)到簇按照簇重新計(jì)算質(zhì)心計(jì)算每個(gè)點(diǎn)到質(zhì)心得距離重新劃分簇重復(fù)計(jì)算質(zhì)心更新簇https:///p/37503452/blog/visualizing-k-means-clustering/K-MEANS優(yōu)缺點(diǎn)K-MEANS優(yōu)缺點(diǎn)優(yōu)勢(shì):簡(jiǎn)單,快速,適合常規(guī)數(shù)據(jù)集缺點(diǎn):K值很難確定,如果數(shù)據(jù)復(fù)雜很難確定,一般需要設(shè)置多個(gè)進(jìn)行測(cè)試復(fù)雜度與樣本呈線性關(guān)系:

每次更新質(zhì)心需要和每個(gè)樣本點(diǎn)進(jìn)行計(jì)算很難發(fā)現(xiàn)一個(gè)任意形狀的簇:

任意和形狀不規(guī)則時(shí)敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用8.DBSCAN聚類課程概況—基本情況PART01聚類算法DBSCAN算法概述DBSCAN參數(shù)DBSCAN流程DBSCAN優(yōu)缺點(diǎn)DBSCAN概念DBSCAN聚類算法:Kmenas聚類缺點(diǎn):

①K值難確定;②受初始值影響較大;③復(fù)雜度與樣本規(guī)模呈線性關(guān)系;④很難發(fā)現(xiàn)任意形狀的簇。聚類的應(yīng)用:DBSCAN算法是密度聚類算法,所謂密度聚類算法就是說這個(gè)算法是,根據(jù)樣本的緊密程度來進(jìn)行聚類DBSCAN算法基本概念:r鄰域:給定對(duì)象半徑為r內(nèi)的區(qū)域稱為該對(duì)象的r鄰域。如圖,P對(duì)象在半徑r內(nèi)構(gòu)成的圓就是該對(duì)象的r鄰域,如圖1。核心對(duì)象:如果給定對(duì)象r鄰域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPoints,則稱該對(duì)象為核心對(duì)象;如圖2:設(shè)置MinPoints的點(diǎn)為2,那么在對(duì)象p的e領(lǐng)域內(nèi)有4個(gè)點(diǎn),大于MinPoints,那么p對(duì)象就是核心對(duì)象。ε-鄰域的距離閾值:設(shè)定的半徑r直接密度可達(dá):如果樣本點(diǎn)q在p的r鄰域內(nèi),并且p為核心對(duì)象,那么對(duì)象p-q直接密度可達(dá),如圖3。rrrDBSCAN概念DBSCAN算法基本概念:密度可達(dá):若有一個(gè)點(diǎn)的序列q0、q1、…qk,對(duì)任意qi-qi-1是直接密度可達(dá)的,則稱從q0到qk密度可達(dá),這實(shí)際上是直接密度可達(dá)的“傳播”,如圖1,q-p密度直達(dá),m-q密度直達(dá),那么m-p密度可達(dá)。密度相連:若從某核心點(diǎn)p出發(fā),點(diǎn)q和點(diǎn)k都是密度可達(dá)的,則稱點(diǎn)q和點(diǎn)k是密度相連的,如圖2:q-o是密度可達(dá),p-o是密度可達(dá),q-p是密度相連。在DBSCAN中那些樣本可以看成一個(gè)類(也稱簇)。即最大的密度相連的樣本集合。DBSCAN概念密度可達(dá)與密度直達(dá):圖中MinPts=5,紅色的點(diǎn)都是核心對(duì)象,因?yàn)槠?-鄰域至少有5個(gè)樣本。黑色的樣本是非核心對(duì)象。所有核心對(duì)象密度直達(dá)的樣本在以紅色核心對(duì)象為中心的超球體內(nèi),如果不在超球體內(nèi),則不能密度直達(dá)。圖中用綠色箭頭連起來的核心對(duì)象組成了密度可達(dá)的樣本序列。在這些密度可達(dá)的樣本序列的?-鄰域內(nèi)所有的樣本相互都是密度相連的。DBSCAN概念DBSCAN算法基本概念:邊界點(diǎn):屬于某一個(gè)類的非核心點(diǎn),不能發(fā)展下線了,如圖中B、C點(diǎn)就是邊界點(diǎn)。噪聲點(diǎn):不屬于任何一個(gè)類簇的點(diǎn),從任何一個(gè)核心點(diǎn)出發(fā)都是密度不可達(dá)的,如圖N點(diǎn)。A核心對(duì)象、BC邊界點(diǎn)、N離群點(diǎn)DBSCAN概念DBSCAN流程:參數(shù)D:輸入數(shù)據(jù)集:參數(shù)?:指定半徑MinPts:密度閥值DBSCAN工作流程參數(shù)選擇:參數(shù)?:半徑?,可以根據(jù)K距離來設(shè)定:找突變點(diǎn)K距離:給定數(shù)據(jù)集P={p(i);i=0,1,…n},計(jì)算點(diǎn)P(i)到集合D的子集S中所有點(diǎn)之間的距離,距離按照從小到大的順序排序,d(k)就被稱為k-距離。MinPts:k-距離中k的值,一般取的小一些,多次嘗試可視化:https:///blog/visualizing-dbscan-clustering/https:///blog/visualizing-k-means-clustering/DBSCAN參數(shù)選擇DBSCAN優(yōu)缺點(diǎn)DBSCAN優(yōu)缺點(diǎn)優(yōu)勢(shì):

不需要指定簇個(gè)數(shù)擅長(zhǎng)找到離群點(diǎn)(檢測(cè)任務(wù))可以發(fā)現(xiàn)任意形狀的簇兩個(gè)參數(shù)就夠了缺點(diǎn):缺點(diǎn):高維數(shù)據(jù)有些困難(可以做降維)

Sklearn中效率很慢(數(shù)據(jù)削減策略)

參數(shù)難以選擇(參數(shù)對(duì)結(jié)果的影響非常大)敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用9.決策樹課程概況—基本情況PART01決策樹算法決策樹的概念樹的組成衡量標(biāo)準(zhǔn)決策樹的概念決策樹(DecisionTree)的概念:樹模型(

tree):

決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)所有的數(shù)據(jù)最終都會(huì)落到葉子節(jié)點(diǎn),既可以做分類也可以做回歸。誰愛玩電腦游戲:

先按年齡分,再按照性別分

先找分類性強(qiáng)的特征

怎么選擇分類的特征樹的組成樹的組成:根節(jié)點(diǎn):第一個(gè)選擇的節(jié)點(diǎn)非葉子節(jié)點(diǎn)與分支:中間過程葉子節(jié)點(diǎn):最終的決策結(jié)果分類問題中決策樹的葉子節(jié)點(diǎn)是類別,其它節(jié)點(diǎn)是屬性。樹的組成決策樹的訓(xùn)練與測(cè)試算法訓(xùn)練階段:

從給定的訓(xùn)練集構(gòu)造一棵樹。從根節(jié)點(diǎn)開設(shè)選擇特征,如何進(jìn)行特征切分測(cè)試階段:

根據(jù)構(gòu)造的樹模型,從上到下,把數(shù)據(jù)輸入執(zhí)行一遍難點(diǎn):一旦構(gòu)造好了決策樹,那么分類或者預(yù)測(cè)任務(wù)就很簡(jiǎn)單了,只需要走一遍就可以了,那么難點(diǎn)就在于如何構(gòu)造出來一顆樹,這就沒那么容易了,需要考慮的問題還有很多。樹的組成如何切分節(jié)點(diǎn)(選擇節(jié)點(diǎn))問題:

根節(jié)點(diǎn)的選擇該用那個(gè)特征,如何切分缺點(diǎn):我們的目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個(gè)老大似的能更好的切分?jǐn)?shù)據(jù)(分類的效果更好),根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家了。復(fù)雜度與樣本呈線性關(guān)系:

每次更新質(zhì)心需要和每個(gè)樣本點(diǎn)進(jìn)行計(jì)算目標(biāo):

通過一種衡量標(biāo)準(zhǔn),來計(jì)算通過不同特征進(jìn)行分支選擇后的分類情況,找出來最好的那個(gè)當(dāng)成根節(jié)點(diǎn),以此類推。衡量標(biāo)準(zhǔn)衡量標(biāo)準(zhǔn)-信息熵節(jié)點(diǎn)選擇的標(biāo)準(zhǔn)右圖有兩個(gè)分類結(jié)果,第一個(gè)結(jié)果明顯要好于第二結(jié)果,直觀的表述就是第一個(gè)分類很”純,藍(lán)色和黃色點(diǎn)直接分成了兩類,第二種分類很亂,藍(lán)色的點(diǎn)和黃色的點(diǎn)混雜在一起。信息熵表述(樣本集合)”亂”和”純”的程度,數(shù)據(jù)”亂”包含的數(shù)據(jù)信息要多,信息熵的值大。數(shù)據(jù)純包含的信息量小,信息熵值小。衡量標(biāo)準(zhǔn)

衡量標(biāo)準(zhǔn)

敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用9.決策樹課程概況—基本情況PART01決策樹算法構(gòu)造衡量標(biāo)準(zhǔn)樹的組成衡量標(biāo)準(zhǔn)衡量標(biāo)準(zhǔn)節(jié)點(diǎn)選擇-信息增益二分類問題的熵:

不確定性越大,得到的熵值也就越大

當(dāng)p=0或p=1時(shí),H(p)=0,隨機(jī)變量完全沒有不確定性

當(dāng)p=0.5時(shí),H(p)=1,此時(shí)隨機(jī)變量的不確定性最大如何決策一個(gè)節(jié)點(diǎn)的選擇信息增益:表示特征X使得類Y的不確定性減少的程度(分類后的專一性,希望分類后的結(jié)果是同類在一起)決策樹的概念決策樹構(gòu)建實(shí)例:數(shù)據(jù):是近兩周(14天)的打球情況,特征為天氣表現(xiàn)、溫度、適度、是否有風(fēng)4種不同的環(huán)境,特征:outlook天氣、temperature溫度、humidity濕度、windy有風(fēng)、目標(biāo):怎么選擇分類的特征,構(gòu)造決策樹決策樹的概念根節(jié)點(diǎn)選擇問題:4種劃分方式

那個(gè)特征是根節(jié)點(diǎn)判斷依據(jù)是什么信息增益樹的組成信息增益:求熵:在14天的數(shù)據(jù)中,有9天有打球,5天沒有打球。所以此時(shí)的熵為:按照outlook特征分類計(jì)算熵樹的組成

樹的組成常用的決策樹算法:ID3:信息增益(有什么問題呢?)C4.5:信息增益率(解決ID3問題,考慮自身熵)CART:使用GINI系數(shù)來當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù):(和熵的衡量標(biāo)準(zhǔn)類似,計(jì)算方式不相同)

C4.5信息增益率對(duì)于IV而言,a分類數(shù)目越多,IV值越大樹的組成信息增益:計(jì)算其他的信息增益:????????(outlook)=0.247????????(temperature)=0.029

????????(windy)=0.048????????(humidity)=0.152一般而言,信息增益越大,則表示使用特征

對(duì)數(shù)據(jù)集劃分所獲得的“純度提升”越大。所以信息增益可以用于決策樹劃分屬性的選擇,其實(shí)就是選擇信息增益最大的屬性,ID3算法就是采用的信息增益來劃分屬性。敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用9.決策樹課程概況—基本情況PART01決策樹算法構(gòu)造衡量標(biāo)準(zhǔn)樹的組成衡量標(biāo)準(zhǔn)衡量標(biāo)準(zhǔn)節(jié)點(diǎn)選擇-信息增益二分類問題的熵:

不確定性越大,得到的熵值也就越大

當(dāng)p=0或p=1時(shí),H(p)=0,隨機(jī)變量完全沒有不確定性

當(dāng)p=0.5時(shí),H(p)=1,此時(shí)隨機(jī)變量的不確定性最大如何決策一個(gè)節(jié)點(diǎn)的選擇信息增益:表示特征X使得類Y的不確定性減少的程度(分類后的專一性,希望分類后的結(jié)果是同類在一起)決策樹的概念決策樹構(gòu)建實(shí)例:數(shù)據(jù):是近兩周(14天)的打球情況,特征為天氣表現(xiàn)、溫度、適度、是否有風(fēng)4種不同的環(huán)境,特征:outlook天氣、temperature溫度、humidity濕度、windy有風(fēng)、目標(biāo):怎么選擇分類的特征,構(gòu)造決策樹決策樹的概念根節(jié)點(diǎn)選擇問題:4種劃分方式

那個(gè)特征是根節(jié)點(diǎn)判斷依據(jù)是什么信息增益樹的組成信息增益:求熵:在14天的數(shù)據(jù)中,有9天有打球,5天沒有打球。所以此時(shí)的熵為:按照outlook特征分類計(jì)算熵樹的組成

樹的組成常用的決策樹算法:ID3:信息增益(有什么問題呢?)C4.5:信息增益率(解決ID3問題,考慮自身熵)CART:使用GINI系數(shù)來當(dāng)做衡量標(biāo)準(zhǔn)GINI系數(shù):(和熵的衡量標(biāo)準(zhǔn)類似,計(jì)算方式不相同)

C4.5信息增益率對(duì)于IV而言,a分類數(shù)目越多,IV值越大樹的組成信息增益:計(jì)算其他的信息增益:????????(outlook)=0.247????????(temperature)=0.029

????????(windy)=0.048????????(humidity)=0.152一般而言,信息增益越大,則表示使用特征

對(duì)數(shù)據(jù)集劃分所獲得的“純度提升”越大。所以信息增益可以用于決策樹劃分屬性的選擇,其實(shí)就是選擇信息增益最大的屬性,ID3算法就是采用的信息增益來劃分屬性。敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用13.集成算法概述課程概況—基本情況PART01集成算法什么是集成算法常用的集成算法集成算法的對(duì)比集成算法的概念集成算法(ensemblelearning):集成學(xué)習(xí):集成學(xué)習(xí)是通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),如右圖所示,其過程是:先產(chǎn)生一組“個(gè)體學(xué)習(xí)器”,再用某種策略將它們結(jié)合起來。個(gè)體學(xué)習(xí)器:決策樹,神經(jīng)網(wǎng)絡(luò)等。同質(zhì)和異質(zhì)同質(zhì),個(gè)體學(xué)習(xí)器全是同一類型,這時(shí)個(gè)體學(xué)習(xí)器又稱“基學(xué)習(xí)器”;異質(zhì)是指?jìng)€(gè)體學(xué)習(xí)器包含不同類型得學(xué)習(xí)算法。一般我們常用的都是同質(zhì)的,即個(gè)體學(xué)習(xí)器都是同一類型的參考:https:///u012328159/article/details/89740430

集成算法的概念Bagging模型Bagging模型(bootstrapaggregation):原理:并行訓(xùn)練多個(gè)分類器,相互獨(dú)立的隨機(jī)的建立多個(gè)模型典型應(yīng)用:隨機(jī)森林隨機(jī):特征隨機(jī)采樣、數(shù)據(jù)隨機(jī)采樣關(guān)注點(diǎn):從偏差-方差分解的角度,關(guān)注降低方差Bagging模型(bootstrapaggregation):原理:并行訓(xùn)練多個(gè)分類器,相互獨(dú)立的隨機(jī)的建立多個(gè)模型自助采樣(bootstrapsampling):對(duì)數(shù)據(jù)集D做隨機(jī)采樣,每一個(gè)樣本每次被抽樣的概率相同,且每次抽完之后放回。包括隨機(jī)選擇數(shù)據(jù)和特征。

Bagging

Bagging基于自助采樣法,通過多次自助采樣得到不同的訓(xùn)練集,并基于訓(xùn)練集得到基學(xué)習(xí)器,最后再將這些基學(xué)習(xí)器的預(yù)測(cè)結(jié)果結(jié)合,得到最終的學(xué)習(xí)器的預(yù)測(cè)。一般在分類問題中,采用簡(jiǎn)單投票法結(jié)合預(yù)測(cè)結(jié)果,在回歸問題中則采用簡(jiǎn)單平均法。關(guān)注點(diǎn):從偏差-方差分解的角度,關(guān)注降低方差Bagging模型Bagging實(shí)現(xiàn)步驟:實(shí)現(xiàn)步驟:輸入:數(shù)據(jù)集D,訓(xùn)練輪數(shù)T輸出:最終預(yù)測(cè)模型G(1)迭代訓(xùn)練基學(xué)習(xí)器:a.從數(shù)據(jù)集D中自助采樣得到訓(xùn)練集D'b.通過訓(xùn)練集D'訓(xùn)練得到基學(xué)習(xí)器C(2)組合預(yù)測(cè)結(jié)果:Bagging模型Random

Forest隨機(jī)森林(Random

Forest):隨機(jī)森林:隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。Treee:?jiǎn)蝹€(gè)的決策樹絕對(duì)多數(shù)投票法Majorityvoting就是將樣本X,訓(xùn)練出不同的模型,然后進(jìn)行測(cè)試,進(jìn)行投票,得票最多的模型則被被認(rèn)為是最好.隨機(jī)森林(RandomForest):數(shù)據(jù)的隨機(jī)抽樣:從原始的數(shù)據(jù)集中采取有放回的抽樣,構(gòu)造子數(shù)據(jù)集,子數(shù)據(jù)集的數(shù)據(jù)量是和原始數(shù)據(jù)集相同的。不同子數(shù)據(jù)集的元素可以重復(fù),同一個(gè)子數(shù)據(jù)集中的元素也可以重復(fù)。第二,利用子數(shù)據(jù)集來構(gòu)建子決策樹,將這個(gè)數(shù)據(jù)放到每個(gè)子決策樹中,每個(gè)子決策樹輸出一個(gè)結(jié)果。如圖3,假設(shè)隨機(jī)森林中有3棵子決策樹,2棵子樹的分類結(jié)果是A類,1棵子樹的分類結(jié)果是B類,那么隨機(jī)森林的分類結(jié)果就是A類。Random

Forest隨機(jī)森林(RandomForest):特征的隨機(jī)抽樣:與數(shù)據(jù)集的隨機(jī)選取類似,隨機(jī)森林中的子樹的每一個(gè)分裂過程并未用到所有的待選特征,而是從所有的待選特征中隨機(jī)選取一定的特征,之后再在隨機(jī)選取的特征中選取最優(yōu)的特征。這樣能夠使得隨機(jī)森林中的決策樹都能夠彼此不同,提升系統(tǒng)的多樣性,從而提升分類性能。Random

Forest隨機(jī)森林(RandomForest):構(gòu)造樹模型:數(shù)據(jù)隨機(jī)和特征隨機(jī)抽樣選擇的二重性,使得每個(gè)樹不相同,最終的結(jié)果也不同Random

Forest敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用13.集成算法比較課程概況—基本情況PART01集成算法Bagging算法常用的集成算法集成算法的對(duì)比Bagging算法Bagging集成算法:隨機(jī)森林用的最多的隨機(jī)森林。優(yōu)勢(shì):

它能夠處理很高維度的數(shù)據(jù),并且不用做特征選擇,也可以作為特征選擇的工具(特征重要性)。

在訓(xùn)練完后,它能夠給出哪些feature比較重要容易做成并行化方法,速度比較快可以進(jìn)行可視化展示,便于分析,可以解釋性強(qiáng)123Bagging算法Bagging集成算法:有些模型不適合使用

KNN最近鄰,因?yàn)樗茈y隨機(jī)讓泛化能力變強(qiáng)Bagging算法Bagging集成算法:樹模型的個(gè)數(shù)理論上越多的樹效果會(huì)越好,但實(shí)際上基本超過一定數(shù)量就差不多上下浮動(dòng)了。1-10棵樹木的時(shí)候,準(zhǔn)確率大幅提升

Boosting算法Boosting集成算法(提升算法):典型模型

AdaBoost,XgboostAdaboost:會(huì)根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重。調(diào)整權(quán)重:如果某一個(gè)數(shù)據(jù)在這次分錯(cuò)了,那么在下一次我就會(huì)給它更大的權(quán)重最終的結(jié)果:每個(gè)分類器根據(jù)自身的準(zhǔn)確性來確定各自的權(quán)重,再合體

Boosting算法Boosting集成算法-AdaBoost流程:原始數(shù)據(jù)D1,“+”和“-”分別表示兩種類別,在這個(gè)過程中,我們使用水平或者垂直的直線作為分類器,來進(jìn)行分類。第一步:根據(jù)分類的正確率,得到一個(gè)新的樣本分布D2-,一個(gè)子分類器h1。其中劃圈的樣本表示被分錯(cuò)的。在右邊的途中,比較大的“+”表示對(duì)該樣本做了加權(quán)。原始數(shù)據(jù)D1子分類器h1錯(cuò)誤樣本加權(quán)集D2Boosting算法Boosting集成算法-AdaBoost流程:第二步:開始分類,根據(jù)分類的正確率,得到一個(gè)新的樣本分布D3,一個(gè)子分類器h2。子分類器h2錯(cuò)誤樣本加權(quán)集D3Boosting算法Boosting集成算法-AdaBoost流程:第三步:根據(jù)分類的正確率,得到一個(gè)子分類器h3,整合所有子分類器:子分類器h3整合所有的分類器Boosting算法Boosting集成算法-AdaBoost流程:優(yōu)點(diǎn):

adaboost是一種有很高精度的分類器可以使用各種方法構(gòu)建子分類器,adaboost算法提供的是框架當(dāng)使用簡(jiǎn)單分類器時(shí),計(jì)算出的結(jié)果是可以理解的。而且弱分類器構(gòu)造極其簡(jiǎn)單簡(jiǎn)單,不用做特征篩選不用擔(dān)心overfittingStacking算法Stacking集成算法:Stacking模型:堆疊:多個(gè)模型直接堆疊在一起可以堆疊各種各樣的分類器(KNN,SVM,RF等等)分階段:第一階段得出各自結(jié)果,第二階段再用前一階段結(jié)果訓(xùn)練Stacking算法Stacking集成算法:Stacking模型實(shí)現(xiàn)流程:用數(shù)據(jù)集D來訓(xùn)練h1,h2,h3...,

用這些訓(xùn)練出來的初級(jí)學(xué)習(xí)器在數(shù)據(jù)集D上面進(jìn)行預(yù)測(cè)得到次級(jí)訓(xùn)練集。

用次級(jí)訓(xùn)練集來訓(xùn)練次級(jí)學(xué)習(xí)器問題:但是這樣的實(shí)現(xiàn)是有很大的缺陷的。在原始數(shù)據(jù)集D上面訓(xùn)練的模型,然后用這些模型再D上面再進(jìn)行預(yù)測(cè)得到的次級(jí)訓(xùn)練集肯定是非常好的。會(huì)出現(xiàn)過擬合的現(xiàn)象。堆疊在一起確實(shí)能使得準(zhǔn)確率提升,但是速度是個(gè)問題,在競(jìng)賽與論文中,或者需要追求高的精度經(jīng)常使用Stacking集成算法。

敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用1.3使用簡(jiǎn)單線性回歸預(yù)測(cè)廣告投入的收入-模型訓(xùn)練課程概況—基本情況PART01模型訓(xùn)練開發(fā)流程處理流程-線性回歸線性回歸模型:簡(jiǎn)單線性回歸也稱為一元線性回歸,也就是回歸模型中只含一個(gè)自變量,否則稱為多重線性回歸。簡(jiǎn)單線性回歸模型為:y=a*x+b有時(shí)候也可這樣表述y=weight*x+bias,其中weight-權(quán)重,bias-偏置值。我們需要根據(jù)給定的y-企業(yè)的收入和x-企業(yè)的廣告收入,去預(yù)測(cè)w和b,最終得到一個(gè)一元線性方程,通過這個(gè)方程,可以預(yù)測(cè)出企業(yè)投入的廣告資金大概可以獲得多大的收益,

處理流程-lossfunction損失函數(shù):目標(biāo)函數(shù)是整個(gè)模型優(yōu)化學(xué)習(xí)的核心導(dǎo)向,需要最小化目標(biāo)函數(shù)時(shí),目標(biāo)函數(shù)也被稱為損失函數(shù)或代價(jià)函數(shù)。最常用的兩個(gè)損失函數(shù)MSE與交叉熵就是分別用于回歸與分類任務(wù)。處理流程-lossfunction損失函數(shù):這里使用的MES均方差函數(shù)MSE求導(dǎo)后計(jì)算量不大,最為常用,代碼實(shí)現(xiàn)簡(jiǎn)單,甚至不需要調(diào)接口。處理流程-lossfunction損失函數(shù):可以自己先設(shè)置一個(gè)weight和bais,計(jì)算得到一個(gè)loss繪制當(dāng)前weight和bais的圖形處理流程-梯度下降

處理流程-梯度下降梯度下降:首先來看看梯度下降的一個(gè)直觀的解釋。比如我們?cè)谝蛔笊缴系哪程幬恢?,由于我們不知道怎么下山,于是決定走一步算一步,也就是在每走到一個(gè)位置的時(shí)候,求解當(dāng)前位置的梯度,沿著梯度的負(fù)方向,也就是當(dāng)前最陡峭的位置向下走一步,然后繼續(xù)求解當(dāng)前位置梯度,向這一步所在位置沿著最陡峭最易下山的位置走一步。這樣一步步的走下去,一直走到覺得我們已經(jīng)到了山腳。當(dāng)然這樣走下去,有可能我們不能走到山腳,而是到了某一個(gè)局部的山峰低處。處理流程-梯度下降

處理流程-梯度下降梯度下降:定義梯度下降函數(shù),使用梯度下降函數(shù)來去推導(dǎo)weight和bias值處理流程-訓(xùn)練模型訓(xùn)練模型:模型訓(xùn)練首先給iteration-梯度迭代次數(shù)、alpha-步長(zhǎng)、weight-權(quán)重系數(shù)、bias-偏置值三個(gè)參數(shù)進(jìn)行初始化,同時(shí)也計(jì)算一個(gè)初始的損失值。處理流程-訓(xùn)練模型繪制模型圖像:得到weight_history,bias_history后我們可以取出最終得到的weight和bias值繪制最終得到的圖像。處理流程-訓(xùn)練模型繪制損失曲線:我們可以通過繪制損失曲線顯示損失下降的過程敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用6.支持向量機(jī)課程概況—基本情況PART01支持向量機(jī)線性可分支持向量機(jī)線性不可分支持向量機(jī)非線性支持向量機(jī)線性可分支持向量機(jī)支持向量機(jī)(SupportVectorMachine):要解決的問題:什么樣的決策邊界才是最好的呢?支持向量機(jī)(SupportVectorMachine),通常縮寫為SVM,是一種用于回歸和分類的監(jiān)督學(xué)習(xí)算法,但更常用于分類。SVM在各種設(shè)置下均表現(xiàn)出色,通常被認(rèn)為是最好的“開箱即用”分類器。個(gè)體支持向量機(jī)(SupportVectorMachine):求解決策邊界:選出來離雷區(qū)最遠(yuǎn)的(雷區(qū)就是邊界上的點(diǎn),要LargeMargin)線性可分支持向量機(jī)線性可分支持向量機(jī):線性可分支持向量機(jī)距離的計(jì)算:目的:讓機(jī)器學(xué)習(xí)效果線性可分支持向量機(jī)數(shù)據(jù)標(biāo)簽定義:數(shù)據(jù)集:(X1,Y1)(X2,Y2)…(Xn,Yn)Y為樣本的類別:當(dāng)X為正例時(shí)候Y=+1當(dāng)X為負(fù)例時(shí)候Y=-1決策方程:線性可分支持向量機(jī)優(yōu)化目標(biāo):(實(shí)際問題轉(zhuǎn)為數(shù)學(xué)問題,優(yōu)化化簡(jiǎn))通俗解釋:找到一個(gè)條線(w和b),使得離該線最近的點(diǎn)(雷區(qū))能夠最遠(yuǎn)將點(diǎn)到直線的距離化簡(jiǎn)得:(由于所以將絕對(duì)值展開原始依舊成立)

線性可分支持向量機(jī)目標(biāo)函數(shù):(實(shí)際問題轉(zhuǎn)為數(shù)學(xué)問題,優(yōu)化化簡(jiǎn))放縮變換:對(duì)于決策方程(w,b)可以通過放縮使得其結(jié)果值|Y|>=1:優(yōu)化目標(biāo):min求最近的點(diǎn),在找什么樣的w和b使得距離最大由于,只需要考慮

線性可分支持向量機(jī)目標(biāo)函數(shù):(實(shí)際問題轉(zhuǎn)為數(shù)學(xué)問題,優(yōu)化化簡(jiǎn))當(dāng)前目標(biāo):約束條件:

將求解極大值問題轉(zhuǎn)換成極小值問題如何求解:應(yīng)用拉格朗日乘子法求解

線性可分支持向量機(jī)線性支持向量機(jī):(soft-margin)軟間隔:有時(shí)候數(shù)據(jù)中有一些噪音點(diǎn),如果考慮它們?cè)蹅兊木€就不太好了:之前的方法要求要把兩類點(diǎn)完全分得開,這個(gè)要求有點(diǎn)過于嚴(yán)格了,我們來放松一點(diǎn)!為了解決該問題,引入松弛因子線性支持向量機(jī)線性支持向量機(jī):(soft-margin)當(dāng)數(shù)據(jù)線性不可分,則增加松弛因子,使得函數(shù)間隔加上松弛變量大于等于1,這樣,約束條件變成目標(biāo)函數(shù)當(dāng)C趨近于很大時(shí):意味著分類嚴(yán)格不能有錯(cuò)誤當(dāng)C趨近于很小時(shí):意味著可以有更大的錯(cuò)誤容忍C是我們需要指定的一個(gè)參數(shù)!線性支持向量機(jī)損失函數(shù)線性支持向量機(jī)非線性支持向量機(jī):核函數(shù)非線性支持向量機(jī)非線性支持向量機(jī):核函數(shù)非線性支持向量機(jī)非線性支持向量機(jī):高斯核函數(shù)分隔兩個(gè)類的線性超平面非線性支持向量機(jī)非線性支持向量機(jī):LR與SVM的異同

非線性支持向量機(jī)敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用7.貝葉斯算法課程概況—基本情況PART01貝葉斯算法貝葉斯算法概述貝葉斯算法的實(shí)現(xiàn)拼寫檢查垃圾郵件過濾貝葉斯算法概述貝葉斯算法概述:正向概率:假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球,你伸手進(jìn)去摸一把,摸出黑球的概率是多大逆向概率:如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球(3個(gè)黑的4個(gè)白的),觀察這些取出來的球的顏色之后,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)。貝葉斯算法實(shí)現(xiàn):條件:學(xué)校總?cè)藬?shù)有U個(gè)人,男生占60%,女生占40%;男生總是穿長(zhǎng)褲,女生一半穿褲子一半穿裙子;正向概率:隨機(jī)選取一個(gè)學(xué)生,他(她)穿長(zhǎng)褲的概率和穿裙子的概率是多大逆向概率:迎面走來一個(gè)穿長(zhǎng)褲的學(xué)生,你只看得見他(她)穿的是否長(zhǎng)褲,而無法確定他(她)的性別,你能夠推斷出他(她)是女生的概率是多大嗎?貝葉斯算法實(shí)現(xiàn)

貝葉斯算法實(shí)現(xiàn)

貝葉斯算法實(shí)現(xiàn)

貝葉斯算法實(shí)現(xiàn)

貝葉斯算法實(shí)現(xiàn)

先驗(yàn)概率似然度后驗(yàn)概率標(biāo)準(zhǔn)化常量貝葉斯算法實(shí)現(xiàn)貝葉斯算法應(yīng)用:拼寫糾正實(shí)例拼寫糾正實(shí)例我們看到用戶輸入了一個(gè)不在字典中的單詞,我們需要去猜測(cè)“到底想輸入的單詞是什么?

比如輸入的是tha使用概率去判斷用戶想輸入的單詞P(我們猜測(cè)他想輸入的單詞|他實(shí)際輸入的單詞)

計(jì)算:P(that|tha)PP(thanks|tha)的概率,按照大小排序,供用戶選擇。貝葉斯算法-輸入矯正

貝葉斯算法-輸入矯正

貝葉斯算法-輸入矯正垃圾郵件分類問題:?jiǎn)栴}:給定一封郵件,判定它是否屬于垃圾郵件D來表示這封郵件,注意D由N個(gè)單詞組成。我們用h+來表示,垃圾郵件,h-表示正常郵件。貝葉斯公式P(h+|D)、P(h-|D)P(h+|D)=P(h+)*P(D|h+)/P(D)

P(h-|D)=P(h-)*P(D|h-)/P(D)

貝葉斯算法-垃圾郵件垃圾郵件過濾實(shí)例:先驗(yàn)概率:P(h+)和P(h-)這兩個(gè)先驗(yàn)概率都是很容易求出來的,只需要計(jì)算一個(gè)郵件庫里面垃圾郵件和正常郵件的比例就行了。D里面含有N個(gè)單詞d1,d2,d3,P(D|h+)=P(d1,d2,..,dn|h+),P(d1,d2,..,dn|h+)就是說在垃圾郵件當(dāng)中出現(xiàn)跟我們目前這封郵件一模一樣的一封郵件的概率是多大!

P(d1,d2,..,dn|h+)擴(kuò)展為:P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..

貝葉斯算法-垃圾郵件垃圾郵件過濾實(shí)例:P(d1|h+)*P(d2|d1,h+)*P(d3|d2,d1,h+)*..假設(shè)di與di-1是完全條件無關(guān)的(樸素貝葉斯假設(shè)特征之間是獨(dú)立,互不影響)簡(jiǎn)化為P(d1|h+)*P(d2|h+)*P(d3|h+)*..對(duì)于P(d1|h+)*P(d2|h+)*P(d3|h+)*..只要統(tǒng)計(jì)di這個(gè)單詞在垃圾郵件中出現(xiàn)的頻率即可貝葉斯算法-垃圾郵件敬請(qǐng)指導(dǎo)!人工智能技術(shù)與應(yīng)用9.詞向量模型Word2Vec課程概況—基本情況PART01Word2Vec算法Word2Vec算法概述Word2Vec算法的實(shí)現(xiàn)Word2Vec的訓(xùn)練Word2Vec概述Word2Vec概述:概述:

WordtoVector,由詞到向量,

Word2Vec使用一層神經(jīng)網(wǎng)絡(luò)將one-hot(獨(dú)熱編碼)形式的詞向量映射到分布式形式的詞向量。使用了Hierarchicalsoftmax,negativesampling等技巧進(jìn)行訓(xùn)練速度上的優(yōu)化。逆向概率:作用:我們?nèi)粘I钪惺褂玫淖匀徽Z言不能夠直接被計(jì)算機(jī)所理解,當(dāng)我們需要對(duì)這些自然語言進(jìn)行處理時(shí),就需要使用特定的手段對(duì)其進(jìn)行分析或預(yù)處理。使用one-hot編碼形式對(duì)文字進(jìn)行處理可以得到詞向量,但是,由于對(duì)文字進(jìn)行唯一編號(hào)進(jìn)行分析的方式存在數(shù)據(jù)稀疏的問題,Word2Vec能夠解決這一問題,實(shí)現(xiàn)wordembeddingWord2Vec實(shí)現(xiàn):在處理自然語言時(shí),通常將詞語或者字做向量化,例如one-hot編碼,例如我們有一句話為:“我愛北京天安門”,我們分詞后對(duì)其進(jìn)行one-hot編碼,結(jié)果如圖所示。這樣,我們就可以將每個(gè)詞用一個(gè)向量表示了。但是如果n個(gè)詞語而不是4個(gè),任何一個(gè)詞的編碼只有一個(gè)1,n-1位為0,這會(huì)導(dǎo)致數(shù)據(jù)非常稀疏(0特別多,1很少),存儲(chǔ)開銷也很大。Word2Vec實(shí)現(xiàn)Word2Vec實(shí)現(xiàn):于是,分布式表示被提出來了,什么是分布式表示?它的思路是通過訓(xùn)練,將每個(gè)詞都映射到一個(gè)較短的詞向量上來。這個(gè)較短的詞向量維度是多大呢?這個(gè)一般需要我們?cè)谟?xùn)練時(shí)自己來指定?,F(xiàn)在很常見的例如300維。例如下面圖展示了四個(gè)不同的單詞,可以用一個(gè)可變化的維度長(zhǎng)度表示(圖中只畫出了前4維),其實(shí)可以是多少維由你指定。假設(shè)為4維。Word2Vec實(shí)現(xiàn)

Word2Vec實(shí)現(xiàn)Word2Vec實(shí)現(xiàn):有了向量就可以用各種方法來計(jì)算相似度,例如余弦相似度(Cosine)歐式距離相似度(Euclidean)曼哈頓距離(Manhattan)。通常數(shù)據(jù)的維度越高,信息也越多,計(jì)算結(jié)果更可靠Word2Vec實(shí)現(xiàn)Word2Vec實(shí)現(xiàn):Word2Vec就是要把這些詞轉(zhuǎn)換為向量,也就是一組float數(shù)值,入下圖所示:例如一個(gè)詞50維的Word2Vec實(shí)現(xiàn)Word2Vec實(shí)現(xiàn):如果使用熱力圖來表示可以直觀的看到詞向量的相似度Word2Vec實(shí)現(xiàn)Word2Vec實(shí)現(xiàn):所有這些不同的單詞都有一條直的紅色列。它們?cè)谶@個(gè)維度上是相似的(雖然我們不知道每個(gè)維度是什么)你可以看到“woman”和“girl”在很多地方是相似的,“man”和“boy”也是一樣“boy”和“girl”也有彼此相似的地方,但這些地方卻與“woman”或“man”不同。這些是否可以總結(jié)出一個(gè)模糊的“youth”概念?可能吧。除了最后一個(gè)單詞,所有單詞都是代表人。我添加了一個(gè)對(duì)象“water”來顯示類別之間的差異。你可以看到藍(lán)色列一直向下并在“water”的詞嵌入之前停下了。Word2Vec實(shí)現(xiàn)Word2Vec實(shí)現(xiàn):由“king-man+woman”生成的向量并不完全等同于“queen”,但“queen”是我們?cè)诖思现邪?00,000個(gè)字嵌入中最接近它的單詞。Word2Vec實(shí)現(xiàn)語言模型:自然語言處理最典型的例子,那應(yīng)該就是智能手機(jī)輸入法中的下一單詞預(yù)測(cè)功能。這是個(gè)被數(shù)十億人每天使用上百次的功能。我們可以認(rèn)為該模型接收到兩個(gè)綠色單詞(我打)并推薦了一組單詞(“電話”就是其中最有可能被選用的一個(gè)):word2vec模型我打?Inputfeature1Inputfeature2Outputlabelword2vec模型:word2vec模型其實(shí)就是簡(jiǎn)單化的神經(jīng)網(wǎng)絡(luò)。它對(duì)所有它知道的單詞(模型的詞庫,可能有幾千到幾百萬個(gè)單詞)的按可能性打分,輸入法程序會(huì)選出其中分?jǐn)?shù)最高的推薦給用戶。自然語言模型的輸出就是模型所知單詞的概率評(píng)分,我們通常把概率按百分比表示,但是實(shí)際上,40%這樣的分?jǐn)?shù)在輸出向量組是表示為0.4word2vec模型TrainedLanguageModelTask:PredictthenextwordInputfeatureOutputpredict我打電話TrainedLanguageModelTask:PredictthenextwordInputfeatureOutputpredict我打電話40%王者10%排位2%算0.5%word2vec模型:模型是一個(gè)簡(jiǎn)化的神經(jīng)網(wǎng)絡(luò)input:詞向量權(quán)重網(wǎng)絡(luò)上下文的-隱藏層Softmax層word2vec模型word2vec模型:對(duì)于句子“IlikedeeplearningandNLP”,我們基于這個(gè)句子,可以構(gòu)建一個(gè)大小為6的詞匯表,假設(shè)我們使用300個(gè)特征去表示一個(gè)單詞。記上面的權(quán)重矩陣為w(6,300),有獨(dú)熱碼wt表示矩陣為(300,1)wt×w兩個(gè)矩陣相乘,隱層神經(jīng)網(wǎng)絡(luò)輸出的是一個(gè)d×1維矩陣word2vec模型word2vec模型:對(duì)于句子“IlikedeeplearningandNLP”,我們基于這個(gè)句子,可以構(gòu)建一個(gè)大小為6的詞匯表,假設(shè)我們使用300個(gè)特征去表示一個(gè)單詞。記上面的權(quán)重矩陣為w(6,300),有獨(dú)熱碼wt表示矩陣為(300,1)wt×w兩個(gè)矩陣相乘,隱層神經(jīng)網(wǎng)絡(luò)輸出的是一個(gè)d×1維矩陣word2vec模型模型數(shù)據(jù):先是獲取大量文本數(shù)據(jù)(例如所有維基百科內(nèi)容)然后我們建立一個(gè)可以沿文本滑動(dòng)的窗(例如一個(gè)窗里包含三個(gè)單詞)利用這樣的滑動(dòng)窗就能為訓(xùn)練模型生成大量樣本數(shù)據(jù)word2vec模型數(shù)據(jù)模型數(shù)據(jù):前兩個(gè)單詞單做特征,第三個(gè)單詞單做標(biāo)簽:生產(chǎn)了數(shù)據(jù)集中的第一個(gè)樣本窗口滑動(dòng)到下一個(gè)位置并生產(chǎn)第二個(gè)樣本word2vec模型數(shù)據(jù)模型數(shù)據(jù):所有數(shù)據(jù)集上全部滑動(dòng)后,我們得到一個(gè)較大的數(shù)據(jù)集word2vec模型數(shù)據(jù)不同模型對(duì)比CBOW和Skip-gramword2vec模型數(shù)據(jù)不同模型對(duì)比CBOW和Skip-gramword2vec模型數(shù)據(jù)Skip-gram模型所需訓(xùn)練數(shù)據(jù)集CBOW

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論