2024人工智能機(jī)器學(xué)習(xí)導(dǎo)論_第1頁(yè)
2024人工智能機(jī)器學(xué)習(xí)導(dǎo)論_第2頁(yè)
2024人工智能機(jī)器學(xué)習(xí)導(dǎo)論_第3頁(yè)
2024人工智能機(jī)器學(xué)習(xí)導(dǎo)論_第4頁(yè)
2024人工智能機(jī)器學(xué)習(xí)導(dǎo)論_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能導(dǎo)論機(jī)器學(xué)習(xí)概覽2016200690年代中期80年代初期60-70年代1956AI1950推理期

知識(shí)期 學(xué)習(xí)期機(jī)器學(xué)習(xí)從何而來(lái)機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)

??機(jī)器學(xué)習(xí)(Machine

Learning)機(jī)器學(xué)習(xí)(Machine

Learning)人類學(xué)習(xí)利用經(jīng)驗(yàn)不斷提高性能機(jī)器善于處理數(shù)據(jù)不斷提高性能能否把“經(jīng)驗(yàn)”變成數(shù)據(jù),讓機(jī)器可以“模仿”人類進(jìn)行學(xué)習(xí)?機(jī)器學(xué)習(xí):機(jī)器利用數(shù)據(jù)學(xué)習(xí)人類經(jīng)驗(yàn),不斷提高性能的過(guò)程機(jī)器學(xué)習(xí)(Machine

Learning)經(jīng)典定義:利用經(jīng)驗(yàn)改善系統(tǒng)自身的性能[T.

Mitchell

教科書,

1997]大數(shù)據(jù)

大價(jià)值智能數(shù)據(jù)分析機(jī)器學(xué)習(xí)經(jīng)驗(yàn)

數(shù)據(jù)隨著該領(lǐng)域的發(fā)展,目前主要研究智能數(shù)據(jù)分析的理論和方法,并已成為智能數(shù)據(jù)分析技術(shù)的源泉之一大數(shù)據(jù)時(shí)代機(jī)器學(xué)習(xí)(Machine

Learning)機(jī)器學(xué)習(xí)是人工智能的核心研究領(lǐng)域(之一)今天的“人工智能熱潮”正是由于機(jī)器學(xué)習(xí)、尤其深度學(xué)習(xí)技術(shù)取得了巨大進(jìn)展基于大數(shù)據(jù)、大算力發(fā)揮出巨大威力機(jī)器學(xué)習(xí)深度學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)(Machine

Learning)機(jī)器學(xué)習(xí)(Machine

Learning)究竟是什么東東?看兩個(gè)例子一個(gè)例子:“文獻(xiàn)篩選”出自

[C.

Brodley

et

al.,

AI

Magazine

2012]在“循證醫(yī)學(xué)”(evidence-based

medicine)中,針對(duì)特定的臨床問(wèn)題,先要對(duì)相關(guān)研究報(bào)告進(jìn)行詳盡評(píng)估查詢

PubMed

以獲取候選摘要人工找出值得全文審讀的文章“文獻(xiàn)篩選”在一項(xiàng)關(guān)于嬰兒和兒童殘疾的研究中,美國(guó)Tufts醫(yī)學(xué)中心篩選了約33,000

篇摘要盡管Tufts醫(yī)學(xué)中心的專家效率很高,對(duì)每篇摘要只需

30

秒鐘,但該工作仍花費(fèi)了

250

小時(shí)aportionofthe33,000

abstracts每項(xiàng)新的研究都要重復(fù)這個(gè)麻煩的過(guò)程!需篩選的文章數(shù)在不斷顯著增長(zhǎng)!“文獻(xiàn)篩選”為了降低昂貴的成本,

Tufts醫(yī)學(xué)中心引入了機(jī)器學(xué)習(xí)技術(shù)邀請(qǐng)專家閱讀少量摘要,標(biāo)記為“有關(guān)”或

“無(wú)關(guān)”對(duì)是否“有關(guān)”進(jìn)行預(yù)測(cè)分類模型人類專家只需閱讀

50

篇摘要,系統(tǒng)的自動(dòng)篩選精度就達(dá)到

93%人類專家閱讀

1,000

篇摘要,則系統(tǒng)的自動(dòng)篩選精度度達(dá)到

95%(人類專家以前需閱讀

33,000

篇摘要才能獲得此效果)“畫作鑒別”畫作鑒別(painting

authentication):確定作品的真?zhèn)尾斏w爾(1525-1569)的作品?梵高(1853-1890)的作品?該工作對(duì)專業(yè)知識(shí)要求極高具有較高的繪畫藝術(shù)修養(yǎng)掌握畫家的特定繪畫習(xí)慣只有少數(shù)專家花費(fèi)很大精力才能完成分析工作!很難同時(shí)掌握不同時(shí)期、不同流派多位畫家的繪畫風(fēng)格!“畫作鑒別”真跡

+

贗品待鑒定畫作為了降低分析成本,

機(jī)器學(xué)習(xí)技術(shù)被引入自動(dòng)鑒定分類模型Kr?ller

Müller美術(shù)館與Cornell等大學(xué)的學(xué)者對(duì)82幅梵高真跡和6幅贗品進(jìn)行分析,自動(dòng)鑒別精度達(dá)

95%[C.Johnsonetal.,

2008]Dartmouth學(xué)院、巴黎高師的學(xué)者對(duì)8幅勃魯蓋爾真跡和5幅贗品進(jìn)行分析,自動(dòng)鑒別精度達(dá)

100%[J.Hughesetal.,2009][J.Mairaletal.,

2012](對(duì)用戶要求低、準(zhǔn)確高效、適用范圍廣)典型的機(jī)器學(xué)習(xí)過(guò)程決策樹(shù),神經(jīng)網(wǎng)絡(luò),支持向量機(jī),Boosting,貝葉斯網(wǎng),……模型訓(xùn)練數(shù)據(jù)色澤根蒂敲聲好瓜青綠蜷縮濁響是烏黑蜷縮濁響是青綠硬挺清脆否烏黑稍蜷沉悶否類別標(biāo)記(label)訓(xùn)練?=

是新數(shù)據(jù)樣本(淺白,蜷縮,濁響,?)類別標(biāo)記未知使用學(xué)習(xí)算法(learning

algorithm)數(shù)據(jù)集:訓(xùn)練集、測(cè)試集示例(instance),樣例(example),樣本(sample)屬性(attribute),

特征(feature)屬性值屬性空間,

樣本空間,

輸入空間特征向量(feature

vector)標(biāo)記空間,

輸出空間分類,

回歸二分類,

多分類監(jiān)督學(xué)習(xí)(supervised

learning)無(wú)監(jiān)督學(xué)習(xí)(unsupervised

learning)強(qiáng)化學(xué)習(xí)(reinforcement

learning)假設(shè)(hypothesis)真相(ground-truth)學(xué)習(xí)器(learner)潛在意義訓(xùn)練集測(cè)試集特征標(biāo)記橫:輸?(數(shù)據(jù))

->

輸出(標(biāo)記)縱:歷史(數(shù)據(jù))->未來(lái)(數(shù)據(jù))機(jī)器學(xué)習(xí):面向未來(lái)的技術(shù)學(xué)習(xí)的目標(biāo)機(jī)器學(xué)習(xí)技術(shù)的根本目標(biāo)就是模型具有泛化能力!“簡(jiǎn)單理解”:應(yīng)對(duì)未見(jiàn)樣本的預(yù)測(cè)能力未來(lái)不可知,依靠“合理假設(shè)”,利用歷史數(shù)據(jù)估計(jì)模型泛化能力如:歷史和未來(lái)數(shù)據(jù)來(lái)自于相同的分布(I.I.D.

假設(shè))MachineLearning=task+data+objective+algorithm--Tom

Mitchell任務(wù)

數(shù)據(jù)

目標(biāo)

算法Learning=Task+Data+objective+

Algorithm任務(wù)通??梢灾笇W(xué)習(xí)一個(gè)從特征空間到類別空間的映射

??:??

??以西瓜任務(wù)為例:??:西瓜的特征,如顏色、根蒂的蜷縮程度、敲擊的聲音等??:西瓜是好還是壞??通常來(lái)自一個(gè)約定好的空間?,即??

??色澤根蒂敲聲好瓜青綠蜷縮濁響是烏黑蜷縮濁響是青綠硬挺清脆否烏黑稍蜷沉悶否Learning=Task+Data+objective+

Algorithm分類任務(wù):

??包含若干離散的屬性值二分類:{0,1},K分類{0,1,…K}垃圾郵件分類欺詐檢測(cè)動(dòng)物識(shí)別動(dòng)作分類Learning=Task+Data+objective+

Algorithm回歸任務(wù):

??通常是實(shí)數(shù)值外賣送達(dá)的時(shí)間方向盤旋轉(zhuǎn)幅度油門幅度剎車幅度自動(dòng)駕駛:方向盤旋轉(zhuǎn)的幅度、油門幅度、剎車幅度Learning=Task+Data+objective+

Algorithm聚類任務(wù):把數(shù)據(jù)集中的樣本劃分為若干個(gè)子集推薦系統(tǒng):商品、用戶聚類區(qū)域(縣)投資網(wǎng)絡(luò)社區(qū)檢測(cè)Learning=Task+Data+objective+

Algorithm降維任務(wù):降低特征維度,用更少的特征表示數(shù)據(jù)Learning=Task+Data+objective+

Algorithm訓(xùn)練數(shù)據(jù):訓(xùn)練機(jī)器學(xué)習(xí)模型的基礎(chǔ)資源監(jiān)督學(xué)習(xí):??!"

= ??#,

??#

, ??$,??$

,

? ??%,??%無(wú)監(jiān)督學(xué)習(xí):??!"

=

{??#,

??$,

?

??%)}半監(jiān)督學(xué)習(xí):

??!"

=

{

??#,

??#

, ??$,??$

,

? ??!,??!

,??!&#,???%}測(cè)試數(shù)據(jù):評(píng)估模型的性能,在訓(xùn)練過(guò)程中無(wú)法見(jiàn)到??!"={

??#,

??#

, ??$,??$

,

? ??%,??%

}驗(yàn)證數(shù)據(jù):用于訓(xùn)練過(guò)程中輔助評(píng)估模型的性能Learning=Task+Data+objective+

Algorithm監(jiān)督學(xué)習(xí):所有訓(xùn)練樣本均有對(duì)應(yīng)的標(biāo)注Learning=Task+Data+objective+

Algorithm無(wú)監(jiān)督學(xué)習(xí):所有訓(xùn)練樣本均沒(méi)有標(biāo)注Learning=Task+Data+objective+

Algorithm半監(jiān)督學(xué)習(xí):部分?jǐn)?shù)據(jù)有標(biāo)注,部分?jǐn)?shù)據(jù)無(wú)標(biāo)注Learning=Task+Data+objective+

Algorithm強(qiáng)化學(xué)習(xí):標(biāo)記信息延遲的監(jiān)督學(xué)習(xí)問(wèn)題Learning=Task+Data+objective+

Algorithm評(píng)價(jià)指標(biāo)/損失函數(shù):反映了模型??的性能好壞,用于指導(dǎo)模型訓(xùn)練分類問(wèn)題:正確率:模型預(yù)測(cè)正確的概率P(??

?? =

??),)

??(????))*+=

??))回歸問(wèn)題:均方誤差(Mean

SquaredError),)

??

?? ???

-)*+Learning=Task+Data+objective+

Algorithm機(jī)器學(xué)習(xí)算法??輸入:訓(xùn)練數(shù)據(jù)集??!",評(píng)價(jià)指標(biāo)??(??)/損失函數(shù)????????(??),??的函數(shù)空間?輸出:學(xué)得的模型??學(xué)習(xí)算法運(yùn)行的過(guò)程稱為模型的訓(xùn)練過(guò)程即,在所有可能的??組成的空間中進(jìn)行搜索的過(guò)程經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical

risk

minimization)min.∈?D1,2~4[????????????,??

]學(xué)習(xí)目標(biāo):在空間?中尋找能夠在整個(gè)數(shù)據(jù)分布上表現(xiàn)最好的模型

??.∈?)*+min)

??????????

??) ,

??)現(xiàn)實(shí)任務(wù)中,無(wú)法得知完整的數(shù)據(jù)分布,只能獲取訓(xùn)練數(shù)據(jù)假設(shè)所有訓(xùn)練樣本都是獨(dú)立地從這個(gè)分布中采樣而得5泛化風(fēng)險(xiǎn)經(jīng)驗(yàn)風(fēng)險(xiǎn)例:房?jī)r(jià)預(yù)測(cè)面積房?jī)r(jià)100300110330180540任務(wù):訓(xùn)練機(jī)器學(xué)習(xí)模型,能夠根據(jù)房子的面積預(yù)測(cè)出房?jī)r(jià)訓(xùn)練數(shù)據(jù)假設(shè)??是線性函數(shù)??=???

??Objective:

損失函數(shù)為均方誤差????????????

,

?? =(???????

-測(cè)試數(shù)據(jù)wmin300????100

$

+ 330????110

$

+ 540????180

$求得:??

=

3面積房?jī)r(jià)140?例:畫作鑒別假設(shè)??是線性函數(shù):??

=

??6??

+

??將像素轉(zhuǎn)換為向量??b??梵高勃魯蓋爾其他人機(jī)器學(xué)習(xí)常用算法線性回歸算法

(LinearRegression)邏輯回歸算法

(Logistic

Regression)支持向量機(jī)算法

(Support

VectorMachine,SVM)k-近鄰算法

(K-Nearest

Neighbors,

KNN)k-Means算法決策樹(shù)算法

(Decision

Tree)隨機(jī)森林算法

(Random

Forest)樸素貝葉斯算法

(Naive

Bayes)神經(jīng)網(wǎng)絡(luò)

(NeuralNetwork)…機(jī)器學(xué)習(xí)常用算法Sklearn/示例訓(xùn)練階段:>>>importnumpyas

np>>>fromsklearn.linear_modelimport

LinearRegression>>>X=np.array([100],[110],

[180]])>>>y=np.array([300],[330],

[540]])>>>reg=LinearRegression().fit(X,

y)測(cè)試階段:>>>

reg.predict(np.array([[140]]))示例深度學(xué)習(xí)深度學(xué)習(xí):通常是指以深度神經(jīng)網(wǎng)絡(luò)為模型的一類機(jī)器學(xué)習(xí)方法深度學(xué)習(xí)2006年,Hinton發(fā)表了深度學(xué)習(xí)的science文章2012年,

Hinton

組參加ImageNet

競(jìng)賽,

使用

CNN模型以超過(guò)

第二名10個(gè)百分點(diǎn)的成績(jī)奪得當(dāng)年競(jìng)賽的冠軍伴隨著數(shù)據(jù)量的增加,和各種高性能計(jì)算設(shè)備的出現(xiàn),深度學(xué)習(xí)在許多領(lǐng)域都取得了較好的效果深度學(xué)習(xí)“深度學(xué)習(xí)三駕馬車”獲2018年度圖靈獎(jiǎng)深度學(xué)習(xí)最重要的作用:表示學(xué)習(xí)深度學(xué)習(xí)常用框架泛化風(fēng)險(xiǎn)

vs.

經(jīng)驗(yàn)風(fēng)險(xiǎn)泛化誤差:在“未來(lái)”樣本上的誤差經(jīng)驗(yàn)誤差:在訓(xùn)練集上的誤差,亦稱“訓(xùn)練誤差”泛化誤差越小越好經(jīng)驗(yàn)誤差是否越小越好?NO!

因?yàn)闀?huì)出現(xiàn)“過(guò)擬合”(overfitting)過(guò)擬合(overfitting)

vs.欠擬合(underfitting)underfittingGood

fitoverfitting過(guò)擬合(overfitting)

vs

欠擬合(underfitting)一般而言,訓(xùn)練樣本越少,模型越復(fù)雜,越容易過(guò)擬合機(jī)器學(xué)習(xí)是無(wú)所不能的嗎?并非“一切皆可學(xué)”,例如:特征信息不充分例如,重要特征信息沒(méi)有獲得樣本信息不充分例如,僅有很少的數(shù)據(jù)樣本哪個(gè)算法更好?沒(méi)有免費(fèi)的午餐!No

Free

Lunch

定理:一個(gè)算法????若在某些問(wèn)題上比另一個(gè)算法????好,必存在另一些問(wèn)題,????比????好。A更好?

YES!B更好?

YES!NFL定理的寓意NFL定理的重要前提:所有“問(wèn)題”出現(xiàn)的機(jī)會(huì)相同、或所有問(wèn)題同等重要實(shí)際情形并非如此;我們通常只關(guān)注自己正在試圖解決的問(wèn)題脫離具體問(wèn)題,空泛地談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無(wú)意義

!具體問(wèn)題,具體分析!現(xiàn)實(shí)機(jī)器學(xué)習(xí)應(yīng)用把機(jī)器學(xué)習(xí)的“十大算法”“二十大算法”都弄熟,逐個(gè)試一遍,是否就“止于至善”

了?NO

!機(jī)器學(xué)習(xí)并非“十大套路”“二十大招數(shù)”

的簡(jiǎn)單堆積現(xiàn)實(shí)任務(wù)千變?nèi)f化,以有限的“套路”應(yīng)對(duì)無(wú)限的“問(wèn)題”

,焉有不?。孔顑?yōu)方案往往來(lái)自:按需設(shè)計(jì)、度身定制機(jī)器學(xué)習(xí)有哪些應(yīng)用?搜索引擎機(jī)器學(xué)習(xí)技術(shù)正在支撐著各種搜索引擎模型機(jī)器學(xué)習(xí)搜索:南京大學(xué)……搜索引擎自動(dòng)駕駛車載攝像頭機(jī)器學(xué)習(xí)模型方向盤旋轉(zhuǎn)幅度油門幅度剎車幅度車載雷達(dá)控制汽車DARPAGrandChallenge–2004荒野中的無(wú)人車競(jìng)賽美國(guó)在20世紀(jì)80年代就開(kāi)始研究基于機(jī)器學(xué)習(xí)的汽車自動(dòng)駕駛技術(shù)Google

無(wú)人駕駛汽車

2016新加坡無(wú)人駕駛出租車

2016視頻理解計(jì)算機(jī)可初步理解視頻內(nèi)容圖像生成根據(jù)文字描述生成相應(yīng)圖像幫助奧馬巴競(jìng)選《時(shí)代》周刊這個(gè)團(tuán)隊(duì)行動(dòng)保密,定期向奧巴馬報(bào)送結(jié)果;被奧巴馬公開(kāi)稱為總統(tǒng)競(jìng)選的“核武器按鈕”(“They

are

our

nuclear

codes”)通過(guò)機(jī)器學(xué)習(xí)模型個(gè)性化宣傳喜歡寵物?奧巴馬也有寵物!喜歡籃球?奧巴馬也是籃球迷!廣告購(gòu)買精準(zhǔn)定位不同選民群體,建議購(gòu)買冷門廣告時(shí)段,廣告資金效率比2008年提高14%籌款籌款晚宴,在哪兒吃?和誰(shuí)吃?和喬治克魯尼/奧巴馬共進(jìn)晚餐對(duì)于年齡在40-49歲的美西地區(qū)女性頗具吸引力……

喬治克魯尼為奧巴馬舉辦的競(jìng)選籌資晚宴成功募集到1500萬(wàn)美元博弈AI計(jì)算/預(yù)測(cè)出較高勝率的走法?大量棋譜如何生成/利用公開(kāi)的計(jì)算難題,意義重大熟知的日常游戲,影響深遠(yuǎn)戰(zhàn)場(chǎng)戰(zhàn)術(shù)(美)HybridLogic

Navy:一套自動(dòng)的基于機(jī)器學(xué)習(xí)的代理,幫助人類和無(wú)人機(jī)理解戰(zhàn)術(shù)狀況,及時(shí)做出最佳決策,以對(duì)付海軍作戰(zhàn)中的威脅/index.php/portfolio/hybrid-logic-navy2016

Commercial分類、預(yù)測(cè)規(guī)劃、強(qiáng)化眼鏡蛇系統(tǒng):CoastalBattlefieldReconnaissanceandAnalysis

(COBRA)用于頻海戰(zhàn)斗艦,執(zhí)行無(wú)人空中戰(zhàn)術(shù)偵察。在兩棲攻擊之前,于海浪區(qū)和海灘區(qū)探測(cè)和定位雷區(qū)和障礙物/navydata/fact_display.asp?cid=2100&ti

d=1237&ct=2/n15_1/N151-049.htm2015USNavyOfficial自動(dòng)目標(biāo)識(shí)別、監(jiān)督學(xué)習(xí)以及在線學(xué)習(xí)技術(shù)被作為核心技術(shù)并多次提及戰(zhàn)場(chǎng)戰(zhàn)術(shù)(英)無(wú)人偵察快艇:雷達(dá) 聲吶 視覺(jué)感知視和間諜活動(dòng),或者用于海岸巡邏http://www.telegraph.co.uk/news/2016/09/05/navy-unveils-robot-spy-

spe

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論