版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)中的數(shù)據(jù)分析摘要時代的變遷,迎來了科學(xué)技術(shù)的創(chuàng)新,同樣也迎來了經(jīng)濟(jì)的快速發(fā)展。而網(wǎng)絡(luò)已經(jīng)成為了我國人們的生活中的習(xí)慣,早已是必不可缺的東西了,這也成為了社會發(fā)展的前提。傳統(tǒng)計算機(jī)模式與MATLAB軟件技術(shù)相比較,傳統(tǒng)軟件運行起來較為復(fù)雜。以此基于MATLAB軟件下的網(wǎng)絡(luò)數(shù)據(jù)技術(shù),它以高速化、關(guān)聯(lián)化的優(yōu)勢成為人們眼中的焦點。本文針對傳統(tǒng)網(wǎng)絡(luò)軟件模式中出現(xiàn)的問題,對基于MATLAB大數(shù)據(jù)技術(shù)進(jìn)行探究。
關(guān)鍵詞MALAB軟件;網(wǎng)絡(luò)媒體;大數(shù)據(jù);技術(shù)研究DataAnalysisinLargeDataAbstractThechangesofthetimeshaveusheredintheinnovationofscienceandtechnology,aswellastherapiddevelopmentofeconomy.Andthenetworkhasbecomeahabitofourpeople'slife,haslongbeenanindispensablething,whichhasalsobecomeaprerequisiteforsocialdevelopment.ComparedwiththeMATLABsoftwaretechnology,thetraditionalcomputermodelismorecomplex.BasedonthenetworkdatatechnologyunderthesoftwareofMATLAB,ithasbecomethefocusofpeople'seyeswiththeadvantagesofhigh-speedandrelevance.Aimingattheproblemsinthetraditionalnetworksoftwaremodel,thispaperexploresthelargedatatechnologybasedonMATLAB.KeywordsMALABsoftware;networkmedia;bigdata;technologyresearch目錄第1章緒論 31.1 引言 31.2 研究背景 31.3研究意義 51.4研究現(xiàn)狀 5第2章預(yù)備知識 52.1 線性代數(shù)與矩陣論基礎(chǔ) 52.2 MATLAB數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理和矩陣生成 72.3MATLAB圖像處理函數(shù) 92.4數(shù)據(jù)降維與矩陣分解算法 11第3章手寫字體識別 153.1 文本識別主要方法與技術(shù) 153.2手寫字體的分類 153.3 阿拉伯?dāng)?shù)字識別 173.4中、英文手寫字體的識別 19第4章基于MATLAB的手寫字體分析與識別 214.1 MATLAB常用函數(shù)及處理 214.2手寫字體自動識別神經(jīng)網(wǎng)絡(luò)設(shè)計 234.3手寫字體識別訓(xùn)練與實例 27第5章總結(jié)與展望 315.1 本文主要工作 315.2進(jìn)一步思考:動態(tài)識別 335.3多維矩陣的應(yīng)用 33致謝 參考文獻(xiàn) 33緒論引言隨著需求的增加,傳統(tǒng)技術(shù)的統(tǒng)計方法逐漸被大數(shù)據(jù)取代,成為信息收集和設(shè)定的主要形式。大數(shù)據(jù)又作為"巨大的數(shù)據(jù)"被知道。因此,管理模式不能被傳統(tǒng)的過程分析,它在生產(chǎn)和人生中扮演著越來越重要的角色。1.2研究背景隨著計算機(jī)存儲容量的提高和復(fù)雜算法的開發(fā),近年來,數(shù)據(jù)量在指數(shù)函數(shù)上增加了。這些動向使科學(xué)技術(shù)的發(fā)展與日俱增,商業(yè)模式也發(fā)生了破壞性變化。分析時代:世界大數(shù)據(jù)競爭是McKinseyGlobalInstitute(MGI)在2016年12月發(fā)表的報告。年前,MGI指出,大數(shù)據(jù)分析可在位置上的服務(wù)、美國的零售、制造、歐盟公共部門和美國的健康管理方面有較大的增長潛力。數(shù)據(jù)已商業(yè)化,形成了網(wǎng)絡(luò)、智能手機(jī)、傳感器、相機(jī)、結(jié)算系統(tǒng)等數(shù)據(jù)產(chǎn)生龐大商業(yè)價值的資產(chǎn)。蘋果,亞馬遜,F(xiàn)acebook,Google,一般的微軟和阿里巴巴,利用大數(shù)據(jù)分析和獨特的優(yōu)勢改變了競爭的基礎(chǔ),建立了新的商業(yè)模式。稀有數(shù)據(jù)的所有者使用數(shù)字網(wǎng)絡(luò)平臺獨占一些市場。他們可以用獨特的方法綜合和分析數(shù)據(jù),并提供寶貴的數(shù)據(jù)分析,使他們幾乎能夠獲勝“全部獲勝”。2011年,全球數(shù)據(jù)儲量達(dá)到1.8zb。與2011年相比,2015年大數(shù)據(jù)增加了近4倍。在下一個10年,全球數(shù)據(jù)存儲將增加10倍。大數(shù)據(jù)將增強(qiáng)產(chǎn)業(yè)競爭力,成為創(chuàng)新商業(yè)模式的新方法。大數(shù)據(jù)完全應(yīng)用于企業(yè),實現(xiàn)了巨大的商業(yè)價值。梅西百貨店的sas系統(tǒng)可以根據(jù)7300項的需求和庫存來實現(xiàn)實時價格。零售低聚合物Morma使用語義數(shù)據(jù)技術(shù)通過最新的搜索引擎Polaris,提高10%到15%在線購物的完成率。中國的信息和數(shù)據(jù)資源80%以上都在政府部門手中,但是,很多數(shù)據(jù)被世界孤立而浪費了。2015年,國家會議發(fā)布了一個行動平臺,推動數(shù)據(jù)的發(fā)展。而且,這顯然需要“政府?dāng)?shù)據(jù)統(tǒng)一開放的平臺必須在2018年底前建設(shè)”。今年5月,國務(wù)院總務(wù)局發(fā)表了政府信息系統(tǒng)的合并和共享的實施計劃,促進(jìn)了政府?dāng)?shù)據(jù)向社會開放。大數(shù)據(jù)可以使人們從舊的價值觀和發(fā)展觀中解放出來,改變?nèi)藗儗ぷ?、生活觀的看法,從新展望中認(rèn)識到科學(xué)技術(shù)的進(jìn)步和復(fù)雜技術(shù)的出現(xiàn)。大數(shù)據(jù)應(yīng)用程序非常廣泛。通過對大規(guī)模數(shù)據(jù)的分析,利用數(shù)據(jù)的完整性和出現(xiàn)、相關(guān)性、不確定性、多樣性和非線性性、平行性、實時性對公共交通工具、公共安全性、社會管理、其他領(lǐng)域的大數(shù)據(jù)的應(yīng)用進(jìn)行了研究。大的數(shù)據(jù),與云計算和互聯(lián)網(wǎng)的東西一起,使很多的事成為可能,新的經(jīng)濟(jì)增長的要點。隨著以數(shù)據(jù)科學(xué)為中心的計算機(jī)技術(shù)的快速發(fā)展,大數(shù)據(jù)推動了社會科學(xué)、自然科學(xué)等科學(xué)研究的發(fā)展。因此,對內(nèi)蒙古國家和全國各大數(shù)據(jù)的研究具有深遠(yuǎn)的重要性。1.3研究意義隨著信息互聯(lián)網(wǎng)的發(fā)展,人類進(jìn)入了對時代發(fā)展產(chǎn)生巨大影響的數(shù)據(jù)新時代。2017年8月30日,國家旅游局、云南辦事處、中國電信集團(tuán)聯(lián)合結(jié)成“旅游消費合作研究所”,首次發(fā)表“2017年上半年中國旅游消費大數(shù)據(jù)報告”的技術(shù)領(lǐng)域、大數(shù)據(jù)能力、市場資源和經(jīng)驗。通過簽署“旅游消費數(shù)據(jù)共同研究所”,我們可以共享資源,互補(bǔ)互惠,共同開發(fā)雙贏。加強(qiáng)各領(lǐng)域合作,有利于促進(jìn)國內(nèi)旅游轉(zhuǎn)變和高度化,促進(jìn)在新的正常情況下發(fā)展和應(yīng)用全球旅游。2017年上半年,“雖說是旅游消費量,但卻是數(shù)據(jù)共同研究所”的第一個重要研究成果。旅游消費有普及的傾向。系統(tǒng)預(yù)測了旅游產(chǎn)業(yè)今后發(fā)展的信息化、數(shù)字化、智能化提供基準(zhǔn)和指導(dǎo)的2017年上半年路徑優(yōu)化特征。1.4研究現(xiàn)狀大的數(shù)據(jù)參考由特定時間范圍的常規(guī)軟件工具捕獲、管理和無法處理的數(shù)據(jù)集合。它需要一個新的處理模式,具有強(qiáng)大的決策力、洞察力和進(jìn)程優(yōu)化能力,具有巨大的增長速度和更強(qiáng)的決策能力,信息資產(chǎn)多樣化,數(shù)據(jù)充滿了人類經(jīng)濟(jì)和社會角度。準(zhǔn)確地說,由于其巨大的商業(yè)價值,國內(nèi)外學(xué)者對理論、技術(shù)和實踐進(jìn)行了徹底的研究。1980年,阿爾文·托弗勒作為「彩色運動的第三波」考慮了大的數(shù)據(jù)。IBM建議大數(shù)據(jù)具有5V特性,即音量(大)、速度(快)、綜藝(多樣性)、價值(低值密度)、真實性(可靠性)。2012年,Gartner相信不到2年,大的數(shù)據(jù)成為新技術(shù)開發(fā)的熱點。大規(guī)模和多樣化的信息資產(chǎn)需要較大的處理模式,以便提供數(shù)據(jù)信息用戶的有效信息,提高企業(yè)的能力,認(rèn)識危險性,優(yōu)化過程,做出更準(zhǔn)確的決策。維克特指出,大數(shù)據(jù)時代:為了獲得大數(shù)據(jù)時代的寶貴信息,人生發(fā)生了巨大的變化,工作和思想。此外,我們應(yīng)該注意數(shù)據(jù)之間的相關(guān)性,而不是探索不可捉摸的因果律,追加復(fù)雜的數(shù)據(jù)而不是追求數(shù)據(jù)的正確性。在公布的數(shù)字提取器中,歐盟表示,公開數(shù)據(jù)的市場價值約為32億歐元,公開數(shù)據(jù)和再利用可以創(chuàng)造新的商業(yè)和就業(yè)機(jī)會。開放銀行和公共數(shù)據(jù),提高政府的開放性和透明度,可以給人們更多的選擇和價值的商品。大不列顛對大的數(shù)據(jù)技術(shù)的開發(fā)和研究非常重要。政府投資6000萬英鎊,集中于信息產(chǎn)業(yè)新大數(shù)據(jù)技術(shù)開發(fā),支持相關(guān)研究機(jī)構(gòu)和研發(fā)工作。我們政府、產(chǎn)業(yè)和研究人員也進(jìn)行了相應(yīng)的理論和實踐研究。2015年9月,國家會議發(fā)行了促進(jìn)大數(shù)據(jù)發(fā)展的行動平臺(以下簡稱平臺),系統(tǒng)地開展大數(shù)據(jù)開發(fā)。2016年3月17日公布了中華人民共和國國家經(jīng)濟(jì)社會發(fā)展的第13次5年計劃的概要。大規(guī)模數(shù)據(jù)應(yīng)作為基本戰(zhàn)略資源,促進(jìn)大規(guī)模數(shù)據(jù)開發(fā)的行動應(yīng)該在全部輪流中實施,必須加快數(shù)據(jù)資源的共享和開放,并加快產(chǎn)業(yè)變化、產(chǎn)業(yè)轉(zhuǎn)型高度化和社會性應(yīng)該推進(jìn)治理。創(chuàng)新包括:加快開放政府?dāng)?shù)據(jù)共享,促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展。預(yù)備知識2.1線性代數(shù)與矩陣論基礎(chǔ)線性代數(shù)是數(shù)學(xué)領(lǐng)域。研究的目的是矢量、矢量空間(線性空間)、線性變換和有限維線性方程式。矢量空間是現(xiàn)代數(shù)學(xué)中重要的課題。因此,線性代數(shù)被廣泛用于抽象代數(shù)和函數(shù)解析。線性代數(shù)的理論一般化為運算符理論。線性代數(shù),因為科學(xué)的研究的非線性模型,作為通常線性模型能近似,在自然和社會科學(xué)廣泛地被使用。線性代數(shù)主要是處理線性關(guān)系的代數(shù)的分支。線性關(guān)系意味著數(shù)學(xué)對象之間的關(guān)系用單一的形式表示。例如,在分析幾何學(xué)中,平面上的直線的方程式是二次線性方程式,空間平面的方程式是三次線性方程式,空間直線被認(rèn)為是兩個平面的交點。把具有n個未知數(shù)的一次方程式稱為線性方程式。變量為一次函數(shù)的函數(shù)稱為線性函數(shù)。線性關(guān)系問題被稱為線性問題。線性方程式的解法是最簡單的線性問題。所謂“線性”,指的就是如下的數(shù)學(xué)關(guān)系:
其中,f叫線性算子或線性映射。所謂“代數(shù)”,指的就是用符號代替元素和運算,也就是說:我們不關(guān)心上面的x,y是實數(shù)還是\t"/item/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0/_blank"函數(shù),也不關(guān)心f是\t"/item/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0/_blank"多項式還是微分,我們統(tǒng)一把他們都抽象成一個記號,或是一類矩陣。合在一起,線性代數(shù)研究的就是:滿足線性關(guān)系
的\t"/item/%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0/_blank"線性算子f都有哪幾類,以及他們分別都有什么性質(zhì)。在數(shù)學(xué)中,矩陣是復(fù)數(shù)或?qū)崝?shù)值的集合,原本配置在從系數(shù)的正則矩陣和方程式的常數(shù)導(dǎo)出的長方形的排列中。這個概念是19世紀(jì)由英國數(shù)學(xué)家凱利提出的。矩陣是高等代數(shù)的一般工具,另外,在統(tǒng)計分析等應(yīng)用數(shù)學(xué)上也很普遍。在物理學(xué)中,矩陣用于電路、力學(xué)、光學(xué)、量子物理學(xué)。在計算機(jī)科學(xué)方面,三維動畫也需要矩陣。矩陣的動作在數(shù)值解析的領(lǐng)域是重要的問題。將矩陣分解成簡單矩陣的組合可以使理論和實際矩陣的操作更加簡單。對于一些具有廣泛應(yīng)用和特殊格式的矩陣,如疏散矩陣和準(zhǔn)對角矩陣,有特定的高速算法。關(guān)于矩陣?yán)碚摰恼归_和應(yīng)用請參照矩陣?yán)碚?。在天體物理學(xué)和量子力學(xué)的領(lǐng)域,也出現(xiàn)了無限次元矩陣。數(shù)值分析的主要領(lǐng)域是為數(shù)個世紀(jì)以來被作為對象的擴(kuò)展的研究領(lǐng)域——數(shù)組計算提供了有效的算法的開發(fā)。矩陣分解法簡化理論和實用計算。為特定矩陣結(jié)構(gòu)(諸如疏散矩陣和近角矩陣)定制的算法加快了有限元件法和其它計算中的計算。無限矩陣發(fā)生在行星理論和原子論上。無限矩陣的簡單示例是表示函數(shù)的taylor級數(shù)的微分運算符的矩陣。由m×n個數(shù)aij排成的m行n列的數(shù)表稱為m行n列的矩陣,簡稱m×n矩陣。記作:這m×n個數(shù)稱為矩陣A的元素,簡稱為元,數(shù)aij位于矩陣A的第i行第j列,稱為矩陣A的(i,j)元,以數(shù)aij為(i,j)元的矩陣可記為(aij)或(aij)m×n,m×n矩陣A也記作Amn。元素是\t"/item/%E7%9F%A9%E9%98%B5/_blank"實數(shù)的矩陣稱為\t"/item/%E7%9F%A9%E9%98%B5/_blank"實矩陣,元素是\t"/item/%E7%9F%A9%E9%98%B5/_blank"復(fù)數(shù)的矩陣稱為\t"/item/%E7%9F%A9%E9%98%B5/_blank"復(fù)矩陣。而行數(shù)與列數(shù)都等于n的矩陣稱為n階矩陣或n階方陣。2.2MATLAB數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理和矩陣生成數(shù)據(jù)聚類分析的形式,就是網(wǎng)絡(luò)媒體中大數(shù)據(jù)技術(shù)的重要表現(xiàn)之一。如圖一所示,該圖是網(wǎng)絡(luò)媒體的大數(shù)據(jù)聚類分析結(jié)構(gòu)示意圖。我們可以從圖中看出,它的整個過程非常合理、井然有序。第一,系統(tǒng)自動輸入操作應(yīng)用規(guī)則以讀取數(shù)據(jù)中心的應(yīng)用模式。然后,將各數(shù)據(jù)的生成點按順序進(jìn)行分類,設(shè)定為初始化處理。當(dāng)數(shù)據(jù)達(dá)到一定量的時候,系統(tǒng)根據(jù)接近的原理被分割。分割后的值由計算類的中心管理。當(dāng)整個處理完成后,可以確定是否修改了類中心,最終可以根據(jù)整個結(jié)果來計算較大的數(shù)據(jù)。這種大的數(shù)據(jù)統(tǒng)計方法不僅有效,在地區(qū)空間中也可以重建網(wǎng)絡(luò)媒體平臺。面對非結(jié)構(gòu)化和散射數(shù)據(jù),MATLAB軟件進(jìn)入高速運行狀態(tài)。首先,使用媒體下的網(wǎng)絡(luò)應(yīng)用端口收集數(shù)據(jù),用matlab軟件對照并重新組合收集的數(shù)據(jù)。這樣,當(dāng)用戶搜索信息數(shù)據(jù)時,只要他們在網(wǎng)絡(luò)媒體平臺下搜索,他們就沒有線索,他們就能完成整個過程的重要部分。最重要的是,這一步提供了深入的數(shù)據(jù)采礦的重要基礎(chǔ)。大數(shù)據(jù)的深度挖掘:您可以想象,大數(shù)據(jù)包的深度挖掘是網(wǎng)絡(luò)媒體的重要組成部分。深度挖掘數(shù)據(jù)模式主要包括4個模塊。第一個是數(shù)據(jù)關(guān)聯(lián)解析。如果數(shù)據(jù)中的兩個或兩個以上數(shù)據(jù)之間的關(guān)系,則該表達(dá)可以稱為關(guān)聯(lián)性。關(guān)聯(lián)性分析主要對整個媒體網(wǎng)絡(luò)平臺上的每個用戶的身份進(jìn)行分類,將集成系統(tǒng)的組件一起分割,計數(shù)獨立的模塊,找到網(wǎng)絡(luò)的隱藏鏈接。另外,也可以將鍵模塊定量地設(shè)定,并將其他模塊定量地變化的模塊分割。還有MATLAB軟件的統(tǒng)計工具箱。系統(tǒng)可以計算模塊之間的分散,并根據(jù)總和找到它們的關(guān)系。第二,數(shù)據(jù)可視化。數(shù)據(jù)的可視化是最重要的部分之一。MATLAB軟件具有超視覺功能。這可以通過系統(tǒng)將數(shù)據(jù)轉(zhuǎn)換成二維或三維圖形。操作員可以清楚地看到計算機(jī)數(shù)據(jù)的修改規(guī)則。例如,企業(yè)想對產(chǎn)品操作上的風(fēng)險做統(tǒng)計。MATLAB軟件可以表示變量之間的比例關(guān)系,并創(chuàng)建可變曲線風(fēng)險評估圖表。通過這種可視化的結(jié)果,企業(yè)經(jīng)理可以直觀地了解產(chǎn)品是否有開發(fā)的余地,是否能夠適應(yīng)公共的方向,并做出最正確的決定。第三,異常值的檢測。在媒體網(wǎng)絡(luò)的大規(guī)模數(shù)據(jù)技術(shù)管理下,大規(guī)模信息的特征在matlab系統(tǒng)中被顯示。可以看清哪個值是典型的。在曲線變化的過程中,經(jīng)常有伴隨非常大的變動的若干像。而且,這還影響表示數(shù)據(jù)不同、進(jìn)行正確判斷的決策者。由于在MATLAB系統(tǒng)中使用奇偶校驗和R乘指數(shù)F的計算術(shù)來獲得標(biāo)準(zhǔn)值,然后將其他參數(shù)進(jìn)行比較,因此人們能夠更好地理解偏差。2.3MATLAB圖像處理函數(shù)1、圖像的變換
①ft2:
f2函數(shù)用于數(shù)字圖像的二維傅立葉變換,如:
i=imread('104_
_8.tif);j=ft2();
②fft2:
ff2
函數(shù)用于數(shù)字圖像的二-維傅立葉反變換,如:
i=imread('104_
8.tif);j=ft2(i);k=ifft2(i);
2、模擬噪聲生成函數(shù)和預(yù)定義濾波器
①imnoise:
用于對圖像生成模擬噪聲,如:i=imread('104_
8.tif);
j=imnoise(,'gaussian'
,0,0.02);%模擬高斯噪聲
②fspecial:
用于產(chǎn)生預(yù)定義濾波器,如:
h=fspecial'sobel");%sobel水平邊緣增強(qiáng)濾波器h=fspecial('gaussian');%高斯低通:濾波器h=fspecial(laplacian');%拉普拉斯濾波器
h=fspecial(log');%高斯拉普拉斯(LoG)
濾波器h=fspecial'average'
);%均值濾波器
2、圖像的增強(qiáng)
①直方圖:
imhist
函數(shù)用于數(shù)字圖像的直方圖顯示,如:i=imread(104_
8.tif);imhist(i);
②直方圖均化:
histeq
函數(shù)用于數(shù)字圖像的直方圖均化,如:
,i=imread('104_
8.tif);j=histeq(i);
③對比度調(diào)整:
imadjust
函數(shù)用于數(shù)字圖像的對比度調(diào)整,如:
i=imread('104_
8.tif);j=imadjust(,[0.3,0.7],[]);
④對數(shù)變換:
log
函數(shù)用于數(shù)字圖像的對數(shù)變換,如:i=imread(104_
8.tif);j=double(i);
k=log(i);
⑤基于卷積的圖像濾波函數(shù):
filter2
函數(shù)用于圖像濾波,如:
i=imread('104_
8.tif);h=[1,2,1;0,0,0;1,2,-1];j=filter2(h,i);
⑥線性濾波:利用二維卷積conv2濾波,如:
i=imread('104_
8.tif);h=[1,1,1;1,1,1;1,1,1];h=h/9;
j=conv2(i,h);
⑦中值濾波:
medfilt2
函數(shù)用于圖像的中值濾波,如:i=imread(104_
8.tif);
j=medfilt2();
⑧銳化
(1)利用Sobel算子銳化圖像,如:
i=imread('104_
8.tif);
h=[1,2,1;0,0,0;-1,2,-1];%Sobel算子j=filter2(h,i);
(2)利用拉氏算子銳化圖像,如:
i=imread('104_
8.tif);j=double(i);
h=[0,1,0;1,-4,0;0,1,0];%拉氏算子k=conv2(j,h,'same');m=j-k;
3、圖像邊緣檢測
①sobel算子如:
i=imread('104_
8.tif);
j
=
edge(,'sobel
,thresh)②prewitt算子如:i=imread('104_
8.tif);
j
=
edge(i,prewitt'
,thresh)roberts?f
3?:
i=imread('104_
8.tif);
j
=
edge(i,'roberts'
,thresh)@log?F
X:
i=imread('104_
8.tif);j
=
edge(i,'log'
,thresh)canny
JF
3:
i=imread('104_
8.tif');
j
=
edge(i,'canny'
,thresh)Zero-Cross
JF
X0:
.i=imread('104_
8.tif');
j
=
edge(i,'zerocross
,thresh)
4、形態(tài)學(xué)圖像處理
①膨脹:是在二值化圖像中“加長’或”變粗”的操作,函數(shù)imdilate執(zhí)行膨脹運算,如:
a=imread(104_
7.tif);
%輸入二值圖像b=[010;111;010];
c=imdilate(a,b);
②腐蝕:函數(shù)imerode執(zhí)行腐蝕,如:a=imread('104_
7.tif);
%輸入二值圖像b=strel('disk,1);
c=imerode(a,b);
③開運算:先腐蝕后膨脹稱為開運算,用imopen來實現(xiàn),如:a=imread('104_
8.tif);b=strel('square',2);
,
c=imopen(a,b);
④閉運算:先膨脹后腐蝕稱為閉運算,用imclose
來實現(xiàn),如:a=imread('104_
8.tif);b=strel('square',2);c=imclose(a,b);2.4數(shù)據(jù)降維與矩陣分解算法次元縮小是許多領(lǐng)域中最重要的研究領(lǐng)域之一。有很多次元縮小的方法。根據(jù)三維縮小的不同方法,生成了基于kohonen自我組織化特征圖(sofm)、主分量分析(p-ca)、多維縮放(md)等維度縮小的許多集群化法。等等)此外,還有基于分形維縮小的特殊維縮小聚合法。kohonen自我組織化特征寫像是基于神經(jīng)網(wǎng)絡(luò)的方法。在保持?jǐn)?shù)據(jù)的近似關(guān)系的同時尋求高維數(shù)據(jù)的低維特征映射。基于這種方法集群高維數(shù)據(jù)的示例性投影聚集法。在kohonen自我組織化特征圖中,競爭層內(nèi)的各神經(jīng)元發(fā)生沖突,獲得神經(jīng)元及其附近與輸入數(shù)據(jù)一樣,更新其權(quán)重向量。在訓(xùn)練了神經(jīng)網(wǎng)絡(luò)之后,根據(jù)神經(jīng)元的加權(quán)向量的匹配,各高維數(shù)據(jù)被投射到這些神經(jīng)元上。SOFM的缺點是不提供用于評估從高維到低維的變換的優(yōu)點和缺點的特定標(biāo)準(zhǔn)。另外,相對于高維數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程的收斂性非常慢。主要成分分析也是廣泛使用的次元縮小法之一。對于含有nm維數(shù)據(jù)的數(shù)據(jù)集,pca法首先計算mxm次數(shù)的共分散矩陣,計算表示原始數(shù)據(jù)的主要特征矩陣的k支配固有向量。由此,能夠?qū)⒃几呔S數(shù)據(jù)投影到由k固有向量表示的方向。投影后的數(shù)據(jù)具有相對低的維度,因此可以使用常規(guī)聚集算法進(jìn)行聚集處理。PCA提供了一些用于確定上述K值的方法,但由于不同的方法所確定的k值大不相同,因此很難找到正確的適當(dāng)?shù)膋值。K.如果值太小,原始數(shù)據(jù)的重要特征就會丟失。P-CA的另一個缺點是空間復(fù)雜度為0(M2),其復(fù)雜度取決于固有值的數(shù)目,且其大于0(M2)的值。為了將pca成熟的想法應(yīng)用到非線性維縮小領(lǐng)域,一些研究人員通過擴(kuò)展線性pca生成了內(nèi)核pca。多維定標(biāo)也是將高維數(shù)據(jù)映射到低維空間的方法。映射過程保持?jǐn)?shù)據(jù)點之間的差(或類似性)。即,在點遠(yuǎn)離時,與原始數(shù)據(jù)集合中的每一者相近的點還接近。這種算法的基本出發(fā)點是數(shù)據(jù)點之間的類似性(或差異)描述??s小三維的目的是搜索保持?jǐn)?shù)據(jù)集合的關(guān)心特性的低維數(shù)據(jù)集合,通過分析低維數(shù)據(jù)來確定對應(yīng)的高維數(shù)據(jù)特性,并獲得數(shù)據(jù)的有效特征以便簡化解析,并可視化數(shù)據(jù)。因此,只要數(shù)據(jù)之間的差保持到最大,就可以獲得有效的低維表示。MDS的缺點是不首先提供確定數(shù)據(jù)如何還原到多個維度的良好原理。這里N是數(shù)據(jù)集的大小?;诜中蔚拇卧s小是近年來備受矚目的一種方法。利用分形理論,首先能夠準(zhǔn)確估計數(shù)據(jù)的固有維度,并提供進(jìn)一步縮小維度的指導(dǎo)。與估計固有值的其他方法不同,基于片假名的方法可以獲得非整數(shù)值即片假名維度的固有值。在分立體的定義中有很多不同的記述,其中箱式計數(shù)維度和相關(guān)維度被廣泛使用。根據(jù)這些對應(yīng)的尺寸的推定,開發(fā)出了為縮小尺寸打下良好基礎(chǔ)的一系列不同的方法。矩陣分解算法:\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"矩陣分解(decomposition,
\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"factorization)是將矩陣拆解為數(shù)個矩陣的乘積,可分為三角分解、滿秩分解、QR分解、Jordan分解和SVD(\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"奇異值)分解等,常見的有三種:1)三角\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"分解法
(TriangularFactorization),2)QR分解法(QRFactorization),3)\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"奇異值分解法(SingularValueDecomposition)。三角分解法三角分解法將正方形矩陣分解為上三角矩陣或下三角矩陣。該分解方法也被稱為LU分解法。其主要目的是簡化大矩陣的矩陣值的計算過程,尋找逆矩陣,解析聯(lián)合方程式。但是,需要注意的是,通過這種分解法獲得的上下三角矩陣并不是唯一的。在某些不同的頂部,您可以找到下面的三角矩陣對,并將兩個三角矩陣對齊,以獲得原始矩陣。MATLAB以lu函數(shù)來執(zhí)行l(wèi)u分解法,其語法為[L,U]=lu(A)。QR分解法分解法是將矩陣分解為通常的正交矩陣和上三角矩陣。MATLAB使用QR函數(shù)來執(zhí)行QR的分解。那個語法是[Q,R]=QR(A)。奇異值分解法\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"奇異值分解
(singularvaluedecomposition,SVD)是另一種正交矩陣\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"分解法;SVD是最可靠的分解法,但是它比QR分解法要花上近十倍的計算時間。[U,S,V]=svd(A),其中U和V分別代表兩個\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"正交矩陣,而S代表一\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"對角矩陣。和QR分解法相同,原\t"/item/%E7%9F%A9%E9%98%B5%E5%88%86%E8%A7%A3/_blank"矩陣A不必為正方矩陣。使用SVD分解法的用途是解最小平方誤差法和數(shù)據(jù)壓縮。MATLAB以svd函數(shù)來執(zhí)行svd分解法,其語法為[S,V,D]=svd(A)。手寫字體識別3.1文本識別主要方法及技術(shù)下載orc文檔識別工具,這里小編以捷速ord文字識別工具為例,下載之后安裝:安裝完成之后,打開一個pdf文檔,這里小編隨意著了一個,選擇打開pdf,等待讀?。鹤x取完成之后,就可以進(jìn)行識別了,這里我們隨意選擇一頁,選完之后選擇識別就可以了:等待完成之后就可以正常的進(jìn)行復(fù)制黏貼操作3.2手寫字體的分類手寫字體,傳統(tǒng)講共有篆書字體、楷書字體、隸書字體、行書字體、草書字體五種,也就是五個大類。在每一大類中又細(xì)分若干小的門類,如篆書又分大篆、小篆,楷書又有魏碑、唐楷之分,草書又有章草、今草、狂草之分。篆書字體印章冊是大印章冊和小印章冊的總稱。這支筆又細(xì)又硬又直。開頭有方筆、圓筆和尖筆,字跡中有許多“懸針”。大川是指青銅、青銅和六國的銘文,保留了古代象形文字的鮮明特征。小傳,又稱“秦傳”,是秦國的通稱?!缎鳌泛喕煮w的特點是造型統(tǒng)一、整齊、書寫方便。2、楷書字體楷書也叫正楷、真書、正書。由隸書逐漸演變而來,更趨簡化,橫平豎直?!掇o?!方忉屨f它"形體方正,筆畫平直,可作楷模"。這種漢字字體端正,就是現(xiàn)在通行的漢字手寫正體字。3、隸書字體隸書,有秦隸、漢隸等,一般認(rèn)為由篆書發(fā)展而來,字形多呈寬扁,橫畫長而豎畫短,講究"蠶頭雁尾"、"一波三折"。4、行書字體行書是一種統(tǒng)稱,分為行楷和行草兩種。它在楷書的基礎(chǔ)上發(fā)展起源的,介于楷書、草書之間的一種字體,是為了彌補(bǔ)楷書的書寫速度太慢和草書的難于辨認(rèn)而產(chǎn)生的。"行"是"行走"的意思,因此它不像草書那樣潦草,也不像楷書那樣端正。實質(zhì)上它是楷書的草化或草書的楷化??ǘ嘤诓莘ǖ慕?行楷",草法多于楷法的叫"行草"。行書實用性和藝術(shù)性皆高,而楷書是文字符號,實用性高且見功夫;相比較而言,草書則是藝術(shù)性高,但是實用性顯得相對不足。5、草書字體草書是漢字的一種字體,特點是結(jié)構(gòu)簡省、筆畫連綿。形成于漢代,是為了書寫簡便在隸書基礎(chǔ)上演變出來的。有章草、今草、狂草之分,而今草又分大草(也稱狂草)和小草,在狂亂中盡顯藝術(shù)之美。3.3阿拉伯?dāng)?shù)字識別手寫體阿拉伯?dāng)?shù)字識別是圖像處理和模式識別領(lǐng)域中的研究課題之一。字符識別系統(tǒng)-般由圖像采集、信號預(yù)處理、特征提取、分類識別等幾個部分組成。識別系統(tǒng)的識別方式可分為聯(lián)機(jī)手寫體字符識別、脫機(jī)印D刷體字符識別和脫機(jī)手寫體字符識別等其中脫機(jī)手寫體字符由于書寫者的因素,使其字符圖像的隨意性很大,例如,筆畫的粗細(xì)、字體的大小、手寫體的傾斜度、字符筆畫的局部扭曲變形、字體灰度的差異等都直接影響到字符的正確識別。所以,手寫體數(shù)字字符的識別是數(shù)字字符識別領(lǐng)域內(nèi)最具挑戰(zhàn)性的課題。
近年來,支持向量機(jī)(
Support
Vector
Machines,
SVM)的研究在廣泛開展。支持向量機(jī)是V.Vipnik等人根據(jù)統(tǒng)計學(xué)習(xí)理論(Statistical
Leaming
Theony,
SLT)提出的一種新的機(jī)器學(xué)習(xí)萬法,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,已經(jīng)在模式識別、函數(shù)逼近和概率密度估計等方面取得了良好的效果"。支持向量機(jī)從本質(zhì)上講是-種前向神經(jīng)網(wǎng)絡(luò),根據(jù)結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則,在使訓(xùn)練樣本分類誤差極小化的前提下,盡量提高分類器的泛化推廣能力。從實施的角度講,訓(xùn)練支持向量機(jī)的核心思想等價于求解-個線性約束的二次規(guī)劃問題,從而構(gòu)造-個超平面作為決策平面,使得特征空間中兩類模式之間的距離最大,而且它能保證得到的解為全局最優(yōu)解。手寫阿拉伯?dāng)?shù)字識別是圖像處理和圖案識別領(lǐng)域的研究課題之一。文字識別系統(tǒng)一般由圖像取得、信號預(yù)處理、特征提取、分類、識別構(gòu)成。識別系統(tǒng)的識別方法可分為在線手寫文字識別、離線d筆文字識別、離線手寫文字識別,離線手寫文字圖像由于筆者的原因非常隨機(jī)。例如,行程大小、字體的大小、手寫字符的傾斜、字符行程的部分失真、字體的灰度等級的差異等直接影響字符的正確認(rèn)識。因此,手寫數(shù)字識別在數(shù)字文字識別領(lǐng)域是最困難的課題。近年來,支持向量機(jī)(svm)得到廣泛的研究。支持向量機(jī)(svm)是v.vipnik等人提出的機(jī)器學(xué)習(xí)的新一般方法?;诮y(tǒng)計周期理論(SLT)。它有許多獨特的優(yōu)勢,解決小樣品和非線性高維模式識別問題。通過模型識別、函數(shù)近似、概率密度推算得到良好的結(jié)果。支持向量機(jī)(svm)基本上是前饋通信網(wǎng)絡(luò)。根據(jù)結(jié)構(gòu)風(fēng)險最小化的標(biāo)準(zhǔn),在最小化訓(xùn)練樣本的分類誤差的前提下,可以盡可能地改善分類器的一般化和通化能力。從實施的角度來看,訓(xùn)練支援向量機(jī)器的核心創(chuàng)意等于解答具有線性限制的二次計劃問題,以最大化兩個類型的特征平面之間的距離,保證所得到的最佳范圍解。使用支持向量機(jī)的手寫數(shù)字識別的分類功能與形態(tài)的新網(wǎng)絡(luò)相似。那個輸出是幾個中間節(jié)點的線性組合。每個中間節(jié)點對應(yīng)于輸入樣本和支持介質(zhì)的內(nèi)積。為了預(yù)處理的手寫阿拉伯語的數(shù)字圖像,提取并分類橫斷特征的數(shù)量,提取粗糙的格子特征和密度特征,形成80維向量,使用svm進(jìn)行數(shù)字的分類和識別。SVM分類器是二進(jìn)制客戶端。0-如果想識別9的數(shù)字,必須一起使用幾個SVM分類器。這是很大的負(fù)荷。因此,本文將使用基于matlab的訓(xùn)練程序svmtrain和識別chenghengsvm豫件。他們不僅支持二進(jìn)制分類,還支持多種分類。內(nèi)核函數(shù)是動徑基底函數(shù)。3.4中、英文手寫字體的識別手寫識別意味著通過寫入手寫裝置上的文本而生成的規(guī)則正確的軌道轉(zhuǎn)換的過程。手寫識別(手寫識別)是指通過手寫裝置上的筆記,將所生成的有秩序的軌道變成漢字的內(nèi)部代碼的過程。實際上,是從手寫軌跡的坐標(biāo)序列到漢字內(nèi)部代碼的映射處理。這是人與電腦相互作用最自然最方便的手段之一。由于智能手機(jī)和手持電腦等移動信息工具的受歡迎,手寫識別技術(shù)進(jìn)入了大規(guī)模的應(yīng)用時代。手寫識別可以輸入文字,用戶可以使用最自然、最方便。它很容易學(xué)習(xí),使用和替換鍵盤和鼠標(biāo)。電磁感應(yīng)書寫板、感壓筆跡板、觸摸屏、觸摸屏、超聲波筆等筆跡輸入裝置多種多樣。手寫識別屬于文字識別和模式識別的類別。在認(rèn)識過程中,文字識別可分為離線和在線兩個范疇。關(guān)于識別對象,可以分為手寫識別和印刷識別兩個類別。頻繁地招呼手寫識別的是在線手寫文字識別。離線手寫識別包括將文本自動從圖像轉(zhuǎn)換成可由計算機(jī)使用的字符碼。離線的手寫字符識別很難,因此各種各樣的人的寫入風(fēng)格不同。離線手寫識別主要用于打印文本識別。減少識別錯誤的技術(shù)常常使用縮小識別范圍,例如郵政編碼只包含1~9的數(shù)字,識別這種數(shù)字可以減少錯誤的可能。主要的技術(shù):指定特定的字符范圍;利用字符的專有特點
[1]
。字符的提取離線字符識別通常包括掃描先前寫入的窗體或文檔。這意味著設(shè)備或軟件必須提取掃描圖像中包含的各個字符。但是,這個步驟有幾個共同的缺點。最常見的是,將多個連接字符分離為單個字符。這增加了識別的困難,但現(xiàn)在很多軟件已經(jīng)開始適應(yīng)這個問題。文字識別當(dāng)提取單個字符時,識別引擎開始計算對應(yīng)的計算機(jī)字符。有幾個不同的識別技術(shù).特征提取除了人工神經(jīng)網(wǎng)絡(luò),程序員有時也必須手動確定他們覺得重要的屬性。這些屬性可能是:寬高比;水平方向上的像素百分比;豎直方向上的像素百分比;筆畫數(shù);字符到圖像中心的平均距離;這種方法可以提高識別的準(zhǔn)確性,但需要花費更多的研發(fā)時間。在線手寫識別:一般過程在線手寫識別可以分解為幾個通用的步驟:預(yù)處理;特征的提取;分離出字符。預(yù)處理的目的是摒棄無關(guān)的輸入數(shù)據(jù),可以減少負(fù)面的影響。這涉及到速度和準(zhǔn)確性。通常由圖像二值化、正?;⒉蓸?、平滑、去噪預(yù)處理等組成。第四章:基于MATLAB的手寫字體分析與識別4.1MATLAB常用函數(shù)及處理通用函數(shù):
colorbar顯示彩色條
語法:
colorbar
\
colorbar('vert)
\
colorbar("horiz)
\
colorbar(h)
\
h=colorbar(..)
\clora(..,.
peer
,axes_
handle)getimage從坐標(biāo)軸取得圖像數(shù)據(jù)
語法:
A=getimage(h)
\
[x,y,A]=getimage(h)
\
..A.lg]=getimage(h)
\
[..]=getimageimshow顯示圖像
語法:
imshow(I,n)
\
imshow(I,[low
high])
\
imshow(BW)
\
imshow(X,map)
\
imshow(RGB)\imshow(...
,display_
_option)
\
imshow(x,y,A..
\
imshow
filename
\
h=imshow..)montage在矩形框中同時顯示多幅圖像
語法:
montage(I)
\
montage(BW)
\
montage(X,map)
\
montage(RGB)
\
h=montage...immovie創(chuàng)建多幀索引圖的電影動畫
語法:
mov=immovie(X,map)
\
mov=immovie(RGB)subimage在一副圖中顯示多個圖像
語法:
subimage(X,map)
\
subimage(I)
\
subimage(BW)
\
subimage(RGB)
\subimage(x,...)
\
subimage(..).線性濾波函數(shù):4.2手寫字體識別神經(jīng)網(wǎng)絡(luò)設(shè)計3層神經(jīng)網(wǎng)絡(luò),自定義輸入節(jié)點、隱藏層、輸出節(jié)點的個數(shù),使用sigmoid函數(shù)作為激活函數(shù),梯度下降法進(jìn)行權(quán)重的優(yōu)化。使用MNIST數(shù)據(jù)集,進(jìn)行手寫數(shù)字識別:#!/usr/bin/envpython#-*-coding:utf-8-*-#!/usr/bin/envpython#-*-coding:utf-8-*-importnumpyimportscipy.special#手寫數(shù)字識別神經(jīng)網(wǎng)絡(luò)classNeuralNetwork():def__init__(self,inputnodes,hiddennodes,outputnodes,learningrate):'''神經(jīng)網(wǎng)絡(luò)初始化:paraminputnodes:輸入節(jié)點的數(shù)量:paramhiddennodes:隱藏層節(jié)點的數(shù)量:paramoutputnodes:輸出節(jié)點的數(shù)量:paramlearningrate:學(xué)習(xí)率:return:'''self.inodes=inputnodesself.hnodes=hiddennodesself.onodes=outputnodesself.learn=learningrateself.wih=numpy.random.rand(self.hnodes,self.inodes)-0.5self.who=numpy.random.rand(self.onodes,self.hnodes)-0.5#self.wih=numpy.random.normal(0.0,pow(self.hnodes,-0.5),(self.inodes,self.inodes))#self.who=numpy.random.normal(0.0,pow(self.onodes,-0.5),(self.hnodes,self.hnodes))self.activate_function=lambdax:scipy.special.expit(x)#print(self.who)#print(self.wih)deftrain(self,input_list,target_list):'''訓(xùn)練神經(jīng)網(wǎng)絡(luò)首先計算樣本輸出,然后在與目標(biāo)值進(jìn)行對比,更新權(quán)重:paraminput_list:輸入值:paramtarget_list:目標(biāo)值:return:'''#針對樣本計算輸出,與query函數(shù)一樣inputs=numpy.array(input_list).Ttargets=numpy.array(target_list).Thidden_inputs=numpy.dot(self.wih,inputs)hidden_outputs=self.activate_function(hidden_inputs)final_inputs=numpy.dot(self.who,hidden_outputs)final_outpust=self.activate_function(final_inputs)#將計算得到的輸出與目標(biāo)值對比,更新權(quán)重output_error=targets-final_outpusthidden_error=numpy.dot(self.who.T,output_error)#print(output_error.shape)#print(final_outpust.shape)#print(hidden_outputs.T.shape)#self.who+=self.learn*numpy.dot((output_error*final_outpust*(1.0-final_outpust)),numpy.transpose(hidden_outputs))#self.wih+=self.learn*numpy.dot((hidden_error*hidden_outputs*(1.0-hidden_outputs)),numpy.transpose(inputs))self.who+=self.learn*numpy.dot((output_error*final_outpust*(1.0-final_outpust)).reshape((self.onodes,1)),hidden_outputs.reshape((1,self.hnodes)))self.wih+=self.learn*numpy.dot((hidden_error*hidden_outputs*(1.0-hidden_outputs)).reshape((self.hnodes,1)),inputs.reshape((1,self.inodes)))defquery(self,input_list):'''計算輸出:paraminput_list::return:'''inputs=numpy.array(input_list).Thidden_inputs=numpy.dot(self.wih,inputs)hidden_outputs=self.activate_function(hidden_inputs)final_inputs=numpy.dot(self.who,hidden_outputs)final_outpust=self.activate_function(final_inputs)returnfinal_outpust#初始化一個神經(jīng)網(wǎng)絡(luò)對象n=NeuralNetwork(784,100,10,0.5)#訓(xùn)練數(shù)據(jù)withopen('dataset/mnist_train.csv','r')asf:train_data=f.readlines()#訓(xùn)練神經(jīng)網(wǎng)絡(luò)forlineintrain_data:data=line.split(',')inputs=(numpy.asfarray(data[1:])/255*0.99)+0.01targets=numpy.zeros(n.onodes)+0.01targets[int(data[0])]=0.99n.train(inputs,targets)#測試神經(jīng)網(wǎng)絡(luò)withopen('dataset/mnist_test_10.csv','r')asf:test_data=f.readlines()forlineintest_data:label=int(line[0])data=line.split(',')input_list=numpy.asfarray(data[1:])output=n.query(input_list)print(label)print(output)代碼實現(xiàn)手寫數(shù)字的識別。為此,可以改善學(xué)習(xí)率的調(diào)整、重量的初始化、活性化函數(shù)的影響等研究。4.3手寫字體識別訓(xùn)練和實例圖像識別(ImageRecognition)是指利用計算機(jī)對圖像進(jìn)行處理、分析和理解,以識別各種不同模式的目標(biāo)和對像的技術(shù)。
圖像識別的發(fā)達(dá)經(jīng)過文字識別、數(shù)字圖像處理、識別、物體識別三個階段。在機(jī)械學(xué)習(xí)的領(lǐng)域,這樣的認(rèn)識問題通常被轉(zhuǎn)換成分類問題。手寫識別是一般的圖像識別任務(wù)。電腦用手寫的畫在畫中認(rèn)識文字。與typeface不同,不同的人有手寫的風(fēng)格和尺寸。而且,這使電腦很難識別手寫的文字。數(shù)字手寫識別,因為其有限的類別(0-9的合計10位),成為了比較單純的筆跡識別任務(wù)。DBRHD和迷你者是數(shù)字手寫識別的兩個一般使用的數(shù)據(jù)集。MNIST是數(shù)字0-9的手寫照片的數(shù)據(jù)集。照片以手寫數(shù)字為中心正規(guī)化了28*28規(guī)格。MNIST由訓(xùn)練集與測試集兩個部分組成,各部分規(guī)模如下:
訓(xùn)練集:60,000個手寫體圖片及對應(yīng)標(biāo)簽
測試集:10,000個手寫體圖片及對應(yīng)標(biāo)簽dbrhd數(shù)據(jù)集包含大量數(shù)字為0-9的手寫圖片。這些圖片來自44個不同的人的手寫數(shù)字。這些圖片已被標(biāo)準(zhǔn)化為以手寫數(shù)字為中心的32*32張圖片。importnumpyasnp#使用listdir模塊,用于訪問本地文件fromosimportlistdirfromsklearn.neural_networkimportMLPClassifier#定義img2vector函數(shù),將加載的32*32的圖片矩陣展開成一列向量defimg2vector(fileName):retMat=np.zeros([1024],int)fr=open(fileName)#打開包含32*32大小的數(shù)字文件lines=fr.readlines()#讀取文件的所有行foriinrange(32):forjinrange(32):#將01數(shù)字存放在retMatretMat[i*32+j]=lines[i][j];returnretMat#并將樣本標(biāo)簽轉(zhuǎn)化為one-hot向量defreadDataSet(path):fileList=listdir(path)#獲取文件夾下所有文件numFiles=len(fileList)#統(tǒng)計需要讀取的文件的數(shù)目dataSet=np.zeros([numFiles,1024],int)#用于存放所有的數(shù)字文件hwLabels=np.zeros([numFiles,10])#用于存放對應(yīng)的標(biāo)簽one-hotforiinrange(numFiles):filePath=fileList[i]#獲取文件名稱/路徑digit=int(filePath.split('_')[0])hwLabels[i][digit]=1.0dataSet[i]=img2vector(path+'/'+filePath)#讀取文件內(nèi)容returndataSet,hwLabelstrain_dataSet,train_hwLabels=readDataSet('trainingDigits')#構(gòu)建神經(jīng)網(wǎng)絡(luò):設(shè)置網(wǎng)絡(luò)的隱藏層數(shù)、各隱藏層神經(jīng)元個數(shù)、#激活函數(shù)、學(xué)習(xí)率、優(yōu)化方法、最大迭代次數(shù)。#hidden_layer_sizes存放的是一個元組,表示第i層隱藏層里神經(jīng)元的個數(shù)#使用logistic激活函數(shù)和adam優(yōu)化方法,并令初始學(xué)習(xí)率為0.0001clf=MLPClassifier(hidden_layer_sizes=(50,),activation='logistic',solver='adam',learning_rate_init=0.0001,max_iter=2000)#fit該功能可以根據(jù)訓(xùn)練集合和相應(yīng)的標(biāo)簽集自動設(shè)置在多層分類器輸入/輸出層中的神經(jīng)元的數(shù)目。例如,SchoRank數(shù)據(jù)集合是N*1024的矩陣,TrainSeeHWLabel是N*10的矩陣。適合函數(shù)將輸入層的中間數(shù)設(shè)為1024,將輸出層的中間數(shù)設(shè)為10。clf.fit(train_dataSet,train_hwLabels)#測試集評價dataSet,hwlLabels=readDataSet('testDigits')res=clf.predict(dataSet)#對測試集進(jìn)行預(yù)測error_num=0#統(tǒng)計預(yù)測錯誤的數(shù)目num=len(dataSet)#測試集的數(shù)目foriinrange(num):#比較長度為10的數(shù)組,返回包含01的數(shù)組,0為不同,1為相同ifnp.sum(res[i]==hwlLabels[i])<10:error_num+=1print("Totalnum:",num,"Wrongnum:",error_num,"WrongRate:",error_num/float(num))總結(jié)與展望5.1本文主要工作大數(shù)據(jù)分析是目前熱門話題之一。它是信息計算、統(tǒng)計分析、計算機(jī)科學(xué)與管理科學(xué)的一門專業(yè)。還涉及人工智能、數(shù)據(jù)采礦、數(shù)學(xué)建模。本研究的目的是通過文獻(xiàn)檢索,理解大數(shù)據(jù)與日常生活及相關(guān)領(lǐng)域的關(guān)系,通過數(shù)學(xué)與應(yīng)用數(shù)學(xué)、信息計算相結(jié)合的大規(guī)模數(shù)據(jù)生成、結(jié)構(gòu)、數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中華女子學(xué)院《傳統(tǒng)及現(xiàn)代手工藝制作》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州信息工程職業(yè)學(xué)院《工業(yè)控制網(wǎng)絡(luò)》2023-2024學(xué)年第一學(xué)期期末試卷
- 長沙航空職業(yè)技術(shù)學(xué)院《數(shù)字電路設(shè)計及實踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 云南國防工業(yè)職業(yè)技術(shù)學(xué)院《品牌形象專項設(shè)計一》2023-2024學(xué)年第一學(xué)期期末試卷
- 新型材料在電池儲能中的應(yīng)用
- 共建文化 發(fā)展未來模板
- 市場營銷領(lǐng)導(dǎo)力實踐述職
- 業(yè)務(wù)操作-房地產(chǎn)經(jīng)紀(jì)人《業(yè)務(wù)操作》模擬試卷4
- 房地產(chǎn)交易制度政策-《房地產(chǎn)基本制度與政策》預(yù)測試卷4
- 農(nóng)學(xué)成果答辯報告模板
- CLSIM100-S24英文版 抗菌藥物敏感性試驗執(zhí)行標(biāo)準(zhǔn);第二十四版資料增刊
- 空調(diào)作業(yè)規(guī)程3篇
- 物業(yè)項目服務(wù)進(jìn)度保證措施
- (隱蔽)工程現(xiàn)場收方計量記錄表
- DB22T 5005-2018 注塑夾芯復(fù)合保溫砌塊自保溫墻體工程技術(shù)標(biāo)準(zhǔn)
- 醫(yī)院手術(shù)室醫(yī)院感染管理質(zhì)量督查評分表
- 稱量與天平培訓(xùn)試題及答案
- 超全的超濾與納濾概述、基本理論和應(yīng)用
- 2020年醫(yī)師定期考核試題與答案(公衛(wèi)專業(yè))
- 2022年中國育齡女性生殖健康研究報告
- 消防報審驗收程序及表格
評論
0/150
提交評論