版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于VGG和LSTM網(wǎng)絡(luò)的視覺(jué)問(wèn)答系統(tǒng)研究與應(yīng)用摘要隨著互聯(lián)網(wǎng)的發(fā)展,人類(lèi)可以獲得的數(shù)據(jù)信息量呈指數(shù)型增長(zhǎng),我們能夠從數(shù)據(jù)中獲得的知識(shí)也大大增多,人工智能的研究和應(yīng)用再一次煥發(fā)活力。隨著人工智能應(yīng)用的不斷發(fā)展,近年來(lái),產(chǎn)生了有關(guān)視覺(jué)問(wèn)答(VisualQuestionanswering,VQA)的研究,并發(fā)展成為人工智能應(yīng)用的一大熱門(mén)問(wèn)題。視覺(jué)問(wèn)答任務(wù)是一個(gè)多領(lǐng)域、跨學(xué)科的任務(wù),以一張圖片和一個(gè)關(guān)于圖片形式自由、開(kāi)放式的自然語(yǔ)言問(wèn)題作為輸入,以生成一條自然語(yǔ)言答案作為輸出[1]。簡(jiǎn)單來(lái)說(shuō),VQA就是對(duì)給定的圖片進(jìn)行問(wèn)答。本設(shè)計(jì)結(jié)合當(dāng)前VQA的研究現(xiàn)狀,基于深度學(xué)習(xí)理論,研究了VGG+LSTM網(wǎng)絡(luò)的視覺(jué)問(wèn)答系統(tǒng),即用VGG網(wǎng)絡(luò)對(duì)圖片進(jìn)行特征提取,用LSTM網(wǎng)絡(luò)對(duì)問(wèn)題進(jìn)行特征提取和系統(tǒng)輸出答案的特征生成。最終將這一復(fù)雜的人工智能系統(tǒng),轉(zhuǎn)化為一個(gè)多分類(lèi)問(wèn)題,實(shí)現(xiàn)了對(duì)一張圖片用自然語(yǔ)言句子進(jìn)行提問(wèn),然后用自然語(yǔ)言的一個(gè)單詞來(lái)回答。本設(shè)計(jì)的主要?jiǎng)?chuàng)新點(diǎn)是將深度學(xué)習(xí)領(lǐng)域內(nèi)的計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)方向進(jìn)行多模態(tài)融合[2],將系統(tǒng)的輸出轉(zhuǎn)化為一個(gè)分類(lèi)問(wèn)題,達(dá)到了對(duì)圖片進(jìn)行一問(wèn)一答的效果。關(guān)鍵詞:VQA;視覺(jué)問(wèn)答;VGG網(wǎng)絡(luò);LSTM網(wǎng)絡(luò);深度學(xué)習(xí);人工智能
ResearchAndApplicationOfVisualQuestionAnsweringSystemBasedOnVGGAndLSTMNetworkABSTRACTWiththedevelopmentoftheInternet,theamountofdataavailabletohumanbeingshasincreasedexponentially,andtheknowledgewecanobtainfromthedatahasalsoincreasedgreatly.Theresearchandapplicationofartificialintelligencehavebeenrevitalizedagain.Alongwiththecontinuousdevelopmentofartificialintelligenceapplication,theresearchonVisualQuestionAnsweringhasappearedinrecentyearsandhasdevelopedintoahotspot.AVQAtaskisamulti-domain,interdisciplinarytask,withapictureandanaturallanguagequestionaboutthefreeandopenformofpicturesasinputandthegenerationofanaturallanguageanswerasoutput.Briefly,VQAisaquestion-and-answersessiononagivenpicture.ThisdesigncombinesthecurrentresearchstatusofVQA,basedonthetheoryofdeeplearning,tostudytheVQAsystemofVGG+LSTMnetwork.ItreferstouseVGGnetworktoextractthefeaturesofpicturesanduseLSTMnetworktoextractthefeaturesofquestionsandgeneratethefeaturesofsystemoutputanswers.Itfinallytransformsthiscomplexartificialintelligencesystemintoamulti-classificationproblem,realizingthewayofquestioningapictureinanaturallanguagesentence,andansweringitinanaturallanguageword.ThemaininnovationofthisdesignistocombinethetwodirectionsofComputerVisionandNaturalLanguageProcessinginthefieldofdeeplearningandtransformtheoutputofthesystemintoaclassificationproblem,andachievethequestion-and-answereffect.Keywords:VQA;Visualq&a;VGG-Net;LSTM-Net;Deeplearning;目錄1. 緒論 11.1視覺(jué)問(wèn)答系統(tǒng) 11.2VQA背景和研究現(xiàn)狀 31.2.1VQA發(fā)展背景和研究意義 31.2.2VQA的發(fā)展歷程和研究現(xiàn)狀 31.3論文結(jié)構(gòu)安排 52.相關(guān)工作準(zhǔn)備 72.1圖像特征提取 72.2文本特征提取 82.3輸出分類(lèi)器 123.VQA數(shù)據(jù)集 134.VGG+LSTM網(wǎng)絡(luò)的視覺(jué)問(wèn)答系統(tǒng) 154.1數(shù)據(jù)預(yù)處理 154.1.1圖像數(shù)據(jù)歸約 154.1.2文本數(shù)據(jù)處理 154.2VQA系統(tǒng)結(jié)構(gòu) 164.3系統(tǒng)實(shí)現(xiàn)過(guò)程與驗(yàn)證結(jié)果 174.3.1系統(tǒng)運(yùn)行環(huán)境 174.3.2系統(tǒng)參數(shù)選擇 174.3.3系統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)和驗(yàn)證結(jié)果 184.4系統(tǒng)測(cè)試結(jié)果 185.總結(jié)和展望 225.1論文總結(jié) 225.2VQA的未來(lái)發(fā)展展望 22參考文獻(xiàn) 23附錄 25致謝 30PAGE2/29緒論1956年夏,在美國(guó)達(dá)特茅斯學(xué)院,麥卡錫、明斯基等科學(xué)家開(kāi)會(huì)研討“如何用機(jī)器模擬人的智能”,首次提出“人工智能(ArtificialIntelligence,簡(jiǎn)稱(chēng)AI)”的概念,標(biāo)志著人工智能學(xué)科的誕生。在過(guò)去的六十多年內(nèi),人工智能的發(fā)展歷程跌宕起伏。從上世紀(jì)的九十年起,計(jì)算機(jī)領(lǐng)域進(jìn)入高速發(fā)展階段,人工智能同樣在算法(機(jī)器學(xué)習(xí)、深度學(xué)習(xí))、算力(云計(jì)算)和算料(大數(shù)據(jù))等“三算”方面取得了重要突破,使得人工智能在技術(shù)層面從“不能用”到“可以用”出現(xiàn)拐點(diǎn)。隨著人工智能的不斷發(fā)展,近年來(lái),產(chǎn)生了視覺(jué)問(wèn)答系統(tǒng)(visualquestionanswering,VQA)這一課題,并且成為人工智能研究的一大熱門(mén)問(wèn)題。通俗的講,一個(gè)合格的VQA系統(tǒng)是將圖片和關(guān)于圖片的內(nèi)容信息的問(wèn)題共同作為系統(tǒng)的輸入,然后系統(tǒng)結(jié)合圖片和問(wèn)題的的信息特征,產(chǎn)生一條符合人類(lèi)邏輯思維的自然語(yǔ)言作為輸出。針對(duì)一張?zhí)囟ǖ膱D片,如果想要機(jī)器以一條自然語(yǔ)言句子來(lái)回答關(guān)于該圖片的某一個(gè)特定問(wèn)題,則需要讓機(jī)器對(duì)圖片的內(nèi)容、問(wèn)題的含義和意圖以及日常的邏輯思維和常識(shí)都有一定的理解能力。故就其任務(wù)本身而言,這是一個(gè)多學(xué)科,跨領(lǐng)域的研究問(wèn)題。1.1視覺(jué)問(wèn)答系統(tǒng)視覺(jué)問(wèn)答系統(tǒng)的定義:一個(gè)VQA系統(tǒng)以一張圖片和一個(gè)關(guān)于這張圖片形式自由、開(kāi)放式的自然語(yǔ)言問(wèn)題作為輸入,以生成一條自然語(yǔ)言答案作為輸出。簡(jiǎn)單來(lái)說(shuō),VQA就是對(duì)給定的圖片進(jìn)行問(wèn)答[1]。近來(lái),開(kāi)發(fā)出一個(gè)可以回答任意自然語(yǔ)言提問(wèn)的計(jì)算機(jī)視覺(jué)系統(tǒng)可以說(shuō)是一個(gè)充滿(mǎn)挑戰(zhàn)的目標(biāo),VQA的前身就是問(wèn)答系統(tǒng)(QuestionAnsweringSystem,QA),問(wèn)答系統(tǒng)同樣也是人工智能和自然語(yǔ)言處理領(lǐng)域的熱門(mén)研究問(wèn)題。人工智能的研究過(guò)程就是將一個(gè)強(qiáng)AI的問(wèn)題劃分為若干個(gè)弱AI的問(wèn)題,對(duì)于VQA這樣一個(gè)復(fù)雜困難、涉及多學(xué)科的問(wèn)題,我們可以將這個(gè)復(fù)雜問(wèn)題劃分為圖像識(shí)別和文本語(yǔ)義分析兩個(gè)弱AI問(wèn)題,于是本設(shè)計(jì)的VQA系統(tǒng)就是將深度學(xué)習(xí)(DeepLearning)領(lǐng)域內(nèi)計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理兩大研究方向進(jìn)行了融合。一個(gè)成功的VQA系統(tǒng)應(yīng)當(dāng)是什么樣子?接下來(lái)我們通過(guò)一張圖片,來(lái)進(jìn)一步理解VQA系統(tǒng),以及VQA系統(tǒng)的主要解決問(wèn)題。如圖1-1圖1-1VQA問(wèn)題描述圖上圖是理解VQA問(wèn)題描述的經(jīng)典例圖,圖中有一個(gè)人物主體和兩條與圖片相關(guān)的自然語(yǔ)言問(wèn)問(wèn)題,首先分析第一個(gè)問(wèn)題,問(wèn)圖中女性的眼睛是什么顏色?對(duì)于這條問(wèn)題,我們首先在NLP層面理解問(wèn)題,可以提取到兩個(gè)關(guān)鍵的單詞eyes和color;然后在CV層面提取圖片的特征,針對(duì)圖像的像素值,紋理特征或者卷積特征(convolutionfeature)等夠準(zhǔn)確找到眼睛的位置信息,并且能夠提取到該區(qū)域一系列特征,包括顏色、紋理、形狀等特征和空間關(guān)系等;最后根據(jù)NLP提問(wèn)的顏色提問(wèn),給出對(duì)應(yīng)的特征,然后由系統(tǒng)生成對(duì)應(yīng)的自然語(yǔ)言詞句作為回答。對(duì)于第二個(gè)問(wèn)題,胡子的是由什么組成的?這個(gè)問(wèn)題對(duì)于系統(tǒng)就要有更高的邏輯思維能力和常識(shí)意識(shí)。很明顯,通過(guò)人為邏輯思維理解判斷,問(wèn)題并不是要問(wèn)胡子的正常構(gòu)成成分,而是希望得到的回答是香蕉,即在胡子的位置是什么物體?因?yàn)榕砸话闱闆r下是沒(méi)有胡子的。所以,系統(tǒng)要有一定的常識(shí)判斷能力,再根據(jù)圖像特征提取到圖像的空間關(guān)系,文本語(yǔ)義信息處理,最后回答出正確的答案。1.2VQA背景和研究現(xiàn)狀1.2.1VQA發(fā)展背景和研究意義隨著自然語(yǔ)言處理技術(shù)的發(fā)展,許多研究逐漸轉(zhuǎn)向了復(fù)雜、更智能化的問(wèn)題。2015年,AishwaryaAgrawal和DeviParikh等人發(fā)表文章,首次提出了VQA問(wèn)題,并且給定了關(guān)于圖像的圖像和自然語(yǔ)言問(wèn)題,任務(wù)是提供準(zhǔn)確的自然語(yǔ)言答案。他們提供了一個(gè)包含0.25M大小的圖像包,0.76M大小的問(wèn)題包和10M大小的答案包的數(shù)據(jù)集,以及許多VQA的基線和方法,并與人類(lèi)表現(xiàn)進(jìn)行了比較。作為一種區(qū)別于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖片的處理(目標(biāo)檢測(cè)、圖像分割、場(chǎng)景識(shí)別等),VQA更側(cè)重與一種對(duì)圖像的描述,即通過(guò)自然語(yǔ)言處理技術(shù),將系統(tǒng)加入了更高層次的邏輯思維能力和常識(shí)思考能力。所以,VQA也進(jìn)一步的促進(jìn)了人機(jī)交互能力和強(qiáng)AI問(wèn)題的發(fā)展。對(duì)于計(jì)算機(jī)多媒體領(lǐng)域的發(fā)展同樣起到促進(jìn)作用,對(duì)于海量圖像文本信息檢索和人工智能基礎(chǔ)測(cè)試和圖靈測(cè)試的發(fā)展也有幫助。在商業(yè)上,該系統(tǒng)的實(shí)現(xiàn)直接能夠讓視覺(jué)受損的用戶(hù)受益,同樣也可能改變傳統(tǒng)的兒童智能早教行業(yè)。1.2.2VQA的發(fā)展歷程和研究現(xiàn)狀(1)聯(lián)合嵌入法:Jointembeddingapproaches來(lái)源于深度學(xué)習(xí)的NLP的發(fā)展。相較于看圖說(shuō)話(huà),VQA則多了一步在兩個(gè)模態(tài)間的進(jìn)一步推理過(guò)程。一般的,圖像表示(imagerepresentations)用預(yù)訓(xùn)練的CNN模型,文本表示(Textrepresentations)用預(yù)訓(xùn)練的詞嵌入。詞嵌入就是將單詞映射到空間中,距離來(lái)度量語(yǔ)義相似度,然后將嵌入送到RNN中來(lái)處理語(yǔ)法和句子。具體的實(shí)現(xiàn)方法為:Malinowskietal等人提出了“Neural-Image-QA”模型[3],文本特征提取用加入了LSTM網(wǎng)絡(luò)的RNN來(lái)處理,圖像特征用預(yù)訓(xùn)練的CNN來(lái)處理,然后將兩個(gè)特征同時(shí)輸入到第一個(gè)編碼器LSTM中,再將生成的向量輸入到第二個(gè)解碼器LSTM中,最后會(huì)生成一個(gè)變化長(zhǎng)度的答案,每次迭代產(chǎn)生一個(gè)單詞,知道產(chǎn)生<end>分詞為止。結(jié)構(gòu)如圖1-2:圖1-2聯(lián)合嵌入法框架圖聯(lián)合嵌入法非常直接,是目前大多數(shù)VQA的基礎(chǔ),除了上邊介紹的框架之外,還有許多使用聯(lián)合嵌入法的框架,基本都是基于預(yù)訓(xùn)練CNN來(lái)提取圖片特征和RNN來(lái)提取文本特征,只是在多模融合和答案生成時(shí)有所不同。目前該方法還有很大的提升空間。(2)注意力機(jī)制:Attentionmechanisms上面提出聯(lián)合嵌入法的模型,在視覺(jué)特征輸入這里,都是提取的全局特征作為輸入,會(huì)產(chǎn)生一些無(wú)關(guān)或者噪聲信息來(lái)影響輸出,而注意力機(jī)制就是利用局部特征來(lái)解決這個(gè)問(wèn)題。注意力機(jī)制能夠改善提取全局特征的模型性能[4]。最近的研究表明,注意力機(jī)制盡管能夠提高VQA的總體精度,但是對(duì)于二值類(lèi)問(wèn)題卻沒(méi)有任何提升,一種假說(shuō)是二值類(lèi)問(wèn)題需要更長(zhǎng)的推理,這類(lèi)問(wèn)題的解決還需要進(jìn)一步研究。(3)合成模型:CompositionalModels這種方法是對(duì)不同模塊的連接組合,優(yōu)點(diǎn)是可以更好的進(jìn)行監(jiān)督。一方面,能夠方便轉(zhuǎn)換學(xué)習(xí),另一方面能夠使用深度監(jiān)督“deepsupervision”。這里主要討論的合成模型有兩個(gè),一個(gè)是NeuralModuleNetworks(NMN),另一個(gè)是DynamicMemoryNetworks(DMN)。Andreasetal等人提出了NeuralModuleNetworks(NMN)[5],NMN的貢獻(xiàn)在于對(duì)連續(xù)視覺(jué)特征使用了邏輯推理,而替代了離散或邏輯預(yù)測(cè)。模型的結(jié)構(gòu)框架如圖1-3:圖1-3合成模型模型的輸入和輸出一共有三類(lèi):圖像,圖像注意力區(qū)域,標(biāo)簽。該方法比傳統(tǒng)方法能更好的進(jìn)行推理,處理更長(zhǎng)的問(wèn)題。但是局限性在于問(wèn)題解析這里出現(xiàn)了瓶頸,此外,模塊結(jié)合采用問(wèn)題簡(jiǎn)化的方式,這就忽略了一些語(yǔ)法線索。(4)使用外部知識(shí)的模型:ModelsusingexternalknowledgebasesVQA在理解圖像內(nèi)容時(shí),經(jīng)常需要一些非視覺(jué)的先驗(yàn)信息,涉及范圍可以從常識(shí)到專(zhuān)題,目前已有的外部知識(shí)庫(kù)包括:DBpedia、Freebase、YAGO、OpenIE、NELL、WebChild、ConceptNet。Wangetal等人提出了基于DBpedia[6]的VQA網(wǎng)絡(luò)命名為“Ahab”,,首先用CNN提取視覺(jué)概念,然后結(jié)合DBpedia中相似的概念,再學(xué)習(xí)image-question到查詢(xún)的過(guò)程,通過(guò)總結(jié)查詢(xún)結(jié)果來(lái)獲得最終答案。還有一種基于該方法的改進(jìn)模型,叫FVQA。是Wuetal等人提出了一種利用外部知識(shí)的聯(lián)合嵌入法,首先用CNN提取圖像的語(yǔ)義屬性,然后從DBpedia檢索相關(guān)屬性的外部知識(shí),將檢索到的知識(shí)用Doc2Vec嵌入到詞向量中,最后將詞向量傳入到LSTM網(wǎng)絡(luò),對(duì)問(wèn)題進(jìn)行解釋并生成答案。但這種方法同樣存在性能和缺陷,一個(gè)問(wèn)題就是這些模型的問(wèn)題類(lèi)型都有限。1.3論文結(jié)構(gòu)安排第一章,主要介紹視覺(jué)問(wèn)答系統(tǒng)的定義和發(fā)展背景,以及VQA目前的發(fā)展前景和在未來(lái)商業(yè)上的潛在應(yīng)用價(jià)值。最后總結(jié)了一下當(dāng)前VQA的研究過(guò)程中,目前常用的四種研究方法。第二章,主要介紹本論文系統(tǒng)需要使用的相關(guān)技術(shù),包括圖像和問(wèn)題的特征提取,以及最后系統(tǒng)生成回答的方法。其中重點(diǎn)講解VGG和LSTM兩個(gè)神經(jīng)網(wǎng)絡(luò)的原理和運(yùn)用。第三章,介紹當(dāng)前的VQA研究過(guò)程中主要使用的數(shù)據(jù)集,并且詳細(xì)介紹本文中使用的數(shù)據(jù)集。第四章,主要介紹本論文中VQA系統(tǒng)的框架結(jié)構(gòu)和訓(xùn)練驗(yàn)證結(jié)果。主要采用VGG+LSTM作為特征提取網(wǎng)絡(luò),最后使用softmax分類(lèi)器作為系統(tǒng)的輸出。在訓(xùn)練過(guò)程中數(shù)據(jù)的預(yù)處理,參數(shù)的選擇和調(diào)節(jié)以及最后的系統(tǒng)性能的評(píng)價(jià)方案。第五章,總結(jié)本論文的主要工作,以及對(duì)未來(lái)VQA發(fā)展進(jìn)行展望。
2.相關(guān)工作準(zhǔn)備本文采取VQA的研究方法是基于上邊所介紹的聯(lián)合嵌入法,同樣是用預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)來(lái)提取圖像的特征,使用RNN網(wǎng)絡(luò)來(lái)進(jìn)行文本的特征提取,然而當(dāng)前并沒(méi)有一個(gè)科學(xué)準(zhǔn)確地評(píng)價(jià)自然語(yǔ)言句子精準(zhǔn)度的標(biāo)準(zhǔn),因此我們只能在有技術(shù)方法中,用一個(gè)單詞作為VQA的輸出答案,這樣就可以把視覺(jué)問(wèn)答任務(wù)轉(zhuǎn)換成一個(gè)多分類(lèi)問(wèn)題,從而可以利用現(xiàn)有的準(zhǔn)確度評(píng)價(jià)標(biāo)準(zhǔn)來(lái)度量系統(tǒng)性能。我們?cè)陂_(kāi)始構(gòu)建模型框架之前,我們首先介紹用來(lái)進(jìn)行圖像特征提取的VGG網(wǎng)絡(luò)和進(jìn)行文本特征提取的LSTM網(wǎng)絡(luò),以及最后用來(lái)產(chǎn)生答案的分類(lèi)[7]。2.1圖像特征提取卷積神經(jīng)網(wǎng)絡(luò)(CNN)最初設(shè)計(jì)被用來(lái)做圖片分類(lèi)工作,近來(lái)也被用來(lái)做圖像分割,圖像風(fēng)格遷移以及其他計(jì)算機(jī)視覺(jué)的工作;當(dāng)然,也有被用來(lái)做NLP的例子。卷積神經(jīng)網(wǎng)絡(luò)是最能解釋深度學(xué)習(xí)的模型之一,因?yàn)槲覀兛梢詫⑺谋磉_(dá)特征可視化來(lái)理解它可能學(xué)習(xí)到的東西。VGG是Oxford的VisualGeometryGroup的組提出的。該網(wǎng)絡(luò)是在ILSVRC2014上的首次被提出,主要工作是為了證明在保證模型具有相同大小的感受野的情況下,增加網(wǎng)絡(luò)的深度能夠在一定程度上提高網(wǎng)絡(luò)最終的性能。常用到的VGG網(wǎng)絡(luò)有兩種,分別是VGG-16和VGG-19,兩個(gè)網(wǎng)絡(luò)并沒(méi)有本質(zhì)上的區(qū)別,只是網(wǎng)絡(luò)深度不一樣,VGG-16網(wǎng)絡(luò)結(jié)構(gòu)如圖2-1。圖2-1VGG-16模型結(jié)構(gòu)在用來(lái)處理圖像的卷積神經(jīng)網(wǎng)絡(luò)中,VGG網(wǎng)絡(luò)是我最喜歡使用的網(wǎng)絡(luò),并且是我認(rèn)為最好用的網(wǎng)絡(luò)。VGG網(wǎng)絡(luò)的結(jié)構(gòu)非常清晰簡(jiǎn)明,整個(gè)網(wǎng)絡(luò)都使用了大小尺寸相同的卷積核(3x3)和最大池化尺寸(2x2)。同AlexNet網(wǎng)絡(luò)相比,這樣做的目的就是在相同感受野和步長(zhǎng)的情況下,VGG網(wǎng)絡(luò)使用幾個(gè)小濾波器(3x3)卷積層的組合比AlexNet網(wǎng)絡(luò)使用一個(gè)大濾波器(5x5或7x7)卷積層效果更好,并且驗(yàn)證了通過(guò)不斷加深神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的深度,這樣可以同時(shí)提升網(wǎng)絡(luò)的整體性能。但是,更換了小的卷積核尺寸,網(wǎng)絡(luò)的性能得到了提高,但卻耗費(fèi)更多計(jì)算資源,在相同的計(jì)算性能下,VGG網(wǎng)絡(luò)花費(fèi)了更多的計(jì)算時(shí)間,提取圖像的卷積特征變得更慢,主要的原因是在網(wǎng)絡(luò)層使用了更多的參數(shù),其中大部分的權(quán)重參數(shù)都是來(lái)自于第一個(gè)全連接層,并且,VGG網(wǎng)絡(luò)有3個(gè)全連接層。這樣使得模型參數(shù)權(quán)重達(dá)到500M左右。2.2文本特征提取循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)[8]是一類(lèi)以序列(sequence)數(shù)據(jù)(相互依賴(lài)的數(shù)據(jù)流,比如時(shí)間序列數(shù)據(jù)、信息性的字符串、對(duì)話(huà)等)為輸入。在序列的演進(jìn)方向進(jìn)行遞歸(recursion),且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork)。RNN可以用到很多領(lǐng)域中去,除了本設(shè)計(jì)中用來(lái)文本分析和文本生成之外,RNN還用在機(jī)器翻譯,語(yǔ)音識(shí)別,生成圖像描述,視頻標(biāo)記等領(lǐng)域。引入了卷積神經(jīng)網(wǎng)絡(luò)構(gòu)筑的循環(huán)神經(jīng)網(wǎng)絡(luò)可以處理包含序列輸入的計(jì)算機(jī)視覺(jué)問(wèn)題。在二十世紀(jì)80-90年代,開(kāi)始了對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的研究,并在二十一世紀(jì)初發(fā)展為深度學(xué)習(xí)優(yōu)秀算法之一
,其中雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BidirectionalRNN,Bi-RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShort-TermMemorynetworks,LSTM)是常見(jiàn)的循環(huán)神經(jīng)網(wǎng)絡(luò),接下來(lái)主要闡述LSTM網(wǎng)絡(luò)的工作原理。LSTM是一種特殊的RNN模型,是由Hochreiter&Schmidhuber在1997年首先提出,最初是為了解決RNN模型梯度彌散的問(wèn)題,但是在后來(lái)的工作中被許多人精煉和推廣,現(xiàn)在被廣泛的使用。在傳統(tǒng)的RNN中,訓(xùn)練過(guò)程使用的是基于時(shí)間的反向傳播算法(back-propagationthroughtime,BPTT),當(dāng)時(shí)間比較長(zhǎng)時(shí),需要回傳的誤差會(huì)指數(shù)下降,導(dǎo)致網(wǎng)絡(luò)權(quán)重更新緩慢,無(wú)法體現(xiàn)出RNN的長(zhǎng)期記憶的效果,因此需要一個(gè)存儲(chǔ)單元來(lái)存儲(chǔ)記憶,因此LSTM模型順勢(shì)而生。從圖2-2和2-3我們可以看出傳統(tǒng)RNN網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)兩種模塊鏈的區(qū)別。圖2-2傳統(tǒng)RNN網(wǎng)絡(luò)層結(jié)構(gòu)圖2-3LSTM網(wǎng)絡(luò)層結(jié)構(gòu)與RNN網(wǎng)絡(luò)的結(jié)構(gòu)不同之處是LSTM網(wǎng)絡(luò)最頂層多了一條名為“cellstate”的信息傳播帶,cellstate就是信息記憶的地方,如圖2-4。圖2-4cellstate其實(shí)就是整個(gè)模型中的記憶空間,隨著時(shí)間而變化的,當(dāng)然,cellstate本身是無(wú)法控制哪些信息是否被記憶,而真正其控制作用的是控制門(mén)(gate);控制門(mén)的結(jié)構(gòu)如圖2-5:主要由一個(gè)sigmoid函數(shù)跟點(diǎn)乘操作組成;sigmoid函數(shù)的值域在0-1之間,點(diǎn)乘操作決定多少信息可以傳送過(guò)去,當(dāng)sigmoid函數(shù)值為0時(shí),則cellstate不傳送存儲(chǔ)的信息,當(dāng)sigmoid函數(shù)值為1時(shí),則cellstate將所有存儲(chǔ)的信息進(jìn)行傳送。LSTM中有3個(gè)控制門(mén):輸入門(mén)、輸出門(mén)、記憶門(mén),三個(gè)控制門(mén)作用各不相同,具體功能如下:圖2-5控制門(mén)結(jié)構(gòu)圖(1)記憶門(mén):如圖2-6,選擇忘記或者存儲(chǔ)過(guò)去某些記憶信息,即公式(2-1):圖2-6記憶門(mén)ft=σWf?(2)輸入門(mén):如圖2-7,存儲(chǔ)當(dāng)前輸入的某些信息,即公式(2-2)、(2-3):圖2-7輸入門(mén)itCt=tanhW(3)如圖2-8,將記憶門(mén)與輸入門(mén)的存儲(chǔ)信息進(jìn)行合并,即公式(2-4):圖2-9記憶門(mén)與輸入門(mén)合并Ct(4)輸出門(mén):如圖2-10,存儲(chǔ)傳遞到下一個(gè)模塊鏈記憶門(mén)的信息,即公式(2-5)、(2-6):圖2-10輸出門(mén)otht2.3輸出分類(lèi)器分類(lèi)是數(shù)據(jù)挖掘的一種非常重要的方法。分類(lèi)的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或構(gòu)造出一個(gè)分類(lèi)模型(即我們通常所說(shuō)的分類(lèi)器(Classifier))。分類(lèi)器是數(shù)據(jù)挖掘中對(duì)樣本進(jìn)行分類(lèi)的方法的統(tǒng)稱(chēng),常用的分類(lèi)方法包含決策樹(shù)、邏輯回歸、樸素貝葉斯、支持向量機(jī)(SVM)等算法。對(duì)于本文的VQA系統(tǒng),我的期待的輸出答案,本應(yīng)該是將圖像特征和文本特征進(jìn)行多模態(tài)融合,然后在傳入LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后生成一條自然語(yǔ)言的特征向量,最后經(jīng)過(guò)一個(gè)文本解碼器輸出。但是鑒于現(xiàn)在沒(méi)有一個(gè)好的評(píng)價(jià)生成自然語(yǔ)言準(zhǔn)確率的標(biāo)準(zhǔn),我們用一個(gè)關(guān)鍵單詞來(lái)替換自然語(yǔ)言句子作為系統(tǒng)的最后輸出,具體做法如下文。本文對(duì)所有訓(xùn)練數(shù)據(jù)的回答進(jìn)行處理,將所有的回答出現(xiàn)按次數(shù)統(tǒng)計(jì),然后排序,選擇前1000個(gè)經(jīng)常出現(xiàn)的答案,這些答案中包括yes、no、1、2、red、green等在現(xiàn)實(shí)生活中經(jīng)常用的回答,而且這個(gè)回答樣本基本上已經(jīng)涵蓋了整個(gè)回答數(shù)據(jù)集的82.67%以上的回答。于是我們就將系統(tǒng)轉(zhuǎn)換成一個(gè)1000類(lèi)的多分類(lèi)問(wèn)題。softmax分類(lèi)器是神經(jīng)網(wǎng)絡(luò)中最常用的分類(lèi)器。它簡(jiǎn)單有效,所以十分流行。Softmax的原理就是,對(duì)于一個(gè)輸入x,我們想知道它是N個(gè)類(lèi)別中的哪一類(lèi)。現(xiàn)有一個(gè)模型,能對(duì)輸入x輸出N個(gè)類(lèi)別的評(píng)分,評(píng)分越高代表x是這個(gè)類(lèi)別的可能性越大,評(píng)分最高的被認(rèn)為是x正確的類(lèi)別。然而評(píng)分范圍很廣,我們希望把它變成一個(gè)概率,而softmax就是一個(gè)能將+∞,softmaxs其中si表示模型對(duì)輸入x在第i個(gè)
3.VQA數(shù)據(jù)集與自然語(yǔ)言處理或計(jì)算機(jī)視覺(jué)中的許多問(wèn)題一樣,例如機(jī)器翻譯、圖像標(biāo)注(ImageCaptioning)或圖像識(shí)別,數(shù)據(jù)集的可用性是一個(gè)關(guān)鍵問(wèn)題。VQA領(lǐng)域非常復(fù)雜,一個(gè)好的數(shù)據(jù)集體積應(yīng)該足夠大,大到能夠在真實(shí)的場(chǎng)景中捕捉問(wèn)題和圖像內(nèi)容的各種可能性。如今許多數(shù)據(jù)集中的圖像都來(lái)自微軟的MS-COCO數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了32.8萬(wàn)張圖像,91個(gè)對(duì)象類(lèi)型,250萬(wàn)個(gè)標(biāo)記的實(shí)例,涵蓋了現(xiàn)實(shí)生活各個(gè)場(chǎng)景。目前,在學(xué)者和企業(yè)的研究過(guò)程中,已經(jīng)出現(xiàn)許多VQA的數(shù)據(jù)集[9],主要包括四類(lèi):第一類(lèi)是自然場(chǎng)景的數(shù)據(jù)集,有DAQUAR、COCO-QA、FM-IQA、VQA-real、VisualGenome、Visual7W、VQA-v1和VQA-v2等;第二類(lèi)是合成場(chǎng)景的數(shù)據(jù)集,有VQAabstractscenes、Balanceddataset和CLEVR等;第三類(lèi)是外部知識(shí)數(shù)據(jù)集,主要有KB-VQA和FVQA;最后一類(lèi)就是其他的數(shù)據(jù)集,主要有Diagrams和Shapes。本文研究過(guò)程中所使用的是第一類(lèi)的自然場(chǎng)景數(shù)據(jù)集。接下來(lái)主要介紹DAQUAR、COCO-QA、VQA-v1和VQA-v2這幾個(gè)數(shù)據(jù)集:(1)DAQUAR(DAtasetforQUestionAnsweringonReal-worldimages)DAQUAR數(shù)據(jù)集是最早的,也是最小的VQA數(shù)據(jù)集包含了6795張訓(xùn)練數(shù)據(jù)和5673張測(cè)試數(shù)據(jù),所有圖像來(lái)自于數(shù)據(jù)集NYU-DepthV2Dataset。該數(shù)據(jù)集質(zhì)量較差,一些圖像雜亂無(wú)章,分辨率低,并且問(wèn)題和回答有明顯的語(yǔ)法錯(cuò)誤。雖然這個(gè)數(shù)據(jù)集是一項(xiàng)偉大的創(chuàng)舉,但NYU的數(shù)據(jù)集只包含室內(nèi)場(chǎng)景。關(guān)于在室外的問(wèn)題就很難回答出來(lái)。對(duì)人類(lèi)的評(píng)估,NYU數(shù)據(jù)集顯示了50.2%的準(zhǔn)確率。DAQUAR數(shù)據(jù)集的另一個(gè)缺點(diǎn)是它的大小使它不適合用于訓(xùn)練和評(píng)估復(fù)雜模型。(2)COCO-QACOCO-QA數(shù)據(jù)集比DAQUAR大得多。它包含123,287張來(lái)自COCO數(shù)據(jù)集的圖片,78,736個(gè)訓(xùn)練和38,948個(gè)測(cè)試question-answerpairs。為了創(chuàng)建如此大量的question-answerpairs,RenM,KirosR,ZemelR等人[10]使用了自然語(yǔ)言處理算法來(lái)自動(dòng)從COCO圖像標(biāo)注(imagecaption)中生成它們。例如,對(duì)于一個(gè)給定的標(biāo)注,比如“房間里的兩把椅子”,它們會(huì)產(chǎn)生一個(gè)如“有多少椅子?”的問(wèn)題,必須注意的是,所有的答案都是一個(gè)單一的詞。雖然這種做法很聰明,但這里存在的問(wèn)題是,這些問(wèn)題都具有自然語(yǔ)言處理的限制,所以它們有時(shí)會(huì)被奇怪地表述出來(lái),或者有語(yǔ)法錯(cuò)誤。在某些情況下,它們的表達(dá)是難以理解的。另一個(gè)不便之處是,數(shù)據(jù)集只有四種問(wèn)題,問(wèn)題分布也不均勻:對(duì)象(69.84%)、顏色(16.59%)、計(jì)數(shù)(7.47%)和位置(6.10%)。(3)VQA-v1和VQA-v2與其他數(shù)據(jù)集相比,VQA數(shù)據(jù)集比較大。除了來(lái)自COCO數(shù)據(jù)集的204,721張圖片外,它還包含5萬(wàn)個(gè)抽象的卡通圖片。每個(gè)圖像對(duì)應(yīng)三個(gè)問(wèn)題,每個(gè)問(wèn)題有十個(gè)答案。由此可以得出VQA數(shù)據(jù)集有超過(guò)76萬(wàn)個(gè)問(wèn)題,大約有1000萬(wàn)個(gè)答案。VQA-v1發(fā)布于2015年,VQA-v2發(fā)布于2017年,兩個(gè)版本都是基于微軟的COCO數(shù)據(jù)集。v2是在v1的基礎(chǔ)上,兩個(gè)數(shù)據(jù)集都是人工標(biāo)注的問(wèn)答數(shù)據(jù)集,v2相較于v1盡量減少了語(yǔ)言偏見(jiàn)。對(duì)于問(wèn)題的類(lèi)型:v1是多項(xiàng)選擇得問(wèn)題(Multiple-Choice),v2是開(kāi)放式問(wèn)答(Open-Ended)。每個(gè)版本的數(shù)據(jù)集內(nèi),除了圖片都相同之外,分別還有訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù)的問(wèn)題和答案,都是以josn文件存儲(chǔ)。具體的文件格式如下表3-1:表3-1VQA數(shù)據(jù)集字段類(lèi)型NameType類(lèi)型Description描述image_idint圖片IDquestion_idint圖片對(duì)應(yīng)的問(wèn)題IDquestionstr圖片對(duì)應(yīng)的問(wèn)題answer_idint問(wèn)題對(duì)應(yīng)的回答IDanswerstr問(wèn)題對(duì)應(yīng)的回答本文的系統(tǒng)使用的數(shù)據(jù)集,受計(jì)算機(jī)性能的限制,采用是對(duì)VQA-v2的部分?jǐn)?shù)據(jù),其中包括訓(xùn)練圖像82,738張,大約12.7G,驗(yàn)證圖像40,504張,大約6.25G。
4.VGG+LSTM網(wǎng)絡(luò)的視覺(jué)問(wèn)答系統(tǒng)4.1數(shù)據(jù)預(yù)處理第三章我們已經(jīng)介紹了VQA的數(shù)據(jù)集,這里我們選擇VQA-v1版本的數(shù)據(jù)集,它分為兩部分:一部分是由MS-COCO數(shù)據(jù)集提供的,包含現(xiàn)實(shí)世界照片的數(shù)據(jù)集,以及另一個(gè)包含了抽象圖畫(huà)場(chǎng)景的數(shù)據(jù)集。后者通常只包括人物等內(nèi)容,移除了圖像噪聲,主要用于進(jìn)行高階的推理用途。問(wèn)題和答案由眾包源的標(biāo)注員提供。每個(gè)問(wèn)題有十個(gè)答案,答案分別來(lái)自不同的標(biāo)注員。答案通常都是一個(gè)單詞或是短句。大約40%的問(wèn)題答案為是或否。為了評(píng)估需要,同時(shí)提供開(kāi)放性答案和多選答案兩種格式。多選答案的問(wèn)題一共有18個(gè)備選答案。本實(shí)驗(yàn)將開(kāi)放性VQA視為N分類(lèi)問(wèn)題,即選擇出現(xiàn)頻率最高的N個(gè)答案,然后對(duì)于每一組問(wèn)題和圖像輸入,輸出一個(gè)分類(lèi)。作為答案。本實(shí)驗(yàn)選擇的N=1000,大約覆蓋了整個(gè)數(shù)據(jù)集中答案的82.67%。4.1.1圖像數(shù)據(jù)歸約對(duì)于tensorflow深度學(xué)習(xí)的框架,需要的數(shù)據(jù)是一個(gè)張量(tensor)。在本系統(tǒng)中,用scipy這個(gè)科學(xué)計(jì)算工具包來(lái)加載圖片,然后用numpy將加載的圖片轉(zhuǎn)換為一個(gè)224*223*3的三維數(shù)組向量,并且將數(shù)組內(nèi)的每個(gè)像素值除以225,歸約到0-1之間,因?yàn)閂GG-16網(wǎng)絡(luò)接受的是像素在0-1的RGB三通道圖像。并且載數(shù)據(jù)規(guī)約之后,圖像像素值雖然變小,但仍大致保持原數(shù)據(jù)的完整性。這樣,在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行?,并產(chǎn)生相同(或幾乎相同)的分析結(jié)果,同時(shí)更加利于模型訓(xùn)練過(guò)程的損失函數(shù)下降和網(wǎng)絡(luò)權(quán)重參數(shù)的優(yōu)化。4.1.2文本數(shù)據(jù)處理數(shù)據(jù)集內(nèi)的訓(xùn)練和驗(yàn)證question-answer都是以josn文件存儲(chǔ),文件比較大,而且存在不同圖片相同問(wèn)題的情況。在訓(xùn)練過(guò)程中,如果每次都用IO來(lái)讀取文件,過(guò)程會(huì)比較慢,同時(shí)占用計(jì)算資源,這里我們將所有的question-answer和對(duì)應(yīng)ID從json文件中抽取,然后一一對(duì)應(yīng)整合到同一個(gè)文件,并且以pkl文件的形式存儲(chǔ)。同樣在最后softmax分類(lèi)器最后輸出結(jié)果的時(shí)候,需要一個(gè)解碼過(guò)程,這時(shí)候我們需要一個(gè)參照的數(shù)據(jù)字典(vocab),就是將前1000個(gè)最常出現(xiàn)的回答,與他們的向量特征做一個(gè)一一對(duì)應(yīng)的參照,同樣我們以pkl文件存儲(chǔ),每次我們的系統(tǒng)回答結(jié)果只需要在這個(gè)vocab文件內(nèi)進(jìn)行轉(zhuǎn)換之后輸出就可以了。4.2VQA系統(tǒng)結(jié)構(gòu)本文的VQA系統(tǒng)采用VGG+LSTM網(wǎng)絡(luò)來(lái)設(shè)計(jì)[11],系統(tǒng)的框架如圖4-1:圖4-1VQA系統(tǒng)結(jié)構(gòu)系統(tǒng)整體可分為三部分:圖像特征提取、問(wèn)題特征提取、答案生成分類(lèi)器[11]。圖像的特征提取使用VGG-16網(wǎng)絡(luò),這里將第二個(gè)全連接層的輸出作為圖片的特征向量,最終得到一個(gè)一維的4096長(zhǎng)度大小的向量。然后將這個(gè)向量進(jìn)行一個(gè)線性映射,以便于和后邊的文本特征進(jìn)行模態(tài)融合[11]。問(wèn)題特征提取使用一個(gè)兩層的LSTM網(wǎng)絡(luò),每一層LSTM都有512大小的模塊鏈。對(duì)于每一個(gè)問(wèn)題進(jìn)行編碼的時(shí)候,都將其轉(zhuǎn)換為一個(gè)長(zhǎng)度為512的向量然后傳入LSTM網(wǎng)絡(luò)中。每一個(gè)問(wèn)題經(jīng)過(guò)LSTM網(wǎng)絡(luò)特征提取后,和圖片的特征進(jìn)行模態(tài)融合,將圖像的特征添加到問(wèn)題特征后邊然后再次進(jìn)入LSTM進(jìn)行特征提取,然后生成一個(gè)長(zhǎng)度為1000的特征向量,傳入答案生成分類(lèi)器中。答案生成分類(lèi)器選擇的是softmax分類(lèi)器,將神經(jīng)網(wǎng)絡(luò)輸出的長(zhǎng)度為1000的向量映射到對(duì)應(yīng)分類(lèi)的概率,然后選擇概率值最大的類(lèi)別就是正確的分類(lèi)結(jié)果,經(jīng)過(guò)解碼器輸出即可。同樣的方法,我們選擇概率為前五的向量,將其解碼輸出,就是系統(tǒng)得到的最可能回答結(jié)果。4.3系統(tǒng)實(shí)現(xiàn)過(guò)程與驗(yàn)證結(jié)果4.3.1系統(tǒng)運(yùn)行環(huán)境本實(shí)驗(yàn)在WindowsPC端運(yùn)行,具體硬件設(shè)備性能:Inter(R)Core(TM)i5-8200UCPU@1.6GHZ1.80GHZ8核,16GB運(yùn)行內(nèi)存;軟件配置:windows10操作系統(tǒng),Python3.7tensorflow1.14.0。4.3.2系統(tǒng)參數(shù)選擇在上文的我們已經(jīng)介紹了VQA的部分參數(shù),VGG網(wǎng)絡(luò)為預(yù)訓(xùn)練的網(wǎng)絡(luò),圖片的特征向量為大小4096的一維特征向量,問(wèn)題特征提取網(wǎng)絡(luò)為一個(gè)兩層的LSTM,每層LSTM網(wǎng)絡(luò)有512個(gè)隱藏模塊鏈,輸出的文本特征向量大小為512的一維特征向量,softmax分類(lèi)器輸出長(zhǎng)度為1000的一維特征向量。但是為了防止系統(tǒng)的過(guò)擬合,我們的VGG和LSTM網(wǎng)絡(luò)后邊都加上一個(gè)大小為0.5的Dropout,就是隨即丟棄50%的神經(jīng)單元,強(qiáng)迫網(wǎng)絡(luò)去學(xué)習(xí)更多特征,以此來(lái)提高模型的泛化能力。系統(tǒng)的學(xué)習(xí)率(learn-rate),初始設(shè)定為0.0001,在tensorflow中,AdamOptimizer函數(shù)可以自動(dòng)調(diào)節(jié)網(wǎng)絡(luò)的學(xué)習(xí)率,該函數(shù)是基于Adam算法,AdamOptimizer可控制學(xué)習(xí)速度調(diào)節(jié),經(jīng)過(guò)偏置校正后,每一次迭代學(xué)習(xí)率都有個(gè)確定范圍,使得參數(shù)比較平穩(wěn)。Adam這個(gè)名字來(lái)源于自適應(yīng)矩估計(jì)(AdaptiveMomentEstimation),也是梯度下降算法的一種變形,但是每次迭代參數(shù)的學(xué)習(xí)率都有一定的范圍,不會(huì)因?yàn)樘荻群艽蠖鴮?dǎo)致學(xué)習(xí)率(步長(zhǎng))也變得很大,參數(shù)的值相對(duì)比較穩(wěn)定。概率論中矩的含義是:如果一個(gè)隨機(jī)變量X服從某個(gè)分布,X的一階矩是E(X),也就是樣本平均值,X的二階矩就是E(X^2),也就是樣本平方的平均值。Adam算法利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。訓(xùn)練過(guò)程BATCH_SIZE設(shè)定為200,迭代次數(shù)(epochs)為12次,關(guān)于BATCH_SIZE的設(shè)置我要根據(jù)實(shí)際情況來(lái)定,BATCH_SIZE的定義為一次訓(xùn)練所選取的樣本數(shù),在卷積神經(jīng)網(wǎng)絡(luò)中,如果是小樣本的數(shù)據(jù)集訓(xùn)練,也可以不設(shè)置BATCH_SIZE,一次將樣本全部傳入網(wǎng)絡(luò)中去,但是大型的數(shù)據(jù)集,一次的樣本全部傳入網(wǎng)絡(luò)中去,勢(shì)必將引起內(nèi)存爆炸,于是就提出BATCH_SIZE的概念。通過(guò)訓(xùn)練過(guò)程,發(fā)現(xiàn)在迭代12次之后,系統(tǒng)的損失函數(shù)不在下降,準(zhǔn)確率在52%左右,不再有明顯提高。4.3.3系統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)和驗(yàn)證結(jié)果本系統(tǒng)最后將VQA問(wèn)題轉(zhuǎn)換為一個(gè)多分類(lèi)問(wèn)題,所以,用準(zhǔn)確率來(lái)衡量系統(tǒng)的性能。VQA數(shù)據(jù)集也給出了一種評(píng)估方法[7]:min系統(tǒng)給出的答案與數(shù)據(jù)集人為標(biāo)定的答案完全相同3,我們根據(jù)這個(gè)評(píng)價(jià)標(biāo)準(zhǔn),用驗(yàn)證數(shù)據(jù)集來(lái)評(píng)價(jià)系統(tǒng),最終得到經(jīng)過(guò)12個(gè)epochs之后,系統(tǒng)的準(zhǔn)確率為50.3%。4.4系統(tǒng)測(cè)試結(jié)果系統(tǒng)正確回答測(cè)試如表(4-1):表4-1系統(tǒng)正確回答問(wèn)題展示表PictureQuestionTop5answerWhataretheydoing?1.surfing2.swimming3.flyingkite4.walking5.drinkingHowmanydogsinthispicture?4.45.3Whatsportisthis?1.skateboarding2.parasailing3.snowboarding4.skiing5.surfingWhatanimalisthis?1.zebra2.horse3.cow4.zebras5.goat系統(tǒng)錯(cuò)誤回答測(cè)試如表(4-2):表4-2系統(tǒng)錯(cuò)誤回答問(wèn)題展示表PictureQuestionTop5answerWhatcolorofthiscat?1.white2.orange3.whiteandbrown4.gray5.blackHowmanypeopleinthepicture?4.15.5Whatcoloristheemptyplateonthetable?1.red2.black3.yellow4.white5.grayWhat’sonthebook?1.bottle2.trees3.vase4.woman5.statue通過(guò)上邊幾組測(cè)試結(jié)果,我們就可以發(fā)現(xiàn),目前我們訓(xùn)練出來(lái)的VQA系統(tǒng),對(duì)于較為簡(jiǎn)單的問(wèn)題的圖像,系統(tǒng)的成功率比較高;但是針對(duì)需要計(jì)數(shù)、推理、相對(duì)復(fù)雜的、具有一定邏輯思維能力或者常識(shí)性的問(wèn)題,或者圖片的內(nèi)容比較復(fù)雜,問(wèn)題相關(guān)主體在圖像中相對(duì)尺寸比較小、像素值模糊,這樣系統(tǒng)的出錯(cuò)幾率就會(huì)增加[13]。
5.總結(jié)和展望本章主要對(duì)本論文的主要內(nèi)容進(jìn)行總結(jié),以及對(duì)未來(lái)VQA的發(fā)展研究方向進(jìn)行展望[14]。5.1論文總結(jié)本文的主要工作是利用VGG和LSTM模型,將計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)兩大領(lǐng)域相結(jié)合,完成了視覺(jué)問(wèn)答任務(wù)。論文的具體工作討論了VQA的研究意義和現(xiàn)如今的發(fā)展現(xiàn)狀;并且介紹了目前VQA研究過(guò)程中常用到的數(shù)據(jù)集,并且對(duì)本文中用到的數(shù)據(jù)集驚醒了詳細(xì)介紹;在VQA系統(tǒng)的實(shí)現(xiàn)過(guò)程中,詳細(xì)闡述了圖像和問(wèn)題的特征提取方法,以及最后的答案產(chǎn)生過(guò)程;載系統(tǒng)模型訓(xùn)練完成后,通過(guò)制定評(píng)價(jià)方法,使用驗(yàn)證數(shù)據(jù)集,驗(yàn)證了系統(tǒng)的準(zhǔn)確性。5.2VQA的未來(lái)發(fā)展展望在本文的驗(yàn)證和測(cè)試結(jié)果中,發(fā)現(xiàn)本文的VQA系統(tǒng)準(zhǔn)確性并不是太高,而且對(duì)于一些復(fù)雜圖像和有一定邏輯思維問(wèn)題處理效果不是太好,說(shuō)明未來(lái)的VQA系統(tǒng)還有很大的提升發(fā)展空間。究其原因,VGG對(duì)圖像信息進(jìn)行特征提取是基于全圖進(jìn)行,LSTM網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中的知識(shí)來(lái)源只有訓(xùn)練集中的問(wèn)答對(duì),知識(shí)結(jié)構(gòu)比較簡(jiǎn)單且信息量匱乏。所以未來(lái),VQA的問(wèn)答數(shù)據(jù)集應(yīng)該得到擴(kuò)充,而且問(wèn)題和回答的質(zhì)量需要更高,當(dāng)然,這是一個(gè)非常耗時(shí)、耗資的巨大任務(wù)量。對(duì)于圖像的特征提取,未來(lái)的趨勢(shì)是加入注意力機(jī)制,可以讓神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取時(shí),更加聚焦在問(wèn)題對(duì)圖像提問(wèn)的關(guān)鍵部分。同時(shí),隨著多媒體視頻的發(fā)展,未來(lái)視頻存儲(chǔ)會(huì)和圖片、文本一樣在我們生活中使用越來(lái)越多,同樣,對(duì)于VQA的發(fā)展必將應(yīng)用在視頻技術(shù)處理中[15]。隨著深度學(xué)習(xí)的發(fā)展,計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的技術(shù)越來(lái)越成熟,未來(lái)的VQA系統(tǒng)肯定會(huì)越來(lái)越精準(zhǔn)。
參考文獻(xiàn)[1]QiWu,DamienTeney,PengWang,ChunhuaShen,AnthonyDick,AntonvandenHengel.Visualquestionanswering:Asurveyofmethodsanddatasets[J].ComputerVisionandImageUnderstanding,2017.[2]李健,姚亮.融合多特征深度學(xué)習(xí)的地面激光點(diǎn)云語(yǔ)義分割[J/OL].測(cè)繪科學(xué):1-11[2020-05-18].[3]M.Malinowski,M.Rohrbach,andM.Fritz.AskYourNeurons:ANeural-basedApproachtoAnsweringQuestionsaboutImages.InProc.IEEEInt.Conf.Comp.Vis.,2015[4]K.Chen,J.Wang,L.-C.Chen,H.Gao,W.Xu,andR.Nevatia.ABC-CNN:AnAttentionBasedConvolutionalNeuralNetworkforVisualQuestionAnswering.arXivpreprintarXiv:1511.05960,2015[5]J.Andreas,M.Rohrbach,T.Darrell,andD.Klein.NeuralModuleNetworks.InProc.IEEEConf.Comp.Vis.Patt.Recogn.,2016[6]Q.Wu,P.Wang,C.Shen,A.Dick,andA.v.d.Hengel.AskMeAnything:Free-formVisualQuestionAnsweringBasedonKnowledgefromExternalSources.InProc.IEEEConf.Comp.Vis.Patt.Recogn.,2016[7]張昊偉.基于多渠道卷積神經(jīng)網(wǎng)絡(luò)-LSTM的可視化問(wèn)答系統(tǒng)研究[D].云南大學(xué),2018.[8]陳凱.深度學(xué)習(xí)模型的高效訓(xùn)練算法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2016.[9]K.Kafle,C.Kanan."VisualQuestionAnswering:Datasets,Algorithms,andFutureChallenges."
ComputerVisionandImageUnderstanding,2017[10]RenM,KirosR,ZemelR.ExploringModelsandDataforImageQuestionAnswering[J].2015.[11]M.Ren,R.Kiros,andR.Zemel.ImageQuestionAnswering:AVisualSemanticEmbeddingModelandaNewDataset.InProc.AdvancesinNeuralInf.Process.Syst.,2015.[12]白亞龍.面向圖像與文本的多模態(tài)關(guān)聯(lián)學(xué)習(xí)的研究與應(yīng)用[D].哈爾濱工業(yè)大學(xué),2018.[13]葛夢(mèng)穎,孫寶山.基于深度學(xué)習(xí)的視覺(jué)問(wèn)答系統(tǒng)[J].現(xiàn)代信息科技,2019,3(11):11-13+16.[14]王旭.基于深度學(xué)習(xí)的視覺(jué)問(wèn)答系統(tǒng)研究[D].吉林大學(xué),2018.[15]YunseokJang,
YaleSong,
ChrisDongjooKim,
YoungjaeYu,
YoungjinKim,
GunheeKim.InternationalJournalofComputerVision,2019,Vol.127(10),pp.1385-1412
附錄vis+lstm_model.pyimporttensorflowastf
importmath
classVis_lstm_model:
definit_weight(self,dim_in,dim_out,name=None,stddev=1.0):
returntf.Variable(tf.truncated_normal([dim_in,dim_out],stddev=stddev/math.sqrt(float(dim_in))),name=name)
definit_bias(self,dim_out,name=None):
returntf.Variable(tf.zeros([dim_out]),name=name)
def__init__(self,options):
withtf.device('/cpu:0'):
self.options=options
#+1forzeropadding
self.Wemb=tf.Variable(tf.random_uniform([options['q_vocab_size']+1,options['embedding_size']],-1.0,1.0),name='Wemb')
self.Wimg=self.init_weight(options['fc7_feature_length'],options['embedding_size'],name='Wimg')
self.bimg=self.init_bias(options['embedding_size'],name='bimg')
#TODO:Assumedembeddingsizeandrnn-sizetobesame
self.lstm_W=[]
self.lstm_U=[]
self.lstm_b=[]
foriinrange(options['num_lstm_layers']):
W=self.init_weight(options['rnn_size'],4*options['rnn_size'],name=('rnnw_'+str(i)))
U=self.init_weight(options['rnn_size'],4*options['rnn_size'],name=('rnnu_'+str(i)))
b=self.init_bias(4*options['rnn_size'],name=('rnnb_'+str(i)))
self.lstm_W.append(W)
self.lstm_U.append(U)
self.lstm_b.append(b)
self.ans_sm_W=self.init_weight(options['rnn_size'],options['ans_vocab_size'],name='ans_sm_W')
self.ans_sm_b=self.init_bias(options['ans_vocab_size'],name='ans_sm_b')
defforward_pass_lstm(self,word_embeddings):
x=word_embeddings
output=None
forlinrange(self.options['num_lstm_layers']):
h=[Noneforiinrange(self.options['lstm_steps'])]
c=[Noneforiinrange(self.options['lstm_steps'])]
layer_output=[]
forlstm_stepinrange(self.options['lstm_steps']):
iflstm_step==0:
lstm_preactive=tf.matmul(x[lstm_step],self.lstm_W[l])+self.lstm_b[l]
else:
lstm_preactive=tf.matmul(h[lstm_step-1],self.lstm_U[l])+tf.matmul(x[lstm_step],self.lstm_W[l])+self.lstm_b[l]
i,f,o,new_c=tf.split(lstm_preactive,num_or_size_splits=4,axis=1)
i=tf.nn.sigmoid(i)
f=tf.nn.sigmoid(f)
o=tf.nn.sigmoid(o)
new_c=tf.nn.tanh(new_c)
iflstm_step==0:
c[lstm_step]=i*new_c
else:
c[lstm_step]=f*c[lstm_step-1]+i*new_c
#BUGINTHELSTM-->Haven'tcorrectedthisyet,Willhavetoretrainthemodel.
h[lstm_step]=o*tf.nn.tanh(c[lstm_step])
#h[lstm_step]=o*tf.nn.tanh(new_c)
layer_output.append(h[lstm_step])
x=layer_output
output=layer_output
returnoutput
defbuild_model(self):
fc7_features=tf.placeholder('float32',[None,self.options['fc7_feature_length']],name='fc7')
sentence=tf.placeholder('int32',[None,self.options['lstm_steps']-1],name="sentence")
answer=tf.placeholder('float32',[None,self.options['ans_vocab_size']],name="answer")
word_embeddings=[]
foriinrange(self.options['lstm_steps']-1):
word_emb=tf.nn.embedding_lookup(self.Wemb,sentence[:,i])
word_emb=tf.nn.dropout(word_emb,self.options['word_emb_dropout'],name="word_emb"+str(i))
word_embeddings.append(word_emb)
image_embedding=tf.matmul(fc7_features,self.Wimg)+self.bimg
image_embedding=tf.nn.tanh(image_embedding)
image_embedding=tf.nn.dropout(image_embedding,self.options['image_dropout'],name="vis_features")
#Imageasthelastwordinthelstm
word_embeddings.append(image_embedding)
lstm_output=self.forward_pass_lstm(word_embeddings)
lstm_answer=lstm_output[-1]
logits=tf.matmul(lstm_answer,self.ans_sm_W)+self.ans_sm_b
#ce=tf.nn.softmax_cross_entropy_with_logits(logits,answer,name='ce')
ce=tf.nn.softmax_cross_entropy_with_logits(labels=answer,logits=logits,name='ce')
answer_probab=tf.nn.softmax(logits,name='answer_probab')
predictions=tf.argmax(answer_probab,1)
correct_predictions=tf.equal(tf.argmax(answer_probab,1),tf.argmax(answer,1))
accuracy=tf.reduce_mean(tf.cast(correct_predictions,tf.float32))
loss=tf.reduce_sum(ce,name='loss')
input_tensors={
'fc7':fc7_features,
'sentence':sentence,
'answer':answer
}
returninput_tensors,loss,accuracy,predictions
defbuild_generator(self):
fc7_features=tf.placeholder('float32',[None,self.options['fc7_feature_length']],name='fc7')
sentence=tf.placeholder('int32',[None,self.options['lstm_steps']-1],name="sentence")
word_embeddings=[]
foriinrange(self.options['lstm_steps']-1):
word_emb=tf.nn.embedding_lookup(self.Wemb,sentence[:,i])
word_embeddings.append(word_emb)
image_embedding=tf.matmul(fc7_features,self.Wimg)+self.bimg
image_embedding=tf.nn.tanh(image_embedding)
word_embeddings.append(image_embedding)
lstm_output=self.forward_pass_lstm(word_embeddings)
lstm_answer=lstm_output[-1]
logits=tf.matmul(lstm_answer,self.ans_sm_W)+self.ans_sm_b
answer_probab=tf.nn.softmax(logits,name='answer_probab')
predictions=tf.argmax(answer_probab,1)
input_tensors={
'fc7':fc7_features,
'sentence':sentence
}
returninput_tensors,predictions,answer_probab
vis+lstm_model.py
HYPERLINK如何給電腦重做系統(tǒng)給電腦重做系統(tǒng),自己學(xué)學(xué),可少花錢(qián),哈哈[圖]
一、準(zhǔn)備工作:
如何重裝電腦系統(tǒng)
首先,在啟動(dòng)電腦的時(shí)候按住DELETE鍵進(jìn)入BIOS,選擇AdvancedBIOSFeatures選項(xiàng),按Enter鍵進(jìn)入設(shè)置程序。選擇FirstBootDevice選項(xiàng),然后按鍵盤(pán)上的PageUp或PageDown鍵將該項(xiàng)設(shè)置為CD-ROM,這樣就可以把系統(tǒng)改為光盤(pán)啟動(dòng)。
其次,退回到主菜單,保存BIOS設(shè)置。(保存方法是按下F10,然后再按Y鍵即可)
1.準(zhǔn)備好WindowsXPProfessional簡(jiǎn)體中文版安裝光盤(pán),并檢查光驅(qū)是否支持自啟動(dòng)。
2.可能的情況下,在運(yùn)行安裝程序前用磁盤(pán)掃描程序掃描所有硬盤(pán)檢查硬盤(pán)錯(cuò)誤并進(jìn)行修復(fù),否則安裝程序運(yùn)行時(shí)如檢查到有硬盤(pán)錯(cuò)誤即會(huì)很麻煩。
3.用紙張記錄安裝文件的產(chǎn)品密匙(安裝序列號(hào))。
4.可能的情況下,用驅(qū)動(dòng)程序備份工具(如:驅(qū)動(dòng)精靈2004V1.9Beta.exe)將原WindowsXP下的所有驅(qū)動(dòng)程序備份到硬盤(pán)上(如∶F:Drive)。最好能記下主板、網(wǎng)卡、顯卡等主要硬件的型號(hào)及生產(chǎn)廠家,預(yù)先下載驅(qū)動(dòng)程序備用。
5.如果你想在安裝過(guò)程中格式化C盤(pán)或D盤(pán)(建議安裝過(guò)程中格式化C盤(pán)),請(qǐng)備份C盤(pán)或D盤(pán)有用的數(shù)據(jù)。
二、用光盤(pán)啟動(dòng)系統(tǒng):
(如果你已經(jīng)知道方法請(qǐng)轉(zhuǎn)到下一步),重新啟動(dòng)系統(tǒng)并把光驅(qū)設(shè)為第一啟動(dòng)盤(pán),保存設(shè)置并重啟。將XP安裝光盤(pán)放入光驅(qū),重新啟動(dòng)電腦。剛啟動(dòng)時(shí),當(dāng)出現(xiàn)如下圖所示時(shí)快速按下回車(chē)鍵,否則不能啟動(dòng)XP系統(tǒng)光盤(pán)安裝。如果你不知道具體做法請(qǐng)參考與這相同的-->如何進(jìn)入純DOS系統(tǒng):
光盤(pán)自啟動(dòng)后,如無(wú)意外即可見(jiàn)到安裝界面,將出現(xiàn)如下圖1所示
查看原圖
全中文提示,“要現(xiàn)在安裝WindowsXP,請(qǐng)按ENTER”,按回車(chē)鍵后,出現(xiàn)如下圖2所示
查看原圖
許可協(xié)議,這里沒(méi)有選擇的余地,按“F8”后如下圖3
HYPERLINK
查看原圖
這里用“向下或向上”方向鍵選擇安裝系統(tǒng)所用的分區(qū),如果你已格式化C盤(pán)請(qǐng)選擇C分區(qū),選擇好分區(qū)后按“Enter”鍵回車(chē),出現(xiàn)下圖4所示
查看原圖
這里對(duì)所選分區(qū)可以進(jìn)行格式化,從而轉(zhuǎn)換文件系統(tǒng)格,或保存現(xiàn)有文件系統(tǒng),有多種選擇的余地,但要注意的是NTFS格式可節(jié)約磁盤(pán)空間提高安全性和減小磁盤(pán)碎片但同時(shí)存在很多問(wèn)題MacOS和98/Me下看不到NTFS格式的分區(qū),在這里選“用FAT文件系統(tǒng)格式化磁盤(pán)分區(qū)(快),按“Enter”鍵回車(chē),出現(xiàn)下圖5所示
查看原圖
格式化C盤(pán)的警告,按F鍵將準(zhǔn)備格式化c盤(pán),出現(xiàn)下圖6所示
HYPERLINK
查看原圖
由于所選分區(qū)C的空間大于2048M(即2G),FAT文件系統(tǒng)不支持大于2048M的磁盤(pán)分區(qū),所以安裝程序會(huì)用FAT32文件系統(tǒng)格式對(duì)C盤(pán)進(jìn)行格式化,按“Enter”鍵回車(chē),出現(xiàn)下圖7所示
查看原圖圖7中正在格式化C分區(qū);只有用光盤(pán)啟動(dòng)或安裝啟動(dòng)軟盤(pán)啟動(dòng)XP安裝程序,才能在安裝過(guò)程中提供格式化分區(qū)選項(xiàng);如果用MS-DOS啟動(dòng)盤(pán)啟動(dòng)進(jìn)入DOS下,運(yùn)行i386\winnt進(jìn)行安裝XP時(shí),安裝XP時(shí)沒(méi)有格式化分區(qū)選項(xiàng)。格式化C分區(qū)完成后,出現(xiàn)下圖8所示
被過(guò)濾廣告
查看原圖
圖8中開(kāi)始復(fù)制文件,文件復(fù)制完后,安裝程序開(kāi)始初始化Windows配置。然后系統(tǒng)將會(huì)自動(dòng)在15秒后重新啟動(dòng)。重新啟動(dòng)后,出現(xiàn)下圖9所示
HYPERLINK
查看原圖
9
查看原圖
過(guò)5分鐘后,當(dāng)提示還需33分鐘時(shí)將出現(xiàn)如下圖10
HYPERLINK
查看原圖
區(qū)域和語(yǔ)言設(shè)置選用默認(rèn)值就可以了,直接點(diǎn)“下一步”按鈕,出現(xiàn)如下圖11
查看原圖
這里輸入你想好的姓名和單位,這里的姓名是你以后注冊(cè)的用戶(hù)名,點(diǎn)“下一步”按鈕,出現(xiàn)如下圖12
HYPERLINK
查看原圖
如果你沒(méi)有預(yù)先記下產(chǎn)品密鑰(安裝序列號(hào))就大件事啦!這里輸入安裝序列號(hào),點(diǎn)“下一步”按鈕,出現(xiàn)如下圖13
HYPERLINK
查看原圖
安裝程序自動(dòng)為你創(chuàng)建又長(zhǎng)又難看的計(jì)算機(jī)名稱(chēng),自己可任意更改,輸入兩次系統(tǒng)管理員密碼,請(qǐng)記住這個(gè)密碼,Administrator系統(tǒng)管理員在系統(tǒng)中具有最高權(quán)限,平時(shí)登陸系統(tǒng)不需要這個(gè)帳號(hào)。接著點(diǎn)“下一步”出現(xiàn)如下圖14
查看原圖
日期和時(shí)間設(shè)置不用講,選北京時(shí)間,點(diǎn)“下一步”出現(xiàn)如下圖15
HYPERLINK
查看原圖
開(kāi)始安裝,復(fù)制系統(tǒng)文件、安裝網(wǎng)絡(luò)系統(tǒng),很快出現(xiàn)如下圖16
查看原圖
讓你選擇網(wǎng)絡(luò)安裝所用的方式,選典型設(shè)置點(diǎn)“下一步”出現(xiàn)如下圖17
HYPERLINK
查看原圖
點(diǎn)“下一步”出現(xiàn)如下圖18
HYPERLINK
查看原圖
繼續(xù)安裝,到這里后就不用你參與了,安裝程序會(huì)自動(dòng)完成全過(guò)程。安裝完成后自動(dòng)重新啟動(dòng),出現(xiàn)啟動(dòng)畫(huà)面,如下圖19
HYPERLINK
查看原圖
第一次啟動(dòng)需要較長(zhǎng)時(shí)間,請(qǐng)耐心等候,接下來(lái)是歡迎使用畫(huà)面,提示設(shè)置系統(tǒng),如下圖20
查看原圖
點(diǎn)擊右下角的“下一步”按鈕,出現(xiàn)設(shè)置上網(wǎng)連接畫(huà)面,如下圖21所示
HYPERLINK
查看原圖
點(diǎn)擊右下角的“下一步”按鈕,出現(xiàn)設(shè)置上網(wǎng)連接畫(huà)面,如下圖21所示
查看原圖
這里建立的寬帶撥號(hào)連接,不會(huì)在桌面上建立撥號(hào)連接快捷方式,且默認(rèn)的撥號(hào)連接名稱(chēng)為“我的ISP”(自定義除外);進(jìn)入桌面后通過(guò)連接向?qū)Ы⒌膶拵芴?hào)連接,在桌面上會(huì)建立撥號(hào)連接快捷方式,且默認(rèn)的撥號(hào)連接名稱(chēng)為“寬帶連接”(自定義除外)。如果你不想在這里建立寬帶撥號(hào)連接,請(qǐng)點(diǎn)擊“跳過(guò)”按鈕。
在這里我先創(chuàng)建一個(gè)寬帶連接,選第一項(xiàng)“數(shù)字用戶(hù)線(ADSL)或電纜調(diào)制解調(diào)器”,點(diǎn)擊“下一步”按鈕,如下圖22所示
HYPERLINK
查看原圖
目前使用的電信或聯(lián)通(ADSL)住宅用戶(hù)都有帳號(hào)和密碼的,所以我選“是,我使用用戶(hù)名和密碼連接”,點(diǎn)擊“下一步”按鈕,如下圖23所示
查看原圖
輸入電信或聯(lián)通提供的帳號(hào)和密碼,在“你的ISP的服務(wù)名”處輸入你喜歡的名稱(chēng),該名稱(chēng)作為撥號(hào)連接快捷菜單的名稱(chēng),如果留空系統(tǒng)會(huì)自動(dòng)創(chuàng)建名為“我的ISP”作為該連接的名稱(chēng),點(diǎn)擊“下一步”按鈕,如下圖24所示
查看原圖
已經(jīng)建立了撥號(hào)連接,微軟當(dāng)然想你現(xiàn)在就激活XP啦,不過(guò)即使不激活也有30天的試用期,又何必急呢?選擇“否,請(qǐng)等候幾天提醒我”,點(diǎn)擊“下一步”按鈕,如下圖25所示
HYPERLINK
查看原圖
輸入一個(gè)你平時(shí)用來(lái)登陸計(jì)算機(jī)的用戶(hù)名,點(diǎn)下一步出現(xiàn)如下圖26
HYPERLINK
查看原圖
點(diǎn)擊完成,就結(jié)束安裝。系統(tǒng)將注銷(xiāo)并重新以新用戶(hù)身份登陸。登陸桌面后如下圖27
HYPERLINK
查看原圖
六、找回常見(jiàn)的圖標(biāo)
在桌面上點(diǎn)開(kāi)始-->連接到-->寬帶連接,如下圖32
查看原圖
左鍵點(diǎn)“寬帶連接”不放手,將其拖到桌面空白處,可見(jiàn)到桌面上多了一個(gè)“寬帶連接”快捷方式。結(jié)果如下圖33
HYPERLINK
查看原圖
然后,右鍵在桌面空白處點(diǎn)擊,在彈出的菜單中選“屬性”,即打開(kāi)顯示“屬性窗口”如下圖34
查看原圖
在圖中單擊“桌面”選項(xiàng)卡,出現(xiàn)如下圖35
HYPERLINK
查看原圖
在圖中的左下部點(diǎn)擊“自定義桌面”按鈕,出現(xiàn)如下圖36
查看原圖
在圖中的上部,將“我的文檔”、“我的電腦”、“網(wǎng)上鄰居”和“InternetExplorer”四個(gè)項(xiàng)目前面的空格上打鉤,然后點(diǎn)“確定”,再“確定”,你將會(huì)看到桌面上多了你想要的圖標(biāo)。如下圖37
鍵盤(pán)上每個(gè)鍵作用!!!
F1幫助
F2改名
F3搜索
F4地址
F5刷新
F6切換
F10菜單
CTRL+A全選
CTRL+C復(fù)制
CTRL+X剪切
CTRL+V粘貼
CTRL+Z撤消
CTRL+O打開(kāi)
SHIFT+DELETE永久刪除
DELETE刪除
ALT+ENTER屬性
ALT+F4關(guān)閉
CTRL+F4關(guān)閉
ALT+TAB切換
ALT+ESC切換
ALT+空格鍵窗口菜單
CTRL+ESC開(kāi)始菜單
拖動(dòng)某一項(xiàng)時(shí)按CTRL復(fù)制所選項(xiàng)目
拖動(dòng)某一項(xiàng)時(shí)按CTRL+SHIFT創(chuàng)建快捷方式
將光盤(pán)插入到CD-ROM驅(qū)動(dòng)器時(shí)按SHIFT鍵阻止光盤(pán)自動(dòng)播放
Ctrl+1,2,3...切換到從左邊數(shù)起第1,2,3...個(gè)標(biāo)簽
Ctrl+A全部選中當(dāng)前頁(yè)面內(nèi)容
Ctrl+C復(fù)制當(dāng)前選中內(nèi)容
Ctrl+D打開(kāi)“添加收藏”面版(把當(dāng)前頁(yè)面添加到收藏夾中)
Ctrl+E打開(kāi)或關(guān)閉“搜索”側(cè)邊欄(各種搜索引擎可選)
Ctrl+F打開(kāi)“查找”面版
Ctrl+G打開(kāi)或關(guān)閉“簡(jiǎn)易收集”面板
Ctrl+H打開(kāi)“歷史”側(cè)邊欄
Ctrl+I打開(kāi)“收藏夾”側(cè)邊欄/另:將所有垂直平鋪或水平平鋪或?qū)盈B的窗口恢復(fù)
Ctrl+K關(guān)閉除當(dāng)前和鎖定標(biāo)簽外的所有標(biāo)簽
Ctrl+L打開(kāi)“打開(kāi)”面版(可以在當(dāng)前頁(yè)面打開(kāi)Iternet地址或其他文件...)
Ctrl+N新建一個(gè)空白窗口(可更改,Maxthon選項(xiàng)→標(biāo)簽→新建)
Ctrl+O打開(kāi)“打開(kāi)”面版(可以在當(dāng)前頁(yè)面打開(kāi)Iternet地址或其他文件...)
Ctrl+P打開(kāi)“打印”面板(可以打印網(wǎng)頁(yè),圖片什么的...)
Ctrl+Q打開(kāi)“添加到過(guò)濾列表”面板(將當(dāng)前頁(yè)面地址發(fā)送到過(guò)濾列表)
Ctrl+R刷新當(dāng)前頁(yè)面
Ctrl+S打開(kāi)“保存網(wǎng)頁(yè)”面板(可以將當(dāng)前頁(yè)面所有內(nèi)容保存下來(lái))
Ctrl+T
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版購(gòu)銷(xiāo)簡(jiǎn)單的合同范本
- 2025年度建筑照明材料采購(gòu)合同范本3篇
- 杭州公司合作合同范本
- 2024酒店勞動(dòng)合同模板
- 2025年度GRC構(gòu)件生產(chǎn)與裝配安全責(zé)任合同3篇
- 影視作品海外發(fā)行與推廣2025年度合同2篇
- 二零二五年度跨區(qū)域LNG管道運(yùn)輸及倉(cāng)儲(chǔ)服務(wù)合同3篇
- 2025年度電機(jī)維修智能化改造升級(jí)合同3篇
- 2025年度電子元器件專(zhuān)用紙箱采購(gòu)與倉(cāng)儲(chǔ)管理合同3篇
- 2024珠寶首飾租賃與購(gòu)買(mǎi)合同
- TD/T 1060-2021 自然資源分等定級(jí)通則(正式版)
- 人教版二年級(jí)下冊(cè)口算題大全1000道可打印帶答案
- 《創(chuàng)傷失血性休克中國(guó)急診專(zhuān)家共識(shí)(2023)》解讀
- 倉(cāng)庫(kù)智能化建設(shè)方案
- 海外市場(chǎng)開(kāi)拓計(jì)劃
- 2024年度國(guó)家社會(huì)科學(xué)基金項(xiàng)目課題指南
- 供應(yīng)鏈組織架構(gòu)與職能設(shè)置
- 幼兒數(shù)學(xué)益智圖形連線題100題(含完整答案)
- 七上-動(dòng)點(diǎn)、動(dòng)角問(wèn)題12道好題-解析
- 2024年九省聯(lián)考新高考 數(shù)學(xué)試卷(含答案解析)
- 紅色歷史研學(xué)旅行課程設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論