版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關于電力營銷數(shù)據(jù)的智能搜索引擎架構,搜索引擎論文摘要:隨著內蒙古多年以來的電網(wǎng)建設以及信息化建設,電力營銷對數(shù)據(jù)整合能力以及信息搜索速度要求越來越高,因而,在電力公司對數(shù)據(jù)搜索能力進行提升的需求下,本文就怎樣對目的數(shù)據(jù)進行快速搜索,提出一套智能搜索引擎的總體架構。該引擎在架構上采用分布和集中相結合的形式,并通過對數(shù)據(jù)庫索引建立方式方法的改良,以及對由遺傳算法演化而來,具有自適應能力的索引算法的改良,使得該基于大數(shù)據(jù)的營銷數(shù)據(jù)智能搜索引擎提供的智能化營銷數(shù)據(jù)搜索方式極大提高了檢索速度以及結果準確度,成為營銷業(yè)務處理經過中不可或缺的用戶助手。本文關鍵詞語:智能搜索;大數(shù)據(jù);檢索算法;Abstract:WiththeconstructionofpowergridandinformationtechnologyinInnerMongoliaformanyyears,powermarketingrequireshigherandhigherdataintegrationabilityandinformationsearchspeed.Therefore,inordertoimprovethedatasearchabilityofpowercompanies,thispaperputsforwardanoverallframeworkofintelligentsearchengineonhowtosearchtargetdataquickly.Thesearchengineadoptsthemodeofcombinationofdistributionandcentralizationinitsstructure.Throughtheimprovementofdatabaseindexestablishmentmethodandtheimprovementofindexalgorithmwithadaptiveabilityevolvedfromgeneticalgorithm,theintelligentmarketingdatasearchmethodprovidedbytheintelligentmarketingdatasearchenginebasedonlargedataisgreatlyimproved.Itimprovestheretrievalspeedandaccuracyoftheresults,andbecomesanindispensableuserassistantintheprocessofmarketingbusinessprocessing.Keyword:intelligentsearch;bigdata;retrievalalgorithm;0、引言隨著內蒙古電網(wǎng)多年以來的信息化建設,電力公司采集的數(shù)據(jù)量與日俱增,加上數(shù)據(jù)構造日益復雜,使得在現(xiàn)有系統(tǒng)下,從這些龐大而復雜的數(shù)據(jù)中搜索目的數(shù)據(jù)勢必會消耗損費大量的時間。因而,本文對原有系統(tǒng)的數(shù)據(jù)庫與搜索算法升級,進而適應如今的數(shù)據(jù)搜索需求。在數(shù)據(jù)庫方面,當前的構造化數(shù)據(jù)庫,在進行快速檢索時,系統(tǒng)需要在幾百億條記錄中查找到關于某用戶在某一天的用電量記錄,超出了一般軟件的快速分析處理能力。所以在龐大的數(shù)據(jù)中能夠準確快速地查找相應的數(shù)據(jù)成為了關鍵。而在搜索引擎方面,由于電力公司需要的是面對數(shù)據(jù)的搜索,但現(xiàn)有搜索引擎都以文檔和網(wǎng)頁搜索為主,所以需要提出更高層次效且有針對性的搜索引擎方案。綜上所述,為了更快地搜索目的數(shù)據(jù),并在大數(shù)據(jù)背景下提供全方位的數(shù)據(jù)存儲、查詢與挖掘服務,本文在對內蒙古電力公司信息化系統(tǒng)和現(xiàn)有的數(shù)據(jù)存儲與搜索方式進行調研分析的基礎上,通過對數(shù)據(jù)庫的索引方式與搜索引擎的搜索算法的改良,提出一套智能搜索引擎的總體架構。1、智能搜索引擎總體架構智能搜索引擎的總體架構分為下面2個方面:1)在硬件架構方面,隨著內蒙古電力多年以來的電網(wǎng)建設以及信息化建設,營銷部門的數(shù)據(jù)量在持續(xù)增長并且數(shù)據(jù)構造也日趨復雜,這時將營銷、管控等業(yè)務單元全部集中部署在一臺大型機上,已無法知足內蒙古電力公司對其數(shù)據(jù)搜索以及處理需求。因而,本系統(tǒng)采用分布式的方式方法部署,進而大大提高服務器的性能和總體服務質量。2)在軟件架構方面,電力營銷數(shù)據(jù)智能搜索引擎總體構造由圖1所示的4個部分組成。系統(tǒng)首先將電力營銷、線路檢修等系統(tǒng)提取出的相關數(shù)據(jù),綜合外部經濟因素等數(shù)據(jù),通過數(shù)據(jù)接入層,把這些數(shù)據(jù)采集接入,隨后通過去冗以及矛盾實體的辨別,將沒有價值的數(shù)據(jù)、錯誤的數(shù)據(jù)等進行過濾,之后進行建模、聚類抽樣,建立起數(shù)據(jù)索引,為后面的檢索算法做好基礎。最后通過索引算法進行快速的數(shù)據(jù)檢索[1]。圖1智能搜索引擎總體架構2、智能搜索引擎數(shù)據(jù)庫數(shù)據(jù)庫是以一定方式存儲于一起,有較小的冗余度,給予多個用戶分享的數(shù)據(jù)集合[2]。一個構造良好的數(shù)據(jù)庫可為搜索引擎的高效性和結果的有效性打下堅實基礎。本系統(tǒng)從數(shù)據(jù)接入、數(shù)據(jù)集成和規(guī)約、數(shù)據(jù)索引建立3個方面來構建智能搜索引擎的數(shù)據(jù)庫。2.1、數(shù)據(jù)接入數(shù)據(jù)的采集接入將電力公司下的各個業(yè)務系統(tǒng)數(shù)據(jù)、外部環(huán)境數(shù)據(jù)導入數(shù)據(jù)庫。主要通過下面幾種方式:1)通過人工采集,制作成約定格式的文檔,經過導入程序,將人工采集到的數(shù)據(jù)導入系統(tǒng)。2)使用標準API接口獲取營銷數(shù)據(jù)并導入系統(tǒng)。3)采用爬蟲技術來獲取外部需求數(shù)據(jù),例如宏觀經濟數(shù)據(jù)等。2.2、數(shù)據(jù)集成和規(guī)約當存在多個分散的數(shù)據(jù)倉庫時,重復數(shù)據(jù)會對存儲、查找造成資源浪費,因而對采集到的數(shù)據(jù)進行集成和規(guī)約必不可少。在數(shù)據(jù)集成中,最重要的冗余屬性的辨別是將具有相關屬性的數(shù)據(jù)從不同的倉庫中抽出并整合,然后經過相關性分析得出不同屬性的相關系數(shù)。將相關性較高的屬性剔除后,實現(xiàn)數(shù)據(jù)的集成[3]。數(shù)據(jù)的規(guī)約包括2個方面:1)屬性規(guī)約,即削減屬性個數(shù)或將多個舊屬性歸并成一個新屬性。2)數(shù)量規(guī)約,即通過選擇替代的、較小的數(shù)據(jù)來減少數(shù)據(jù)量,分為有參數(shù)數(shù)據(jù)和無參數(shù)數(shù)據(jù)[4]。華而不實有參數(shù)數(shù)據(jù)的處理只需進行建模并存放模型的參數(shù)即可[5]。而對于無參數(shù)數(shù)據(jù)的處理,采用圖表存放并顯示數(shù)據(jù)。電力大數(shù)據(jù)的特點之一就是數(shù)據(jù)的多樣化[6]。信息可能由于多種因素導致錄入錯誤,而規(guī)約就是發(fā)現(xiàn)并且糾正數(shù)據(jù)文件中可辨別錯誤的一道程序。假如對于數(shù)據(jù)審查經過中發(fā)現(xiàn)的異常值不選用適當方式方法進行處理,會對后續(xù)的統(tǒng)計分析造成嚴重影響。因而有效的集成和規(guī)約,是影響數(shù)據(jù)搜索準確性的關鍵因素。2.3、數(shù)據(jù)索引當數(shù)據(jù)進入系統(tǒng)后,需要根據(jù)字段名稱與數(shù)據(jù)庫字段進行對照,進而構成系統(tǒng)的數(shù)據(jù)定義[7]。索引問題最重要的是高效查找數(shù)據(jù)[8]。當服務器面對諸多冗雜的數(shù)據(jù),建立數(shù)據(jù)庫索引是提高搜索的速度以及準確性非常實用的方式方法。建立數(shù)據(jù)索引就是在數(shù)據(jù)庫管理系統(tǒng)中創(chuàng)立一個排序的數(shù)據(jù)構造,進而協(xié)助實現(xiàn)數(shù)據(jù)的快速查詢、更新[9]。索引的開創(chuàng)建立,不僅僅保證數(shù)據(jù)庫表中數(shù)據(jù)的唯一性,同時也將數(shù)據(jù)檢索速度提升了一個檔次[10],使得查詢的效率得到極大提高,并且對表和表之間的連接也起到了加速作用,能夠顯著減少查詢中分組排序的時間[11],同時在實現(xiàn)數(shù)據(jù)的參考完好性方面也具有重要作用[12]。因而在實現(xiàn)經過中,本文將索引引入內蒙古電力營銷數(shù)據(jù)智能搜索引擎中。在對數(shù)據(jù)內容進行掃描,分配對應大小內存來建立索引的經過中,由于傳統(tǒng)方式的詞典信息一直在內存中進行維護,使后續(xù)的中間結果可用內存越來越少,所以本文通過改良建立索引的經過,在內存中數(shù)據(jù)寫入磁盤的同時,將詞典、所有中間結果信息寫入磁盤,使內存空間得到釋放,進而在后續(xù)的索引建立經過中,實現(xiàn)全部定額內存的使用[13]。通過對索引的引入以及建立經過的改良,有效地提高了內蒙古電力營銷數(shù)據(jù)的搜索速度。3、智能搜索引擎的算法實現(xiàn)3.1、檢索方式方法對于電力數(shù)據(jù),經常需要從不同維度進行檢索,這就需要根據(jù)用戶的目的,將復雜構造的數(shù)據(jù)轉換成單一構造的數(shù)據(jù)進行過濾。本系統(tǒng)在數(shù)據(jù)處理經過中通過參加過濾器,并設定聚類或關聯(lián)分析的規(guī)則,剔除搜索條件中不符合的數(shù)據(jù)和參數(shù),進而確保檢索的高效以及結果的準確。除此之外,系統(tǒng)運用分布式文件系統(tǒng)、批處理等技術,通過對用戶的檢索需求點以及需求度進行分析處理,進而動態(tài)調整檢索策略,假如檢索結果符合需求則直接輸出;假如檢索結果不符合需求則重新調整檢索策略,構成一個對檢索策略的反應機制,如此反復直到檢索結果符合用戶的檢索需求[14]。系統(tǒng)的智能搜索主要具體表現(xiàn)出在2個方面:1)對人類自然語言的處理,需要通過文本分類、語義理解,加上日常使用的反應,構建良好的知識庫[15],進而使智能搜索引擎在理解用戶的搜索目的后重新組合本文關鍵詞語,更好地知足用戶請求;2)對搜索原理和技術的研究,如基于NLP技術與類似度、基于認知科學以及基于計算語言等的研究[16]。通過原理和技術不斷改良,搜索效果也會不斷優(yōu)化。3.2、搜索流程圖營銷數(shù)據(jù)智能搜索引擎的算法流程如此圖2所示。首先通過對用戶的需求檢測進行編碼的檢索。在經過已經建立了索引詞典的數(shù)據(jù)庫中進行智能全局搜索與特征值的匹配,由于索引是根據(jù)B樹的數(shù)據(jù)構造建立,所以整個經過不會花費很多時間。圖2索引算法流程圖之后對檢索結果進行動態(tài)跟蹤,假如搜索結果為符合用戶需求的最優(yōu)解,則直接輸出搜索的結果;假如不是,則系統(tǒng)會對現(xiàn)有的索引算法進行調整,并二次檢索。通過不斷迭代,將現(xiàn)有的算法優(yōu)化到一個平衡的狀態(tài),能夠在盡可能短的時間內搜索到符合用戶需求的最佳數(shù)據(jù)結果。3.3、改良后的索引算法改良后的索引算法是一種受遺傳算法啟發(fā)而演化出來的算法。傳統(tǒng)的遺傳算法有很多參數(shù),如穿插率、變異率,這些參數(shù)選擇的好壞直接決定了結果的準確性。同時舊遺傳算法不能及時利用網(wǎng)絡的反應信息,故算法的搜索速度比擬慢,要想得到較為精到準確的結果需要較長的訓練時間。同時由于舊的遺傳算法對初始種群的選擇有一定的依靠性,所以下面結合一些啟發(fā)算法進行相應改良。本文使用對個體最優(yōu)解進行記憶并分享種群信息方式方法,并稱這個最優(yōu)解記憶為適應度。通過適應度對種群進行優(yōu)先劃分,同時在貪心選擇策略的基礎上,參加一個新的變量R進而使搜索引擎能夠在綜合諸多信息的條件下快速查找最優(yōu)解。算法首先將問題的可行解空間隨機初始化X0=[X0110,X0220,,X0Npp0],華而不實Np表示種群規(guī)模[17],個體x0ii0=[xi00i,1,xi00i,2,,xi00i,D]用于表征問題解,華而不實D表示優(yōu)化問題的維數(shù)[18]。圖3算法原理圖算法的步驟如此圖3所示,關鍵節(jié)點的方式方法與作用如下:1)初始化。將種群進行初始化,華而不實i表示個體數(shù)量,j表示維度[19],rand(0,1)表示選取0~1的隨機數(shù)。{Xi(0)|xLi,ji,jLxi,j(0)xUi,ji,jU;i=1,2,,Np;j=1,2,,D}xi,j(0)=xLi,ji,jL+rand(0,1)(xUi,ji,jU-xLi,ji,jL)2)變異。索引算法主要是通過差分策略來實現(xiàn)個體的變異,本文的差分策略是先在種群中隨機選取2個不同的個體,然后縮放向量差,再與待變異個體進行向量合成,華而不實r1、r2、r3表示3個隨機數(shù),g為代數(shù),F表示縮放因子[20]。Vi(g+1)=Xr1(g)+F(Xr2(g)-Xr3(g))3)穿插。索引算法通過穿插隨機選擇個體。華而不實Cr為穿插概率,算法通過概率的方式生成新個體[21]。Ui,j(g+1)={Vi,j(g+1),xi,j(g),rand(0,1)CrotherwiseUi,j(g+1)={Vi,j(g+1),rand(0,1)Crxi,j(g),otherwise4)選擇。為了避免搜索經過陷入局部最優(yōu)解,同時加快搜索的速度,索引算法在使用貪心選擇的策略的基礎上,參加一個新的變量R[22]。參加變量的目的是使索引算法的參數(shù)直接影響搜索引擎的性能。Xi(g+1)={Ui(g+1),Xi(g),f(Ui(g+1))f(Xi(g))otherwiseXi(g+1)={Ui(g+1),f(Ui(g+1))f(Xi(g))Xi(g),otherwise索引算法在搜索引擎中采用實數(shù)編碼,無需標記特征信息,簡化了檢索經過[23]。索引算法能夠記憶搜索條件,自動調整搜索策略進行愈加精準的搜索法。4、建設成效為了驗證改良的索引算法的效果,以內蒙古營銷部門的營銷數(shù)據(jù)為數(shù)據(jù)源對2種算法進行比照。電力營銷部門的主要數(shù)據(jù)包括:盟市局總體電量、售電量、年電量計劃完成、市場占有率、業(yè)務報裝超期數(shù)、客戶投訴量、計量采控統(tǒng)計、客戶實抄率、用戶累計欠費、凍結戶率。前后搜索效果如表1所示。表1算法改良前后性能比照從表1能夠看出,基于改良的索引算法在縮短搜索耗時的同時,將搜索準確度由原先的75%提升為92%,極大提高了搜索的速率與結果準確度。使用本套智能搜索引擎后,在大數(shù)據(jù)分析場景應用方面,圍繞營銷客戶、部門項目等多個業(yè)務領域,針對營銷工作人員想要搜索的內容與數(shù)據(jù),能夠協(xié)助其快速準確搜索到。伴隨公司多年以來的電網(wǎng)建設以及信息化建設,生產、營銷系統(tǒng)等多套核心業(yè)務系統(tǒng)的數(shù)據(jù)全量接入系統(tǒng),并基于數(shù)據(jù)資源開展數(shù)據(jù)管理工作。從業(yè)務與技術角度梳理業(yè)務數(shù)據(jù)模型,構成了數(shù)據(jù)資源字典,進而方便業(yè)務人員和技術人員隨時查詢和應用數(shù)據(jù)分析域的數(shù)據(jù)資源,優(yōu)化了營銷數(shù)據(jù)服務的構建。5、結束語本文從系統(tǒng)總體架構以及數(shù)據(jù)庫索引建立與索引算法3個方面介紹了營銷數(shù)據(jù)智能搜索引擎的實現(xiàn),并對以往的索引確立機制和索引算法進行了相應改善。營銷數(shù)據(jù)智能搜索引擎構建了內蒙古電力營銷數(shù)據(jù)中心數(shù)據(jù)分析域,克制了傳統(tǒng)技術擴展性不強、建設成本高的缺點,能知足內蒙古電力營銷部門當下對全類型營銷數(shù)據(jù)存儲、處理、分析及應用的需求。隨著電力行業(yè)不斷地推進改革與發(fā)展,數(shù)據(jù)智能化與數(shù)據(jù)快速處理已處于時代的發(fā)展前沿,營銷智能引擎提供的智能化營銷數(shù)據(jù)搜索方式必定會在實踐中獲得更多的成就,它將成為營銷業(yè)務處理經過中不可或缺的助手。以下為參考文獻[1]董浩.基于OLAP的醫(yī)院多維分析與決策支持系統(tǒng)[D].西安:西安電子科技大學,2021.[2]汪金濤.面向漁場分析的數(shù)據(jù)預處理方式方法研究及系統(tǒng)實現(xiàn)[D].上海:上海海洋大學,2020.[3]鄭俊玲.基于KPCA的大學生學業(yè)預警模型及其應用[D].唐山:華北理工大學,2021.[4]李麗.基于Netflow的端到端流量監(jiān)測系統(tǒng)的設計與實現(xiàn)[D].北京:中國科學院大學,2020.[5]李瑩.MySQL索引背后的數(shù)據(jù)構造及算法原理[J].當代交際,2021(8):117.[6]吳峰.基于B/S構造的稅務管理信息系統(tǒng)的設計實現(xiàn)與關鍵技術研究[D].西安:西北工業(yè)大學,2005.[7]張若維.基于Oracle的煉鋼連鑄綜合優(yōu)化系統(tǒng)信息平臺的設計與實現(xiàn)[D].沈陽:東北大學,2020.[8]彭方林.西昌學院教學綜合管理系統(tǒng)的設計與實現(xiàn)[D].成都:電子科技大學,2018.[9]郭紫芳.垂直搜索技術在石油勘探生產門戶中的應用研究[D].西安:西安石油大學,2020.[10]趙欣.中國B2C電子商務企業(yè)發(fā)展形式與競爭以當當網(wǎng)和卓越網(wǎng)為例[D].北京:北京大學,2008.[11]王海霞.基于遺傳算法的FMS調度問題研究[D].西安:西安理工大學,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年協(xié)議管理流程及崗位職責
- 2024年擔保公司貸款協(xié)議格式
- 2024水利設施堤壩施工合作協(xié)議
- 2024年酒店管理承包協(xié)議格式
- 2024年二手物資買賣協(xié)議模板
- 2024年度軟件定制開發(fā)服務協(xié)議模板
- 出租車公司掛靠經營協(xié)議2024
- 2024年跨國勞務合作擔保協(xié)議樣本
- 2024年化貨物承運協(xié)議范例
- 2024金融借款協(xié)議德爾式范本
- 廉潔風險點及控制措施
- 2024年廣西來賓產業(yè)投資集團有限公司招聘筆試參考題庫含答案解析
- 項目管理甘特圖課件
- 2024年甘肅省普通高中信息技術會考試題(含24套)
- 我國的武裝力量課件
- 液化石油氣瓶安全使用告知書范文
- 供應室護理責任組長競聘
- 高中數(shù)學教師的專業(yè)發(fā)展路徑
- LTC與鐵三角從線索到回款
- 《旅游市場營銷》課程教學設計
- 工程流體力學課后習題答案-(杜廣生)
評論
0/150
提交評論