基于大數(shù)據(jù)的中文文本數(shù)據(jù)分析研究獲獎科研報告_第1頁
基于大數(shù)據(jù)的中文文本數(shù)據(jù)分析研究獲獎科研報告_第2頁
基于大數(shù)據(jù)的中文文本數(shù)據(jù)分析研究獲獎科研報告_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于大數(shù)據(jù)的中文文本數(shù)據(jù)分析研究獲獎科研報告關(guān)鍵詞:大數(shù)據(jù);中文文本;數(shù)據(jù)分析

1引言

近年來,隨著全球數(shù)字化信息數(shù)據(jù)量呈爆發(fā)式增長,大數(shù)據(jù)已經(jīng)滲透到各行各業(yè),相應(yīng)誕生的大數(shù)據(jù)技術(shù)也迅猛發(fā)展,也被人們用來解決各種實際問題。Python這門編程語言異軍突起,目前已經(jīng)成為大數(shù)據(jù)處理和分析的首選編程語言。原因有以下幾個:第一、Python是一種開源的解釋型腳本語言、簡單易學(xué)。第二,和C++、Java一樣,Python也是一種面向?qū)ο缶幊陶Z言,具備封裝、繼承、多態(tài)三大特性。第三,Python的跨平臺性良好、可擴展性強、代碼重用性高。第四、Python為我們提供了豐富的第三方庫、應(yīng)用廣泛。Python不僅僅可以用來做系統(tǒng)編程、圖形處理、GUI編程,而且目前一些非常火爆的概念比如網(wǎng)絡(luò)爬蟲、人工智能、大數(shù)據(jù)、云計算等都將Python視為首選語言。另外,Python在中文文本的識別、分析、處理方面相比較于其它編程語言具備絕對優(yōu)勢。所以,目前政府機構(gòu)使用的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、金融領(lǐng)域的量化投資分析都使用到Python。

本文以深圳國海創(chuàng)新資本數(shù)據(jù)匹配項目為實際案例,演示如何利用大數(shù)據(jù)技術(shù)解決目前金融領(lǐng)域中相關(guān)中文文本數(shù)據(jù)分析問題。

2問題描述

2.1項目需求

深圳國海創(chuàng)新資本有限公司給我們提供了大量的excel文件,每個文件里有數(shù)千條數(shù)據(jù)。每條數(shù)據(jù)由4列信息(代碼、名稱、發(fā)行對象、股東信息)組成。每條數(shù)據(jù)中發(fā)行對象中有若干成員(>=1)、股東信息中有若干成員(>=1)。發(fā)行對象中若干成員(>=1)只要出現(xiàn)在股東信息中,該公司認為該條數(shù)據(jù)發(fā)行對象與股東信息之間存在關(guān)聯(lián)性。否則,則不存在關(guān)聯(lián)性。該公司要求我們準確標記出每條數(shù)據(jù)發(fā)行對象和股東信息之間是否存在關(guān)聯(lián)性。存在,則關(guān)聯(lián)性標注為1。不存在,則關(guān)聯(lián)性標注為0。

所提供的excel表格數(shù)據(jù)內(nèi)容如圖1所示。其中第3條數(shù)據(jù)發(fā)行對象中的成員北京盈谷信曄投資有限公司出現(xiàn)在了該條數(shù)據(jù)對應(yīng)的股東名稱當中,則認為該條數(shù)據(jù)發(fā)行對象和股東名稱之間存在關(guān)聯(lián)性,需要將關(guān)聯(lián)性標記結(jié)果為1。其中第5條數(shù)據(jù)發(fā)行對象中每一個成員都沒有出現(xiàn)在第對應(yīng)的股東名稱當中,則該條數(shù)據(jù)的關(guān)聯(lián)性匹配結(jié)果需要標記為0。

2.2問題分析

顯然,這是一個中文字符串數(shù)據(jù)處理問題。其中涉及到中文字符串的預(yù)處理、匹配、輸出結(jié)果等操作。我們無法通過Excel自帶的公式來計算出每條數(shù)據(jù)的關(guān)聯(lián)性匹配結(jié)果。如果采用人工的方法進行手動標注,不僅僅費時費力,而且準確性得不到保證。所以需要我們借助大數(shù)據(jù)技術(shù)通過編寫算法來解決。我們?nèi)绻x擇C++、Java等編程語言,它們處理中文字符串困難,相關(guān)API接口函數(shù)都得自己寫,代碼量大、處理效果不佳。而Python在處理中文字符串方面擁有絕對優(yōu)勢,是解決該問題的首選。

3數(shù)據(jù)處理和分析

整個數(shù)據(jù)處理和分析過程包含三個步驟,分別是數(shù)據(jù)預(yù)處理、列表數(shù)據(jù)元素匹配、輸出匹配結(jié)果。我們選擇使用Python中常見的數(shù)據(jù)結(jié)構(gòu)——列表來存儲數(shù)據(jù)。整個數(shù)據(jù)處理和分析流程圖如圖2所示。

3.1數(shù)據(jù)預(yù)處理

首先,將Excel表格數(shù)據(jù)中的發(fā)行對象信息和股東名稱信息這兩列復(fù)制出來,存放到txt文本文件內(nèi)。去除文本數(shù)據(jù)中的頓號,并將頓號替換為字母a和b。這樣做是為了方便我們后面編寫程序?qū)γ織l數(shù)據(jù)進行分割切片。然后編寫程序?qū)⒚織l數(shù)據(jù)中的發(fā)行對象成員和股東名稱成員依次添加到對應(yīng)的列表中。具體程序?qū)崿F(xiàn)如圖3所示。

3.2列表數(shù)據(jù)元素匹配

該步驟為解決該項目的核心算法。簡單來說,就是將發(fā)行對象列表中的每個元素和股東名稱列表中的每個元素逐一匹配。一旦有一個元素匹配成功,則該條數(shù)據(jù)關(guān)聯(lián)性匹配結(jié)果置為1,否則為0。具體程序?qū)崿F(xiàn)如圖4所示。

3.3輸出匹配結(jié)果

全部數(shù)據(jù)關(guān)聯(lián)性匹配結(jié)束后,我們將關(guān)聯(lián)性匹配結(jié)果列表里的數(shù)據(jù)輸出到Exce表格關(guān)聯(lián)性列中,如圖5所示,就完成了整個項目所有內(nèi)容。

圖5輸出匹配結(jié)果

4結(jié)論

我們選擇Python作為開發(fā)語言,利用大數(shù)據(jù)處理和分析技術(shù)解決了深圳國海創(chuàng)新資本有限公司中文文本數(shù)據(jù)匹配難題,最終得到的關(guān)聯(lián)性匹配結(jié)果準確率達到100%。將大數(shù)據(jù)技術(shù)應(yīng)用到金融領(lǐng)域,不僅僅可以為從業(yè)者或公司解決數(shù)據(jù)分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論