




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
100個(gè)數(shù)據(jù)分析常用指標(biāo)和術(shù)語(yǔ)
數(shù)據(jù)分析相關(guān)概念多且雜,容易搞混。為了便于區(qū)分,
盤點(diǎn)一下數(shù)據(jù)分析常用的術(shù)語(yǔ)解釋。
按照以下三類進(jìn)行匯總。
1、互聯(lián)網(wǎng)常用名詞解釋
2、統(tǒng)計(jì)學(xué)名詞解釋
3、數(shù)據(jù)分析名詞解釋
一、互聯(lián)網(wǎng)常用名詞解釋
1、PV(PageView)頁(yè)面瀏覽量
指某段時(shí)間內(nèi)訪問(wèn)網(wǎng)站或某一頁(yè)面的用戶的總數(shù)量,通常用
來(lái)衡量一篇文章或一次活動(dòng)帶來(lái)的流量效果,也是評(píng)價(jià)網(wǎng)站
日常流量數(shù)據(jù)的重要指標(biāo)。PV可重復(fù)累計(jì),以用戶訪問(wèn)網(wǎng)站
作為統(tǒng)計(jì)依據(jù),用戶每刷新一次即重新計(jì)算一次。
2、UV(UniqueVisitor)獨(dú)立訪客
指來(lái)到網(wǎng)站或頁(yè)面的用戶總數(shù),這個(gè)用戶是獨(dú)立的,同一用
戶不同時(shí)段訪問(wèn)網(wǎng)站只算作一個(gè)獨(dú)立訪客,不會(huì)重復(fù)累計(jì),
通常以PC端的Cookie數(shù)量作為統(tǒng)計(jì)依據(jù)。
3、Visit訪問(wèn)
指用戶通過(guò)外部鏈接來(lái)到網(wǎng)站,從用戶來(lái)到網(wǎng)站到用戶在瀏
覽器中關(guān)閉頁(yè)面,這一過(guò)程算作一次訪問(wèn)。
Visit可重復(fù)累計(jì),比如我打開(kāi)一個(gè)網(wǎng)站又關(guān)閉,再重新打
開(kāi),這就算作兩次訪問(wèn)。
4、HomePage主頁(yè)
指一個(gè)網(wǎng)站起主目錄功能的頁(yè)面,也是網(wǎng)站起點(diǎn)。通常是網(wǎng)
站首頁(yè)。
5、LandingPage著陸頁(yè)
指用戶從外部鏈接來(lái)到網(wǎng)站,直接跳轉(zhuǎn)到的第一個(gè)頁(yè)面。比
如朋友給我發(fā)了一個(gè)介紹爆款T恤的淘寶鏈接,我點(diǎn)開(kāi)會(huì)直
接跳轉(zhuǎn)到介紹T恤的那個(gè)頁(yè)面,而不是淘寶網(wǎng)眾多其他頁(yè)面
之一,這個(gè)介紹T恤的頁(yè)面可以算作是著陸頁(yè)。
6、BounceRate跳出率
指用戶通過(guò)鏈接來(lái)到網(wǎng)站,在當(dāng)前頁(yè)面沒(méi)有任何交互就離開(kāi)
網(wǎng)站的行為,這就算作此頁(yè)面增加了一個(gè)“跳出”,跳出率
一般針對(duì)網(wǎng)站的某個(gè)頁(yè)面而言。
跳出率=在這個(gè)頁(yè)面跳出的用戶數(shù)/PV
7、退出率
一般針對(duì)某個(gè)頁(yè)面而言。指用戶訪問(wèn)某網(wǎng)站的某個(gè)頁(yè)面之后,
從瀏覽器中將與此網(wǎng)站相關(guān)的所有頁(yè)面全部關(guān)閉,就算此頁(yè)
面增加了一個(gè)“退出
退出率=在這個(gè)頁(yè)面退出的用戶數(shù)/PV
8、Click點(diǎn)擊
一般針對(duì)付費(fèi)廣告而言,指用戶點(diǎn)擊某個(gè)鏈接、頁(yè)面、banner
的次數(shù),可重復(fù)累計(jì)。比如我在PC端看到一則新聞鏈接點(diǎn)
進(jìn)去看了一會(huì)就關(guān)了,過(guò)了一會(huì)又點(diǎn)進(jìn)去看了一遍,這就算
我為這篇新聞貢獻(xiàn)兩次點(diǎn)擊。
9、avr.time平均停留時(shí)長(zhǎng)
指某個(gè)頁(yè)面被用戶訪問(wèn),在頁(yè)面停留時(shí)長(zhǎng)的平均值,通常用
來(lái)衡量一個(gè)頁(yè)面內(nèi)容的質(zhì)量。
avr.打!116=訪客數(shù)量/用戶總停留時(shí)長(zhǎng)
10.CTR
指某個(gè)廣告、Banner、URL被點(diǎn)擊的次數(shù)和被瀏覽的總次數(shù)
的比值。一般用來(lái)考核廣告投放的引流效果。
CTR=點(diǎn)擊數(shù)(click)/被用戶看到的次數(shù)
11、Conversionrate
指用戶完成設(shè)定的轉(zhuǎn)化環(huán)節(jié)的次數(shù)和總會(huì)話人數(shù)的百分比,
通常用來(lái)評(píng)價(jià)一個(gè)轉(zhuǎn)化環(huán)節(jié)的好壞,如果轉(zhuǎn)化率較低則急需
優(yōu)化該轉(zhuǎn)化環(huán)節(jié)。轉(zhuǎn)化率=轉(zhuǎn)化會(huì)話數(shù)/總會(huì)話數(shù)
12.S4
通常指產(chǎn)生目標(biāo)轉(zhuǎn)化前的明確流程,比如在淘寶購(gòu)物,從點(diǎn)
擊商品鏈接到查看詳情頁(yè),再到查看顧客評(píng)價(jià)、領(lǐng)取商家優(yōu)
惠券,再到填寫地址、付款,每個(gè)環(huán)節(jié)都有可能流失用戶,
這就要求商家必須做好每一個(gè)轉(zhuǎn)化環(huán)節(jié),漏斗是評(píng)價(jià)轉(zhuǎn)化環(huán)
節(jié)優(yōu)劣的指標(biāo)。
13、率(R0I:ReturnOnInvestment)
反映投入和產(chǎn)出的關(guān)系,衡量我這個(gè)投資值不值得,能給到
我多少價(jià)值的東西(非單單的利潤(rùn)),這個(gè)是站在投資的角
度或長(zhǎng)遠(yuǎn)生意上看的。
其計(jì)算公式為:投資回報(bào)率(ROD=年利潤(rùn)或年均利潤(rùn)/投
資總額義100%,通常用于評(píng)估企業(yè)對(duì)于某項(xiàng)活動(dòng)的價(jià)值,R0I
高表示該項(xiàng)目?jī)r(jià)值高。
14.ESJS蚪
指消費(fèi)者在網(wǎng)站中的重復(fù)購(gòu)買次數(shù)。
15、Referrer引薦流■
通常指將用戶引導(dǎo)至目標(biāo)頁(yè)面的URL(超鏈接)。在百度統(tǒng)
計(jì)中,引薦流量叫做“外部鏈接”。
16、流失分析(ChurnAnalysis/AttritionAnalysis)
描述哪些顧客可能停止使用公司的產(chǎn)品/業(yè)務(wù),以及識(shí)別哪
些顧客的流失會(huì)帶來(lái)最大損失。流失分析的結(jié)果用于為可能
要流失的顧客準(zhǔn)備新的優(yōu)惠。
[7、(CustomerSegmentation&
Profiling)
根據(jù)現(xiàn)有的顧客數(shù)據(jù),將特征、行為相似的顧客歸類分組。
描述和比較各組。
18、顧客的生命周期價(jià)值(LifetimeValue,LTV)
顧客在他/她的一生中為一個(gè)公司產(chǎn)生的預(yù)期折算利潤(rùn)。
19、購(gòu)物(MarketBasketAnalysis)
識(shí)別在交易中經(jīng)常同時(shí)出現(xiàn)的商品組合或服務(wù)組合,例如經(jīng)
常被一起購(gòu)買的產(chǎn)品。此類分析的結(jié)果被用于推薦附加商品,
為陳列商品的決策提供依據(jù)等。
、
20(RealTimeDecisioningfRTD)
幫助企業(yè)做出實(shí)時(shí)(近乎無(wú)延遲)的最優(yōu)銷售/營(yíng)銷決策。
比如,實(shí)時(shí)決策系統(tǒng)(打分系統(tǒng))可以通過(guò)多種商業(yè)規(guī)則或
模型,在顧客與公司互動(dòng)的瞬間,對(duì)顧客進(jìn)行評(píng)分和排名。
21、留存/顧客留存(Retention/CustomerRetention)
指建立后能夠長(zhǎng)期維持的客戶關(guān)系的百分比。
22、網(wǎng)絡(luò)(SocialNetworkAnalysis,SNA)
描繪并測(cè)量人與人、組與組、機(jī)構(gòu)與機(jī)構(gòu)、電腦與電腦、URL
與URL、以及其他種類相連的信息/知識(shí)實(shí)體之間的關(guān)系與流
動(dòng)。這些人或組是網(wǎng)絡(luò)中的節(jié)點(diǎn),而它們之間的連線表示關(guān)
系或流動(dòng)。SNA為分析人際關(guān)系提供了一種方法,既是數(shù)學(xué)
的又是視覺(jué)的。
23、生存分析(SurvivalAnalysis)
估測(cè)一名顧客繼續(xù)使用某業(yè)務(wù)的時(shí)間,或在后續(xù)時(shí)段流失的
可能性。此類信息能讓企業(yè)判斷所要預(yù)測(cè)時(shí)段的顧客留存,
并引入合適的忠誠(chéng)度政策。
二、統(tǒng)計(jì)學(xué)名詞解釋
1、絕對(duì)數(shù)和相對(duì)數(shù)
絕對(duì)數(shù):是反應(yīng)客觀現(xiàn)象總體在一定時(shí)間、一定地點(diǎn)下的總
規(guī)模、總水平的綜合性指標(biāo),也是數(shù)據(jù)分析中常用的指標(biāo)。
比如年GDP,總?cè)丝诘鹊取?/p>
相對(duì)數(shù):是指兩個(gè)有聯(lián)系的指標(biāo)計(jì)算而得出的數(shù)值,它是反
應(yīng)客觀現(xiàn)象之間的數(shù)量聯(lián)系緊密程度的綜合指標(biāo)。相對(duì)數(shù)一
般以倍數(shù)、百分?jǐn)?shù)等表示。相對(duì)數(shù)的計(jì)算公式:
相對(duì)數(shù)=比較值(比數(shù))/基礎(chǔ)值(基數(shù))
2、百分比和百分點(diǎn)
百分比:是相對(duì)數(shù)中的一種,他表示一個(gè)數(shù)是另一個(gè)數(shù)的百
分之幾,也成為百分率或百分?jǐn)?shù)。百分比的分母是100,也
就是用1%作為度量單位,因此便于比較。
百分點(diǎn):是指不同時(shí)期以百分?jǐn)?shù)的形式表示的相對(duì)指標(biāo)的變
動(dòng)幅度,設(shè)等于1個(gè)百分點(diǎn)。
3、頻數(shù)和頻率
頻數(shù):一個(gè)數(shù)據(jù)在整體中出現(xiàn)的次數(shù)。
頻率:某一事件發(fā)生的次數(shù)與總的事件數(shù)之比。頻率通常用
比例或百分?jǐn)?shù)表示。
4、比例與比率
比例:是指在總體中各數(shù)據(jù)占總體的比重,通常反映總體的
構(gòu)成和比例,即部分與整體之間的關(guān)系。
比率:是樣本(或總體)中各不同類別數(shù)據(jù)之間的比值,由于
比率不是部分與整體之間的對(duì)比關(guān)系,因而比值可能大于1。
5、倍數(shù)和番數(shù)
倍數(shù):用一個(gè)數(shù)據(jù)除以另一個(gè)數(shù)據(jù)獲得,倍數(shù)一般用來(lái)表示
上升、增長(zhǎng)幅度,一般不表示減少幅度。
番數(shù):指原來(lái)數(shù)量的2的n次方。
6、同比和環(huán)比
同比:指的是與歷史同時(shí)期的數(shù)據(jù)相比較而獲得的比值,反
應(yīng)事物發(fā)展的相對(duì)性。
環(huán)比:指與上一個(gè)統(tǒng)計(jì)時(shí)期的值進(jìn)行對(duì)比獲得的值,主要反
映事物的逐期發(fā)展的情況。
7、變量
變量來(lái)源于數(shù)學(xué),是計(jì)算機(jī)語(yǔ)言中能儲(chǔ)存計(jì)算結(jié)果或能表示
值抽象概念。變量可以通過(guò)變量名訪問(wèn)。
8、連續(xù)變量
在統(tǒng)計(jì)學(xué)中,變量按變量值是否連續(xù)可分為連續(xù)變量與離散
變量?jī)煞N。在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量,
其數(shù)值是連續(xù)不斷的,相鄰兩個(gè)數(shù)值可作無(wú)限分割,即可取
無(wú)限個(gè)數(shù)值。如:年齡、體重等變量。
9、離散變量
離散變量的各變量值之間都是以整數(shù)斷開(kāi)的,如人數(shù)、工廠
數(shù)、機(jī)器臺(tái)數(shù)等,都只能按整數(shù)計(jì)算。離散變量的數(shù)值只能
用計(jì)數(shù)的方法取得。
10、定性變量
又名分類變量:觀測(cè)的個(gè)體只能歸屬于幾種互不相容類別中
的一種時(shí),一般是用非數(shù)字來(lái)表達(dá)其類別,這樣的觀測(cè)數(shù)據(jù)
稱為定性變量。可以理解成可以分類別的變量,如學(xué)歷、性
別、婚否等。
11、均值
即平均值,平均數(shù)是表示一組數(shù)據(jù)集中趨勢(shì)的量數(shù),是指在
一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)。
12、中位數(shù)
對(duì)于有限的數(shù)集,可以通過(guò)把所有觀察值高低排序后找出正
中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),通常取最中
間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。
13、缺失值
它指的是現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不完全的。
14、缺失率
某屬性的缺失率=數(shù)據(jù)集中某屬性的缺失值個(gè)數(shù)/數(shù)據(jù)集總行
數(shù)。
15、異常值
指一組測(cè)定值中與平均值的偏差超過(guò)兩倍標(biāo)準(zhǔn)差的測(cè)定值,
與平均值的偏差超過(guò)三倍標(biāo)準(zhǔn)差的測(cè)定值,稱為高度異常的
異常值。
16、方差
是在概率論和統(tǒng)計(jì)方差衡量隨機(jī)變量或一組數(shù)據(jù)時(shí)離散程度
的度量。概率論中方差用來(lái)度量隨機(jī)變量和其數(shù)學(xué)期望(即
均值)之間的偏離程度。統(tǒng)計(jì)中的方差(樣本方差)是每個(gè)
樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。在許
多實(shí)際問(wèn)題中,研究方差即偏離程度有著重要意義。方差是
衡量源數(shù)據(jù)和期望值相差的度量值。
17、標(biāo)準(zhǔn)差
中文環(huán)境中又常稱均方差,是離均差平方的算術(shù)平均數(shù)的平
方根,用。表示。標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反
映一個(gè)數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標(biāo)準(zhǔn)差
未必相同。
18、皮爾森相關(guān)系數(shù)
皮爾森相關(guān)系數(shù)是用來(lái)反映兩個(gè)變量線性相關(guān)程度的統(tǒng)計(jì)
量。相關(guān)系數(shù)用r表示,其中n為樣本量,分別為兩個(gè)變量
的觀測(cè)值和均值。r描述的是兩個(gè)變量間線性相關(guān)強(qiáng)弱的程
度。r的絕對(duì)值越大表明相關(guān)性越強(qiáng)。
19、相關(guān)系數(shù)
相關(guān)系數(shù)是最早由統(tǒng)計(jì)學(xué)家卡爾?皮爾遜設(shè)計(jì)的統(tǒng)計(jì)指標(biāo),
是研究變量之間線性相關(guān)程度的量,一般用字母r表示。由
于研究對(duì)象的不同,相關(guān)系數(shù)有多種定義方式,較為常用的
是皮爾森相關(guān)系數(shù)。
20、特征值
特征值是線性代數(shù)中的一個(gè)重要概念。在數(shù)學(xué)、物理學(xué)、化
學(xué)、計(jì)算機(jī)等領(lǐng)域有著廣泛的應(yīng)用。設(shè)A是向量空間的一個(gè)
線性變換,如果空間中某一非零向量通過(guò)A變換后所得到的
向量和X僅差一個(gè)常數(shù)因子,即AX=kX,則稱k為A的特征
值,X稱為A的屬于特征值k的特征向量或特征矢量。
三、數(shù)據(jù)分析名詞解釋
A
聚合(Aggregation):搜索、合并、顯示數(shù)據(jù)的過(guò)程。
算法(Algorithms):可以完成某種數(shù)據(jù)分析的數(shù)學(xué)公式。
分析法(Analytics):用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義。
異常檢測(cè)(Anomalydetection):在數(shù)據(jù)集中搜索與預(yù)期
模式或行為不匹配的數(shù)據(jù)項(xiàng)。除了“Anomalies”,用來(lái)表示
異常的詞有以下幾種:
outliers,exceptions,surprises,contaminants.他們通常
可提供關(guān)鍵的可執(zhí)行信息。
匿名化(Anonymization):使數(shù)據(jù)匿名,即移除所有與個(gè)人
隱私相關(guān)的數(shù)據(jù)。
分析型客戶關(guān)系管理(AnalyticalCRM/aCRM):用于支
持決策,改善公司跟顧客的互動(dòng)或提高互動(dòng)的價(jià)值°針對(duì)有
關(guān)顧客的知識(shí),和如何與顧客有效接觸的知識(shí),進(jìn)行收集、
分析、應(yīng)用。
行為分析法(BehaviouralAnalytics):這種分析法是根
據(jù)用戶的行為如“怎么做”,“為什么這么做”,以及“做
了什么”來(lái)得出結(jié)論,而不是僅僅針對(duì)人物和時(shí)間的一門分
析學(xué)科,它著眼于數(shù)據(jù)中的人性化模式。
批量處理(Batchprocessing):盡管從大型計(jì)算機(jī)時(shí)代
開(kāi)始,批量處理就已經(jīng)出現(xiàn)了。由于處理大型數(shù)據(jù)集,批量
處理對(duì)大數(shù)據(jù)具有額外的意義。批量數(shù)據(jù)處理是處理一段時(shí)
間內(nèi)收集的大量數(shù)據(jù)的有效方式。
商業(yè)智能(BusinessIntelligence):分析數(shù)據(jù)、展示
信息以幫助企業(yè)的執(zhí)行者、管理層、其他人員進(jìn)行更有根據(jù)
的商業(yè)決策的應(yīng)用、設(shè)施、工具、過(guò)程。
c
分類分析(Classificationanalysis):從數(shù)據(jù)中獲得重
要的相關(guān)性信息的系統(tǒng)化過(guò)程;這類數(shù)據(jù)也被稱為元數(shù)據(jù)
(metadata),是描述數(shù)據(jù)的數(shù)據(jù)。
云計(jì)算(Cloudcomputing):構(gòu)建在網(wǎng)絡(luò)上的分布式計(jì)算
系統(tǒng),數(shù)據(jù)是存儲(chǔ)于機(jī)房外的(即云端)。
集群計(jì)算(Clustercomputing):這是一個(gè)使用多個(gè)服
務(wù)器集合資源的“集群”的計(jì)算術(shù)語(yǔ)。要想更技術(shù)性的話,
就會(huì)涉及到節(jié)點(diǎn),集群管理層,負(fù)載平衡和并行處理等概念。
聚類分析(Clusteringanalysis):它是將相似的對(duì)象聚
合在一起,每類相似的對(duì)象組合成一個(gè)聚類(也叫作簇)的過(guò)
程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性。
冷數(shù)據(jù)存儲(chǔ)(Colddatastorage):在低功耗服務(wù)器上存
儲(chǔ)那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來(lái)將會(huì)很
耗時(shí)。
對(duì)比分析(Comparativeanalysis):在非常大的數(shù)據(jù)集中
進(jìn)行模式匹配時(shí),進(jìn)行一步步的對(duì)比和計(jì)算過(guò)程得到分析結(jié)
果。
相關(guān)性分析(Correlationanalysis):是一種數(shù)據(jù)分析方
法,用于分析變量之間是否存在正相關(guān),或者負(fù)相關(guān)。
D
儀表板(Dashboard):使用算法分析數(shù)據(jù),并將結(jié)果用圖表
方式顯示于儀表板中。
數(shù)據(jù)聚合工具(Dataaggregationtools):將分散于眾
多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個(gè)全新數(shù)據(jù)源的過(guò)程。
數(shù)據(jù)分析師(Dataanalyst):從事數(shù)據(jù)分析、建模、清理、
處理的專業(yè)人員。
數(shù)據(jù)庫(kù)(Database):一個(gè)以某種特定的技術(shù)來(lái)存儲(chǔ)數(shù)據(jù)集
合的倉(cāng)庫(kù)。
數(shù)據(jù)湖(Datalake):數(shù)據(jù)湖是原始格式的企業(yè)級(jí)數(shù)據(jù)的
大型存儲(chǔ)庫(kù)。與此同時(shí)我們可以涉及數(shù)據(jù)倉(cāng)庫(kù),它在概念上
是相似的,也是企業(yè)級(jí)數(shù)據(jù)的存儲(chǔ)庫(kù),但在清理、與其他來(lái)
源集成之后是以結(jié)構(gòu)化格式。數(shù)據(jù)倉(cāng)庫(kù)通常用于常規(guī)數(shù)據(jù)
(但不是專有的)。數(shù)據(jù)湖使得訪問(wèn)企業(yè)級(jí)數(shù)據(jù)更加容易,
你需要明確你要尋找什么,以及如何處理它并明智地試用它。
暗數(shù)據(jù)(DarkData):基本上指的是,由企業(yè)收集和處理
的,但并不用于任何意義性目的的數(shù)據(jù),因此它是“暗”的,
可能永遠(yuǎn)不會(huì)被分析。它可以是社交網(wǎng)絡(luò)反饋,呼叫中心日
志,會(huì)議筆記等等。有很多人估計(jì),所有企業(yè)數(shù)據(jù)中的60-90
%可能是“暗數(shù)據(jù)”,但誰(shuí)又真正知道呢?
數(shù)據(jù)挖掘(Datamining):數(shù)據(jù)挖掘是通過(guò)使用復(fù)雜的模
式識(shí)別技術(shù),從而找到有意義的模式,并得出大量數(shù)據(jù)的見(jiàn)
解。
數(shù)據(jù)中心(Datacentre):一個(gè)實(shí)體地點(diǎn),放置了用來(lái)存儲(chǔ)
數(shù)據(jù)的服務(wù)器。
數(shù)據(jù)清洗(Datacleansing):對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)
的過(guò)程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供
數(shù)據(jù)一致性。
數(shù)據(jù)質(zhì)量(DataQuality):有關(guān)確保數(shù)據(jù)可靠性和實(shí)用
價(jià)值的過(guò)程和技術(shù)。高質(zhì)量的數(shù)據(jù)應(yīng)該忠實(shí)體現(xiàn)其背后的事
務(wù)進(jìn)程,并能滿足在運(yùn)營(yíng)、決策、規(guī)劃中的預(yù)期用途。
數(shù)據(jù)訂閱(Datafeed):一種數(shù)據(jù)流,例如Twitter訂閱和
RSSo
數(shù)據(jù)集市(DataMart):進(jìn)行數(shù)據(jù)集買賣的在線交易場(chǎng)所。
數(shù)據(jù)建模(Datamodelling):使用數(shù)據(jù)建模技術(shù)來(lái)分析數(shù)
據(jù)對(duì)象,以此洞悉數(shù)據(jù)的內(nèi)在涵義。
數(shù)據(jù)集(Dataset):大量數(shù)據(jù)的集合。
數(shù)據(jù)虛擬化(Datavirtualization):數(shù)據(jù)整合的過(guò)程,
以此獲得更多的數(shù)據(jù)信息,這個(gè)過(guò)程通常會(huì)引入其他技術(shù),
例如數(shù)據(jù)庫(kù),應(yīng)用程序,文件系統(tǒng),網(wǎng)頁(yè)技術(shù),大數(shù)據(jù)技術(shù)
等等。
判別分析(Discriminantanalysis):將數(shù)據(jù)分類,按不
同的分類方式,可將數(shù)據(jù)分配到不同的群組,類別或者目錄。
是一種統(tǒng)計(jì)分析法,可以對(duì)數(shù)據(jù)中某些群組或集群的已知信
息進(jìn)行分析,并從中獲取分類規(guī)則。
分布式文件系統(tǒng)(DistributedFileSystem):提供簡(jiǎn)化
的,高可用的方式來(lái)存儲(chǔ)、分析、處理數(shù)據(jù)的系統(tǒng)。
文件栩01噓庫(kù)(DocumentStoreDatabases):又稱為
文檔數(shù)據(jù)庫(kù),為存儲(chǔ)、管理、恢復(fù)文檔數(shù)據(jù)而專門設(shè)計(jì)的數(shù)
據(jù)庫(kù),這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)。
探索性分析(Exploratoryanalysis):在沒(méi)有標(biāo)準(zhǔn)的流程
或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)
集主要特性的一種方法。
tSHK-iJHS(ETL:ExtractrTransformandLoad):
是一種用于數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)的處理過(guò)程,天善學(xué)院有國(guó)
內(nèi)唯一的最全的ETL學(xué)習(xí)課程。即從各種不同的數(shù)據(jù)源提取
(E)數(shù)據(jù),并轉(zhuǎn)換(T)成能滿足業(yè)務(wù)需要的數(shù)據(jù),最后將其加
載(L)到數(shù)據(jù)庫(kù)。
G
游戲化(Gamification):在其他非游戲領(lǐng)域中運(yùn)用游戲的
思維和機(jī)制,這種方法可以以一種十分友好的方式進(jìn)行數(shù)據(jù)
的創(chuàng)建和偵測(cè),非常有效。
圖形數(shù)據(jù)庫(kù)(GraphDatabases):運(yùn)用圖形結(jié)構(gòu)(例如,一
組有限的有序?qū)?,或者某種實(shí)體)來(lái)存儲(chǔ)數(shù)據(jù),這種圖形存
儲(chǔ)結(jié)構(gòu)包括邊緣、屬性和節(jié)點(diǎn)。它提供了相鄰節(jié)點(diǎn)間的自由
索引功能,也就是說(shuō),數(shù)據(jù)庫(kù)中每個(gè)元素間都與其他相鄰元
素直接關(guān)聯(lián)。
網(wǎng)格計(jì)算(Gridcomputing):將許多分布在不同地點(diǎn)的計(jì)
算機(jī)連接在一起,用以處理某個(gè)特定問(wèn)題,通常是通過(guò)云將
計(jì)算機(jī)相連在一起。
Hadoop:一個(gè)開(kāi)源的分布式系統(tǒng)基礎(chǔ)框架,可用于開(kāi)發(fā)分布
式程序,進(jìn)行大數(shù)據(jù)的運(yùn)算與存儲(chǔ)。
Hadoop數(shù)據(jù)庫(kù)(HBase):一個(gè)開(kāi)源的、非關(guān)系型、分布式
數(shù)據(jù)庫(kù),與Hadoop框架共同使用。
HDFS:Hadoop分布式文件系統(tǒng)(HadoopDistributedFile
System);是一個(gè)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity
hardware)上的分布式文件系統(tǒng)。
高性能計(jì)算(HPC:High-Performance-Computing):使用
超級(jí)計(jì)算機(jī)來(lái)解決極其復(fù)雜的計(jì)算問(wèn)題。
內(nèi)存數(shù)據(jù)庫(kù)(IMDB:In-memory):一種數(shù)據(jù)庫(kù)管理系統(tǒng),與
普通數(shù)據(jù)庫(kù)管理系統(tǒng)不同之處在于,它用主存來(lái)存儲(chǔ)數(shù)據(jù),
而非硬盤。其特點(diǎn)在于能高速地進(jìn)行數(shù)據(jù)的處理和存取。
物聯(lián)網(wǎng)(IoT):最新的流行語(yǔ)是物聯(lián)網(wǎng)(I0T)oI0T通過(guò)
互聯(lián)網(wǎng)將嵌入式對(duì)象(傳感器,可穿戴設(shè)備,汽車,冰箱等)
中的計(jì)算設(shè)備進(jìn)行互連,并且能夠發(fā)送以及接收數(shù)據(jù)。I0T
生成大量數(shù)據(jù),提供了大量大數(shù)據(jù)分析的機(jī)會(huì)。
鍵值數(shù)據(jù)庫(kù)(Key-ValueDatabases):數(shù)據(jù)的存儲(chǔ)方式是
使用一個(gè)特定的鍵,指向一個(gè)特定的數(shù)據(jù)記錄,這種方式使
得數(shù)據(jù)的查找更加方便快捷。鍵值數(shù)據(jù)庫(kù)中所存的數(shù)據(jù)通常
為編程語(yǔ)言中基本數(shù)據(jù)類型的數(shù)據(jù)。
負(fù)載均衡(Loadbalancing):將工作量分配到多臺(tái)電腦或
服務(wù)器上,以獲得最優(yōu)結(jié)果和最大的系統(tǒng)利用率。
位置信息(Locationdata):GPS信息,即地理位置信息。
日志文件(Logfile):由計(jì)算機(jī)系統(tǒng)自動(dòng)生成的文件,記
錄系統(tǒng)的運(yùn)行過(guò)程。
M2M數(shù)據(jù)(Machine2Machinedata):兩臺(tái)或多臺(tái)機(jī)器間
交流與傳輸?shù)膬?nèi)容。
機(jī)器數(shù)據(jù)(Machinedata):由傳感器或算法在機(jī)器上產(chǎn)生
的數(shù)據(jù)。
機(jī)器學(xué)習(xí)(Machinelearning):人工智能的一部分,指的
是機(jī)器能夠從它們所完成的任務(wù)中進(jìn)行自我學(xué)習(xí),通過(guò)長(zhǎng)期
的累積實(shí)現(xiàn)自我改進(jìn)。
MapReduce:是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map:映射,
Reduce:歸納)。
大規(guī)模并行處理(MPP:MassivelyParallel
Processing):同時(shí)使用多個(gè)處理器(或多臺(tái)計(jì)算機(jī))處理同
一個(gè)計(jì)算任務(wù)。
元數(shù)據(jù)(Metadata):被稱為描述數(shù)據(jù)的數(shù)據(jù),即描述數(shù)據(jù)
數(shù)據(jù)屬性(數(shù)據(jù)是什么)的信息。
多維數(shù)據(jù)庫(kù)(Multi-DimensionalDatabases):用于優(yōu)化
數(shù)據(jù)聯(lián)機(jī)分析處理(OLAP)程序,優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)的一種數(shù)據(jù)庫(kù)。
多值數(shù)據(jù)庫(kù)(MultiValueDatabases):是一種非關(guān)系型數(shù)
據(jù)庫(kù)(NoSQL),一種特殊的多維數(shù)據(jù)庫(kù):能處理3個(gè)維度的數(shù)
據(jù)。主要針對(duì)非常長(zhǎng)的字符串,能夠完美地處理HTML和XML
中的字串。
自然語(yǔ)言處理(NaturalLanguageProcessing):是計(jì)算
機(jī)科學(xué)的一個(gè)分支領(lǐng)域,它研究如何實(shí)現(xiàn)計(jì)算機(jī)與人類語(yǔ)言
之間的交互。
網(wǎng)絡(luò)分析(Networkanalysis):分析網(wǎng)絡(luò)或圖論中節(jié)點(diǎn)間
的關(guān)系,即分析網(wǎng)絡(luò)中節(jié)點(diǎn)間的連接和強(qiáng)度關(guān)系。
NewSQL:一個(gè)優(yōu)雅的、定義良好的數(shù)據(jù)庫(kù)系統(tǒng),比SQL更易
學(xué)習(xí)和使用,比NoSQL更晚提出的新型數(shù)據(jù)庫(kù)。
NoSQL:顧名思義,就是“不使用SQL”的數(shù)據(jù)庫(kù)。這類數(shù)
據(jù)庫(kù)泛指?jìng)鹘y(tǒng)關(guān)系型數(shù)據(jù)庫(kù)以外的其他類型的數(shù)據(jù)庫(kù)。這類
數(shù)據(jù)庫(kù)有更強(qiáng)的一致性,能處理超大規(guī)模和高并發(fā)的數(shù)據(jù)。
對(duì)象數(shù)據(jù)庫(kù)(ObjectDatabases):(也稱為面象對(duì)象數(shù)據(jù)
庫(kù))以對(duì)象的形式存儲(chǔ)數(shù)據(jù),用于面向?qū)ο缶幊?。它不同?/p>
關(guān)系型數(shù)據(jù)庫(kù)和圖形數(shù)據(jù)庫(kù),大部分對(duì)象數(shù)據(jù)庫(kù)都提供一種
查詢語(yǔ)言,允許使用聲明式編程(declarativeprogramming)
訪問(wèn)對(duì)象。
基于對(duì)象圖像分析(Object-basedImageAnalysis):數(shù)
字圖像分析方法是對(duì)每一個(gè)像素的數(shù)據(jù)進(jìn)行分析,而基于對(duì)
象的圖像分析方法則只分析相關(guān)像素的數(shù)據(jù),這些相關(guān)像素
被稱為對(duì)象或圖像對(duì)象。
操作型數(shù)據(jù)庫(kù)(OperationalDatabases):這類數(shù)據(jù)庫(kù)可
以完成一個(gè)組織機(jī)構(gòu)的常規(guī)操作,對(duì)商業(yè)運(yùn)營(yíng)非常重要,一
般使用在線事務(wù)處理,允許用戶訪問(wèn)、收集、檢索公司內(nèi)部
的具體信息。
優(yōu)化分析(Optimizationanalysis):在產(chǎn)品設(shè)計(jì)周期依
靠算法來(lái)實(shí)現(xiàn)的優(yōu)化過(guò)程,在這一過(guò)程中,公司可以設(shè)計(jì)各
種各樣的產(chǎn)品并測(cè)試這些產(chǎn)品是否滿足預(yù)設(shè)值。
本體論(Ontology):表示知識(shí)本體,用于定義一個(gè)領(lǐng)域中
的概念集及概念之間的關(guān)系的一種哲學(xué)思想。(譯者注:數(shù)據(jù)
被提高到哲學(xué)的高度,被賦予了世界本體的意義,成為一個(gè)
獨(dú)立的客觀數(shù)據(jù)世界)
異常值檢測(cè)(Outlierdetection):異常值是指嚴(yán)重偏離
一個(gè)數(shù)據(jù)集或一個(gè)數(shù)據(jù)組合總平均值的對(duì)象,該對(duì)象與數(shù)據(jù)
集中的其他它相去甚遠(yuǎn),因此,異常值的出現(xiàn)意味著系統(tǒng)發(fā)
生問(wèn)題,需要對(duì)此另加分析。
聯(lián)機(jī)分析處理(On-LineAnalyticalProcessing,
OLAP):能讓用戶輕松制作、瀏覽報(bào)告的工具,這些報(bào)告總
結(jié)相關(guān)數(shù)據(jù),并從多角度分析。
模式iR別(PattemRecognition):通過(guò)算法來(lái)識(shí)別數(shù)據(jù)
中的模式,并對(duì)同一數(shù)據(jù)源中的新數(shù)據(jù)作出預(yù)測(cè)
平臺(tái)即服務(wù)(PaaS:Platform-as-a-Service):為云計(jì)算
解決方案提供所有必需的基礎(chǔ)平臺(tái)的一種服務(wù)。
預(yù)測(cè)分析(Predictiveanalysis):大數(shù)據(jù)分析方法中最
有價(jià)值的一種分析方法,這種方法有助于預(yù)測(cè)個(gè)人未來(lái)(近
期)的行為,例如某人很可能會(huì)買某些商品,可能會(huì)訪問(wèn)某
些網(wǎng)站,做某些事情或者產(chǎn)生某種行為。通過(guò)使用各種不同
的數(shù)據(jù)集,例如歷史數(shù)據(jù),事務(wù)數(shù)據(jù),社交數(shù)據(jù),或者客戶
的個(gè)人信息數(shù)據(jù),來(lái)識(shí)別風(fēng)險(xiǎn)和機(jī)遇。
公共數(shù)據(jù)(Publicdata):由公共基金創(chuàng)建的公共信息或公
共數(shù)據(jù)集。
Q
數(shù)字化自我(QuantifiedSelf):使用應(yīng)用程序跟蹤用戶
一天的一舉一動(dòng),從而更好地理解其相關(guān)的行為。
R:是一種編程語(yǔ)言,在統(tǒng)計(jì)計(jì)算方面很出色。如果你不知
道R,你就稱不上是數(shù)據(jù)科學(xué)家。R是數(shù)據(jù)科學(xué)中最受歡迎
的語(yǔ)言之一。
再識(shí)別(Re-identification):將多個(gè)數(shù)據(jù)集合并在一起,
從匿名化的數(shù)據(jù)中識(shí)別出個(gè)人信息。
回歸分析(Regressionanalysis):確定兩個(gè)變量間的依
賴關(guān)系。這種方法假設(shè)兩個(gè)變量之間存在單向的因果關(guān)系
(譯者注:自變量,因變量,二者不可互換)。
實(shí)時(shí)數(shù)據(jù)(Real-timedata):指在幾毫秒內(nèi)被創(chuàng)建、處理、
存儲(chǔ)、分析并顯示的數(shù)據(jù)。
推薦引擎(Recommendationengine):推薦引擎算法根據(jù)
用戶之前的購(gòu)買行為或其他購(gòu)買行為向用戶推薦某種產(chǎn)品。
路徑分析(Routinganalysis):-針對(duì)某種運(yùn)輸方法通過(guò)
使用多種不同的變量分析從而找到一條最優(yōu)路徑,以達(dá)到降
低燃料費(fèi)用,提高效率的目的。
S
半結(jié)構(gòu)化數(shù)據(jù)(Semi-structureddata):半結(jié)構(gòu)化數(shù)據(jù)
并不具有結(jié)構(gòu)化數(shù)據(jù)嚴(yán)格的存儲(chǔ)結(jié)構(gòu),但它可以使用標(biāo)簽或
其他形式的標(biāo)記方式以保證數(shù)據(jù)的層次結(jié)構(gòu)。
結(jié)構(gòu)化數(shù)據(jù)(Structureddata):可以組織成行列結(jié)構(gòu),
可識(shí)別的數(shù)據(jù)。這類數(shù)據(jù)通常是一條記錄,或者一個(gè)文件,
或者是被正確標(biāo)記過(guò)的數(shù)據(jù)中的某一個(gè)字段,并且可以被精
確地定位到。
情感分析(SentimentAnalysis):通過(guò)算法分析出人們是
如何看待某些話題。
信號(hào)分析(Signalanalysis):指通過(guò)度量隨時(shí)間或空間
變化的物理量來(lái)分析產(chǎn)品的性能。特別是使用傳感器數(shù)據(jù)。
相似性搜索(Similaritysearches):在數(shù)據(jù)庫(kù)中查詢最
相似的對(duì)象,這里所說(shuō)的數(shù)據(jù)對(duì)象可以是任意類型的數(shù)據(jù)。
仿真分析(Simulationanalysis):仿真是指模擬真實(shí)環(huán)
境中進(jìn)程或系統(tǒng)的操作。仿真分析可以在仿真時(shí)考慮多種不
同的變量,確保產(chǎn)品性能達(dá)到最優(yōu)。
軟件即月艮務(wù)(SaaS:Software-as—a-Service):基于Web
的通過(guò)瀏覽器使用的一種應(yīng)用軟件。
空間分析(Spatialanalysis):空間分析法分析地理信息
或拓?fù)湫畔⑦@類空間數(shù)據(jù),從中得出分布在地理空間中的數(shù)
據(jù)的模式和規(guī)律。
SQL:在關(guān)系型數(shù)據(jù)庫(kù)中,用于檢索數(shù)據(jù)的一種編程語(yǔ)言。
流處理(Streamprocessing):流處理旨在對(duì)有“連續(xù)”
要求的實(shí)時(shí)和流數(shù)據(jù)進(jìn)行處理。結(jié)合流分析,即在流內(nèi)不間
斷地計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析的能力。流處理解決方案旨在對(duì)高
流量進(jìn)行實(shí)時(shí)處理。
時(shí)序分析(Timeseriesanalysis):分析在重復(fù)測(cè)量時(shí)間
里獲得的定義良好的數(shù)據(jù)。分析的數(shù)據(jù)必須是良好定義的,
并且要取自相同時(shí)間間隔的連續(xù)時(shí)間點(diǎn)。
拓?fù)鋽?shù)據(jù)分析(TopologicalDataAnalysis):拓?fù)鋽?shù)據(jù)
分析主要關(guān)注三點(diǎn):復(fù)合數(shù)據(jù)模型、集群
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 影視后期特效制作實(shí)戰(zhàn)手冊(cè)(如AE)
- 工程經(jīng)濟(jì)項(xiàng)目可行性研究報(bào)告
- 中級(jí)養(yǎng)老護(hù)理復(fù)習(xí)測(cè)試有答案
- 活動(dòng)策劃報(bào)告
- 婦產(chǎn)科護(hù)理練習(xí)試題附答案
- 職場(chǎng)新人培訓(xùn)計(jì)劃與教材編寫指南
- 物流倉(cāng)儲(chǔ)作業(yè)指導(dǎo)手冊(cè)
- 三農(nóng)宣傳推廣與教育方案
- 智能家居設(shè)備維護(hù)與故障排除教程
- 交通運(yùn)輸行業(yè)智能交通與自動(dòng)駕駛技術(shù)研究方案
- 《高點(diǎn)全景視頻監(jiān)控聯(lián)網(wǎng)技術(shù)要求》
- 白云山生態(tài)停車場(chǎng)工程施工組織設(shè)計(jì)施工方案
- 2024年四川省綿陽(yáng)市中考語(yǔ)文試卷(附真題答案)
- 【MOOC】Office高級(jí)應(yīng)用-成都信息工程大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 足球英語(yǔ)課件
- 盆底康復(fù)課件
- CNAS認(rèn)可準(zhǔn)則、規(guī)則考核專項(xiàng)測(cè)試題附答案
- 中等職業(yè)學(xué)校口腔修復(fù)工藝專業(yè)實(shí)訓(xùn)教學(xué)條件建設(shè)標(biāo)準(zhǔn)
- 藥品經(jīng)營(yíng)使用和質(zhì)量監(jiān)督管理辦法2024年宣貫培訓(xùn)課件
- 保安服務(wù) 投標(biāo)方案(技術(shù)標(biāo) )
- 金華十校2024年11月高三模擬考試(一模)語(yǔ)文試卷(含標(biāo)準(zhǔn)答案)
評(píng)論
0/150
提交評(píng)論