版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
:新技術(shù)與應(yīng)時(shí)間:2016421日下地點(diǎn):國際會(huì)議中心201會(huì)議:大家好我們下午的會(huì)議即將開始我在這里自我介紹一下我是QCon的主編,我們QCon有兩個(gè)主編,一個(gè)是大家比較熟悉的臧秀濤,一個(gè)是銀行的講師為大家。首先讓我們看一下第一個(gè)出場的中信銀行軟件開發(fā)中心系統(tǒng)分析和設(shè)計(jì)王晶老師2015年才加入中信銀行現(xiàn)在在這個(gè)領(lǐng)域有十多年的工作經(jīng)驗(yàn),他的是《人臉識(shí)別在商業(yè)銀行的應(yīng)用以及接受讓我們看一下到底有哪些痛點(diǎn)大家掌王晶大家下午好我是來自中信銀行的王晶,今天很榮幸參加QCon2016技術(shù)開發(fā)大會(huì)。今天想借這個(gè)機(jī)會(huì)跟大家一下人臉識(shí)別技術(shù)在商業(yè)銀行的應(yīng)用情況以及我們面對(duì)的其中會(huì)介紹業(yè)務(wù)相關(guān)的需求,應(yīng)對(duì)業(yè)務(wù)需求技術(shù)構(gòu)架的設(shè)計(jì),以及我們具體遇到的哪些實(shí)際問題的發(fā)展,技術(shù)構(gòu)架經(jīng)受的,也需要跟業(yè)務(wù)需求一起演進(jìn),最我今天的重點(diǎn)是如何應(yīng)用人臉識(shí)別技術(shù),來構(gòu)建銀行行業(yè)的風(fēng)險(xiǎn)管控比較高的地方。它首先要識(shí)別客戶的,大家可以試想一你的客戶做什么樣的業(yè)務(wù),它的怎樣,你無法提供一個(gè)高質(zhì)量的我不知道哪些是金融行業(yè)的,從國際上看巴塞爾97年推行了KYC概念,04年巴塞爾要求銀行建立以客戶為基礎(chǔ)的程序,你要了解你的客戶,以及客戶的業(yè)務(wù)。傳統(tǒng)的銀行都有它的風(fēng)控、內(nèi)審和外部審計(jì),要求銀行定期辨識(shí)客戶的,確定在我國識(shí)別的情況97年和2000年對(duì)于巴塞爾的KYC概念,推出實(shí)名制,你要帶著辦理業(yè)務(wù)。06年從的角度頒布了《洗錢法,你可以通過技術(shù)確認(rèn)客戶的真實(shí)。特別是2015年12月,大家從一些上看到,央行發(fā)布了通知,鼓勵(lì)有條件的銀行使用生物識(shí)別技術(shù),結(jié)合其他的來識(shí)別客戶的。這里強(qiáng)調(diào)的是,這個(gè)只是作為輔助的,并不是作為唯一的來辨識(shí)客戶的的是真實(shí)的,冒用其他人不會(huì)辦理這樣的業(yè)務(wù)。大家日常辦,這些是銀行風(fēng)險(xiǎn)相對(duì)高的地方,這些需要識(shí)別。包括需要對(duì)VIP客戶識(shí)別,如何為你的VIP客戶提供個(gè)性化、精準(zhǔn)化的,這些也需要識(shí)別客戶的身份。柜業(yè)務(wù),它可以通過刷臉的方式進(jìn)行識(shí)別進(jìn)行開卡業(yè)務(wù)。第二個(gè)是VTM就是柜臺(tái)終端,你也可以在VTM上做開卡、消卡、掛失、存款證明,這些去柜的業(yè)務(wù)都可以在自助終端上辦。第三個(gè)你可以通過自己的移動(dòng)設(shè)備,通過刷臉的方式申請(qǐng),再到就近的網(wǎng)點(diǎn)領(lǐng)卡,這個(gè)都是通過刷臉實(shí)現(xiàn)的。業(yè)內(nèi)同業(yè)有銀行在去年八月份推出在ATM上面進(jìn)行小額的取款,進(jìn)行刷臉的ATM臉。比如險(xiǎn)和行業(yè)都有很多的應(yīng)用。用刷臉的方式進(jìn)行,作為一種新業(yè)務(wù)的探索。在商業(yè)銀行或者是國有銀行實(shí)踐人臉識(shí)別技術(shù)相對(duì)比較早去年11先可以通過聯(lián)網(wǎng)核查取得,同時(shí)根據(jù)現(xiàn)場的,有一個(gè)業(yè)務(wù)閾一個(gè)的判斷,特性比較高,沒有統(tǒng)一的程序可以采用,可以人臉識(shí)別輔助判斷可以幫助業(yè)主降低風(fēng)險(xiǎn),杜絕。第二塊業(yè)務(wù)剛才提到的VTM,柜臺(tái)機(jī),這個(gè)也是通過跟人員進(jìn)行交互,通過刷臉之后可以辦很多你必須要跑到柜臺(tái)第三塊是移動(dòng)終端的業(yè)務(wù),這塊比如說是電子,以后用戶申請(qǐng),他可以在家里通過申請(qǐng),通過刷臉的方式可以申請(qǐng)。從銀行做這些業(yè)務(wù)的方式來看,首先是做人工,再一個(gè)是電子。為什么是這種方式呢?因?yàn)槿斯?,比如說在柜臺(tái)或者是VTM都是在銀行的網(wǎng)點(diǎn),有人員輔助幫你判斷。如果想做人臉識(shí)別的是比較的。移動(dòng)終端客戶可以在任何時(shí)間、任何地點(diǎn)用這時(shí)候不可避免有些人可能會(huì)嘗試人臉識(shí)別的嘗試會(huì),會(huì)接入很多互聯(lián)網(wǎng)的應(yīng)用甚至嘗試私有云或者是公有云的方式,業(yè)務(wù)量會(huì)更大,這對(duì)業(yè)務(wù)構(gòu)架提出的。目前人臉識(shí)別對(duì)比的速度是1到1.5,我們也在不斷的優(yōu)化和探索,希望把時(shí)間縮的更短。目前基本上是1:1的對(duì)比,比如說做VIP客戶識(shí)別,可能做1對(duì)N的識(shí)別有一個(gè)案例,某客戶在分行辦業(yè)務(wù),他拿著辦,人工看這個(gè)身份證的看不出任何區(qū)別基本上是一個(gè)人通過人臉識(shí)別的程序,員跟他解釋,我們的系統(tǒng)識(shí)別出來你可能跟不是同一個(gè)人,如果不是一個(gè)人需要出示輔助證件、委托書,我們不允許拿別人的證件辦業(yè)務(wù),跟他溝通以后是他拿弟弟的來辦業(yè)務(wù),這就杜絕了冒用其他辦業(yè)務(wù),這樣是不是也降低客戶體驗(yàn)了呢?其實(shí)對(duì)、簡單看一下為什么最近大家在上看到人臉識(shí)別,為什么只有刷臉最近會(huì)占據(jù)很多版面,為什么刷臉會(huì)這么火,傳統(tǒng)的可能會(huì)忘簽名對(duì)于電子識(shí)別比如說虹膜這是一種侵入式的方式,有一個(gè)跟大的缺點(diǎn),樣本庫很難建立,試想一為商業(yè)銀行面對(duì)客戶時(shí)是甚至是全球的客戶,你如何紅膜、、掌紋數(shù)據(jù)樣本信息。但是對(duì)于人臉或者來說,這就相對(duì)簡單容易的多。、比如說蘋果如果手上有水識(shí)別程度比較差,靜脈也不是永的識(shí)別方式,可能會(huì)變,隨著的變化,因?yàn)樗O(shè)備非常龐機(jī)因?yàn)樗奶幚硭俣瓤齑蠹铱梢钥吹侥壳拔覀兪?秒到1.5秒,人行和聯(lián)網(wǎng)核查,我們作為比較可靠的數(shù)據(jù)源。去年有些銀行業(yè)推出顏值,實(shí)際上也是收集數(shù)據(jù)源的操作。的感受還有兩點(diǎn),一個(gè)是隨著移動(dòng)設(shè)備的普及,,包括人臉越來越方便,不像虹膜專有設(shè)備,現(xiàn)在每個(gè)人都有和PAD,更重要據(jù),包括深度學(xué)習(xí)跟算法相關(guān)的演進(jìn),人臉識(shí)別現(xiàn)在已經(jīng)成為一果大家比較了解可能都知道,信息系統(tǒng)通過刷臉登錄,不需要。包括也有很多重復(fù)的情況,幫助解決重復(fù),幫助了解像通過可以識(shí)別出的朋友ID都是哪些目前是從流中截出多張,通過質(zhì)量檢測程序,這個(gè)后面會(huì)體說。檢測出來質(zhì)量能達(dá)到我們閾值的一張,這張會(huì)做人臉做裁剪,下一步是提取特征值,這里面主要是基于深度學(xué)習(xí)相關(guān)的后面會(huì)繼續(xù)介紹。質(zhì)量檢測是用來從流或者是拍的多張中挑出質(zhì)量最高,適合人臉識(shí)別的一張。裁剪是根據(jù)人臉識(shí)別出定位坐標(biāo)以后,對(duì)和人臉進(jìn)行裁剪。中間這一部分是目前接入查聯(lián)網(wǎng)核查會(huì)返回人行或者是的信息有一個(gè)流控機(jī)制,網(wǎng)核查的,這個(gè)跟現(xiàn)場的,我們跟人臉識(shí)別的引擎提取都存在關(guān)系數(shù)據(jù)庫,這是原數(shù)據(jù)。這些原數(shù)據(jù)會(huì)導(dǎo)入到下游的ODS和報(bào)表系統(tǒng),供業(yè)務(wù)部門,比如說運(yùn)營管理部門做進(jìn)一步的業(yè)務(wù)分析這是一個(gè)簡單的技術(shù)構(gòu)架份證,在中信息,首先判斷是否真實(shí),把核查的信息跟現(xiàn)場從流中的信息,送往人臉識(shí)別的,在送之前首先會(huì)做檢測,避免防止,這在互聯(lián)網(wǎng)多一點(diǎn),在柜臺(tái)可能不太需要。同時(shí)需要做質(zhì)量檢測和裁剪,這個(gè)請(qǐng)求會(huì)把這兩張發(fā)到人臉識(shí)別服務(wù)集群,核查之后會(huì)發(fā)到人臉識(shí)別的引擎,跟大家一下,我們的服務(wù)是面向全行發(fā)展標(biāo)準(zhǔn)化的服務(wù),是規(guī)范人工進(jìn)行處理。通過超時(shí)控制,包括對(duì)超時(shí)的統(tǒng)計(jì),服務(wù)在多長時(shí)內(nèi)超過多少秒的請(qǐng)求,我們會(huì)記錄下來,同時(shí)也有運(yùn)維相關(guān)的機(jī)然后再寫給Netty,通過這種方式我們可以處理海量的并發(fā)請(qǐng)求,而這部分并不是前臺(tái)和非常多的技術(shù)內(nèi)容,但是也是我們實(shí)踐跟大家簡單一下。人的生理特征的差異,比如說80年灘的跟86年本色的幾乎分辨不出來。通過人工跟業(yè)務(wù)對(duì)比和自動(dòng)對(duì)比的差異,些我判斷這個(gè)是不是符合人臉識(shí)別引擎的要求,如果不符合可能需要從新,避免了不合格的到后端造成對(duì)業(yè)務(wù)的影響。經(jīng)過能有問題,我們做了應(yīng)用上的優(yōu)化。包括人行有些是帶網(wǎng)文的,需要算法做不同的適應(yīng),這些后面都做了很多優(yōu)化,所以達(dá)到了現(xiàn)的結(jié)果說有人通過跟的方式做,有些人做一些面具。如果了后期檢測方式,它會(huì)對(duì)連部的關(guān)鍵點(diǎn)檢測和,還有3D的方式,定用戶是真實(shí)的人,而不是或者是一段,這個(gè)方式其實(shí)也有后續(xù)我們還看3D臉檢測,通過紅外的方式來判斷是一個(gè)人。同時(shí)檢測,我們有兩個(gè)可以供大家參考,實(shí)現(xiàn)機(jī)制和重試的次數(shù),防止的用戶不斷嘗試進(jìn)行人臉識(shí)別的。魔高一尺,道高一丈,3D打印人臉效果,目前識(shí)別比較。右邊是中第三,技術(shù)構(gòu)架的和演進(jìn),業(yè)務(wù)發(fā)展對(duì)技術(shù)的進(jìn)一步需求,是人臉識(shí)別還包括其他的比如說手寫等等方面的綜合應(yīng)用。剛才也看到了跟被的技術(shù)不斷引進(jìn),作為銀行對(duì)安全性非常敏感的業(yè)務(wù)如何應(yīng)對(duì)。還要提升處理速度,目前是一對(duì)一的對(duì)比的場景,以后對(duì)于識(shí)別VIP客戶可能是一對(duì)多以及其他,對(duì)于處理化。比如說我們可以通過程序來控制終端設(shè)備,比如說在不同的光線下實(shí)現(xiàn)不同的程度,包括對(duì)于服務(wù)端閾值的動(dòng)態(tài)調(diào)整。我們可以支持的協(xié)議后端的處理模塊實(shí)際上跟協(xié)議本身無關(guān)。整個(gè)更替構(gòu)架是基于行業(yè)業(yè)務(wù)的云平臺(tái)構(gòu)架來打造生物識(shí)別的PaaS得到非常海量的數(shù)量,比如說內(nèi)容管理平臺(tái),同時(shí)整個(gè)服務(wù)希望它的可用性,以及就近的特點(diǎn)。哪些呢?我們跟相關(guān)的業(yè)內(nèi)做過探討,銀行的技術(shù)構(gòu)架是比較傳統(tǒng)的,隨著去IOE的變化,后續(xù)擁抱云平臺(tái),需要對(duì)構(gòu)架做出開發(fā),需要與時(shí)俱進(jìn)。剛才提到人臉識(shí)別技術(shù)非常適合做PaaS服務(wù),目前行內(nèi)已經(jīng)有相關(guān)的服務(wù),如何打造PaaS務(wù),我們計(jì)劃在今年對(duì)人臉服務(wù)做PaaS服務(wù)的試點(diǎn)上線應(yīng)用需要解決服務(wù)的發(fā)現(xiàn)編容器跟現(xiàn)有AAS平臺(tái)的集成這些在銀行中如何跟PaaS服署,這些基礎(chǔ)機(jī)制的支持。同時(shí),銀行可能是開發(fā)規(guī)范比較嚴(yán)格的改進(jìn),對(duì)銀行來講可能比較,銀行需要對(duì)上線的時(shí)間,包括層層上支持。但是最終上線還是需要有等等類似的環(huán)節(jié)。中心,你是通過DNS或者是二層往三層的改造,實(shí)現(xiàn)服務(wù)的路由??赡苌婕暗綌?shù)據(jù)跟,這里面又涉及到數(shù)據(jù)移植性的問題,這些都是我們的,以及跟后續(xù)改進(jìn)優(yōu)化的過程。最后一部分是簡單的總結(jié),人臉識(shí)別可以作為一個(gè)輔助,比較好的解決商業(yè)銀行識(shí)別的需求。目前已經(jīng)有了一些業(yè)務(wù)應(yīng)用的結(jié)合使用,英國有一個(gè)銀行是完全的互聯(lián)行,它的機(jī)制就是通過人臉完全,通過刷臉,當(dāng)然它也是結(jié)合了聲音兩種方式,可以非常簡單的完成,這點(diǎn)目前是國內(nèi)微眾銀行的瓶頸,目前央行不允許這種業(yè)務(wù)。來看,隨著人臉識(shí)別技術(shù)不斷發(fā)展跟其他技業(yè)務(wù),對(duì)于無論是互聯(lián)行,還是傳統(tǒng)的商業(yè)銀行都是非常大的契們銀行作為私有云的部分存在這就是我今天的內(nèi)容謝謝大家:提問人臉數(shù)據(jù)都要在系統(tǒng)云端。怎么防止到時(shí)候人臉庫到時(shí)候被偷庫第二個(gè)問題,現(xiàn)在像VR術(shù)的發(fā)展,很多VR備是可以通過視到的是真實(shí)的人臉,還是VI虛擬出來的人臉,對(duì)于這種的,王晶在銀行的數(shù)據(jù)中心本身都有很嚴(yán)格的要求,不會(huì)存在整體的提問人臉識(shí)別能不能做成并不需 你 圖像,而只需要特征就可以完成識(shí)別和認(rèn)證王晶考慮。比如說我們對(duì)VIP客戶的識(shí)別,很多人來銀行辦業(yè)務(wù),想識(shí)別的做法是對(duì)于這些不做,在級(jí)別中做特征值的。比如說VIP客戶來得人只是通過特征值的方式進(jìn)行對(duì)比不會(huì)做提問是像UK上面的嗎王晶這是我們專有的設(shè)備,它有和計(jì)算,這是專門做的你說的第二個(gè)問題關(guān)于VR或者是其他的方式,目前我們也在探討一些類似3D像或者是紅外的方式,它的成像究竟是一個(gè)視頻,還是一個(gè)物體,或者是有溫度的人面做,而不是虛擬的一段,一段VR影像就可以通過的。提問你好,問一下這里面像是的檢索,我輸入一張進(jìn)去,把相似 檢索出來。你剛才提到深度學(xué)當(dāng)中的用因?yàn)樯疃葘W(xué)習(xí)參數(shù)規(guī)模是很大的在這里面是怎么處理的呢?因?yàn)槲铱吹接袌D象識(shí)別集群是不是已經(jīng)做了分布式的方法,現(xiàn)有的框架用了哪些呢?王晶西有些可能涉及到商業(yè),只能大致說一下實(shí)現(xiàn)思路。比如說對(duì)于人臉的檢測,包括深度學(xué)習(xí)來實(shí)現(xiàn)特征的檢索,如果對(duì)這些感的提問你好問一下是不是你剛才講的人臉識(shí)別檢索分布式系統(tǒng),王晶可以這么說提問以后有沒有類似提供一些API或者是合作的可能性王晶提問因?yàn)槲铱吹揭灿衅渌墓驹谧鋈四樧R(shí)別解決方案,的優(yōu)勢王晶:謝謝幾位踴躍提問的同學(xué),也謝謝王晶老師的解答,現(xiàn)在我下面即將開始我們今天下午的第二場,大家應(yīng)該都有滴滴出行的APP,反正我現(xiàn)在已經(jīng)離不開滴滴了,以前晚上打車的時(shí)候經(jīng)程生產(chǎn)力團(tuán)隊(duì)研發(fā)技術(shù)總監(jiān)齊賀老師,他的題目是《用數(shù)據(jù)驅(qū)動(dòng)齊賀大家下午好這個(gè)部門主要是為了提升滴滴運(yùn)轉(zhuǎn)效率所組建的。今天要跟大家在始之前先了解一下在座的聽眾大家來自于哪兒,有來自于互聯(lián)網(wǎng)的嗎?有來自于移動(dòng)互聯(lián)網(wǎng)的嗎?大家有坐過AB測試或者大家有產(chǎn)品和技術(shù),涉及到AB測試場景的同學(xué)有多少呢?我相信今天聽完我的會(huì)有一些收獲這也是我們滴滴在實(shí)踐AB測試將近大半年時(shí)間里面,我們所做技術(shù)上的沉淀,以及我們踩過一些坑,希望大家能有所收獲。先看一下大綱,首先給大家講一個(gè)故事,就是發(fā)生在滴滴APP里一些相對(duì)通用,大家提及的方法。再介紹一下滴滴數(shù)據(jù)驅(qū)動(dòng)平臺(tái)產(chǎn)品架構(gòu),以及對(duì)應(yīng)的技術(shù)架構(gòu)。最后給大家一些真言,如果你做AB測試,你通過AB測試拿到某一些數(shù)據(jù)輔助決策或者直接產(chǎn)生決策時(shí)候,你要注意的點(diǎn)非常重要,最后是其他的技術(shù)我們先進(jìn)入第一個(gè),左側(cè)這張是我們滴滴APP的截圖,這是去年截圖而這張截圖是由我們的大截的當(dāng)時(shí)在APP工具里面,他把這張放上面提了一個(gè)問題,為什么我看到的車的數(shù)量少了,很迅速,這時(shí)候有一個(gè)PM跳出來說了,程總是這樣的,我們最近剛上了一個(gè)應(yīng)用,通過一些算法的匹配,找到對(duì)于打開APP的用戶來講,為一個(gè)重度用戶,我首先的感覺是不安全,是不是滴滴都跑了,很多車,但是結(jié)合很多條件,比如說的接單意愿,所處的位車好,或者什么樣一個(gè)數(shù)字是最好的。包括,他也沒有說我們要滴滴APP面開放給用戶。我說一個(gè)背景,滴滴APP大家基本上都用過,它的發(fā)展時(shí)間其實(shí)披露的信息。比如說321號(hào)我們訂單首次達(dá)到了一天綜合1000達(dá)到了88.4,日均訂單量占比84.1%,截止到現(xiàn)在我們?nèi)匀挥泻芏喔?,這個(gè)模型是好的模型,適合按好的策略匹配。如何證明通過或者是AB兩種方案里面哪個(gè)更好測試一下在西二旗這些用戶,這些功能我希望先從5%還是,如果效果OK的話我再逐步轉(zhuǎn)全的場景之后,先跳出來,我們了解一些相對(duì)基礎(chǔ)的概念,這對(duì)接比如說我投放到,我們把人群的屬性做一個(gè)抽象。比如說時(shí)間,接下來我們?cè)倏戳硗庖粋€(gè)概念,可能這個(gè)詞匯聽的一些,我然后是ABAB一個(gè)變量,某一個(gè)按鈕的大小、顏色、位置等等。當(dāng)然這個(gè)變量的調(diào)節(jié),放在一個(gè)大型的APP里面或者是產(chǎn)品里面,它會(huì)對(duì)用戶的行為產(chǎn)能要優(yōu)于另外一個(gè)方案,然后再借助灰度發(fā)布的逐步轉(zhuǎn)權(quán),實(shí)現(xiàn)要找到一個(gè)優(yōu)化指標(biāo),我們通常在內(nèi)部叫做KPI,你要優(yōu)化什么樣的比如說最常見的使用配置上線的問題,在于它的周期比較長,全,大家知道隱含著很大的,即使你延后了半天上線,有可雜的時(shí)候,這種方式經(jīng)常捉襟見肘。我希望要一個(gè)20到50歲區(qū)間的樣的用戶,它必須要建立服務(wù)之間的調(diào)用,來檢查某一個(gè)人在不特別像蘋果IOS產(chǎn)品,通常情況下你把包丟到Stroe里面,你需要灰它描述成一種功能或者是我們經(jīng)常用的PRD形式,在由開發(fā)人員、測試人員,把包拿到,最后由對(duì)應(yīng)的OP同學(xué)部署,同時(shí)發(fā)布就做了,這是非常常見的情況。為了應(yīng)對(duì)我們剛才提到靈活的發(fā)布,我們希望高效短周期的方式支持灰度發(fā)布或者是AB測試舉一個(gè)例子,比如說就是有一個(gè)特別糾結(jié)的場景。首先從1%開始測試一個(gè)模型,沒有問題,再擴(kuò)大5%,再到50%,但是剛到50%覺得數(shù)據(jù)不是特別好,怎么辦?先回到20%觀察一段時(shí)間,如果你把發(fā)布環(huán)節(jié)單獨(dú)拿出來做,意味著在一個(gè)平臺(tái)或者是一個(gè)開放的API里面完模型這個(gè)過程如果你把發(fā)布單獨(dú)做的話意味著你的流量細(xì)分,當(dāng)然很有可能,這個(gè)驗(yàn)證是沒有什么用的,你怎么挑選變量依基于這個(gè)想法,有沒有這樣法,它像一個(gè)開關(guān)一樣,然后當(dāng)署一個(gè)版本的時(shí)候,它已經(jīng)具備了兩個(gè)版本的能力,只是在我端返回實(shí)驗(yàn)的變量所決定的。比如說我們做一個(gè)按鈕,一個(gè)紅色在我們看到的,我們希望有一個(gè)功能或者有一個(gè)實(shí)驗(yàn),它投放在市。但是它又不在國貿(mào)地區(qū),當(dāng)然原因可能有很多,蘋果,二十到五十歲之間的,在3月1號(hào)到3月20號(hào)早晚之間投放某過不同語言的SDK來拿到對(duì)應(yīng)的開關(guān)狀態(tài)。端上的人只需要寫對(duì)應(yīng)紅基于這兩個(gè)在產(chǎn)品上的設(shè)計(jì),我們把一個(gè)完整的過程進(jìn)行描這個(gè)配置發(fā)布到服務(wù)上,由服務(wù)提供這樣一種匹配的能力。因?yàn)榈蔚斡泻芏嗟恼Z言,在端上還有IOS、安卓和H5的頁面,不同的業(yè)務(wù)場景使用不同語言的SDK來加載我剛才提到的直接匹配的結(jié)果,能會(huì)看到不同的行為。這時(shí)候它會(huì)表現(xiàn)出不同的動(dòng)作,比如說點(diǎn)擊愿和留存。這些東西通過一些日志收集的工具或者是,就可以流署上去,整個(gè)后面的過程,比如說算法的同學(xué)、產(chǎn)品的同學(xué)或者是BI一系列對(duì)外的服務(wù)。比如說我們有給產(chǎn)品人員或者是運(yùn)營人員、BI人員提供的UI,他可以在平臺(tái)上進(jìn)行配置邏輯語或者是非等這些邏輯的打交道,比如說用戶的系統(tǒng)。它會(huì)幫助我們提供用戶的分段區(qū)在不在當(dāng)然還有幫我們做用戶ID的反解很多操作都是在這個(gè)環(huán)我們最的部分比如說通過我們的UI或者是通過開放的API,一樣要定期檢查或者是重傳等等這些機(jī)制。它把配置分發(fā)在哪兒呢?分發(fā)在我們提到的服務(wù),主要響應(yīng)的是一些APP請(qǐng)求。當(dāng)然延的要求提供不同的方式,當(dāng)然最的現(xiàn)在我們正在開發(fā)的使用共服務(wù)定位以后,在左下角這個(gè)層,我們提供了各種語言的SDK,容錯(cuò),比如說A政策掛掉的時(shí)候,我們的SDK要攔著,如果它掛的話原則上不應(yīng)該影響主業(yè)務(wù)。SDK抓到異常,我們會(huì)做一些及時(shí)的在使用SDK以后,它形成了不同的用戶行為,會(huì)通過各種各樣的直至收集工具,我們對(duì)應(yīng)的計(jì)算模塊會(huì)定期的,因?yàn)樗胁煌臅r(shí)間策略,有一些可以天或者更長級(jí)別的數(shù)據(jù)。我們的分析模塊,主據(jù)扔到這里面。包括對(duì)不同唯獨(dú)的數(shù)據(jù)進(jìn)行對(duì)比,來方便不同的業(yè)務(wù)場景,大概的過程就是這么幾個(gè)系統(tǒng)來組成的。剛才我們一開始給大家賣了一個(gè)關(guān)子,就是車標(biāo)的實(shí)驗(yàn)。首先們這個(gè)實(shí)驗(yàn)設(shè)計(jì)是在廣洲、做的,當(dāng)車的數(shù)量大于十輛的時(shí)候,有多少展示多少,它運(yùn)營的指標(biāo)跟專車、快車比較的業(yè)務(wù)指標(biāo),因?yàn)橛胁簧偻瑢W(xué)其實(shí)也做過實(shí)驗(yàn),說一下我們?cè)谧鲞@個(gè)平臺(tái)第一個(gè)是實(shí)驗(yàn)碰撞以前我們最簡單就是拿號(hào)的奇數(shù)和偶數(shù),一個(gè)實(shí)驗(yàn)沒有問題,兩個(gè)實(shí)驗(yàn)個(gè)實(shí)驗(yàn),實(shí)驗(yàn)的時(shí)候,問題就會(huì)產(chǎn)生了,我們內(nèi)部叫做實(shí)驗(yàn)碰撞。對(duì)于號(hào)奇數(shù)的用戶來講,如果有三個(gè)實(shí)驗(yàn),它會(huì)匹配到A1、B1和C1,它最終的結(jié)果是A1+B1+C1,這塊有什么問題呢?我做A驗(yàn)的PM能他看到的A1、B1、C1大于A1+B1+C1。其實(shí)引申出來一個(gè)問題,你怎么樣來做百分比的分桶,者是做實(shí)驗(yàn),所有的東西都是在尾號(hào)第一位的1到5這幾個(gè)人來根兒不會(huì)被灰度,這個(gè)實(shí)驗(yàn)很簡單,你拿號(hào)的最后兩位,比如說01920%這個(gè)很容易出問題兩個(gè)灰度兩波人會(huì)被同時(shí)圈住。還有并行實(shí)驗(yàn),如果你在物理上希望把每個(gè)實(shí)驗(yàn)進(jìn)行,資源的上么實(shí)現(xiàn)并行的時(shí)候怎么實(shí)現(xiàn),這里面我們的方式,大概是這樣一個(gè)實(shí)現(xiàn),用戶有一個(gè)標(biāo)尺。比如說設(shè)備號(hào)或者是用戶ID,我奇歐也是實(shí)現(xiàn)冪等的方式。用戶在這個(gè)時(shí)間里面他是1%,在另外一個(gè)時(shí)間里面他可能是99%到100%的區(qū)間里面。并行實(shí)驗(yàn)和互斥實(shí)驗(yàn)因?yàn)樗逊滞巴耆蛏⒌袅艘馕吨鳤1和A2,對(duì)于B1和B2的影響是均衡的,從而把這種方式扣掉了。怎么實(shí)以實(shí)現(xiàn)。我要做這么一個(gè)實(shí)驗(yàn),A組、B組,對(duì)應(yīng)的是60%,當(dāng)把A組擴(kuò)到30%的時(shí)候就有問題了我們拿號(hào)取下面的人群大家可以看20、20、60的比例,從B組挪兩個(gè)人過來,這就實(shí)現(xiàn)了30:20:50的結(jié)是因?yàn)槟阍谧鰧?shí)驗(yàn)的時(shí)候,你希望看到的A和B,它們彼此和實(shí)驗(yàn)主體是雙盲的,這個(gè)時(shí)候你把B組的用戶挪到A組,這個(gè)結(jié)果作為在較好理解,我對(duì)B組不做任何的變化,這個(gè)就會(huì)轉(zhuǎn)化為一個(gè)問題,對(duì)決策的,如果日志,打的亂七八糟會(huì)有很多的問題。所以我有一些日志的,比如說你怎么樣做連接和。然后你才能的系統(tǒng),還會(huì)做行為分析,或者是一些分析定位等等,這些東西當(dāng)然要考慮新鮮期,你可能要放到兩周甚至更長的時(shí)間,你才能達(dá)面的東西,你要考慮犯一型錯(cuò)誤和二型錯(cuò)誤,讓他支持A組和B組的最后一個(gè)是其他應(yīng)用的場景,比如說主干開發(fā),所有的家基于做開發(fā)的時(shí)候,我要上線,有些功能沒有完成,我把功能進(jìn)行里面說一個(gè)點(diǎn)。其實(shí)我們的乘客赫斯基,我們經(jīng)常做會(huì)面對(duì)這樣一個(gè)問題,就是資源共享的問題。比如說我對(duì)的百分之五十的司機(jī)做實(shí)驗(yàn)的時(shí)候,有可能它的傾斜會(huì)導(dǎo)致這50%的用戶另外50%的訂單,但是在AB測試?yán)锩妫僭O(shè)它們兩個(gè)彼此不受影響,做類似這還有模型訓(xùn)練對(duì)比,我們可以實(shí)現(xiàn)新跑出來的模型能夠第一時(shí):再次感謝齊賀老師,由于時(shí)間關(guān)系,現(xiàn)在我們只問一個(gè)問題提問問一下,剛剛我們看到功能開關(guān)通過SDK的狀態(tài)位來判斷開的兩段代碼做對(duì)比,而是我把代碼A改成了A+,這種代碼修改的增量齊賀,,提問這個(gè)對(duì)于我們的開發(fā)者提出了開發(fā)模式的要求齊賀現(xiàn)在新舊都要測提問我們看到的都是代碼級(jí)的AB試或者是代碼級(jí)的灰度發(fā)布,我們剛才說的阿平臺(tái)有沒有做到支持零開發(fā)資源介入純業(yè)務(wù)方的調(diào)有可能用阿平臺(tái)在運(yùn)行時(shí)動(dòng)態(tài)調(diào)整UI上面的東西呢?齊賀提問個(gè)UI統(tǒng)是指功能調(diào)整的UI,還是說條件創(chuàng)建和調(diào)整的UI。齊賀面要加對(duì)應(yīng)的實(shí)驗(yàn)分組,只要它的代碼能解釋實(shí)驗(yàn)分組的變量,它提問性的看一些指標(biāo)。當(dāng)做一個(gè)實(shí)驗(yàn)的時(shí)候,我出一張新的報(bào)表,這個(gè)報(bào)表是需要我BI門支持,還是在這套系統(tǒng)里面業(yè)務(wù)方可以齊賀但是有一種指標(biāo)需要在事后算比如說追訂單標(biāo)這些東西要BI一個(gè)一個(gè)接,接完之后其他人可以實(shí)現(xiàn)訂閱了,這是的成本。提問,我們剛才說的是常規(guī)的數(shù)據(jù)統(tǒng)計(jì)我們做AB測試的時(shí)候所,齊賀那當(dāng)然了,其實(shí)剛才有一個(gè)細(xì)節(jié)沒有講,SDK在實(shí)現(xiàn)分組的A或者是B,在計(jì)算的時(shí)候只要兩組信息進(jìn)行照應(yīng)就可以了提問整個(gè)滴滴上線第一天就支持這種對(duì)比還是說后面改造的齊賀去年十月份改的提問整個(gè)一套都改掉,是天生支持對(duì)比,還是一塊一塊的齊賀:謝謝齊老師耐心的解答,下面我們休息十分鐘下面我們開始第三場的,她是騰訊高級(jí)工程師田蘭老師,大田蘭大家好我是來自騰訊游戲的田蘭,今天我給大家的是在關(guān)于新技術(shù)第一,數(shù)據(jù)之困第二,數(shù)據(jù)服務(wù)產(chǎn)品化探索第三,iData數(shù)據(jù)服務(wù)團(tuán)隊(duì)的介紹部的中心,主要負(fù)責(zé)游戲數(shù)據(jù)、傳輸、統(tǒng)計(jì)分析和運(yùn)營支持。在騰訊游戲十年道路當(dāng)中,數(shù)據(jù)曾經(jīng)遇到過很多的和,當(dāng)然發(fā)生在2010年,這一年有什么重大事件,就是我們的頁游爆發(fā),這里面我們可以看到整個(gè)新游接入量是此前N年的綜合。我們頁游保持高速增長的趨勢下,2014年整個(gè)新業(yè)務(wù)接入幾乎在2013年的基礎(chǔ)上再這個(gè)標(biāo)準(zhǔn)化平臺(tái),我們也取得了一些成績,可以很好的為游戲行數(shù)據(jù)的服務(wù)但是到了2014年手游爆發(fā)的時(shí)候我們發(fā)現(xiàn)僅僅效率的提升并不能滿足游戲的需要,游戲需要我們數(shù)據(jù)團(tuán)隊(duì)能夠提供產(chǎn)品化的進(jìn)程2014年我們整個(gè)團(tuán)隊(duì)從平臺(tái)型的團(tuán)隊(duì)轉(zhuǎn)向了產(chǎn)品方面有的需求。由于游戲數(shù)量的大增,我們整個(gè)游戲運(yùn)營的從業(yè)人員也增加了,這對(duì)我們的運(yùn)營平臺(tái)提出了的要求。比如說運(yùn)營2014個(gè)騰訊游戲服務(wù)數(shù)據(jù)團(tuán)隊(duì),也對(duì)我們數(shù)據(jù)服務(wù)的產(chǎn)品化做了探索,我們?cè)鯓舆M(jìn)行團(tuán)隊(duì)的。首先我們來看一個(gè)問題,它是關(guān)注我們運(yùn)營結(jié)果這一部分的用戶,它可能的是看數(shù)據(jù)內(nèi)容,以及可視化的結(jié)果,它通常是什么人呢?我們的、研發(fā)、策劃運(yùn)營,這一部分在期滿足的比較好,從需求的效率到結(jié)的呈現(xiàn)都能夠滿足我們游戲運(yùn)營的需要。但是在2014之后有很多擔(dān)的職能是進(jìn)行數(shù)據(jù)抽取和計(jì)算幫助游戲改善游戲的品質(zhì),當(dāng)游戲進(jìn)行全量運(yùn)營之后,我們的運(yùn)營人員關(guān)注到精細(xì)化運(yùn)數(shù)據(jù)服務(wù)當(dāng)中比較少涉及,這是在數(shù)據(jù)產(chǎn)品期間對(duì)我們提出更高的。我們的數(shù)據(jù)是怎么切入的呢?游戲的精細(xì)化運(yùn)營,它通常是圍繞我們用戶的生命周期來進(jìn)行的,用戶的生命周期就是從到留存。我們大致可以劃分為五個(gè)運(yùn)營場景,比如說玩家之前我們有到需要干預(yù)的用戶,并且為它做出一些運(yùn)營的決策,幫助我們達(dá)到營的目標(biāo)比。我們通過從各個(gè)來的用戶考量它的生命價(jià)值,來我們拉新的質(zhì)量,這個(gè)也是重要的指標(biāo)。比如說在拉回流的時(shí)候,我們我們可能需要考慮的問題,在這些我們希望把有效果的運(yùn)營分析、報(bào)表瀏覽,的數(shù)據(jù)詳細(xì)的分析,再到用戶觸達(dá)干預(yù)過程又回到,在這么一個(gè)循環(huán)的過程當(dāng)中,不斷的調(diào)整我們整個(gè)騰訊內(nèi)部的游戲服務(wù),目前應(yīng)該有兩百多個(gè)大中型游戲。iData數(shù)據(jù)把它分為五個(gè)階段,新進(jìn)、留存、活躍、、流失。然后我們通過我們通過數(shù)據(jù)上報(bào)與指標(biāo)設(shè)計(jì),來完成和,數(shù)據(jù)管理、抽取和可視化的呈現(xiàn)。再通過數(shù)據(jù)分析服務(wù)支撐的分析平臺(tái)來完成我們的分析的計(jì)算和的可視化。最后我們?cè)偻ㄟ^運(yùn)營知識(shí)服務(wù)來支撐數(shù)據(jù)平臺(tái)進(jìn)行投放的管理,以及數(shù)據(jù)的應(yīng)用。大家看到這三個(gè)平臺(tái)對(duì)應(yīng)到我們看的個(gè)服務(wù)生態(tài)下,我們需要有一個(gè)系統(tǒng)來支撐。iData有這么一套數(shù)據(jù)服務(wù)的架構(gòu)來支撐我們服務(wù)生態(tài),它主要分為四個(gè)部分,傳輸、計(jì)算、分析服務(wù)和數(shù)據(jù)應(yīng)用。在計(jì)算部分使用到騰訊的分布式數(shù)據(jù)倉庫,以及我們自研的不是計(jì)算平臺(tái),以及我們的計(jì)量施分布平臺(tái),共同支撐我們整個(gè)分析服務(wù)的計(jì)算在分析服務(wù)層,通過剛剛的計(jì)算服務(wù)來支撐什么樣的服務(wù)呢?準(zhǔn)用戶的獲取過程,以及用戶的分析,我們可以關(guān)注一群用戶,他們?cè)谀骋粋€(gè)時(shí)間段內(nèi),在游戲類各個(gè)方面的表現(xiàn),以及分析,的詳細(xì)信息提供了一項(xiàng)數(shù)據(jù)服務(wù),由我們的計(jì)算和分析服務(wù),共介紹一下三個(gè)平臺(tái),數(shù)據(jù)管理平臺(tái),分析平臺(tái)和數(shù)據(jù)平數(shù)據(jù)管理平臺(tái),如果我們從流程來看,、、抽取計(jì)算、理超過200大眾型游戲的數(shù)據(jù),每天新增30T的數(shù)據(jù)量,通過我們采剛才提到閉環(huán)服務(wù),除了我們提取以外,我們還會(huì)做度量標(biāo)的邏輯。比如說充值用戶數(shù),總充值金額,這些度量指標(biāo),它的算法,我們會(huì)將它進(jìn)行邏輯,這是為了后面我們?cè)诜治龅牟粩嗵嵘覀兊男?,我們做的?bào)表,把報(bào)表做的更快、更好看分析下來。我們會(huì)有玩家的ID、大區(qū)金額是緯度信息,比如說總存運(yùn)算,它的規(guī)則比較復(fù)雜,這時(shí)候我們會(huì)結(jié)合一些計(jì)算的APP來比如說分析立方體的數(shù)據(jù)源,我們數(shù)據(jù)服務(wù),我們上需表系統(tǒng),這是一個(gè)小,這是可視化報(bào)表系統(tǒng)的界面,我們可以選還看一下我們制作報(bào)表的過程,怎么來簡單制作。其實(shí)現(xiàn)在在iData的報(bào)表供我們使用。它偏向于傳統(tǒng)經(jīng)營分析系統(tǒng)的部分。第二部分是分析平臺(tái)部分這個(gè)是在產(chǎn)品化進(jìn)行過程當(dāng)中最重要的部分,比如說我們一次運(yùn)營的過程可能通過一個(gè)開始。比如說我們?cè)谑植粩嗟娜Χㄓ脩?,我們?nèi)ΧㄋP(guān)注的用戶,對(duì)用戶進(jìn)行趨勢的分析,針對(duì)這批用戶的分析,這是游戲類較為全面的表現(xiàn),可能包含一百多個(gè)指標(biāo),我們還可以對(duì)這個(gè)用戶進(jìn)行的分析,這個(gè)完成這個(gè)過程。比如說我們的目標(biāo)是要找到二月充值10QB的用我們分析的過程可以實(shí)現(xiàn),這是我們分析的功能。然后是用戶,從多個(gè)緯度同時(shí)展現(xiàn)玩家的分布,這是尋找不的分析,我們可以使用一個(gè)熱度分析,來綜合展現(xiàn)屬性在交叉結(jié)果上的熱度分布我們看到的例子QQ等級(jí)和QQ交叉分析結(jié)果通過這樣的熱度圖,我們可以快速找到需要干預(yù)的目標(biāo)群體過一個(gè)來看一下。這個(gè)當(dāng)中,我們可以感受到提取用戶的速度很快千萬的用戶基本上10秒鐘可以觸包數(shù)據(jù)準(zhǔn)備的時(shí)間不會(huì)過10秒鐘,的分析數(shù)據(jù)的可視化操作,它的響應(yīng)時(shí)間小于3秒,在2月份有新增用戶的用戶,選擇在2月曾經(jīng)活躍過,在三月不活躍的用戶就流失掉了。我們發(fā)起和分析,我們一個(gè)月的時(shí)件,以及我們可以這批用戶或者我們?cè)隍v訊內(nèi)部有帳號(hào)轉(zhuǎn)換的問維分析部分。我們首先看到的是用戶的分析,左側(cè)有一個(gè)用戶的關(guān)鍵數(shù)據(jù)的展現(xiàn),右側(cè)是用戶自定義的。我們?cè)诋?dāng)中選擇用戶我們可以看到它其他屬性的變化。我們?cè)龠x一個(gè)省的用戶,我們可以到條件是省,我們可以一個(gè)。當(dāng)我們保存以后,我們可以在處看到男仔占10%的比例,以后我們?cè)偬畛淦渌陌梢噪S時(shí)看到這個(gè)規(guī)律。現(xiàn)在是我們?cè)诜治觯覀兛梢愿鶕?jù)不同的緯度選擇它的時(shí)間段,比如說1219的用戶,我們可以看一下等級(jí)分布,這個(gè)在目標(biāo)比較剛才提到了分析,幫助我們精確找到目標(biāo)群體。我們客戶、、游戲等級(jí),通過這個(gè)圖我們可以看到流失用戶集中在到19等級(jí)在四到二十多的用戶我們把這批用戶獲取出來進(jìn)行精準(zhǔn)化的干預(yù),完成以后我們還可以對(duì)這個(gè)效果進(jìn)行一次的分析,剛才看到這些,在我們iData服務(wù)結(jié)構(gòu)里面還是做出了很多的努力,才能達(dá)到分析的效果,而這里面有一個(gè)關(guān)鍵點(diǎn),就是我們的體驗(yàn)和成本的平衡,我們?cè)谡麄€(gè)數(shù)據(jù)分析的過程當(dāng)中,我們會(huì)做一些什么小的設(shè)計(jì)呢?我們整個(gè)流程是傳輸緯度清理預(yù)處理、寬表和客戶的生成。比如說用戶常見的登錄、行為,低頻指它分為高頻和低頻以后,我們對(duì)高頻指標(biāo)做一個(gè)操作,這個(gè)數(shù)據(jù)進(jìn)行緯度系列化的,這個(gè)是為了提升分析的計(jì)算速度。在我們分析里面,比如說在提取當(dāng)中,我們基本上提取一個(gè)常有意義的。在我們的平臺(tái)上,每天有幾百人使用這樣的分析系統(tǒng)在分析當(dāng)中,我們只需要花十到三十秒的時(shí)間,這是視用戶的群體大小而定來計(jì)算一天的數(shù)據(jù),大概有一百多個(gè)指標(biāo),包括游戲這是我們分析平臺(tái),這是精細(xì)化運(yùn)營承載的平臺(tái)。我們一方數(shù)據(jù)就是我們提到的數(shù)據(jù)應(yīng)用部分,我們所有的用戶干預(yù),分就是我們的管理,比如說在騰訊內(nèi)部有騰訊信鴿,通過我們的樣的。投出去以后,其實(shí)我們更關(guān)注的是落地的效果和頁面,對(duì)用戶有沒有我們?cè)谶@里面能夠幫助運(yùn)營人員來完成什么事情。比如說幫助運(yùn)營人員識(shí)別玩家的,以及提供給玩家個(gè)人的信息,來幫助吸引我們的用戶,這是我們?cè)跀?shù)據(jù)這塊,我們可以在數(shù)據(jù)上面發(fā)揮的能量。比如說玩家識(shí)別,這是一個(gè)規(guī)則庫,一個(gè)新用戶登錄,游戲可以根據(jù)的結(jié)果,對(duì)我們用戶采取不同的新手引導(dǎo)方案。當(dāng)用戶觸發(fā)這個(gè),我們還可以記錄下這個(gè)信息對(duì)他進(jìn)行的效果群體采樣10%的用戶保留到旁邊,我們通過兩種不同的方式,把效做對(duì)比評(píng)估,這些在我們系統(tǒng)上是現(xiàn)成的方法或者是工具及世界的,或者在游戲世界整體宏觀的數(shù)據(jù)。整個(gè)玩家有多少個(gè)戰(zhàn)隊(duì),戰(zhàn)隊(duì)表現(xiàn)怎么樣,這樣的信息目前只是用于活動(dòng)的推廣。我們有一個(gè)賽事活動(dòng)我們需要上做推廣,比如說這是2015季的宣傳,里面會(huì)提及我已經(jīng)進(jìn)行了游戲的總場次多少場,我比如說游戲榜,因?yàn)樗鼘?duì)數(shù)據(jù)的計(jì)算要求比較高。原來游戲內(nèi)都是以單服來作為緯度?,F(xiàn)在我們?cè)跀?shù)據(jù),其實(shí)可以利用大數(shù)據(jù)的技術(shù)做到數(shù)據(jù)豐富的呈現(xiàn)幫助我們把數(shù)據(jù)再重新做回到游戲內(nèi),需要調(diào)用信息就可以了,幫助它來驗(yàn)證效果,更則。想要的指標(biāo),不管是或者是數(shù)字都可以。我們?cè)趲退沙龉玫挠脩簦瑤椭渭?xì)化運(yùn)營,不斷的重復(fù)數(shù)據(jù)處理、分析和數(shù)據(jù)觸達(dá)的事情,這是我們iData所做的事情,今天的就到:謝謝田老師的,現(xiàn)在是QA環(huán)節(jié),大家有什么問題嗎提問你好,問一個(gè)問題,剛才關(guān)于分析,因?yàn)閺膭偛诺闹v解看,分析從前臺(tái)下發(fā)的條件,應(yīng)該是用戶可以各種組合,各種自定義的。如何實(shí)現(xiàn)前臺(tái)頁面提交完之后,快速的查詢、過濾、匯聚臺(tái)展現(xiàn)出來,能不能更深入的講解一下,包括數(shù)據(jù)的預(yù)處理的過程,以及數(shù)據(jù)是怎么的。田蘭我可以簡單介紹一下這個(gè)過程,現(xiàn)在我們整個(gè)分析數(shù)據(jù),我們會(huì)將我們數(shù)據(jù)首先做一個(gè)位圖序列化的處理,它適合我們快速的過程,最后幫我們的數(shù)據(jù)通過的服務(wù)處理返回到前端。具體細(xì)節(jié),我們會(huì)讓相關(guān)的同學(xué)跟你一起交流提問你好,問一下你剛才提到位圖序列化,這個(gè)是在度下的田蘭它形式,簡單來說位圖處理,我們?cè)偬幚磉^程當(dāng)中通常都0、1來計(jì)算的提問比如說用戶的留存和回訪田蘭這一套在我們經(jīng)營分析系統(tǒng)當(dāng)中有應(yīng)用,我們以前可能是屬于:我們?cè)俅斡脽崃业恼坡暩兄x田老師現(xiàn)在我們掌聲有請(qǐng),搜狗搜 研發(fā)部高級(jí)研究員葉祺老師大家?guī)怼缎浅较到y(tǒng)百萬量級(jí)細(xì)粒度查詢意圖識(shí)別》的葉祺大家好我剛才說的背景,實(shí)際上我是做搜索的。它的其實(shí)就是和高頻以很高的精確性,從而為后面的和相關(guān)性特征服務(wù)。下面是一個(gè)現(xiàn)在我們講一下動(dòng)機(jī)和目標(biāo)我們的搜索引擎,特別是搜索的現(xiàn)狀,搜索引擎主要是基于關(guān)鍵字匹配的方式出,客戶會(huì)買很多,并在上面投不同的價(jià)格。但是這個(gè)時(shí)候會(huì)有問題了客戶不能投很長在學(xué)術(shù)上來說我們要牽涉到,很多。比如說微軟亞洲,他們會(huì)有專門的討論意圖發(fā)現(xiàn)會(huì)非常稀疏。現(xiàn)在我們的搜索引擎,主要是基于在搜索中是基于征,我們就很容易有很多的生成。一是用戶的搜索體驗(yàn),大家會(huì)說這個(gè)怎么這么爛,還有一個(gè)對(duì)客戶造成很多無用的消耗一旦用戶誤點(diǎn)擊進(jìn)去以后,我們是按點(diǎn)擊扣費(fèi)的,會(huì)對(duì)它進(jìn)行,客戶也不滿意,也浪費(fèi)我們自己的位。缺乏相關(guān)性是最重要工業(yè)界的。我們會(huì)講一些我們認(rèn)為的系統(tǒng),這個(gè)肯定是行業(yè)的標(biāo)它把發(fā)現(xiàn)的聚類稱為概念它會(huì)基于Bayesian絡(luò)的推斷方法我研三類,這里面的意圖發(fā)現(xiàn),可能還會(huì)包括短文本,包括它們有時(shí)候?qū)σ鈭D的識(shí)別,他們可以用類似的方法??偟膩碚f,我們可以把比較廣泛的是TopicModeling,聚類這種東西可以發(fā)現(xiàn),只要你的方不同的訓(xùn)練數(shù)據(jù)集上跟我們以前的Topic相對(duì)應(yīng),這個(gè)在工業(yè)界是很需要的。因?yàn)槲覀儠?huì)基于以前的Topic,我們認(rèn)為以前在這上面已經(jīng)2014個(gè)Topic方法,它在短文本分析的情況下,它的精確性不足。其實(shí)我們?cè)谟盟臅r(shí)候,我們也會(huì)發(fā)現(xiàn)同樣的問題,只是當(dāng)時(shí)我們很多相當(dāng)于大家在做這個(gè)事情當(dāng)中口口相傳,沒有看到過正式文件。為你說我搜一個(gè)數(shù)碼相機(jī),你幫我一個(gè)電器類的電飯鍋肯定是不Query級(jí)別的,因?yàn)樗腔诰垲惖?,所以它不再是短文本,而是相?duì)較長擊日志,我們會(huì)對(duì)它進(jìn)行數(shù)據(jù)清理。我們會(huì)在同點(diǎn)擊網(wǎng)絡(luò)當(dāng)中抽出Query間的貢獻(xiàn)關(guān)系,這點(diǎn)大家的思路比較像。最后,我們會(huì)會(huì)對(duì)Query聚類進(jìn)行一些優(yōu)化、命名,以及一些短發(fā)了項(xiàng)的方法。其實(shí)我們這個(gè)系統(tǒng)當(dāng)中,能夠達(dá)到比較高的精確實(shí)際上是相似的。我們一旦把這種查詢意圖相似的Query連接起來以后面我們會(huì)發(fā)現(xiàn),以前在圖上做聚類十年代的算法,他們當(dāng)擇應(yīng)該是當(dāng)中的一族,我們發(fā)現(xiàn)在圖挖掘當(dāng)中社團(tuán)發(fā)現(xiàn)算法,我們我下面給大家講一下,在圖挖掘領(lǐng)域,什么叫做社團(tuán)發(fā)現(xiàn)呢 教授和他的學(xué)生Girvan提到這種方法來挖掘?qū)嶋H的網(wǎng)在08年左右又有一個(gè)意大利的教授說,這個(gè)目標(biāo)函數(shù)并不是越大越好,可能它在比較大的時(shí)候挖出來的比較好。它提出來一種情況做多解析度模塊優(yōu)化的方法,我們把它簡稱是MMO,這個(gè)算法我們并差不多,它會(huì)略好于我們。須告訴大家,在實(shí)際的網(wǎng)絡(luò)當(dāng)中,有很多小的意圖在里面,可能很多Query都是指一些意圖,然后會(huì)很多很小的Query,其實(shí)它是其他意圖的變體是迭代的算法也就是說它可以放在Hadoop的環(huán)境當(dāng)中運(yùn)行它是近們真的用它來抓Query,實(shí)際上這邊我們應(yīng)該切開,這邊也是切開,很多小的也是應(yīng)該切開的。所以就在這篇上面,他們用自己的方法做了亞馬遜同的數(shù)據(jù),他們發(fā)現(xiàn)最大的里面什么都有,可能也有一些的光碟或者是書。但是我們用這個(gè)方法,其實(shí)我們發(fā)現(xiàn)做下面是我們的日志,我們用兩年的點(diǎn)擊日志,這個(gè)規(guī)模是要實(shí)際上是1300Query。如果他們?cè)赨RL當(dāng)中有同點(diǎn)擊的話,我們會(huì)連一條邊,最后我們可以得到Query的同點(diǎn)擊網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)里面有1300個(gè)查詢,我們可以放在算法上面跑。我們?cè)谧龊芏鄦栴}的時(shí)候,如果它的很多意圖交叉在一起,這就算們還需要用一些短文本相關(guān)性的方法來定義,這個(gè)F函數(shù)是我們自己開發(fā)的,做出來的概率函數(shù)。Queryq和QueryS的相關(guān)性,我們可以兩兩之間的Query我們也可以給它算一下也可以打出相關(guān)性分?jǐn)?shù),凈的Query聚類。下面要做的問題是,我們要把Query意圖發(fā)現(xiàn)的問題,把它變成大規(guī)模多分類問題,把一個(gè)Query靠在最相關(guān)的,我們還有一個(gè)是我們是不是要前面的分類結(jié)果。給定QueryQ項(xiàng)量的時(shí)候,我們要推斷出在一百多萬個(gè)意圖純凈我們得到最相關(guān)的方法的時(shí)候我們會(huì)把它當(dāng)成是候選的概念,在Query的文本相關(guān)性,這個(gè)時(shí)候我們會(huì)看在Query面,它們中間交際的那部分特征Query身所有特征的覆蓋率,我們打出01中所有的Query和自身平均的相關(guān)性分?jǐn)?shù),如果只有在這個(gè)相關(guān)性分?jǐn)?shù)上面,新來的Query和他打的相關(guān)性分?jǐn)?shù)超過自身相關(guān)性分?jǐn)?shù)的時(shí)少數(shù)聚類,就是精細(xì)化的聚類,它的個(gè)數(shù)會(huì)大于1個(gè),這類聚類,們檢查過是沒有錯(cuò)的實(shí)際上這種大于一萬的都是和相關(guān)的聚類。這是我們剛才所說到的方法給每個(gè)聚類打分,效果基本上大于們剛才所說的方法,我們的準(zhǔn)確率可以在97%左右,覆蓋率大概能夠覆蓋到60%多,其實(shí)我們?cè)诤竺嬷v到具體應(yīng)用當(dāng)中,我們還有一些準(zhǔn)確率稍微有一些下降,但是它的覆蓋率可以到70%多的方法。實(shí)際上這個(gè)圖我們追蹤的是雙11的時(shí)候,連綿的每個(gè)點(diǎn)是我發(fā)現(xiàn)的用戶意圖點(diǎn)越偏向于紅色表示用戶在雙11期間越傾向于搜索這些東西。其實(shí)我們會(huì)發(fā)現(xiàn),在這個(gè)概念網(wǎng)絡(luò)當(dāng)中,它的實(shí)際現(xiàn)商品,大家比較感,這里面大家搜的羽絨服,以及和季節(jié)相關(guān)的小孩的棉衣,以及皮草,還有化妝品和衣服。我們還看了,蘋果和三星,我們估計(jì)在雙11的時(shí)候,它情況,這當(dāng)中會(huì)有比較紅的點(diǎn),這塊就是的皮草之類的東西,這是和季節(jié)相關(guān)的。當(dāng)我們把這個(gè)PPT打開細(xì)看的話,大家會(huì)發(fā)現(xiàn)在10號(hào)和11爆發(fā)了很
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《誠信管理》課件
- 《證券投資操作教程》課件
- 《病毒營銷的應(yīng)用》課件
- 《纖維植物資源》課件
- 單位管理制度合并選集【職工管理】十篇
- 2024標(biāo)準(zhǔn)工程委托合同(28篇)
- 單位管理制度范例選集員工管理篇
- 《監(jiān)理對(duì)現(xiàn)場消防安》課件
- 《家庭財(cái)富管理》課件
- 《中醫(yī)婦科學(xué)》課程標(biāo)準(zhǔn)
- 人工智能 課件 第五章 機(jī)器學(xué)習(xí)
- 2024-2025學(xué)年上學(xué)期杭州初中英語八年級(jí)期末試卷
- 【MOOC】人因工程學(xué)-東北大學(xué) 中國大學(xué)慕課MOOC答案
- 中考數(shù)學(xué)復(fù)習(xí)第二章方程(組)與不等式(組)第三節(jié)分式方程及其應(yīng)用課件
- 中國慢性阻塞性肺疾病基層診療指南(2024年)解讀
- 水肥一體化智能種植管理技術(shù)實(shí)施方案
- 《中華人民共和國學(xué)前教育法》專題培訓(xùn)
- 《房產(chǎn)稅法》課件
- 產(chǎn)品質(zhì)量培訓(xùn)
- 海洋氣象預(yù)測研究
- 2024急性心梗護(hù)理常規(guī)
評(píng)論
0/150
提交評(píng)論