愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)介紹_第1頁
愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)介紹_第2頁
愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)介紹_第3頁
愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)介紹_第4頁
愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)介紹_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)介紹技術(shù)創(chuàng)新,引領(lǐng)未來4月22日視頻網(wǎng)站“奇藝” 正式上線6月23日推出“奇藝出品”戰(zhàn)略11月26日品牌戰(zhàn)略升級(jí)為“愛奇藝”11月2日愛奇藝成為百度的全資子公司5月7日愛奇藝與PPS合并提供更優(yōu)質(zhì)服務(wù)9月2日愛奇藝移動(dòng)端流量首次超過PC端 成為中國(guó)視頻發(fā)展的標(biāo)志性事件4月18日愛奇藝工作室戰(zhàn)略啟動(dòng)7月17日愛奇藝宣布成立影業(yè)公司 提出“愛7.1電影大計(jì)劃”2月18日羊年春晚獨(dú)家在線直播7月6日盜墓筆記全集上線60小時(shí)總播放量破10億10月14日愛奇藝VIP會(huì)員品牌全面升級(jí)12月1日愛奇藝VIP會(huì)員突破1000萬1月21日愛奇藝成為2015年中國(guó)市場(chǎng)熱門 非游戲類應(yīng)用中收入

2、最高的應(yīng)用(App Annie:全球移動(dòng)應(yīng)用市 場(chǎng) 2015 年回顧報(bào)告)2月7日直播2016猴年春晚獨(dú)家,除夕當(dāng) 晚總播放量突破4500萬。愛奇藝大事記2010201120122013201420152016月度瀏覽時(shí)間NO.1愛奇藝APP 核心指標(biāo)行業(yè)領(lǐng)先 愛奇藝移動(dòng)端以2.69億人的月度覆蓋位列行業(yè)第一, 總體占比高達(dá)56.7%, 行業(yè)領(lǐng)先優(yōu)勢(shì)持續(xù)加大 愛奇藝移動(dòng)端憑借人均單日使用次數(shù)5.03次, 成為視頻用戶首選之一日均覆蓋人數(shù)NO.1月度覆蓋人數(shù)NO.1(數(shù)據(jù)來源:艾瑞MUT,2016年1月)數(shù)據(jù)來源:艾瑞MUT,2016年1月數(shù)據(jù)來源:艾瑞MUT,2016年1月數(shù)據(jù)來源:艾瑞MUT

3、,2016年1月移動(dòng)端數(shù)據(jù)愛奇藝 騰訊視頻優(yōu)酷 樂視視頻 搜狐視頻PPTV網(wǎng)絡(luò)電視土豆網(wǎng) 風(fēng)行視頻 芒果TV 鳳凰視頻日均覆蓋人數(shù)(萬人)9,798.87,699.74,336.12,684.41,245.0856.4749.4236.2192.2108.6愛奇藝 騰訊視頻優(yōu)酷 樂視視頻 搜狐視頻PPTV網(wǎng)絡(luò)電視土豆網(wǎng) 芒果TV 風(fēng)行視頻 響巢看看月度覆蓋人數(shù)(萬人)26,929.819,708.614,322.47,925.15,359.03,211.32,657.61,428.41,205.8610.6愛奇藝 騰訊視頻優(yōu)酷 樂視視頻 搜狐視頻 土豆網(wǎng)PPTV網(wǎng)絡(luò)電視風(fēng)行視頻 響巢看看 芒果

4、TV月度瀏覽時(shí)間(萬分鐘)15,900,799.29,766,737.79,543,680.93,654,261.02,755,628.31,712,527.51,201,895.0450,522.9135,986.1101,118.8目錄愛奇藝大數(shù)據(jù)平臺(tái)發(fā)展和背景簡(jiǎn)介實(shí)時(shí)采集計(jì)算平臺(tái)解決的問題實(shí)時(shí)采集計(jì)算平臺(tái)的功能架構(gòu)技術(shù)細(xì)節(jié)解析總結(jié)和體會(huì)上海交通大學(xué)計(jì)算機(jī)系碩士2013年加入愛奇藝云平臺(tái)2014年負(fù)責(zé)愛奇藝HBase業(yè)務(wù)2015年起負(fù)責(zé)愛奇藝實(shí)時(shí)計(jì)算相關(guān)業(yè)務(wù)自我介紹一,愛奇藝大數(shù)據(jù)發(fā)展和背景簡(jiǎn)介愛奇藝大數(shù)據(jù)平臺(tái)發(fā)展歷程2013Hadoop/MapReduce 上線HBase/Hive 上線

5、2014Spark 上線Kerberos on Hadoop 上線2015Spark/MapReduce on YARN 上線2015Spark Streaming 上線2016Workflow SQL愛奇藝實(shí)時(shí)計(jì)算發(fā)展歷程2013Storm Standalone上線2014Spark Standalone 上線2015Storm on Mesos上線 Spark on YARN上線2015Spark Streaming on YARN 上線2016Spark Streaming SQL 上線愛奇藝大數(shù)據(jù)系統(tǒng)框架KafkaSpark StreamingSparkMapReduceStormHD

6、FSHBaseHiveBatch計(jì)算數(shù)據(jù)源流計(jì)算數(shù)據(jù)源YARNMesos大數(shù)據(jù)業(yè)務(wù)需求Elasticsearch Flume資源調(diào)度計(jì)算框架數(shù)據(jù)愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)VenusKafkaFlume流式數(shù)據(jù)源實(shí)時(shí)大數(shù)據(jù)分析解決方案ElasticsearchKibanaStreaming SQLSpark Streaming源碼改造 泛化整合iQIYIVenus實(shí)時(shí)采集計(jì)算平臺(tái)Venus解決的主要問題是-分布式日志數(shù)據(jù)的實(shí)時(shí)分析二,實(shí)時(shí)采集計(jì)算解決的問題實(shí)時(shí)采集計(jì)算要解決的問題在集群的場(chǎng)景下,對(duì)日志的收集處理變成了一個(gè)繞不過的難題一臺(tái)機(jī)器兩臺(tái)機(jī)器負(fù)載均衡三臺(tái)機(jī)器集群支持橫向擴(kuò)容互聯(lián)網(wǎng)時(shí)代的服務(wù)架構(gòu)

7、變遷單機(jī)程序雙機(jī)互備集群中日志的處理分析機(jī)器數(shù)量多每天日志總量大近實(shí)時(shí)的查詢?nèi)罩拘枨髠鹘y(tǒng)日志處理手段cat xxxxx.log | grep XXXX | grep XXXX | sort xxxx . ?然而,舊時(shí)代處理單機(jī)日志的方式已經(jīng)不能處理集群上的日志互聯(lián)網(wǎng)公司的日志處理需求1實(shí)時(shí)統(tǒng)計(jì)分析23快速故障定位實(shí)時(shí)日志報(bào)警實(shí)時(shí)統(tǒng)計(jì)指標(biāo),繪制實(shí)時(shí)報(bào)表傳統(tǒng)方案的grep xxx | wc -l , zabbix定制腳本 等快速查詢檢索,定位指定日志產(chǎn)生的位置 相當(dāng)于傳統(tǒng)方案的grep/find根據(jù)實(shí)時(shí)日志統(tǒng)計(jì)和檢索的結(jié)果報(bào)警 傳統(tǒng)方案zabbix定制化腳本Venus在愛奇藝在愛奇藝,Venus平

8、臺(tái)接入的數(shù)據(jù)范圍涵蓋播放生產(chǎn)存儲(chǔ)會(huì)員搜索支付用戶賬戶播放記錄安全風(fēng)控峰值支撐日志流量:超過百萬條每秒日志采集覆蓋機(jī)器數(shù): 超過千臺(tái)三,實(shí)時(shí)采集計(jì)算平臺(tái)的功能架構(gòu)愛奇藝實(shí)時(shí)采集計(jì)算平臺(tái)Streaming SQLSpark Streaming機(jī)器1agent機(jī)器2機(jī)器3機(jī)器4機(jī)器5agentagentagentagentKafkaFlume中間層ElasticsearchWeb UIHDFS/HBase實(shí)時(shí)統(tǒng)計(jì) 報(bào)表實(shí)時(shí)報(bào)警實(shí)時(shí)查詢定期任務(wù) 冷備數(shù)據(jù)地圖其他業(yè)務(wù)復(fù)用客戶端Agent選型機(jī)器1agent機(jī)器2機(jī)器3機(jī)器4機(jī)器5agentagentagentagentAgent:基于Apache Fl

9、ume 1.6.0 改造開發(fā)的客 戶端選型理由:1,Java源碼更靈活,易于二次改造,2,和Kafka,Spark等集成良好SourcechannelSink緩沖池選型Apache Kafka: 大吞吐,高容錯(cuò),高穩(wěn)定性的開源 分布式消息系統(tǒng)選型理由:1,吞吐量大,單機(jī)QPS高 2,和Flume,Storm,Spark等集成穩(wěn)定。主要劣勢(shì):不保證數(shù)據(jù)有序Kafka實(shí)時(shí)計(jì)算引擎選型Spark Streaming: 基于Apache Spark的流式計(jì)算 引擎。優(yōu) 勢(shì) : 1,吞吐量大。2,受Yarn調(diào)度,接受Resource Manager管理3,Spark Streaming on Yarn穩(wěn)

10、定性更優(yōu)(相比Storm) 4 , Streaming SQL支持劣勢(shì):和前后向各個(gè)組件集成不夠成熟。SQLSpark StreamingYARN實(shí)時(shí)查詢檢索引擎選型Elasticsearch: 基于Lucene的搜索引擎,實(shí)時(shí)性好,分布式可 擴(kuò)展,版本迭代快,商業(yè)公司維護(hù)。選項(xiàng)理由:1,傳統(tǒng)日志方案ELK中的核心組件2,自帶的Kibana UI界面,用戶查詢體驗(yàn)好3,支持Java、Restful接口訪問4,商業(yè)公司支持,版本迭代快Elasticsearch實(shí)時(shí)查詢以快速故障定位/日志排查為核心的實(shí)時(shí)日志檢索”需求Elasticsearch是目前業(yè)內(nèi)最優(yōu)的方案。四,整理一些技術(shù)細(xì)節(jié)對(duì)Agent

11、的改造和使用Flume極度靈活,Source、Sink的插件化,可以自行開發(fā)Source/Sink去解決 實(shí)際業(yè)務(wù)中遇到的各種疑難雜癥。對(duì)于日志采集而言,常見的問題有異常格式的日志 解析日志生產(chǎn)路徑不固 定錯(cuò)誤堆棧要識(shí)別 成一行CPU使用率限制不依賴機(jī)器環(huán)境修改Flume源碼對(duì)Apache Flume的改造和使用Flume經(jīng)典配置方案的幾個(gè)弊病機(jī)器agentFlume中間層KafkaHDFS/HBaseElasticsearchSpark Streaming機(jī)器agent機(jī)器agentAvro協(xié)議傳輸發(fā)送數(shù)據(jù)多個(gè)副本到不同的下游系統(tǒng)穩(wěn)定性差耦合過緊相互影響對(duì)Spark Streaming的改造

12、和使用Spark Streaming直接推廣的最難點(diǎn)是開發(fā)學(xué)習(xí)的時(shí)間成本很大。解決方案:將流式計(jì)算邏輯封裝成傻瓜式Spark Streaming任務(wù)開發(fā)學(xué)習(xí)API學(xué)習(xí)Scala了解spark機(jī)制撰寫Streaming邏輯提交Job測(cè)試性能調(diào)優(yōu)資源調(diào)優(yōu)配置輸入輸出,計(jì)算的時(shí)間batch撰寫SQL語句提交SQL語句標(biāo)準(zhǔn)化中間數(shù)據(jù)封裝成虛擬表對(duì)象DStreamObjecttimestampdchosturiapiKeyrequest_timeuserid目標(biāo):傻瓜式操作Venus SQL Server用戶Venus SQL ServerMySQLYarn ClusterSpark Client ServerRestful API提交SQL語句 輸入輸出配置保存用戶提交的配置 和SQL到數(shù)據(jù)庫(kù)生成任務(wù)jar包,提 交到Y(jié)arn集群任務(wù)初始化時(shí),向數(shù)據(jù)庫(kù)查詢用戶提交的SQL語句和輸入輸出等配置生成Spark Streaming任務(wù) 計(jì)算并輸出結(jié)果輸出計(jì)算架構(gòu)全部對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論