版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、公司簡介:智友是一個年輕的文化品牌,旗下有多個互聯(lián)網(wǎng)產(chǎn)品線,覆蓋生活方式、音樂、創(chuàng)意,時尚等多個領(lǐng)域。致力發(fā)展為最大的年輕人文化出版與發(fā)行渠道,挖掘文化領(lǐng)域的年輕力量。旗下產(chǎn)品音樂軟件“xxx”是時下最流行的音樂App,首創(chuàng)彈幕評論交友,獨特3D音樂顛覆你的聽覺體驗。上線短短數(shù)月就受到了百萬音樂發(fā)燒友的喜愛和追捧,蘋果商店音樂免費榜長期穩(wěn)居前五。公司業(yè)務(wù):1. 發(fā)現(xiàn)你不知道的好聽音樂、3D立體聲音(雨聲、場景立體特效聲)、趣味聲音。2. 首創(chuàng)聲音/音樂彈幕評論,讓你感覺不再是一個人聽歌!從未有過的聽覺社交體驗。3. 隨時隨地錄下生活中的精彩,錄音變聲、拍照變形統(tǒng)統(tǒng)有。4. 制作酷炫的有聲表情,
2、和朋友聊天顯得更萌萌噠。5. 遇見音樂/聲音大咖,輕松結(jié)識跟你喜歡同一首歌/音頻的朋友。6. 根據(jù)你的聽歌風(fēng)格定制屬于你的首頁歌曲和推薦歌曲。7. 根據(jù)歌曲收聽量排出每種歌曲類型的熱門歌曲。8. 用戶錄制白己的MV和歌曲上傳到ech。讓更多的音樂愛好者認(rèn)識你。9. 用戶社區(qū),好友圈,看看你的朋友都在聊什么聽什么。項目需求:1. 用戶畫像,根據(jù)聽歌風(fēng)格,每天在線時間,用戶收藏了哪些歌曲,總是跳過播放哪些歌曲,來給用戶打標(biāo)簽。2. 每天對新上線的音樂進(jìn)行分類統(tǒng)計,每類歌曲新增數(shù)。3. 每天根據(jù)用戶標(biāo)簽推薦他喜歡的top10歌曲。4. 實時統(tǒng)計用戶上傳的音樂,MV的數(shù)量。5. 每十分鐘對用戶上傳的音
3、樂,MV的收聽和點擊率情況進(jìn)行分析統(tǒng)計。6. 每天對用戶上傳的音樂進(jìn)行分類化和收聽點擊率排名。7. 每天更新統(tǒng)計注冊用戶數(shù)和會員用戶數(shù)。8. 統(tǒng)計端APP,android,ios占比度。9. 統(tǒng)計用戶聽歌的方向性和潮流性,來決定公司需要引進(jìn)哪些類型的歌曲。10. 用戶圈,統(tǒng)計用戶圈中討論最多的熱詞發(fā)現(xiàn)和你口味相同的朋友并推薦給你。項目架構(gòu):1. 從客戶端APP,PC,網(wǎng)頁中收集用戶信息,聽歌信息,上傳的歌曲。2. 通過kafka推送給mr或spark清洗。3. 重用kafka作為緩存,緩存把數(shù)據(jù)存儲到HDFS。4. 通過hive進(jìn)行分析計算。5. 計算結(jié)果保存到hbase和mysql中。6.
4、HBase中的數(shù)據(jù)可以做用戶推薦,熱度排行,mysql可以共用戶查看個人資料和好友信息,等級等。kafka,,HUF時-布式存情rfMR/bpark潔冼hl代信工ITIY5QJ熱度排1T用戶指衛(wèi)戶畫伉需求設(shè)計:1. 從埋點日志導(dǎo)出用戶聽歌信息,用spark清洗出用戶聽了哪些歌曲,收藏了哪些歌曲,整理出用戶喜好的歌曲是哪些風(fēng)格,把這些風(fēng)格寫到mysql用戶信息表相關(guān)聯(lián)的用戶歌曲風(fēng)格表里。2. 用HIVE對HDFS上的每天上線的歌曲做分類統(tǒng)計每類新增數(shù)量。3. 從mysql查看用戶的喜好歌曲標(biāo)簽,然后在歌曲庫中找到對應(yīng)的分類歌曲推薦給用戶。4. 利用spark把用戶上傳的歌曲從HDFS上導(dǎo)入進(jìn)來進(jìn)
5、行一個求和操作,把結(jié)果直接導(dǎo)入hbase中。5. 從mysql中的用戶注冊表中通過注冊時間過濾出今天注冊的用戶,然后進(jìn)行求和操作,在今天注冊的用戶中按照字段“會員”條件查找會員用戶求和。設(shè)計實現(xiàn):統(tǒng)計每類新增歌曲數(shù)量從HDFS里導(dǎo)入hive每天分類好的歌曲每日新增歌曲數(shù)量表字段中文名字段英文名字段類型Id編號IntsongName歌曲名Stringsingername歌手名StringStyle曲風(fēng)StringDate時間String演員,薛之謙,流行,2016-3-20告白氣球,周杰倫流行,2016-3-20成都,趙雷流行,016-3-20espanacani,andrerieu古典,201
6、6-3-20小桃紅,湯旭,民謠,2016-3-20everything,wrld,嘻哈,2016-3-20wake,free,搖滾,2016-3-20長安長安,鄭鈞,搖滾,2016-3-209,loveisakiller,vixen搖滾,2016-3-2010,Iremember,dokken搖滾,2016-3-20在HIVA下建一個歌曲表Createtablemusic_160320(idint,songNamestring,stylestring,singerNamestring,datestring)rowformatdelimitedfieldsterminatedby,;Loadda
7、tainpathNewMusic/music_160320/music.txtintotablemusic_160320;Hiveselectstyle,count(*)frommusic_160320groupbystyle;結(jié)果為Stylecount流行,3古典,1民謠,1嘻哈,1搖滾,42.分析APP埋點信息Json數(shù)據(jù)結(jié)構(gòu)()imei”:864874020839760”,phonetype”:huaweip6”,phonesystem”:Android6.0”,user_name”:周一懵然狀”,like_music”:我是不是該安靜的走開,真的愛你,灰色軌跡”imei:8648740
8、20839761,phonetype”:huaweip6”,phonesystem”:Android6.0”,user_name”:bigbaby”,like_music”:Laserlife,簡單愛,演員,最冷的一天(imei:864874020839762,phonetype:huaweip6,phonesystem:Android6.0,user_name:1993058,like_music:最好的我,北國,少年游”(imei:864874020839764,phonetype:huaweip6,phonesystem”:Android6.0”,user_name”:/J、于一”,li
9、ke_music”:imagine,respect,heyjude(imei:864874020839765,phonetype:huaweip6,phonesystem:Android6.0,user_name:thewho,like_music:misty,youreyes,alliwant用spark清洗:Varmeidian=sqlContext.jsonFile(hdfs:/jun110:9000/user/spark/meidian.json)Varqingxi=meidian.select(”user_name”,”like_music”qingxi.save(hdfs:/jun
10、110:9000/user/spark/qingxi”,json)json轉(zhuǎn)化成CSV格式的文件:周一懵然狀,我是不是該安靜的走開,真的愛你,灰色軌跡Bigbaby,Laserlife簡單愛,演員,最冷的一天1993058,最好的我,北國,少年游小于一,imagine,respect,heyjudethewho,misty,youreyes,alliwant9從歌曲庫中匹配出歌曲的風(fēng)格類型User_nameLike_musicstyle周一懵然狀我正不正該安靜的止開流行周一懵然狀真的愛你流行周一懵然狀灰軌跡流行BigbabyLaserlife搖滾Bigbaby簡單愛流行Bigbaby演員流行b
11、igbaby取冷的天流行1993058最好的我流行1993058北國民謠1993058少年游民謠小于一imagine搖滾小于一Respect搖滾小于一Heyjude搖滾thewhomisty輕音樂thewhoYoureyes輕音樂thewhoAllIwant輕音樂導(dǎo)入hive進(jìn)行行轉(zhuǎn)列去除多余字段Hivecreatetableuser_style(user_namestring,music_namestring,stylestring)rowformatdelimitedfieldsterminatedby,;HiveLoaddatainpathuser/user_music.txtintot
12、ableuser_style;Hiveselectuser_name,concat_ws(,collect_set(stylei)E)enomtylegroupbyuser_name;用sqoop把結(jié)果導(dǎo)入mysqlUser_nameStyle周一懵然狀流行Bigbaby搖滾,流行1993058流行,民謠小于一搖滾Thewho輕音樂3.統(tǒng)計mysql用戶表里每天注冊用戶數(shù)User_namevarChar用戶名PasswdVarchar密碼Sexchar性別Register_datevarchar注冊時間Createtableuser(user_namevarchar(16),passwdvar
13、char(16),sexchar(2),register_datevarchar(20);MysqlSelect今日注冊數(shù)”,count(user_namefromuserwhereunix_timestamp(register_date)unix_timestamp()-1*24*60*60;結(jié)果:今日注冊數(shù)1230HBase性能優(yōu)化修改Linux最大文件數(shù)Linux系統(tǒng)最大可打開文件數(shù)一般默認(rèn)的參數(shù)值是1024,如果你不進(jìn)行修改并發(fā)量上來的時候會出現(xiàn)“TooManyOpenFileS的錯誤,導(dǎo)致整個HBase不可運行查看:ulimit-a結(jié)果:openfiles(-n)1024臨時修改:u
14、limit-n4096持久修改:在文件最后加上:softnofile65535hardnofile65535softnproc65535hardnproc65535修改JVM配置修改文件中的配置參數(shù)HBASE_HEAPSIZE4000#HBaW的JVM堆的大小HBASE_OPTS-server-XX:+UseConcMarkSweepGCJV#GC選項參數(shù)解釋:-client,-server這兩個參數(shù)用于設(shè)置虛擬機使用何種運行模式,client模式啟動比較快,但運行時性能和內(nèi)存管理效率不如server模式,通常用于客戶端應(yīng)用程序。相反,server模式啟動比client慢,但可獲得更高的運行性
15、能。1. -XX:+UseConcMarkSweepGC設(shè)置為并發(fā)收集修改HBase配置:3.1.默認(rèn)值:3分鐘180000ms,可以改成1分鐘說明:RegionServer與Zookeeper間的連接超時時間。當(dāng)超時時間到后,ReigonServer會被Zookeeper從RS集群清單中移除,HMaster收到移除通知后,會對這臺server負(fù)責(zé)的regions重新balance,讓其他存活的RegionServer接管.調(diào)優(yōu):這個timeout決定了RegionServer是否能夠及時的failover。設(shè)置成1分鐘或更低,可以減少因等待超時而被延長的failover時間。不過需要注意的是
16、,對于一些Online應(yīng)用,RegionServer從宕機到恢復(fù)時間本身就很短的網(wǎng)絡(luò)閃斷,crash等故障,運維可快速介入,如果調(diào)低timeout時間,反而會得不償失。因為當(dāng)ReigonServer被正式從RS集群中移除時,HMaster就開始做balance了讓其他RS根據(jù)故障機器記錄的WAL日志進(jìn)行恢復(fù)。當(dāng)故障的RS在人工介入恢復(fù)后,這個balance動作是毫無意義的,反而會使負(fù)載不均勻,給RS帶來更多負(fù)擔(dān)。特別是那些固定分配regions的場景hbase.regionserver.handler.count默認(rèn)值:10說明:RegionServer的請求處理IO線程數(shù)。調(diào)優(yōu):這個參數(shù)的調(diào)
17、優(yōu)與內(nèi)存息息相關(guān)。較少的IO線程,適用于處理單次請求內(nèi)存消耗較高的BigPUTS景大容量單次PUT或設(shè)置了較大cache的scan,均屬于BigPUT或ReigonServer的內(nèi)存比較緊張的場景。較多的IO線程,適用于單次請求內(nèi)存消耗低,TPS吞吐量要求非常高的場景。hbase.hregion.max.filesize默認(rèn)值:256M說明:在當(dāng)前ReigonServer上單個Reigon的最大存儲空間,單個Region超過該值時,這個Region會被白動split成更小的region。調(diào)優(yōu):小region對split和compaction友好,因為拆分region或compact小regio
18、n里的storefile速度很快,內(nèi)存占用低。缺點是split和compaction會彳艮頻繁。特別是數(shù)量較多的小region不停地split,compaction,會導(dǎo)致集群響應(yīng)時間波動很大,region數(shù)量太多不僅給管理上帶來麻煩,甚至?xí)l(fā)一些Hbase的bug。一般512以下的都算小regiono大region,貝U不會經(jīng)常split和compaction,因為做次compact和split會產(chǎn)生較長時間的停頓,對應(yīng)用的讀寫性能沖擊非常大。hfile.block.cache.size默認(rèn)值:說明:storefile的讀緩存占用內(nèi)存的大小百分比,表示20%該值直接影響數(shù)據(jù)讀的性能。調(diào)優(yōu):當(dāng)然是越大越好,如果寫比讀少很多,開到也沒問題。如果讀寫較均衡,左右。如果寫比讀多,果斷默認(rèn)吧。HBase上Regionserver的內(nèi)存分為兩個部分,一部分作為Memstore,主要用來寫;另外一部分作為BlockCache主要用于讀。寫請求會先寫入Memstore,Regionserver會給每個region提供一個Memstore,當(dāng)Memstore滿64MB以后,會啟動flush刷新到磁盤。讀請求先到Memstore中查數(shù)據(jù),查不到就到BlockCache中查,再查不到就會到磁盤上讀,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業(yè)自動化生產(chǎn)線廠房租賃合同4篇
- 2024離婚合同書:不含財產(chǎn)分割案例版B版
- 個人房產(chǎn)抵押合同
- 2024年04月交通銀行股份有限公司畢節(jié)分行(貴州)招考1名勞務(wù)人員筆試歷年參考題庫附帶答案詳解
- 2024物業(yè)公司收費標(biāo)準(zhǔn)合同
- 2025年度不銹鋼復(fù)合材料應(yīng)用研發(fā)與推廣協(xié)議3篇
- 2024年03月貴州中國農(nóng)業(yè)銀行貴州省分行春季招考筆試歷年參考題庫附帶答案詳解
- 2025年度農(nóng)產(chǎn)品溯源體系建設(shè)合作協(xié)議范本3篇
- 二零二五年度草牧場資源綜合利用與承包合同3篇
- 專職護(hù)林員2024年度服務(wù)協(xié)議版B版
- 骨科手術(shù)后患者營養(yǎng)情況及營養(yǎng)不良的原因分析,骨傷科論文
- GB/T 24474.1-2020乘運質(zhì)量測量第1部分:電梯
- GB/T 12684-2006工業(yè)硼化物分析方法
- 定崗定編定員實施方案(一)
- 高血壓患者用藥的注意事項講義課件
- 特種作業(yè)安全監(jiān)護(hù)人員培訓(xùn)課件
- (完整)第15章-合成生物學(xué)ppt
- 太平洋戰(zhàn)爭課件
- 封條模板A4打印版
- T∕CGCC 7-2017 焙烤食品用糖漿
- 貨代操作流程及規(guī)范
評論
0/150
提交評論