2023年大數(shù)據(jù)面試寶典_第1頁
2023年大數(shù)據(jù)面試寶典_第2頁
2023年大數(shù)據(jù)面試寶典_第3頁
2023年大數(shù)據(jù)面試寶典_第4頁
2023年大數(shù)據(jù)面試寶典_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)面試寶典智游大數(shù)據(jù)4期就業(yè)取得了可喜的成績,但是也有拿到offer的同學(xué)表達(dá),在面試的時候,面對咄咄逼人的面試官,內(nèi)心是崩潰的(但你還是拿到offer了啊)。所以小智的這篇文章的意義就是定心丸。大數(shù)據(jù)涉及方向較多,本文以大數(shù)據(jù)算法為主。共涉及以下五方面:機(jī)器學(xué)習(xí)、大數(shù)據(jù)相關(guān)崗位的職責(zé)面試問題答題思緒準(zhǔn)備建議總結(jié)大數(shù)據(jù)算法相關(guān)崗位的職責(zé)由于各個公司對這大數(shù)據(jù)類崗位的命名也許有所不同,比如數(shù)據(jù)挖掘/自然語言解決/機(jī)器學(xué)習(xí)算法工程師,有的簡稱算法工程師,尚有的稱為搜索/推薦算法工程師等,甚至有的并入后臺工程師的范疇,所以同學(xué)們在投簡歷時還要視崗位得具體規(guī)定而定。1、平臺搭建類數(shù)據(jù)計算平臺搭建,基礎(chǔ)算法實現(xiàn),當(dāng)然,規(guī)定支持大樣本量、高維度數(shù)據(jù),所以也許還需要底層開發(fā)、并行計算、分布式計算等方面的知識;2、算法研究類1)文本挖掘,如領(lǐng)域知識圖譜構(gòu)建、垃圾短信過濾等;2)推薦,廣告推薦、APP推薦、題目推薦、新聞推薦等;3)排序,搜索結(jié)果排序、廣告排序等;4)廣告投放效果分析;5)互聯(lián)網(wǎng)信用評價;6)圖像辨認(rèn)、理解。3、數(shù)據(jù)挖掘類商業(yè)智能,如記錄報表;用戶體驗分析,預(yù)測流失用戶。下面先介紹一些面試中也許會碰到的一些問題,然后談一談答題思緒和面試心理準(zhǔn)備上的一些建議。面試問題1、你在研究/項目/實習(xí)經(jīng)歷中重要用過哪些機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘的算法?2、你熟悉的機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘算法重要有哪些?3、你用過哪些機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘工具或框架?4、基礎(chǔ)知識A、無監(jiān)督和有監(jiān)督算法的區(qū)別?B、SVM的推導(dǎo),特性?多分類怎么解決?C、LR的推導(dǎo),特性?D、決策樹的特性?E、SVM、LR、決策樹的對比?F、GBDT和決策森林的區(qū)別?G、如何判斷函數(shù)凸或非凸?H、解釋對偶的概念。I、如何進(jìn)行特性選擇?J、為什么會產(chǎn)生過擬合,有哪些方法可以防止或克服過擬合?K、介紹卷積神經(jīng)網(wǎng)絡(luò),和DBN有什么區(qū)別?L、采用EM算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?M、用EM算法推導(dǎo)解釋Kmeans。N、用過哪些聚類算法,解釋密度聚類算法。O、聚類算法中的距離度量有哪些?P、如何進(jìn)行實體辨認(rèn)?Q、解釋貝葉斯公式和樸素貝葉斯分類。R、寫一個Hadoop版本的wordcount。5、開放問題A、給你公司內(nèi)部群組的聊天記錄,如何區(qū)分出主管和員工?B、如何評估網(wǎng)站內(nèi)容的真實性(針對代刷、作弊類)?C、深度學(xué)習(xí)在推薦系統(tǒng)上也許有如何的發(fā)揮?D、路段平均車速反映了路況,在道路上布控采集車輛速度,如何對路況做出合理估計?

E、采集數(shù)據(jù)中的異常值如何解決?F、如何根據(jù)語料計算兩個詞詞義的相似度?G、在百度貼吧里發(fā)布APP廣告,問推薦策略?H、如何判斷自己實現(xiàn)的LR、Kmeans算法是否對的?I、100億數(shù)字,怎么記錄前100大的?……答題思緒1、用過什么算法?A、最佳是在項目/實習(xí)的大數(shù)據(jù)場景里用過,比如推薦里用過CF、LR,分類里用過SVM、GBDT;B、一般用法是什么,是不是自己實現(xiàn)的,有什么比較知名的實現(xiàn),使用過程中踩過哪些坑;C、優(yōu)缺陷分析。2、熟悉的算法有哪些?A、基礎(chǔ)算法要多說,其它算法要挑熟悉限度高的說,不光列舉算法,也適當(dāng)說說應(yīng)用場合;B、面試官和你的研究方向也許不匹配,但是在基礎(chǔ)算法上你們還是有很多共同語言的,你說得太高大上也許效果并不好,一方面面試官還是要問基礎(chǔ)的,另一方面一旦面試官突發(fā)奇想讓你給他講解高大上的內(nèi)容,而你只是泛泛的了解,那你就懵逼了。3、用過哪些框架/算法包?A、主流的分布式框架如Hadoop,Spark,Graphlab,ParameterServer等擇一或多使用了解;B、通用算法包,如mahout,scikit,weka等;C、專用算法包,如opencv,theano,torch7,ICTCLAS等。4、基礎(chǔ)知識A、高頻話題是

SVM、LR、決策樹(決策森林)和聚類算法,要重點準(zhǔn)備;B、算法要從以下幾個方面來掌握a.產(chǎn)生背景,合用場合(數(shù)據(jù)規(guī)模,特性維度,是否有Online算法,離散/連續(xù)特性解決等角度);b.原理推導(dǎo)(最大間隔,軟間隔,對偶);c.求解方法(隨機(jī)梯度下降、擬牛頓法等優(yōu)化算法);d.優(yōu)缺陷,相關(guān)改善;e.和其他基本方法的對比;C、不能停留在能看懂的限度,還要f.對知識進(jìn)行結(jié)構(gòu)化整理,比如撰寫自己的cheetsheet,我覺得面試是在有限時間內(nèi)向面試官輸出自己知識的過程,假如僅僅是在面試現(xiàn)場才開始調(diào)動知識、組織表達(dá),總還是不如系統(tǒng)的梳理準(zhǔn)備;g.從面試官的角度多問自己一些問題,通過查找資料總結(jié)出全面的解答,比如如何防止或克服過擬合。開放問題A、由于問題具有綜合性和開放性,所以不僅僅考察對大數(shù)據(jù)算法的了解,還需要足夠的實戰(zhàn)經(jīng)驗作基礎(chǔ);B、先不要考慮完善性或可實現(xiàn)性,調(diào)動你的一切知識儲備和經(jīng)驗儲備去設(shè)計,有多少說多少,想到什么說什么,方案都是在你和面試官討論的過程里逐步完善的,但是面試官有兩種風(fēng)格:引導(dǎo)你思考考慮不周之處or指責(zé)你沒有考慮到某些情況,碰到后者的話還請注意靈活調(diào)整答題策略;C、和同學(xué)朋友開展討論,可以從上一節(jié)列出的問題開始。心態(tài)建議1、面試過程中大家是平等的。不要太弱勢也不要太強(qiáng)勢。2、把你之前的項目經(jīng)驗有條理的表達(dá)出來。3、面試一些問題的時候,可以想一想,并不是所有的問題必須別人一問完,立即回答。4、把面試當(dāng)作一種學(xué)習(xí)與經(jīng)歷。關(guān)鍵是從一些面試中你能發(fā)現(xiàn)自己局限性。小tips1、面試之前花點時間在面試公司和崗位,了解一下人家公司是干什么,假如你對這家公司特別感愛好,去網(wǎng)站上看看,去體驗一下人家公司的產(chǎn)品和服務(wù)。會讓面試的人感覺到尊重。2、假如有結(jié)識的人或者通過一些渠道先了解一下你面試的公司,部門情況到底是怎么樣的。到底要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論