《大數(shù)據(jù)分析師面試筆試寶典》旨在幫助讀者了解大數(shù)據(jù)分析師的工作內(nèi)容、技能要求、各類常用技術(shù)的原理和可能應(yīng)用的場(chǎng)景。
大數(shù)據(jù)分析是一個(gè)多學(xué)科交叉的領(lǐng)域,包含了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、運(yùn)籌學(xué)乃至市場(chǎng)營(yíng)銷學(xué)等。《大數(shù)據(jù)分析師面試筆試寶典》并沒(méi)有介紹大數(shù)據(jù)分析領(lǐng)域涉及的所有方面,而是根據(jù)當(dāng)前用人單位對(duì)大數(shù)據(jù)分析師的需求,選擇了其中較為重要的內(nèi)容進(jìn)行解析,將當(dāng)前大數(shù)據(jù)分析涉及的熱點(diǎn)技術(shù)一網(wǎng)打盡。
閱讀《大數(shù)據(jù)分析師面試筆試寶典》需要具備一定的數(shù)理統(tǒng)計(jì)知識(shí)基礎(chǔ)和計(jì)算機(jī)編程背景。本書盡量不去證明一些在理論界已有的結(jié)論,而是用淺顯的語(yǔ)言來(lái)解釋復(fù)雜的公式,以便讀者更為輕松地掌握全書的知識(shí),從而能夠從容面對(duì)面試以及日常工作。
第1章 面試經(jīng)驗(yàn)/1
1.1 大數(shù)據(jù)分析技能要求/1
1.1.1 數(shù)據(jù)分析師/1
1.1.2 數(shù)據(jù)開(kāi)發(fā)工程師/4
1.1.3 數(shù)據(jù)挖掘工程師/7
1.1.4 職業(yè)能力模型/10
1.2 數(shù)據(jù)分析工作流程/10
1.2.1 組織架構(gòu)/10
1.2.2 分析流程/11
1.3 數(shù)據(jù)分析師臨場(chǎng)面試/13
1.3.1 如何準(zhǔn)備面試/13
1.3.2 面試問(wèn)題/16
1.4 本章總結(jié)/18
第2章 統(tǒng)計(jì)學(xué)知識(shí)/19
2.1 概率知識(shí)/19
2.1.1 概率模型之間的關(guān)系解析/19
2.1.2 概率相關(guān)面試題/25
2.1.3 貝葉斯公式/28
2.2 參數(shù)估計(jì)/31
2.2.1 點(diǎn)估計(jì)/31
2.2.2 區(qū)間估計(jì)/34
2.3 假設(shè)檢驗(yàn)/41
2.3.1 假設(shè)檢驗(yàn)原理/41
2.3.2 兩類錯(cuò)誤/43
2.3.3 假設(shè)檢驗(yàn)的常用方法/45
2.4 抽樣技術(shù)解析/49
2.4.1 樣本量影響因素分析/50
2.4.2 假設(shè)檢驗(yàn)樣本量計(jì)算/52
2.4.3 參數(shù)估計(jì)樣本量計(jì)算/53
2.5 馬爾可夫模型/54
2.5.1 馬爾可夫過(guò)程原理/55
2.5.2 馬爾可夫模型計(jì)算/55
2.6 隱馬爾可夫模型/57
2.6.1 HMM和三類問(wèn)題/57
2.6.2 求概率問(wèn)題/58
2.6.3 預(yù)測(cè)問(wèn)題/59
2.6.4 學(xué)習(xí)問(wèn)題/60
2.7 EM算法/62
2.7.1 基本思想/62
2.7.2 算法流程/63
2.8 本章總結(jié)/63
第3章 數(shù)據(jù)挖掘算法/65
3.1 常用聚類算法/66
3.1.1 Kmeans算法/66
3.1.2 DBSCAN算法/68
3.1.3 聚類算法評(píng)估/69
3.2 常用分類算法/74
3.2.1 決策樹(shù)/74
3.2.2 樸素貝葉斯/79
3.2.3 KNN/80
3.2.4 SVM/81
3.2.5 邏輯回歸/84
3.2.6 BP神經(jīng)網(wǎng)絡(luò)/88
3.3 集成學(xué)習(xí)算法/91
3.3.1 Bagging原理/92
3.3.2 隨機(jī)森林/93
3.3.3 Boosting原理/95
3.3.4 Adaboost算法/96
3.3.5 Stacking算法/99
3.3.6 分類算法評(píng)估/100
3.3.7 分類算法小結(jié)/108
3.4 關(guān)聯(lián)規(guī)則算法/108
3.4.1 Apriori/108
3.4.2 Fp_Growth/111
3.4.3 算法評(píng)估/112
3.5 數(shù)據(jù)降維算法/112
3.5.1 降維技術(shù)基本理論/112
3.5.2 特征選擇/113
3.5.3 主成分分析/116
3.5.4 SVD分解/118
3.5.5 降維方法選擇/121
3.6 數(shù)據(jù)升維方法/121
3.6.1 分箱/121
3.6.2 交互式特征/123
3.7 推薦算法/124
3.7.1 基于內(nèi)容推薦/124
3.7.2 基于用戶的協(xié)同過(guò)濾/125
3.7.3 基于物品的協(xié)同過(guò)濾/126
3.7.4 SVD推薦原理/127
3.7.5 推薦算法評(píng)估/130
3.8 模型優(yōu)化方法/130
3.8.1 機(jī)器學(xué)習(xí)抽樣/130
3.8.2 相似性度量/134
3.8.3 損失函數(shù)/136
3.8.4 過(guò)擬合與欠擬合/138
3.8.5 正則化方法/139
3.8.6 剪枝方法/141
3.8.7 模型選擇/144
3.9 本章總結(jié)/145
第4章 大數(shù)據(jù)技術(shù)解析/147
4.1 數(shù)據(jù)埋點(diǎn)技術(shù)/148
4.1.1 技術(shù)原理/148
4.1.2 代碼埋點(diǎn)/149
4.1.3 可視化埋點(diǎn)/149
4.1.4 無(wú)埋點(diǎn)技術(shù)/150
4.1.5 埋點(diǎn)需求分析/150
4.1.6 選擇部署方式/151
4.2 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)/152
4.2.1 聚焦爬蟲(chóng)工作流程/153
4.2.2 數(shù)據(jù)解析流程/154
4.2.3 爬行策略/154
4.2.4 網(wǎng)頁(yè)更新策略/155
4.3 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)/156
4.3.1 數(shù)倉(cāng)名詞解析/156
4.3.2 數(shù)據(jù)建模方法/161
4.3.3 數(shù)倉(cāng)建設(shè)原則/164
4.3.4 SQL查詢/166
4.3.5 SQL查詢優(yōu)化/170
4.4 ETL技術(shù)/171
4.4.1 數(shù)據(jù)質(zhì)量評(píng)估/172
4.4.2 ETL流程/173
4.4.3 缺失值處理方法/177
4.4.4 異常值識(shí)別方法/179
4.5 Hadoop技術(shù)/180
4.5.1 Hadoop核心之HDFS/181
4.5.2 Hadoop核心之MapReduce/184
4.5.3 YARN/190
4.5.4 WordCount源碼/192
4.5.5 MapReduce優(yōu)化/194
4.6 Spark技術(shù)/196
4.6.1 Spark集群運(yùn)行/196
4.6.2 Spark程序運(yùn)行/199
4.6.3 Spark RDD/202
4.6.4 Spark存儲(chǔ)/210
4.6.5 Spark 內(nèi)存管理/216
4.6.6 Spark資源分配/222
4.6.7 Spark Shuffle機(jī)制/224
4.6.8 Spark的算子調(diào)優(yōu)/230
4.6.9 數(shù)據(jù)傾斜問(wèn)題解析/231
4.7 本章總結(jié)/235
第5章 數(shù)據(jù)可視化/237
5.1 圖表類型/237
5.2 繪圖原則/243
5.3 ECharts快速上手/247
5.3.1 ECharts引入/247
5.3.2 準(zhǔn)備DOM容器/248
5.3.3 柱狀圖示例/249
5.4 本章總結(jié)/249
附錄/250
附錄A 筆面試真題/250