大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)(第3版)(新編21世紀(jì)研究生系列教材·應(yīng)用統(tǒng)計(jì)碩士(MAS))
定 價(jià):59 元
叢書名:新編21世紀(jì)研究生系列教材·應(yīng)用統(tǒng)計(jì)碩士(MAS)
- 作者:呂曉玲 宋捷
- 出版時(shí)間:2024/7/1
- ISBN:9787300326894
- 出 版 社:中國人民大學(xué)出版社
- 中圖法分類:TP274;TP181
- 頁碼:
- 紙張:
- 版次:3
- 開本:16
本書介紹了大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域最常用的模型和算法,包括最基礎(chǔ)的線性回歸和線性分類方法,以及模型選擇和模型評價(jià)的概念和方法,進(jìn)而介紹非線性的回歸和分類方法(包括決策樹與組合方法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)以及在此基礎(chǔ)上發(fā)展的深度學(xué)習(xí)方法)。最后介紹無監(jiān)督的學(xué)習(xí)中的聚類方法和業(yè)界廣泛使用的推薦系統(tǒng)方法。除了方法的理論講解之外,我們還給出了每種方法的R語言代碼實(shí)現(xiàn)以及Python語言代碼實(shí)現(xiàn)的上機(jī)實(shí)踐。
呂曉玲,中國人民大學(xué)統(tǒng)計(jì)學(xué)院教授,副院長。本科與碩士畢業(yè)于南開大學(xué)數(shù)學(xué)系概率統(tǒng)計(jì)專業(yè),博士畢業(yè)于香港城市大學(xué)管理科學(xué)系。曾經(jīng)是奧地利約翰開普勒大學(xué)應(yīng)用統(tǒng)計(jì)系以及美國加州大學(xué)伯克利分校統(tǒng)計(jì)系訪問學(xué)者。一直從事數(shù)據(jù)挖掘和統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域的理論研究,及其在消費(fèi)者行為方面的應(yīng)用研究。宋捷,首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院副教授。
第1章 概述
1.1 名詞演化
1.2 基本內(nèi)容
1.3 數(shù)據(jù)智慧
第2章 線性回歸與分類
2.1 Lasso回歸
2.1.1 多元線性回歸模型
2.1.2 嶺回歸
2.1.3 Lasso回歸
2.1.4 一張圖看懂嶺回歸和 Lasso 回歸
2.1.5 從貝葉斯角度再看嶺回歸和 Lasso 回歸
2.2 Lasso模型的求解
2.2.1 坐標(biāo)下降法
2.2.2 最小角回歸
2.2.3 ADMM算法
2.2.4 附錄
2.3 損失函數(shù)加罰的建?蚣
2.3.1 損失函數(shù)的概念
2.3.2 最小一乘回歸與分位回歸
2.3.3 其他罰函數(shù)
2.4 分類問題綜述與評價(jià)準(zhǔn)則
2.4.1 分類問題
2.4.2 分類問題評價(jià)準(zhǔn)則
2.5 Logistic回歸
2.5.1 基本模型
2.5.2 參數(shù)估計(jì)
2.5.3 正則化的 Logistic 回歸
第3章 模型評價(jià)與選擇
3.1 基本概念
3.1.1 各種誤差的定義
3.1.2 偏差–方差分解
3.2 理論方法
3.2.1 Cp統(tǒng)計(jì)量
3.2.2 AIC準(zhǔn)則
3.2.3 BIC準(zhǔn)則
3.3 交叉驗(yàn)證法
第4章 決策樹與組合方法
4.1 決策樹
4.1.1 決策樹的基本知識
4.1.2 決策樹的建模過程
4.1.3 需要說明的一些問題
4.2 Bagging和隨機(jī)森林
4.2.1 Bagging算法
4.2.2 隨機(jī)森林
4.3 Boosting
4.3.1 AdaBoost算法
4.3.2 分類問題的不同損失函數(shù)
4.3.3 梯度下降Boosting算法
4.3.4 XGBoost
4.3.5 討論
4.3.6 Boosting 算法的進(jìn)一步研究
4.3.7 附錄
第5章 支持向量機(jī)
5.1 線性可分支持向量機(jī)
5.1.1 簡介
5.1.2 模型
5.2 軟間隔支持向量機(jī)
5.2.1 模型
5.2.2 求解軟間隔支持向量機(jī)
5.2.3 SMO 算法
5.3 一些拓展
5.3.1 非線性可分與核函數(shù)
5.3.2 LIBSVM簡介及其Python實(shí)現(xiàn)
5.3.3 從損失函數(shù)加罰的角度再看 SVM
5.3.4 支持向量機(jī)回歸
第6章 聚類分析
6.1 基于距離的聚類
6.1.1 距離(相似度)的定義
6.1.2 層次聚類
6.1.3 K-均值聚類
6.2 基于密度的聚類
6.2.1 DBSCAN聚類
6.2.2 OPTICS聚類
6.3 雙向聚類
6.3.1 雙向聚類概述
6.3.2 BIMAX算法
6.3.3 CC算法
第7章 智能手機(jī)用戶監(jiān)測數(shù)據(jù)案例分析
7.1 數(shù)據(jù)簡介
7.2 單機(jī)實(shí)現(xiàn)
7.2.1 描述統(tǒng)計(jì)分析
7.2.2 APP使用情況預(yù)測分析
7.2.3 用戶行為聚類分析
7.3 分布式實(shí)現(xiàn)
7.3.1 數(shù)據(jù)預(yù)處理與描述分析
7.3.2 基于Spark的模型分析
第8章 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
8.1 前饋神經(jīng)網(wǎng)絡(luò)
8.1.1 生物神經(jīng)元
8.1.2 人工神經(jīng)元
8.1.3 前饋網(wǎng)絡(luò)
8.2 反向傳播算法
8.2.1 前向傳播
8.2.2 損失函數(shù)
8.2.3 反向傳播
8.2.4 激活函數(shù)的選擇
8.2.5 超參數(shù)
8.3 PyTorch應(yīng)用實(shí)例
8.3.1 三次多項(xiàng)式擬合正弦函數(shù)案例
8.3.2 手寫數(shù)字識別案例
8.3.3 附錄:PyTorch基本操作
第9章 卷積神經(jīng)網(wǎng)絡(luò)與網(wǎng)絡(luò)優(yōu)化
9.1 卷積神經(jīng)網(wǎng)絡(luò)
9.1.1 CNN的基本結(jié)構(gòu)
9.1.2 CNN算法的實(shí)現(xiàn)
9.1.3 幾種常見的CNN模型
9.2 網(wǎng)絡(luò)優(yōu)化
9.2.1 網(wǎng)絡(luò)優(yōu)化問題
9.2.2 小批量梯度下降
9.2.3 學(xué)習(xí)率調(diào)整
9.2.4 動量優(yōu)化法——更新方向優(yōu)化
9.2.5 Adam算法
9.2.6 優(yōu)化方法小結(jié)
9.2.7 其他考慮
第10章 循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制
10.1 文本表示與詞嵌入模型
10.1.1 文本表示的基本方法
10.1.2 NNLM模型
10.1.3 Word2Vec模型
10.1.4 Glove模型
10.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
10.2.1 研究問題與基本結(jié)構(gòu)
10.2.2 隨時(shí)間反向傳播算法
10.2.3 LSTM
10.2.4 其他RNN網(wǎng)絡(luò)
10.3 注意力機(jī)制
10.3.1 注意力機(jī)制基本介紹
10.3.2 Transformer模型及其拓展
參考文獻(xiàn)