Python金融數(shù)據(jù)挖掘與分析實戰(zhàn)
定 價:109 元
叢書名:金融科技
- 作者:劉鵬,高中強
- 出版時間:2021/12/1
- ISBN:9787111696506
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
內(nèi)容簡介
這是一本金融數(shù)據(jù)挖掘與分析領(lǐng)域的實戰(zhàn)性著作,它能指導零Python編程基礎(chǔ)和零數(shù)據(jù)挖掘與分析基礎(chǔ)的讀者快速掌握金融數(shù)據(jù)挖掘與分析的工具、技術(shù)和方法。
讀完本書,你將會有如下3個方面的收獲:
(1)Python編程基礎(chǔ)和數(shù)據(jù)預處理
首先詳細講解了Python的核心語法,以及NumPy、Matplotlib、PySpark、Jupyter Notebook等Python數(shù)據(jù)處理工具的使用;然后詳細介紹了數(shù)據(jù)預處理的流程和技巧。通過深入淺出的語言和豐富的樣例展示,幫助初學者快速上手 Python,為之后的數(shù)據(jù)分析實戰(zhàn)夯實基礎(chǔ)。
(2)數(shù)據(jù)挖掘與分析的經(jīng)典方法
詳細講解了經(jīng)典的數(shù)據(jù)挖掘方法,包括聚類分析、回歸分析、分類分析、異常檢測、關(guān)聯(lián)分析、時間序列分析等。
(3)主要金融應用場景的數(shù)據(jù)挖掘方法
針對網(wǎng)絡輿情的采集和熱點分析、輿情分析中的情感分析、股價趨勢預測、個人信用評分、企業(yè)信用評分、用戶畫像、目標客戶精準分析、銷售數(shù)據(jù)分析等金融行業(yè)的常見應用場景,給出了數(shù)據(jù)挖掘和分析的方法。
本書注重實戰(zhàn),配有大量精心設(shè)計的案例,同時還有配套的視頻講解、代碼和數(shù)據(jù)資源,可操作性強。
作者背景資深:作者是云計算、大數(shù)據(jù)和AI領(lǐng)域的知名專家,云創(chuàng)大數(shù)據(jù)總裁、中國大數(shù)據(jù)應用聯(lián)盟人工智能專家委員會主任。寫作經(jīng)驗豐富:作者團隊寫作經(jīng)驗豐富,不僅深諳數(shù)據(jù)挖掘技術(shù)和金融行業(yè),而且有豐富的出版經(jīng)驗,能準確把握讀者需求。零基礎(chǔ)快入門:即便讀者沒有Python經(jīng)驗,沒有數(shù)據(jù)挖掘和分析經(jīng)驗,也能快速掌握常見金融應用場景的數(shù)據(jù)挖掘和分析。實戰(zhàn)性強:本書配有大量精心設(shè)計的案例、講解視頻、實現(xiàn)代碼、數(shù)據(jù)資源、習題及其答案。
為何會寫本書
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過統(tǒng)計、人工智能、機器學習等方法,挖掘人們未知的、有價值的信息和知識的過程。它帶來的顛覆性在于將隱藏在大量雜亂數(shù)據(jù)中的有用信息提煉出來,通過算法自動尋找變量間的關(guān)系。
隨著時代的發(fā)展,數(shù)據(jù)挖掘逐漸成為大數(shù)據(jù)技術(shù)的核心,如何挖掘并分析數(shù)據(jù)成為大數(shù)據(jù)技術(shù)發(fā)展面臨的重要議題。特別是在金融應用領(lǐng)域,數(shù)據(jù)挖掘技術(shù)扮演著舉足輕重的角色。即使如此,縱觀目前國內(nèi)技術(shù)圖書市場,真正結(jié)合理論與實踐講解金融領(lǐng)域數(shù)據(jù)挖掘與分析技術(shù)的圖書很少,可以系統(tǒng)呈現(xiàn)知識點并將代碼落地的專業(yè)書更是鳳毛麟角。
基于此,本書以應用為導向,從數(shù)據(jù)挖掘出發(fā),借助Python語言,將數(shù)據(jù)挖掘理論知識與金融領(lǐng)域的實際應用相結(jié)合,循序漸進地介紹了Python金融數(shù)據(jù)的挖掘與分析。此外,本書每一章均配有視頻講解,詳解代碼每一步的運行過程及原理,并提供完整代碼和數(shù)據(jù)資源,以幫助讀者更好地理解與應用相關(guān)知識。
本書特色
一、內(nèi)容精煉,普適性強
本書從數(shù)據(jù)分析的工具入手,詳解Python的基礎(chǔ)規(guī)則和語法,由淺入深地講解深度學習相關(guān)算法和理論知識,并與金融數(shù)據(jù)挖掘?qū)崙?zhàn)充分結(jié)合,可以幫助讀者在理解理論知識的基礎(chǔ)上體驗數(shù)據(jù)分析實戰(zhàn),真正做到學以致用。
二、提供大量實戰(zhàn)經(jīng)驗和學習實例
“授之以魚,不如授之以漁!北緯谥v解知識點時,更注重方法與經(jīng)驗的分享,包括“含金量”很高的成功經(jīng)驗分享以及易錯事項的總結(jié)分析。同時,每章均提供一定的實例,將原理講解終落實到代碼實現(xiàn)上,幫助讀者在學習路上披荊斬棘,快速將理論與實踐融會貫通。
三、配備教學視頻和完整的源代碼
為了方便讀者學習,作者針對每章內(nèi)容的核心知識點錄制了講解視頻,且提供PPT、完整代碼和數(shù)據(jù)資源。讀者關(guān)注公眾號“云創(chuàng)大數(shù)據(jù)”(cStor_cn),在公眾號回復本書書名,即可領(lǐng)取相關(guān)配套資源,使學習更為高效。每一章的習題答案也可從公眾號獲取。
四、針對初學者講解Python基礎(chǔ)知識
本書使用Python語言編寫代碼,通過深入淺出的語言與豐富的樣例展示,幫助初學者快速上手Python語言。
內(nèi)容簡介
本書共分為14章,采用雙主線的寫作方式:一條主線是理論,涵蓋基礎(chǔ)理論相關(guān)概念的介紹以及各種算法原理的講解;另外一條主線是實戰(zhàn),既包括如何上手Python,又包括相關(guān)主題實例分析。
第1~3章為Python數(shù)據(jù)分析基礎(chǔ),內(nèi)容涵蓋了選取Python語言做數(shù)據(jù)分析的原因、Jupyter Notebook的使用、Python基礎(chǔ)知識和語法入門以及數(shù)據(jù)預處理流程和技巧,可幫助初學者快速上手Python,為之后的數(shù)據(jù)分析實戰(zhàn)夯實基礎(chǔ)。
第4章講解經(jīng)典的數(shù)據(jù)挖掘方法,包括聚類分析、回歸分析、分類分析、異常檢測、關(guān)聯(lián)分析、時間序列分析等。
本書從第5章開始介紹深度學習相關(guān)的理論知識與實踐。其中,第5章主要介紹網(wǎng)絡輿情的采集和熱點分析,并通過爬取微博熱門評論對熱點話題進行聚類分析,使讀者初步了解網(wǎng)絡輿情分析,為以后深入研究網(wǎng)絡輿情發(fā)展和變化打下堅實的基礎(chǔ)。第6章詳細介紹輿情分析的重中之重:情感分類。從評論文本分析出用戶的情感傾向,精確掌握用戶對于某一產(chǎn)品的整體使用感受,便于向商戶提供產(chǎn)品決策支持信息。
第7章和第8章講解利用傳統(tǒng)的機器學習算法以及深度學習中的循環(huán)神經(jīng)網(wǎng)絡對股價趨勢進行預測,重點闡述了SVM算法和ARIMA算法,同時證明了市場情感對股票市場的發(fā)展趨勢有著不容忽視的影響。
第9~11章介紹了個人信用評分和企業(yè)信用評分的技術(shù)與方法,先后闡述了相關(guān)算法及理論基礎(chǔ),并結(jié)合具體實例,讓讀者更加清晰地了解并掌握個人及企業(yè)信用評估的整個流程。
人物畫像有利于精準定位用戶群體并獲取用戶需求和反饋信息。第12章主要講解用戶畫像,包括用戶畫像的定義、標簽體系、用戶畫像的意義以及用戶畫像的構(gòu)建等,還通過兩個用戶畫像的實戰(zhàn)案例,幫助讀者在實際應用中進一步理解和構(gòu)建用戶畫像。
第13章主要講述搭建目標客戶運營體系流程、目標客戶的挖掘與分類等,通過可視化展示、聚類算法以及LRFMC分類模型的建立精確區(qū)分目標客戶,從而實現(xiàn)對客戶的精準分群管理,達到穩(wěn)固企業(yè)運營體系的目的。第14章通過對銷售數(shù)據(jù)的進一步分析挖掘,同時借助關(guān)聯(lián)規(guī)則—Apriori算法—實現(xiàn)商品智能推薦、關(guān)聯(lián)商品的組合銷售以及客戶的精準營銷,終達到讓企業(yè)獲取更多利潤的目的。
讀者對象
本書適合以下幾類讀者:
金融行業(yè)數(shù)據(jù)相關(guān)崗位技術(shù)人員;
企業(yè)運營人員;
數(shù)據(jù)分析師;
數(shù)據(jù)挖掘工程師;
高等院校相關(guān)專業(yè)學生。
致謝
在此,特別感謝我的碩士導師謝希仁教授和博士導師李三立院士。謝希仁教授出版的《計算機網(wǎng)絡》已經(jīng)更新到了第8版,堪稱與時俱進且日臻完美的典范,這時時提醒著我們要以這樣的標準來寫書。李三立院士是留蘇博士,為我國計算機事業(yè)做出了杰出貢獻,曾任國家攀登計劃計算項目首席科學家。他治學嚴謹,帶出了一大批杰出的學生。
本書是集體智慧的結(jié)晶,在此謹向付出辛勤勞動的各位同行者致敬!書中難免會有不當之處,請讀者不吝賜教。我的郵箱為gloud@126.com,微信公眾號為“劉鵬看未來”(lpoutlook)。
劉 鵬
2021年9月
作者介紹
劉鵬
教授,清華大學博士,云計算、大數(shù)據(jù)和人工智能領(lǐng)域的知名專家,南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總裁、中國大數(shù)據(jù)應用聯(lián)盟人工智能專家委員會主任。
中國電子學會云計算專家委員會云存儲組組長、工業(yè)和信息化部云計算研究中心專家。中國信息協(xié)會教育分會人工智能教育專家委員會主任、教育部全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導委員會委員、“2019年全國大學生數(shù)學建模比賽”命題人、“第45屆世界技能大賽”中國區(qū)云計算選拔賽裁判長/專家指導組組長、2002 PennySort國際計算機排序比賽冠軍與2003年全國挑戰(zhàn)杯總冠軍。提出的反垃圾郵件網(wǎng)格,被IEEE Cluster 2003評為杰出網(wǎng)格項目,為解決困擾全球的垃圾郵件問題做出根本貢獻,該技術(shù)成為云安全技術(shù)的基礎(chǔ)。
高中強
人工智能與大數(shù)據(jù)領(lǐng)域技術(shù)專家,有非常深厚的積累,擅長機器學習和自然語言處理,尤其是深度學習,熟悉Tensorflow、PyTorch等深度學習開發(fā)框架。
曾獲“2019年全國大學生數(shù)學建模優(yōu)秀命題人獎”。參與鐘南山院士指導新型冠狀病毒人工智能預測系統(tǒng)研發(fā)項目,與鐘南山院士團隊共同發(fā)表學術(shù)論文《Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions》。合著有參《人工智能:從小白到大神》、《人工智能數(shù)學基礎(chǔ)》等著作。
前 言
第1章 Python工作環(huán)境準備 1
1.1 Anaconda環(huán)境安裝 1
1.2 常用Python 交互工具 4
1.3 Jupyter Notebook簡介 6
1.4 習題 9
第2章 Python入門 10
2.1 Python基礎(chǔ)知識 10
2.2 Python基礎(chǔ)語法 11
2.3 Python變量類型 15
2.4 Python運算符 20
2.4.1 算術(shù)運算符 20
2.4.2 比較運算符 22
2.4.3 賦值運算符 23
2.4.4 按位運算符 24
2.4.5 邏輯運算符 25
2.4.6 成員運算符 26
2.4.7 身份運算符 27
2.4.8 運算符優(yōu)先級 28
2.5 Python條件與循環(huán)語句 29
2.5.1 條件語句 29
2.5.2 循環(huán)語句 31
2.6 Python函數(shù) 38
2.7 Python模塊 43
2.8 Python 文件處理 46
2.9 Python異常 48
2.10 數(shù)據(jù)分析相關(guān)庫 50
2.10.1 NumPy 50
2.10.2 Matplotlib 51
2.10.3 PySpark 53
2.10.4 其他常用庫 54
2.11 習題 55
第3章 數(shù)據(jù)預處理 56
3.1 數(shù)據(jù)分析工作流程 56
3.2 數(shù)據(jù)預處理 58
3.2.1 數(shù)據(jù)集導入 59
3.2.2 數(shù)據(jù)概覽 60
3.2.3 數(shù)據(jù)清洗 61
3.2.4 類別變量轉(zhuǎn)換 66
3.2.5 數(shù)據(jù)分割 67
3.2.6 特征縮放 68
3.3 鳥瞰機器學習 71
3.4 習題 72
第4章 數(shù)據(jù)挖掘方法 74
4.1 分類分析 74
4.1.1 決策樹 75
4.1.2 支持向量機 75
4.1.3 分類算法的選擇 76
4.2 聚類分析 76
4.2.1 K均值算法 77
4.2.2 聚類算法和分類算法的區(qū)別 78
4.3 回歸分析 78
4.3.1 變量間的關(guān)系 79
4.3.2 回歸分析算法的分類和步驟 79
4.3.3 回歸分析算法的選擇 81
4.4 關(guān)聯(lián)分析 81
4.4.1 關(guān)聯(lián)規(guī)則 82
4.4.2 關(guān)聯(lián)規(guī)則的序列模式 82
4.5 時間序列分析 83
4.5.1 時間序列分析方法和步驟 83
4.5.2 時間序列的三種預測模式 85
4.6 異常檢測 85
4.7 推薦算法 86
4.8 習題 89
第5章 網(wǎng)絡輿情采集與熱點分析 90
5.1 網(wǎng)絡輿情概述 90
5.1.1 大數(shù)據(jù)網(wǎng)絡輿情背景 90
5.1.2 輿情處理過程 91
5.2 輿情數(shù)據(jù)采集 94
5.2.1 網(wǎng)絡輿情采集工具 95
5.2.2 網(wǎng)絡輿情數(shù)據(jù)爬取實例 100
5.3 實戰(zhàn):微博熱點話題聚類 104
5.4 習題 110
第6章 輿情研判之情感分類 112
6.1 情感分析介紹 112
6.1.1 情感分析分類 112
6.1.2 情感分析文本預處理 114
6.1.3 實戰(zhàn):中文文本處理練習 115
6.2 情感分類方法 118
6.2.1 基于詞典的情感分類 118
6.2.2 基于機器學習的情感分類 121
6.2.3 基于深度學習模型的情感分類 122
6.3 情感分類實戰(zhàn)演練 131
6.3.1 淘寶家電商品評論情感分類預測 131
6.3.2 客戶評論情感傾向預測 134
6.4 習題 140
第7章 用機器學習方法預測股價 142
7.1 股市數(shù)據(jù)分析價值 142
7.1.1 案例背景 142
7.1.2 案例價值 143
7.2 ARIMA模型 144
7.3 實戰(zhàn):基于SVM和ARIMA的股價預測 145
7.4 習題 156
第8章 用人工智能方法預測股價 157
8.1 神經(jīng)網(wǎng)絡預測方法 157
8.1.1 門控循環(huán)單元 158
8.1.2 VADER情感分析 158
8.2 實戰(zhàn):基于LSTM和GRU的股價預測 159
8.3 實戰(zhàn):股票市場新聞情感分析 165
8.4 習題 172
第9章 個人信用評分 173
9.1 個人信用評分概述 173
9.1.1 需求背景 174
9.1.2 國內(nèi)外發(fā)展狀況 175
9.2 信用評分的技術(shù)與方法 176
9.2.1 信用評分的簡要歷史 176
9.2.2 信用評分的主要模型與方法 176
9.3 信用評分卡模型 180
9.3.1 模型介紹 180
9.3.2 數(shù)據(jù)分箱 180
9.3.3 WOE值 182
9.3.4 IV值 183
9.3.5 邏輯回歸算法原理 185
9.3.6 模型評價指標 186
9.3.7 建立信用評分卡 190
9.4 實戰(zhàn):信用評分卡 190
9.4.1 讀取數(shù)據(jù) 191
9.4.2 數(shù)據(jù)預處理 191
9.4.3 探索性分析 197
9.4.4 模型分析 204
9.4.5 建立信用評分卡 208
9.5 習題 211
第10章 個人信用等級評估 213
10.1 概述 213
10.2 個人信用等級評估方法 215
10.2.1 決策樹 215
10.2.2 隨機森林 221
10.2.3 XGBoost簡介 224
10.2.4 多重共線性 228
10.2.5 數(shù)據(jù)重采樣 229
10.3 實戰(zhàn):個人信用等級評估 232
10.3.1 導入相應包并讀取數(shù)據(jù) 232
10.3.2 查看數(shù)據(jù)情況 234
10.3.3 數(shù)據(jù)預處理及相關(guān)函數(shù)構(gòu)建 241
10.3.4 模型訓練 244
10.3.5 預測并生成結(jié)果 251
10.4 習題 253
第11章 企業(yè)信用評估 255
11.1 企業(yè)信用評估概述 255
11.2 企業(yè)信用評估的技術(shù)與方法 257
11.2.1 支持向量機 257
11.2.2 樸素貝葉斯 259
11.2.3