Python數(shù)據(jù)科學:技術詳解與商業(yè)實踐
定 價:99 元
- 作者:常國珍 趙仁乾
- 出版時間:2018/7/1
- ISBN:9787111603092
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書共19章,第1章介紹數(shù)據(jù)科學中涉及的基本領域;第2~3章介紹與數(shù)據(jù)工作緊密相關的Python語言基礎;第4章講解描述性統(tǒng)計分析在宏觀業(yè)務領域的分析;第5章講解數(shù)據(jù)規(guī)整、清洗的重要技能;第6章介紹數(shù)據(jù)科學領域實用的四大統(tǒng)計檢驗;第7章講解當被解釋變量為連續(xù)變量時,如何使用線性回歸作預測;第8章講解使用邏輯回歸作評分卡模型;第9章講解另外一個可解釋模型決策樹。第10~12章分別講解了BP神經網絡、樸素貝葉斯、近鄰域、支持向量機的原理和在決策類模型中的運用;第13~14章作為一個整體講解商業(yè)分析場景下的信息壓縮;第15章以產品推薦作為案例,講解發(fā)現(xiàn)事件與事件伴生關系的關聯(lián)分析和序列分析算法;第16章使用欺詐識別案例講解當被解釋變量分布極 端不平衡時的處理方法;第17章繼續(xù)使用欺詐識別案例講解集成學習算法;第18章講解了使用效應分解和ARIMA方法實現(xiàn)宏觀業(yè)務指標預測;第19章用案例展現(xiàn)了分類和聚類模型的CRISP-DM和SEMMA流程。
(1)作者在IT行業(yè)有超過20年的研發(fā)經驗,在金融和數(shù)據(jù)科學領域有超過12年的實踐經驗,是金融界知名的數(shù)據(jù)科學家,在R/Python/SAS等技術領域有深厚的積累。
(2)本書從3個維度展開,技術維度:全面講解數(shù)據(jù)分析、數(shù)據(jù)挖掘和機器學習的核心技術;業(yè)務維度,圍繞具體的業(yè)務生命周期展開技術知識點的講解;實踐維度,列舉的全部是商業(yè)案例,通過案例為數(shù)據(jù)科學從業(yè)者提供工作模板。
前言本書是一本集數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學習為一體,面向商業(yè)實戰(zhàn)的養(yǎng)成式學習手冊。為有志從事數(shù)據(jù)科學工作的讀者提供系統(tǒng)化的學習路徑,使讀者掌握數(shù)據(jù)科學的理念、思路與分析步驟。
本書力圖淡化技術,對于方法的介紹也盡量避免涉及過多的數(shù)學內容,而且都輔以圖形進行形象地展現(xiàn)。本書將不同算法看作功能各異的工具,比如用于煮飯的悶鍋、用于炒菜的炒鍋,每種工具的操作方式都應該遵循相應的說明書,因此對于每種算法我們強調其假設、適用條件與商業(yè)數(shù)據(jù)分析主題的匹配。我們在實踐教學中發(fā)現(xiàn),業(yè)務經驗豐富和有較好商業(yè)模式理解能力的學員,在掌握數(shù)據(jù)科學的技能方面具有明顯的優(yōu)勢。這主要是因為這類學員有較強的思辨能力和分析能力,學習的目的性和質量意識較強,不只是簡單地模仿和套用數(shù)學公式,所以本書也注重對讀者思辯能力和分析能力的培養(yǎng)。
本書相當于Python的數(shù)據(jù)科學工具箱,專門提供了不同數(shù)據(jù)運用主題的操作框架。不同于一般泛泛而講的運用案例,落地性強,便于讀者實際運用。
本書不是一本教科書或案例集,而是一本提供數(shù)據(jù)挖掘路線圖與解決方案的實戰(zhàn)手冊。2014年我們編寫了一套使用SAS進行商業(yè)數(shù)據(jù)分析的書,得到了讀者的認可。2016年我們同時啟動了R和Python數(shù)據(jù)科學方面的寫作工作。我們在Python上投入了數(shù)倍于R的精力,但是R的書如期問世,而本書卻推遲了近一年,原因是Python目前還無法滿足精細數(shù)據(jù)分析的要求。
在數(shù)據(jù)分析領域,如果說SAS是沖鋒槍,那R就是手槍,Python就是匕首。打過CS的同學都知道,使用沖鋒槍不需要槍法有多好,只要資金充足,新手都能得心應手。而使用手槍的必定是槍法很準的老手。出門使用匕首殺敵的,必定是神級選手。但是切記,不是使用匕首就是神級,只有使用匕首殺敵并活下來的才是。Python雖然語法優(yōu)美,開發(fā)效率和執(zhí)行效率均高,但是它是開發(fā)工程師的語言,不是面向分析師的,因此分析師要想需要造很多輪子。Python雖然目前方興未艾,但是在數(shù)據(jù)科學領域的路還很漫長,投資于未來是艱苦而收益頗豐的。作為用好Python,一部由工作在一線的文科背景作者編寫的數(shù)據(jù)科學圖書,本書力圖降低Python的學習難度,嘗試提供不同分析主題的數(shù)據(jù)科學工作模板,滿足億萬文科生的數(shù)字化轉型需求。
讀者對象(1)大數(shù)據(jù)營銷分析人員營銷是大數(shù)據(jù)落地項目最多的領域,也是數(shù)據(jù)科學活躍的重鎮(zhèn),數(shù)據(jù)分析能力將是衡量營銷分析人員最重要的指標?梢哉f未來的每一位營銷分析人員,都必須是數(shù)據(jù)科學工作者。
(2)顧客關系管理人員和數(shù)據(jù)產品經理隨著工業(yè)40時代的到來,標準化制造將逐步被定制化制造取代。因此對客戶價值、客戶滿意度與客戶忠誠度的分析將會愈加重要,這些都需要使用到本書中介紹的數(shù)據(jù)科學工具。
(3)風險管控人員本書可以作為風險預測模型的工具箱使用。
(4)IT轉型人員在我們開設的數(shù)據(jù)科學課程中,將近1/3的學員從事IT工作,學員們表示本書內容對其轉型提供了很大的幫助。
(5)大中院校學生本書的內容面向實戰(zhàn),適合作為本碩階段的參考書。
如何閱讀本書本書有三種閱讀方式。
第一種方式:閱讀完第1章之后,直接閱讀第19章,以案例為導向,遇到不懂的知識點再翻閱之前的內容。這個方式適合在崗的初級數(shù)據(jù)工作者。
第二種方式:按照客戶生命不同周期的數(shù)據(jù)分析主題,分別從本書中找到獲客營銷、信用評級、客戶畫像、精準營銷、客戶分群、交叉銷售、流失預警等內容并逐一學習。這個方式適合市場營銷方向的工作者和學生使用。
第三種方式:按照章節(jié)逐一閱讀,按照知識點由易到難遞進式學習。這個方式學習周期長,適合有教師帶領學習時使用。
勘誤和支持除封面署名的作者外,參加本書編審和校對工作的還有:吳璐、曾珂、錢小菲。由于作者的水平有限,編寫時間倉促,書中難免會出現(xiàn)一些錯誤或者不準確的地方,懇請讀者批評指正。另外有一些工作的點滴所獲,也希望與讀者第一時間分享,我們會不定時發(fā)布在作者的知乎頁面https://wwwzhihucom/people/CoolFarmer/。 。書中的全部源文件除可以從華章網站參見華章網站wwwhzbookcom編輯注。 下載外,還可以從知乎主頁下載,我們也會將相應的功能更新及時發(fā)布出來。如果你有更多的寶貴意見,也歡迎發(fā)送郵件至guozhenchang@qqcom,期待能夠得到你們的真摯反饋。
致謝常國珍在此感謝碩、博期間的兩位恩師北大社會學系周云教授和北大光華管理學院姜國華教授,前者引領我進入社會科學的大門,后者指導我以價值投資的理念對待工作和生活,解決安身立命之本。同時感謝我家人的關心和理解,尤其感謝我的妻子楊巧巧女士,正是她的付出,才能讓我安心寫作。
趙仁乾在此感謝北京電信規(guī)劃設計院的領導與同事,他們給予了我項目機會和經驗傳承,讓我能夠更快成長。感謝我的父母、妻子和孩子,正是在他們的關心和理解下,我才能專心于本書的寫作。
張秋劍在此感謝星環(huán)的孫元浩、張月鵬先生給予我的機遇;感謝沃趣的陳棟、李建輝先生給予我的信任;感謝優(yōu)網的馬建功、孟慧智先生給予我的栽培;感謝上海師范大學的王笑梅、李建國老師給予我的教誨。感謝我的家人給予我的堅定支持,以及所有不能一一道謝的朋友們。
感謝機械工業(yè)出版社華章公司的編輯楊福川、張錫鵬為本書的出版付出的艱辛勞作。感謝上海市房屋土地資源信息中心的吳璐、第一車貸的曾珂為本書的修改提供的寶貴建議。
謹以此書獻給和我們一樣在摸索中繼續(xù)前行的朋友們!
常國珍 趙仁乾 張秋劍
作者簡介
常國珍
數(shù)據(jù)科學專家和金融技術專家。北京大學會計學博士,中國大數(shù)據(jù)產業(yè)生態(tài)聯(lián)盟專家委員會委員。
2005年進入數(shù)據(jù)科學領域,先后在亞信、德勤等企業(yè)從事電信、金融行業(yè)數(shù)據(jù)挖掘工作,現(xiàn)就職于中銀消費金融有限公司數(shù)據(jù)管理部。專注于消費金融領域的數(shù)據(jù)治理、客戶智能與風險智能。
趙仁乾
數(shù)據(jù)科學家,在電信大數(shù)據(jù)和機器學習領域有豐富的實踐經驗。
現(xiàn)就職于北京電信規(guī)劃設計院任高級經濟師,負責通信、ICT項目工程與業(yè)務咨詢,專注電信市場數(shù)據(jù)分析,重點研究方向包括離網用戶挖掘、市場細分與精準營銷、移動網絡價值區(qū)域分析、大數(shù)據(jù)及人工智能運營規(guī)劃等。
張秋劍
大數(shù)據(jù)專家和金融行業(yè)技術專家,上海師范大學計算機科學技術碩士。
現(xiàn)任星環(huán)科技金融事業(yè)部總監(jiān),大數(shù)據(jù)技術架構行業(yè)顧問專家,云析學院發(fā)起人,AICUG社區(qū)聯(lián)合發(fā)起人,曾在IEEE等期刊發(fā)表多篇論文。目前主要為銀行、證券和保險等行業(yè)客戶提供大數(shù)據(jù)平臺及人工智能平臺的整體規(guī)劃和項目建設等工作。
目錄
前言
第1章數(shù)據(jù)科學家的武器庫
1.1數(shù)據(jù)科學的基本概念
1.2數(shù)理統(tǒng)計技術
1.2.1描述性統(tǒng)計分析
1.2.2統(tǒng)計推斷與統(tǒng)計建模
1.3數(shù)據(jù)挖掘的技術與方法
1.4描述性數(shù)據(jù)挖掘算法示例
1.4.1聚類分析客戶細分
1.4.2關聯(lián)規(guī)則分析
1.5預測性數(shù)據(jù)挖掘算法示例
1.5.1決策樹
1.5.2KNN算法
1.5.3Logistic回歸
1.5.4神經網絡
1.5.5支持向量機
1.5.6集成學習
1.5.7預測類模型講解
1.5.8預測類模型評估概述
第2章Python概述
2.1Python概述
2.1.1Python簡介
2.1.2Python與數(shù)據(jù)科學
2.1.3Python2與Python3
2.2Anaconda Python的安裝、使用
2.2.1下載與安裝
2.2.2使用Jupyter Notebook
2.2.3使用Spyder
2.2.4使用conda或pip管理
第三方庫
第3章數(shù)據(jù)科學的Python編程基礎
3.1Python的基本數(shù)據(jù)類型
3.1.1字符串(str)
3.1.2浮點數(shù)和整數(shù)(float、int)
3.1.3布爾值(Bool:True/False)
3.1.4其他
3.2Python的基本數(shù)據(jù)結構
3.2.1列表(list)
3.2.2元組(tuple)
3.2.3集合(set)
3.2.4字典(dict)
3.3Python的程序控制
3.3.1三種基本的編程結構簡介
3.3.2順承結構
3.3.3分支結構
3.3.4循環(huán)結構
3.4Python的函數(shù)與模塊
3.4.1Python的函數(shù)
3.4.2Python的模塊
3.5Pandas讀取結構化數(shù)據(jù)
3.5.1讀取數(shù)據(jù)
3.5.2寫出數(shù)據(jù)
第4章描述性統(tǒng)計分析與繪圖
4.1描述性統(tǒng)計進行數(shù)據(jù)探索
4.1.1變量度量類型與分布類型
4.1.2分類變量的統(tǒng)計量
4.1.3連續(xù)變量的分布與集中趨勢
4.1.4連續(xù)變量的離散程度
4.1.5數(shù)據(jù)分布的對稱與高矮
4.2制作報表與統(tǒng)計制圖
4.3制圖的步驟
第5章數(shù)據(jù)整合和數(shù)據(jù)清洗
5.1數(shù)據(jù)整合
5.1.1行列操作
5.1.2條件查詢
5.1.3橫向連接
5.1.4縱向合并
5.1.5排序
5.1.6分組匯總
5.1.7拆分、堆疊列
5.1.8賦值與條件賦值
5.2數(shù)據(jù)清洗
5.2.1重復值處理
5.2.2缺失值處理
5.2.3噪聲值處理
5.3RFM方法在客戶行為分析上的運用
5.3.1行為特征提取的RFM方法論
5.3.2使用RFM方法計算變量
5.3.3數(shù)據(jù)整理與匯報
第6章數(shù)據(jù)科學的統(tǒng)計推斷基礎
6.1基本的統(tǒng)計學概念
6.1.1總體與樣本
6.1.2統(tǒng)計量
6.1.3點估計、區(qū)間估計和中心極限定理
6.2假設檢驗與單樣本t檢驗
6.2.1假設檢驗
6.2.2單樣本t檢驗
6.3雙樣本t檢驗
6.4方差分析(分類變量和連續(xù)變量關系檢驗)
6.4.1單因素方差分析
6.4.2多因素方差分析
6.5相關分析(兩連續(xù)變量關系檢驗)
6.5.1相關系數(shù)
6.5.2散點矩陣圖
6.6卡方檢驗(二分類變量關系檢驗)
6.6.1列聯(lián)表
6.6.2卡方檢驗
第7章客戶價值預測:線性回歸模型與診斷
7.1線性回歸
7.1.1簡單線性回歸
7.1.2多元線性回歸
7.1.3多元線性回歸的變量篩選
7.2線性回歸診斷
7.2.1殘差分析
7.2.2強影響點分析
7.2.3多重共線性分析
7.2.4小結線性回歸診斷
7.3正則化方法
7.3.1嶺回歸
7.3.2LASSO回歸
第8章Logistic回歸構建初始信用評級
8.1Logistic回歸的相關關系分析
8.2Logistic回歸模型及實現(xiàn)
8.2.1Logistic回歸與發(fā)生比
8.2.2Logistic回歸的基本原理
8.2.3在Python中實現(xiàn)Logistic回歸
8.3Logistic回歸的極大似然估計
8.3.1極大似然估計的概念
8.3.2Logistics回歸的極大似然估計
8.4模型評估
8.4.1模型評估方法
8.4.2ROC曲線的概念
8.4.3在Python中實現(xiàn)ROC曲線
第9章使用決策樹進行初始信用評級
9.1決策樹概述
9.2決策樹算法
9.2.1ID3建樹算法原理
9.2.2C4.5建樹算法原理
9.2.3CART建樹算法原理
9.2.4決策樹的剪枝
9.3在Python中實現(xiàn)決策樹
9.3.1建模
9.3.2模型評估
9.3.3決策樹的可視化
9.3.4參數(shù)搜索調優(yōu)
第10章神經網絡
10.1神經元模型
10.2單層感知器
10.3BP神經網絡
10.4多層感知器的scikitlearn代碼實現(xiàn)
第11章分類器入門:最近鄰域與樸素貝葉斯
11.1KNN算法
11.1.1KNN算法原理
11.1.2在Python中實現(xiàn)KNN算法
11.2樸素貝葉斯分類
11.2.1貝葉斯公式
11.2.2樸素貝葉斯分類原理
11.2.3樸素貝葉斯的參數(shù)估計
11.2.4在Python中實現(xiàn)樸素貝葉斯
第12章高級分類器:支持向量機
12.1線性可分與線性不可分
12.2線性可分支持向量機
12.2.1函數(shù)間隔和幾何間隔
12.2.2學習策略
12.2.3對偶方法求解
12.2.4線性可分支持向量機例題
12.3線性支持向量機與軟間隔最大化
12.4非線性支持向量機與核函數(shù)
12.4.1核函數(shù)
12.4.2非線性支持向量機的學習
12.4.3示例與Python實現(xiàn)
12.5使用支持向量機的案例
第13章連續(xù)變量的特征選擇與轉換
13.1方法概述
13.2主成分分析
13.2.1主成分分析簡介
13.2.2主成分分析原理
13.2.3主成分分析的運用
13.2.4在Python中實現(xiàn)主成分分析
13.3基于主成分的冗余變量篩選
13.4因子分析
13.4.1因子分析模型
13.4.2因子分析算法
13.4.3在Python中實現(xiàn)因子分析
第14章客戶分群與聚類
14.1聚類算法概述
14.2聚類算法基本概念
14.2.1變量標準化與分布形態(tài)轉換
14.2.2變量的維度分析
14.3聚類模型的評估
14.4層次聚類
14.4.1層次聚類原理
14.4.2層次聚類在Python中的實現(xiàn)
14.5基于劃分的聚類
14.5.1kmeans聚類原理
14.5.2kmeans聚類