Python數(shù)據(jù)分析與應(yīng)用:從數(shù)據(jù)獲取到可視化
定 價(jià):52 元
叢書名:Python應(yīng)用編程叢書
- 作者:[中國]黑馬程序員
- 出版時(shí)間:2019/1/1
- ISBN:9787113251451
- 出 版 社:中國鐵道出版社
- 中圖法分類:TP311.561
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書采用理論與案例相結(jié)合的形式,以Anaconda為主要開發(fā)工具,系統(tǒng)、全面地介紹了Python數(shù)據(jù)分析的相關(guān)知識(shí)。全書共分為9章,第1章介紹了數(shù)據(jù)分析的基本概念,以及開發(fā)工具的安裝和使用;第2~6章介紹了Python數(shù)據(jù)分析的常用庫及其應(yīng)用,涵蓋了科學(xué)計(jì)算庫NumPy、數(shù)據(jù)分析庫Pandas、數(shù)據(jù)可視化庫Matplotlib、Seaborn與Bokeh;第7、8章主要介紹了時(shí)間序列和文本數(shù)據(jù)的分析;第9章結(jié)合之前所學(xué)的技術(shù)開發(fā)了一個(gè)綜合案例,演示如何在項(xiàng)目中運(yùn)用所學(xué)的知識(shí)。除了第1章外,其他章節(jié)都包含了很多示例和綜合案例,通過動(dòng)手操作和練習(xí),可以幫助讀者更好地理解和掌握所學(xué)的知識(shí)。本書適合作為高等院校計(jì)算機(jī)相關(guān)專業(yè)的大數(shù)據(jù)技術(shù)類課程教材,也可以作為大數(shù)據(jù)技術(shù)愛好者入門用書。
(1)本書采用理論與案例相結(jié)合的形式,以 Anaconda 為主要開發(fā)工具,系統(tǒng)、全面地介紹了 Python 數(shù)據(jù)分析的相關(guān)知識(shí)。(2)zui后一章為綜合案例,演示如何在項(xiàng)目中運(yùn)用所學(xué)的知識(shí)。
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)已經(jīng)成為與物質(zhì)資產(chǎn)和人力資本同樣重要的基礎(chǔ)生產(chǎn)要素,如何從數(shù)據(jù)里面發(fā)現(xiàn)并挖掘有價(jià)值的信息成為一個(gè)熱門的研究課題;谶@種需求,數(shù)據(jù)分析技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)分析是有目的地收集、整理、加工和分析數(shù)據(jù),提煉出有價(jià)值信息的一個(gè)過程,它可以幫助企業(yè)或個(gè)人預(yù)測未來趨勢和行為,規(guī)避風(fēng)險(xiǎn),使得商務(wù)和生產(chǎn)活動(dòng)具有前瞻性。Python在數(shù)據(jù)分析、探索性計(jì)算、數(shù)據(jù)可視化等方面都有非常成熟的庫和活躍的社區(qū),從21世紀(jì)開始,在行業(yè)應(yīng)用和學(xué)術(shù)研究中使用Python進(jìn)行數(shù)據(jù)分析的勢頭越來越猛,對于要往數(shù)據(jù)分析方向發(fā)展的讀者而言,學(xué)習(xí)Python數(shù)據(jù)分析是一個(gè)不錯(cuò)的選擇。本書站在初學(xué)者的角度,循序漸進(jìn)地介紹了學(xué)習(xí)數(shù)據(jù)分析必備的基礎(chǔ)知識(shí),以及一些比較優(yōu)秀的數(shù)據(jù)分析工具,幫助讀者具備數(shù)據(jù)分析的相關(guān)技能,能夠獨(dú)立編寫項(xiàng)目,以勝任Python數(shù)據(jù)分析工程師相關(guān)崗位的工作。本書在講解時(shí),采用需求引入的方式,循序漸進(jìn)地介紹了數(shù)據(jù)分析工具的基本使用,同時(shí)對一些比較特殊的時(shí)間序列和文本數(shù)據(jù)的分析進(jìn)行了拓展講解,提高了讀者的開發(fā)興趣和開發(fā)能力。作為開發(fā)人員,要想真正掌握一門技術(shù),離不開多動(dòng)手練習(xí),所以本書在繪聲繪色講解知識(shí)的同時(shí),不斷地增加案例,有針對某個(gè)知識(shí)點(diǎn)的示例程序,也有針對某章的案例,zui大程度地幫助讀者真正掌握Python數(shù)據(jù)分析的核心技術(shù)。本書基于Python 3,系統(tǒng)全面地講解了Python數(shù)據(jù)分析的基礎(chǔ)知識(shí),全書共9章,具體章節(jié)內(nèi)容如下。第1章主要是帶領(lǐng)大家了解數(shù)據(jù)分析,包括數(shù)據(jù)分析產(chǎn)生背景、什么是數(shù)據(jù)分析、數(shù)據(jù)分析的應(yīng)用場景、數(shù)據(jù)分析的流程、開發(fā)工具的基本使用及常見數(shù)據(jù)分析工具等。通過本章的學(xué)習(xí),希望大家能夠?qū)?shù)據(jù)分析有一個(gè)初步的認(rèn)識(shí),并為后續(xù)章節(jié)的學(xué)習(xí)準(zhǔn)備好開發(fā)環(huán)境。第2章主要針對科學(xué)計(jì)算庫NumPy進(jìn)行講解,包括創(chuàng)建數(shù)組、數(shù)據(jù)類型、數(shù)組運(yùn)算、索引和切片操作、轉(zhuǎn)置和軸對稱、通用函數(shù)、使用數(shù)組處理數(shù)據(jù)、線性代數(shù)模塊及隨機(jī)數(shù)模塊等,并結(jié)合酒鬼漫步的案例,講解如何使用NumPy數(shù)組參與簡單的運(yùn)算。希望讀者能熟練使用NumPy包,為后面章節(jié)的學(xué)習(xí)奠定基礎(chǔ)。第3章主要介紹Pandas的基礎(chǔ)功能,包括數(shù)據(jù)結(jié)構(gòu)分析、索引操作、算術(shù)運(yùn)算與數(shù)據(jù)對齊、數(shù)據(jù)排序、統(tǒng)計(jì)計(jì)算與描述、層次化索引和讀寫操作,并結(jié)合北京高考分?jǐn)?shù)線的分析案例,講解如何使用Pandas操作數(shù)據(jù)。通過對本章的學(xué)習(xí),希望大家可以用Pandas實(shí)現(xiàn)簡單的操作,為后續(xù)深入學(xué)習(xí)打好扎實(shí)的基礎(chǔ)。第4章進(jìn)一步介紹了Pandas的數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)合并、數(shù)據(jù)重塑和數(shù)據(jù)轉(zhuǎn)換,并結(jié)合預(yù)處理部分地區(qū)信息的案例,講解了如何利用Pandas預(yù)處理數(shù)據(jù)。數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析中必不可少的環(huán)節(jié),希望大家要多加練習(xí),并能夠在實(shí)際場景中選擇合理的方式對數(shù)據(jù)進(jìn)行預(yù)處理操作,另外,還可以參考官網(wǎng)提供的文檔深入學(xué)習(xí)。第5章繼續(xù)介紹了Pandas的聚合與分組運(yùn)算,包括分組聚合的原理、分組操作、數(shù)據(jù)聚合及其他分組級運(yùn)算,并結(jié)合運(yùn)動(dòng)員基本信息的案例,講解如何在項(xiàng)目中應(yīng)用分組與聚合運(yùn)算。大家在學(xué)習(xí)與理解的同時(shí),要多加練習(xí),可根據(jù)具體情況選擇合理的技術(shù)進(jìn)行運(yùn)用即可。第6章主要介紹了幾個(gè)數(shù)據(jù)可視化工具,包括Python 2D繪圖庫Matplotlib、繪制統(tǒng)計(jì)數(shù)據(jù)的庫Seaborn和交互式可視化的庫Bokeh,并結(jié)合某年旅游景點(diǎn)的案例,講解如何使用Matplotlib庫繪制圖表輔助分析。希望通過本章的學(xué)習(xí),讀者可以體會(huì)到在數(shù)據(jù)分析中運(yùn)用可視化工具的好處。第7章圍繞著時(shí)間序列數(shù)據(jù)分析進(jìn)行了介紹,包括創(chuàng)建時(shí)間序列、時(shí)間序列的索引和切片操作、固定頻率的時(shí)間序列、時(shí)間周期與計(jì)算、重采樣、滑動(dòng)窗口及時(shí)序模型ARIMA,并結(jié)合預(yù)測股票收盤價(jià)的案例,講解了在項(xiàng)目中如何用時(shí)序模型對時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測分析。通過對本章內(nèi)容的學(xué)習(xí),讀者應(yīng)該掌握處理時(shí)間序列數(shù)據(jù)的一些技巧,并靈活加以運(yùn)用。第8章主要針對文本數(shù)據(jù)分析進(jìn)行講解,包括文本數(shù)據(jù)分析的工具、文本預(yù)處理、文本情感分析、文本相似度和文本分類,并結(jié)合商品評價(jià)分析的案例,講解了如何利用NLTK與jieba預(yù)處理和分析文本數(shù)據(jù)。希望通過對本章知識(shí)的學(xué)習(xí),讀者可以理解文本數(shù)據(jù)分析的原理,以便后續(xù)能基于機(jī)器學(xué)習(xí)更深入地去探索。第9章是一個(gè)完整的實(shí)戰(zhàn)項(xiàng)目,用于統(tǒng)計(jì)分析當(dāng)前北京租房的信息,包括數(shù)據(jù)收集、預(yù)處理數(shù)據(jù)、數(shù)據(jù)分析,以及利用圖表展現(xiàn)數(shù)據(jù)。希望通過對本章的學(xué)習(xí),讀者能夠靈活地運(yùn)用數(shù)據(jù)分析的技術(shù),具備開發(fā)簡單項(xiàng)目的能力。在學(xué)習(xí)過程中,讀者一定要親自實(shí)踐本書中的案例代碼。如果不能完全理解書中所講知識(shí),讀者可以登錄博學(xué)谷平臺(tái),通過平臺(tái)中的教學(xué)視頻進(jìn)行深入學(xué)習(xí)。學(xué)習(xí)完一個(gè)知識(shí)點(diǎn)后,要及時(shí)在博學(xué)谷平臺(tái)上進(jìn)行測試,以鞏固學(xué)習(xí)內(nèi)容。另外,如果讀者在理解知識(shí)點(diǎn)的過程中遇到困難,建議不要糾結(jié)于某個(gè)地方,可以先往后學(xué)習(xí)。通常來講,通過逐漸深入的學(xué)習(xí),前面不懂和疑惑的知識(shí)點(diǎn)也就能夠理解了。在學(xué)習(xí)編程的過程中,一定要多動(dòng)手實(shí)踐,如果在實(shí)踐的過程中遇到問題,建議多思考,理清思路,認(rèn)真分析問題發(fā)生的原因,并在問題解決后總結(jié)出經(jīng)驗(yàn)。本書的編寫和整理工作由傳智播客教育科技股份有限公司完成,主要參與人員有呂春林、高美云、王曉娟、孫東等。全體人員在近一年的編寫過程中付出了很多辛勤的汗水,在此一并表示衷心的感謝。盡管我們付出了zui大的努力,但書中難免會(huì)有不妥之處,歡迎各界專家和讀者朋友們來信給予寶貴意見,我們將不勝感激。您在閱讀本書時(shí),如發(fā)現(xiàn)任何問題或有不認(rèn)同之處,可以通過電子郵件與我們?nèi)〉寐?lián)系。請發(fā)送電子郵件至:itcast_book@vip.sina.com。黑馬程序員2018年11月12日于北京
江蘇傳智播客教育科技股份有限公司(簡稱傳智播客)是一家專門致力于高素質(zhì)軟件開發(fā)人才培養(yǎng)的高科技公司!昂隈R程序員”是傳智播客旗下高端IT教育品牌。
第1章 數(shù)據(jù)分析概述 11.1 數(shù)據(jù)分析的背景 11.2 什么是數(shù)據(jù)分析 21.3 數(shù)據(jù)分析的應(yīng)用場景 21.4 數(shù)據(jù)分析的流程 31.5 為什么選擇Python做數(shù)據(jù)分析 41.6 創(chuàng)建新的Python環(huán)境——Anaconda 51.6.1 Anaconda發(fā)行版本概述 51.6.2 在Windows系統(tǒng)中安裝Anaconda 51.6.3 通過Anaconda管理Python包 71.7 啟用Jupyter Notebook 91.7.1 啟動(dòng)Anaconda自帶的Jupyter Notebook 91.7.2 Jupyter Notebook界面詳解 101.7.3 Jupyter Notebook的基本使用 131.8 常見的數(shù)據(jù)分析工具 16小結(jié) 17習(xí)題 17第2章 科學(xué)計(jì)算庫NumPy 192.1 認(rèn)識(shí)NumPy數(shù)組對象 192.2 創(chuàng)建NumPy數(shù)組 212.3 ndarray對象的數(shù)據(jù)類型 222.3.1 查看數(shù)據(jù)類型 222.3.2 轉(zhuǎn)換數(shù)據(jù)類型 232.4 數(shù)組運(yùn)算 242.4.1 矢量化運(yùn)算 242.4.2 數(shù)組廣播 252.4.3 數(shù)組與標(biāo)量間的運(yùn)算 252.5 ndarray的索引和切片 262.5.1 整數(shù)索引和切片的基本使用 262.5.2 花式(數(shù)組)索引的基本使用 282.5.3 布爾型索引的基本使用 292.6 數(shù)組的轉(zhuǎn)置和軸對稱 302.7 NumPy通用函數(shù) 322.8 利用NumPy數(shù)組進(jìn)行數(shù)據(jù)處理 342.8.1 將條件邏輯轉(zhuǎn)為數(shù)組運(yùn)算 342.8.2 數(shù)組統(tǒng)計(jì)運(yùn)算 342.8.3 數(shù)組排序 352.8.4 檢索數(shù)組元素 362.8.5 唯一化及其他集合邏輯 362.9 線性代數(shù)模塊 372.10 隨機(jī)數(shù)模塊 382.11 案例——酒鬼漫步 39小結(jié) 40習(xí)題 40第3章 數(shù)據(jù)分析工具Pandas 423.1 Pandas的數(shù)據(jù)結(jié)構(gòu)分析 423.1.1 Series 423.1.2 DataFrame 443.2 Pandas索引操作及高級索引 463.2.1 索引對象 463.2.2 重置索引 473.2.3 索引操作 493.3 算術(shù)運(yùn)算與數(shù)據(jù)對齊 533.4 數(shù)據(jù)排序 543.4.1 按索引排序 543.4.2 按值排序 553.5 統(tǒng)計(jì)計(jì)算與描述 563.5.1 常用的統(tǒng)計(jì)計(jì)算 573.5.2 統(tǒng)計(jì)描述 583.6 層次化索引 593.6.1 認(rèn)識(shí)層次化索引 593.6.2 層次化索引的操作 643.7 讀寫數(shù)據(jù)操作 683.7.1 讀寫文本文件 683.7.2 讀寫Excel文件 703.7.3 讀取HTML表格數(shù)據(jù) 723.7.4 讀寫數(shù)據(jù)庫 733.8 案例——北京高考分?jǐn)?shù)線統(tǒng)計(jì)分析 772.8.1 案例需求 772.8.2 數(shù)據(jù)準(zhǔn)備 772.8.3 功能實(shí)現(xiàn) 78小結(jié) 81習(xí)題 81第4章 數(shù)據(jù)預(yù)處理 834.1 數(shù)據(jù)清洗 834.1.1 空值和缺失值的處理 834.1.2 重復(fù)值的處理 884.1.3 異常值的處理 904.1.4 更改數(shù)據(jù)類型 944.2 數(shù)據(jù)合并 964.2.1 軸向堆疊數(shù)據(jù) 964.2.2 主鍵合并數(shù)據(jù) 994.2.3 根據(jù)行索引合并數(shù)據(jù) 1034.2.4 合并重疊數(shù)據(jù) 1054.3 數(shù)據(jù)重塑 1064.3.1 重塑層次化索引 1064.3.2 軸向旋轉(zhuǎn) 1094.4 數(shù)據(jù)轉(zhuǎn)換 1104.4.1 重命名軸索引 1104.4.2 離散化連續(xù)數(shù)據(jù) 1124.4.3 啞變量處理類別型數(shù)據(jù) 1134.5 案例——預(yù)處理部分地區(qū)信息 1154.5.1 案例需求 1154.5.2 數(shù)據(jù)準(zhǔn)備 1154.5.3 功能實(shí)現(xiàn) 116小結(jié) 123習(xí)題 123第5章 數(shù)據(jù)聚合與分組運(yùn)算 1255.1 分組與聚合的原理 1255.2 通過groupby()方法將數(shù)據(jù)拆分成組 1265.3 數(shù)據(jù)聚合 1325.3.1 使用內(nèi)置統(tǒng)計(jì)方法聚合數(shù)據(jù) 1325.3.2 面向列的聚合方法 1325.4 分組級運(yùn)算 1365.4.1 數(shù)據(jù)轉(zhuǎn)換 1365.4.2 數(shù)據(jù)應(yīng)用 1385.5 案例——運(yùn)動(dòng)員信息的分組與聚合 1415.5.1 案例需求 1415.5.2 數(shù)據(jù)準(zhǔn)備 1415.5.3 功能實(shí)現(xiàn) 142小結(jié) 146習(xí)題 147第6章 數(shù)據(jù)可視化 1496.1 數(shù)據(jù)可視化概述 1496.1.1 什么是數(shù)據(jù)可視化 1496.1.2 常見的圖表類型 1506.1.3 數(shù)據(jù)可視化的工具 1546.2 Matplotlib——繪制圖表 1556.2.1 通過figure()函數(shù)創(chuàng)建畫布 1556.2.2 通過subplot()函數(shù)創(chuàng)建單個(gè)子圖 1576.2.3 通過subplots()函數(shù)創(chuàng)建多個(gè)子圖 1586.2.4 通過add_subplot()方法添加和選中子圖 1606.2.5 添加各類標(biāo)簽 1616.2.6 繪制常見圖表 1626.2.7 本地保存圖形 1676.3 Seaborn——繪制統(tǒng)計(jì)圖形 1686.3.1 可視化數(shù)據(jù)的分布 1686.3.2 用分類數(shù)據(jù)繪圖 1746.4 Bokeh——交互式可視化庫 1786.4.1 認(rèn)識(shí)Bokeh庫 1786.4.2 通過Plotting繪制圖形 1796.5 案例——畫圖分析某年旅游景點(diǎn)數(shù)據(jù) 1806.5.1 案例需求 1816.5.2 數(shù)據(jù)準(zhǔn)備 1816.5.3 功能實(shí)現(xiàn) 181小結(jié) 185習(xí)題 185第7章 時(shí)間序列分析 1877.1 時(shí)間序列的基本操作 1877.1.1 創(chuàng)建時(shí)間序列 1877.1.2 通過時(shí)間戳索引選取子集 1897.2 固定頻率的時(shí)間序列 1917.2.1 創(chuàng)建固定頻率的時(shí)間序列 1917.2.2 時(shí)間序列的頻率、偏移量 1937.2.3 時(shí)間序列的移動(dòng) 1957.3 時(shí)間周期及計(jì)算 1967.3.1 創(chuàng)建時(shí)期對象 1967.3.2 時(shí)期的頻率轉(zhuǎn)換 1987.4 重采樣 1987.4.1 重采樣方法(resample) 1997.4.2 降采樣 2007.4.3 升采樣 2017.5 數(shù)據(jù)統(tǒng)計(jì)——滑動(dòng)窗口 2037.6 時(shí)序模型——ARIMA 2067.7 案例——股票收盤價(jià)分析 2077.7.1 案例需求 2077.7.2 數(shù)據(jù)準(zhǔn)備 2077.7.3 功能實(shí)現(xiàn) 208小結(jié) 213習(xí)題 214第8章 文本數(shù)據(jù)分析 2168.1 文本數(shù)據(jù)分析工具 2168.1.1 NLTK與jieba概述 2168.1.2 安裝NLTK和下載語料庫 2178.1.3 jieba庫的安裝 2198.2 文本預(yù)處理 2208.2.1 預(yù)處理的流程 2208.2.2 分詞 2218.2.3 詞性標(biāo)注 2238.2.4 詞形歸一化 2248.2.5 刪除停用詞 2268.3 文本情感分析 2278.4 文本相似度 2298.5 文本分類 2328.6 案例——商品評價(jià)分析 2358.6.1 案例需求 2358.6.2 數(shù)據(jù)準(zhǔn)備 2368.6.3 功能實(shí)現(xiàn) 236小結(jié) 240習(xí)題 240第9章 數(shù)據(jù)分析實(shí)戰(zhàn)——北京租房數(shù)據(jù)統(tǒng)計(jì)分析 2429.1 數(shù)據(jù)來源 2429.2 數(shù)據(jù)讀取 2439.3 數(shù)據(jù)預(yù)處理 2449.3.1 重復(fù)值和空值處理 2449.3.2 數(shù)據(jù)轉(zhuǎn)換類型 2469.4 圖表分析 2479.4.1 房源數(shù)量、位置分布分析 2489.4.2 戶型數(shù)量分析 2559.4.3 平均租金分析 2589.4.4 面積區(qū)間分析 260小結(jié) 262