數(shù)據(jù)科學(xué)導(dǎo)論
定 價:69 元
- 作者:石川,王嘯,胡琳梅 著
- 出版時間:2021/4/1
- ISBN:9787302569688
- 出 版 社:清華大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16K
《數(shù)據(jù)科學(xué)導(dǎo)論(面向新工科專業(yè)建設(shè)計算機(jī)系列教材)》主要介紹數(shù)據(jù)科學(xué)的通識入門知識,可以作為高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的專業(yè)基礎(chǔ)課程教材。該書以“建立知識體系、掌握基本原理、學(xué)會初級實踐、了解前沿技術(shù)”為原則,為數(shù)據(jù)科學(xué)與大數(shù)據(jù)及相關(guān)專業(yè)的學(xué)生深入學(xué)習(xí)數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)奠定基礎(chǔ)。該書系統(tǒng)講授數(shù)據(jù)科學(xué)的基本概念和知識體系、數(shù)據(jù)分析的基本流程和方法(包括數(shù)據(jù)預(yù)處理、回歸、聚類、分類等智能分析技術(shù))、大數(shù)據(jù)分析的基本T具,并以Python語言為例,通過大量實例和練習(xí)講授初級的數(shù)據(jù)分析技術(shù)。該書通過系統(tǒng)全面的理論介紹與豐富翔實的程序?qū)嵺`相結(jié)合,幫助數(shù)據(jù)科學(xué)與大數(shù)據(jù)及相關(guān)專業(yè)的學(xué)生樹立大數(shù)據(jù)意識,學(xué)習(xí)數(shù)據(jù)科學(xué)的知識體系,掌握基本的數(shù)據(jù)處理方法。
《數(shù)據(jù)科學(xué)導(dǎo)論(面向新工科專業(yè)建設(shè)計算機(jī)系列教材)》適合作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)及相關(guān)專業(yè)學(xué)生的教材,也可作為大數(shù)據(jù)開發(fā)工程師的參考書。
《數(shù)據(jù)科學(xué)導(dǎo)論(面向新工科專業(yè)建設(shè)計算機(jī)系列教材)》特色:
內(nèi)容全面,重點突出。不但涵蓋數(shù)據(jù)科學(xué)的主要內(nèi)容,而且從數(shù)據(jù)挖掘的視角著重強調(diào)了數(shù)據(jù)分析的基本方法。理論系統(tǒng),實踐豐富。系統(tǒng)地介紹了數(shù)據(jù)科學(xué)緊密相關(guān)的基礎(chǔ)理論和方法,并且配以豐富的實例進(jìn)行講解。模塊設(shè)計,靈活組合!稊(shù)據(jù)科學(xué)導(dǎo)論(面向新工科專業(yè)建設(shè)計算機(jī)系列教材)》分為基礎(chǔ)理論、分析方法、高級主題3個模塊,內(nèi)容由淺入深。
深入淺出,可讀性強。在講解數(shù)據(jù)科學(xué)相關(guān)的內(nèi)容和基本的概念時,配以實例介紹本質(zhì)含義,力爭概念通俗易懂,便于上手。
近些年,各行各業(yè)聚集的“大數(shù)據(jù)”不僅對信息處理技術(shù)提出了挑戰(zhàn),而且深刻影響社會經(jīng)濟(jì)的各個方面。大數(shù)據(jù)時代的到來也催生一門新的學(xué)科——數(shù)據(jù)科學(xué)。數(shù)據(jù)科學(xué)是基于計算機(jī)科學(xué)、統(tǒng)計學(xué)、數(shù)學(xué)等學(xué)科的一門新興的交叉學(xué)科,主要研究內(nèi)容包括數(shù)據(jù)科學(xué)基礎(chǔ)理論、數(shù)據(jù)預(yù)處理、數(shù)據(jù)計算和數(shù)據(jù)管理。作為一門新興學(xué)科,很多學(xué)校開設(shè)了相關(guān)專業(yè),也急需講授其核心理論體系和應(yīng)用實踐的教材。本書順應(yīng)數(shù)據(jù)科學(xué)興起的潮流,為數(shù)據(jù)科學(xué)與大數(shù)據(jù)及相關(guān)專業(yè)的學(xué)生,提供一本入門和導(dǎo)論性質(zhì)的教材。
作者深入調(diào)研了現(xiàn)有的大數(shù)據(jù)教材和資料,結(jié)合十余年數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域的科研實踐以及“計算機(jī)導(dǎo)論”等計算機(jī)專業(yè)基礎(chǔ)課程的教學(xué)實踐經(jīng)驗,以“建立知識體系、掌握基本原理、學(xué)會初級實踐、了解前沿技術(shù)”為原則,精心設(shè)計編寫了本書。本書具有如下特色。
。1)內(nèi)容全面,重點突出。本書涵蓋了數(shù)據(jù)科學(xué)的主要內(nèi)容,包括基礎(chǔ)理論、數(shù)學(xué)基礎(chǔ)、分析方法、應(yīng)用前沿和處理技術(shù)。同時,作者也從數(shù)據(jù)挖掘的視角著重強調(diào)了數(shù)據(jù)分析的基本方法和技能。
(□)理論系統(tǒng),實踐豐富。本書比較系統(tǒng)地介紹了與數(shù)據(jù)科學(xué)緊密相關(guān)的基本理論和方法,并且配以豐富的實例進(jìn)行講解。作者以Python語言為例,配以大量實例詳細(xì)講解了數(shù)據(jù)分析的基本方法。
。3)模塊設(shè)計,靈活組合。本書劃分為3個模塊:基礎(chǔ)理論(□□~□章)、分析方法(第3~6章)、高級主題(第7~8章),3個模塊相對獨立,模塊內(nèi)部也是由淺入深。選擇合適章節(jié)內(nèi)容和講授深度,可以支撐□~6學(xué)分的“數(shù)據(jù)科學(xué)導(dǎo)論”課程設(shè)置。
。4)深入淺出,可讀性強。本書盡量介紹數(shù)據(jù)科學(xué)□相關(guān)的內(nèi)容和□基本的概念,并配以實例介紹本質(zhì)含義;此外,還介紹了大量要深入學(xué)□□擴(kuò)展閱讀材料。本書面向具有基礎(chǔ)的計算機(jī)相關(guān)知識的學(xué)生和科技工作者,力爭概念通俗易懂,方法便于上手。
全書內(nèi)容分為3部分,共8章。□□部分是數(shù)據(jù)科學(xué)的基本理論和數(shù)學(xué)基礎(chǔ),由□□~□章組成。
□□章是本書統(tǒng)領(lǐng)式的一章。主要介紹數(shù)據(jù)科學(xué)的產(chǎn)生背景、基礎(chǔ)知識、基本理論以及數(shù)據(jù)科學(xué)家和數(shù)據(jù)科學(xué)的實踐案例。通過串聯(lián)數(shù)據(jù)和大數(shù)據(jù)的概念,闡述了人類社會的數(shù)據(jù)化進(jìn)程;通過介紹數(shù)據(jù)科學(xué)的理論基礎(chǔ)和應(yīng)用實踐引導(dǎo)讀者在學(xué)習(xí)時應(yīng)注重理論聯(lián)系實際,學(xué)以致用。
第□章介紹數(shù)據(jù)科學(xué)研究中廣泛使用的數(shù)學(xué)工具。主要介紹數(shù)據(jù)科學(xué)中需要用到的基礎(chǔ)數(shù)學(xué)知識,包括線性代數(shù)、概率統(tǒng)計、優(yōu)化理論和圖論基礎(chǔ),并結(jié)合實例探討它們的應(yīng)用。
本書第二部分介紹數(shù)據(jù)科學(xué)中常用的數(shù)據(jù)分析方法,由第3~6章組成。
第3章介紹數(shù)據(jù)科學(xué)研究中主流的編程語言。全書的案例也都統(tǒng)一以Python語言講解。本章涵蓋Python的基本用法以及數(shù)據(jù)科學(xué)處理中重要庫的使用。
第4章介紹數(shù)據(jù)科學(xué)處理中基本的數(shù)據(jù)預(yù)處理方法。本章是整個數(shù)據(jù)處理中的前期核心步驟,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換等技術(shù),□后輔以一個實踐案例具體闡述預(yù)處理的各個步驟。
第5章介紹數(shù)據(jù)科學(xué)研究中的基本機(jī)器學(xué)習(xí)模型。本章介紹機(jī)器學(xué)□□基本概念及主流的機(jī)器學(xué)習(xí)庫,同時講解回歸、分類、神經(jīng)網(wǎng)絡(luò)等監(jiān)督學(xué)習(xí)方法及聚類等無監(jiān)督學(xué)習(xí)模型,每個模型均配有實例及代碼演示。
第6章以實戰(zhàn)案例系統(tǒng)總結(jié)前面章節(jié)的數(shù)據(jù)處理技術(shù)。首先介紹數(shù)據(jù)分析流程,繼而給出4個具體的案例,包括Titanic生存預(yù)測、時間序列預(yù)測等,每個案例從問題分析開始,闡述數(shù)據(jù)預(yù)處理、機(jī)器學(xué)習(xí)模型使用、結(jié)果分析等完整流程。
本書第三部分介紹數(shù)據(jù)科學(xué)的應(yīng)用前沿和處理技術(shù),由第7~8章組成。
第7章圍繞非結(jié)構(gòu)化數(shù)據(jù),分別對文本數(shù)據(jù)、圖像□□數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)的分析與應(yīng)用方法展開介紹。此外,還簡要介紹了數(shù)據(jù)可視化分析技術(shù)、應(yīng)用場景、常用的可視化分析工具。
第8章介紹大數(shù)據(jù)處理的主流工具。主要介紹了云計算的相關(guān)概念和特點、核心技術(shù)虛擬化和多個商用的云計算平臺;討論了大數(shù)據(jù)處理工具Hadoop與Spark這兩個框架的基本概念、核心算法以及生態(tài)環(huán)境。本章還提供了一個完整的搭建并使用Hadoop集群進(jìn)行數(shù)據(jù)處理的應(yīng)用案例。
本書可以作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)及相關(guān)專業(yè)學(xué)生的數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析等課程的入門教程,也可以作為科技工作者學(xué)□□數(shù)據(jù)分析的參考材料。作為大學(xué)教材使用,可以有短學(xué)時(□~3學(xué)分)和長學(xué)時(4~6學(xué)分)兩種教學(xué)計劃。針對短學(xué)時教學(xué)計劃,可以選擇□□、3~6章講授,其他章節(jié)選講;針對長學(xué)時教學(xué)計劃,可以講授全部內(nèi)容,并且增加上機(jī)實踐環(huán)節(jié)。本書還提供了豐富的教學(xué)資料供教師教學(xué)參考和學(xué)生學(xué)習(xí)使用,包括教學(xué)幻燈片和所有實例源代碼等資料。這些資料可以從www.shichuan.org下載使用。
石川負(fù)責(zé)全書框架設(shè)計和統(tǒng)稿,并編寫了□□章;王嘯負(fù)責(zé)編寫第3~6章;胡琳梅負(fù)責(zé)編寫第□、7、8章;王柏對全書進(jìn)行了校對。本書編寫過程中得到了北京郵電大學(xué)計算機(jī)學(xué)院數(shù)據(jù)科學(xué)與服務(wù)中心的老師們的大力支持和幫助;也得到了許多研究生的支持,他們收集并整理了大量的資料。沒有他們的幫助,本書很難在約定的時間內(nèi)完成。在此,感謝他們在本書的編寫過程中做出的巨大貢獻(xiàn)。
石川,北京郵電大學(xué)教授、博士生導(dǎo)師。長期從事計算機(jī)專業(yè)基礎(chǔ)課程教學(xué)工作,參與多項教改項目。主要研究方向為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),發(fā)表高水平學(xué)術(shù)論文100余篇,中英文專著3部,成果應(yīng)用于IT企業(yè)。研究成果獲得省部級獎勵3項,本人獲得北京市高等學(xué)校青年英才和師德先鋒等稱號。
王嘯,北京郵電大學(xué)講師、碩士生導(dǎo)師。天津大學(xué)博士,圣路易斯華盛頓大學(xué)聯(lián)培博士,清華大學(xué)博士后,主要研究方向為數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí),曾主持國家自然科學(xué)基金項目,發(fā)表高水平論文50余篇,獲得微軟亞洲研究院“鑄星計劃”支持。
胡琳梅,北京郵電大學(xué)副教授,碩士生導(dǎo)師。清華大學(xué)博士,北京市優(yōu)秀畢業(yè)生。主要研究方向為自然語言處理與知識圖譜,獲□019年微軟亞洲研究院“鑄星計劃”支持。
第一章 數(shù)據(jù)科學(xué)概論
1.1 數(shù)據(jù)和大數(shù)據(jù)
1.1.1 數(shù)據(jù)
1.1.2數(shù)據(jù)化進(jìn)程
1.1.3 大數(shù)據(jù)
1.□ 數(shù)據(jù)科學(xué)理論基礎(chǔ)
1.□.1 數(shù)據(jù)科學(xué)發(fā)展歷程
1.□.□ 數(shù)據(jù)科學(xué)的概念
1.□.3 數(shù)據(jù)科學(xué)的主要內(nèi)容
1.3 數(shù)據(jù)科學(xué)應(yīng)用實踐
1.3.1 數(shù)據(jù)科學(xué)家
1.3.□ 數(shù)據(jù)科學(xué)工作流程
1.3.3 數(shù)據(jù)科學(xué)實踐案例
1.4 小結(jié)
1.4.1 本章總結(jié)
1.4.□ 擴(kuò)展閱讀材料
1.5 習(xí)題
1.6 參考資料
第□章 數(shù)學(xué)基礎(chǔ)
□.1 線性代數(shù)
□.1.1 向量
□.1.□ 矩陣
□.1.3 矩陣導(dǎo)數(shù)
□.1.4 實例:利用SVD進(jìn)行評分預(yù)測
□.□ 概率統(tǒng)計
□.□.1 隨機(jī)事件與概率
□.□.□ 條件概率與事件獨立性
□.□.3 隨機(jī)變量及其數(shù)字特征
□.□.4 數(shù)理統(tǒng)計
□.□.5 信息論
□.□.6 實例:利用樸素貝葉斯算法進(jìn)行文本分類
□.3 優(yōu)化理論
□.3.1 基本概念
□.3.□ 優(yōu)化問題的一般形式
□.3.3 優(yōu)化方法
□.3.4 實例:SVM分類器
□.4 圖論基礎(chǔ)
□.4.1 圖的定義
□.4.□ 圖的概念
□.4.3 圖的矩陣表示
□.4.4 拉普拉斯矩陣與譜
□.4.5 實例:譜聚類算法
□.5 小結(jié)
□.5.1 本章總結(jié)
□.5.□ 擴(kuò)展閱讀材料
□.6 習(xí)題
□.7 參考資料
第3章 Python語言初步
3.1 Python語言概述
3.1.1 Python語言簡介
3.1.□ Python語言環(huán)境搭建
3.□ Python的基本用法
3.□.1 列表與元組
3.□.□ 字符串
3.□.3 字典
3.□.4 條件與循環(huán)語句
3.□.5 函數(shù)
3.□.6 文件
3.□.7 綜合實例
3.3 重要庫的使用方法與案例
3.3.1 NumPy
3.3.□ Panda□<□r>3.3.3 SciPy
3.3.4 Matplotlib
……
第4章 數(shù)據(jù)預(yù)處理
第5章 分析方法初步
第6章 數(shù)據(jù)科學(xué)實踐
第7章 數(shù)據(jù)科學(xué)的重要研究領(lǐng)域
第8章 大數(shù)據(jù)處理技術(shù)簡介