定 價(jià):79 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:(美)加博爾·薩博(Gabor Szabo), (美)格爾·波拉特坎(G
- 出版時(shí)間:2020/1/1
- ISBN:9787111643685
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:0
- 紙張:
- 版次:
- 開本:16開
本書圍繞著如何探索和理解社交媒體系統(tǒng)的基本組成部分進(jìn)行組織,簡(jiǎn)單地說(shuō)來(lái)就是誰(shuí)(who)、如何(how)、何時(shí)(when)和什么(what)構(gòu)成了社交媒體過(guò)程。本書的目標(biāo)是“授人以漁”。在涵蓋了社交媒體分析的主要方面之后,本書還以大量篇幅介紹了大數(shù)據(jù)環(huán)境下處理社交媒體數(shù)據(jù)所需的工具、算法的原理和實(shí)際案例,讀者可以以此為基礎(chǔ),快速介入生產(chǎn)環(huán)境下的社交媒體數(shù)據(jù)處理任務(wù)。
譯者序
前言
致謝
作者簡(jiǎn)介
技術(shù)編輯簡(jiǎn)介
第1章 用戶:誰(shuí)參與社交媒體 1
1.1 測(cè)量Wikipedia中用戶行為的變化 1
1.1.1 用戶活動(dòng)的多樣性 2
1.1.2 人類活動(dòng)中的長(zhǎng)尾效應(yīng) 18
1.2 隨處可見的長(zhǎng)尾效應(yīng):80/20定律 20
1.3 Twitter上的在線行為 23
1.3.1 檢索用戶的Tweet 24
1.3.2 對(duì)數(shù)分區(qū) 26
1.3.3 Twitter上的用戶活動(dòng) 27
1.4 總結(jié) 28
第2章 網(wǎng)絡(luò):社交媒體如何運(yùn)行 29
2.1 社交網(wǎng)絡(luò)的類型和屬性 30
2.1.1 用戶何時(shí)創(chuàng)建連接:顯式網(wǎng)絡(luò) 30
2.1.2 有向圖與無(wú)向圖 31
2.1.3 節(jié)點(diǎn)和邊的屬性 31
2.1.4 加權(quán)圖 32
2.1.5 由活動(dòng)構(gòu)建圖:隱式網(wǎng)絡(luò) 33
2.2 網(wǎng)絡(luò)可視化 35
2.3 度:贏家通吃 38
2.3.1 連接計(jì)數(shù) 40
2.3.2 用戶連接的長(zhǎng)尾分布 41
2.3.3 超越理想網(wǎng)絡(luò)模型 43
2.4 捕獲相關(guān):三角結(jié)構(gòu)、簇和同配性 45
2.4.1 局部三角結(jié)構(gòu)和簇 45
2.4.2 同配性 49
2.5 總結(jié) 53
第3章 時(shí)序過(guò)程:用戶何時(shí)使用社交媒體 54
3.1 傳統(tǒng)模型如何描述事件發(fā)生的時(shí)間 54
3.2 事件間隔時(shí)間 57
3.2.1 與無(wú)記憶過(guò)程的對(duì)比 60
3.2.2 自相關(guān) 63
3.2.3 與無(wú)記憶過(guò)程的偏離 64
3.2.4 用戶活動(dòng)中的時(shí)間周期 66
3.3 個(gè)體行為的爆發(fā) 70
3.4 預(yù)測(cè)長(zhǎng)期指標(biāo) 78
3.4.1 發(fā)現(xiàn)趨勢(shì) 80
3.4.2 發(fā)現(xiàn)季節(jié)性 82
3.4.3 利用ARIMA預(yù)測(cè)時(shí)間序列 84
3.5 總結(jié) 86
第4章 內(nèi)容:社交媒體中有什么 88
4.1 定義內(nèi)容:聚焦于文本和非結(jié)構(gòu)數(shù)據(jù) 88
4.1.1 從文本生成特征:自然語(yǔ)言處理基礎(chǔ) 89
4.1.2 文本中詞條的基本統(tǒng)計(jì) 91
4.2 使用內(nèi)容特征識(shí)別主題 92
4.2.1 話題的流行度 98
4.2.2 用戶個(gè)體興趣有多么多樣化 100
4.3 從高維文本中抽取低維信息 102
4.4 總結(jié) 120
第5章 處理大型數(shù)據(jù)集 122
5.1 MapReduce:組織并行和串行操作 122
5.1.1 單詞計(jì)數(shù) 124
5.1.2 偏斜:最后一個(gè)Reducer的詛咒 127
5.2 多階段MapReduce流 127
5.2.1 扇出 129
5.2.2 歸并數(shù)據(jù)流 129
5.2.3 連接兩個(gè)數(shù)據(jù)源 131
5.2.4 連接小數(shù)據(jù)集 134
5.2.5 大規(guī)模MapReduce模型 134
5.3 MapReduc程序設(shè)計(jì)模式 135
5.3.1 靜態(tài)MapReduce作業(yè) 135
5.3.2 迭代MapReduce作業(yè) 140
5.3.3 增量MapReduce作業(yè) 146
5.3.4 時(shí)間相關(guān)的MapReduce作業(yè) 146
5.3.5 處理長(zhǎng)尾分布社交媒體數(shù)據(jù)的挑戰(zhàn) 153
5.4 抽樣和近似:以較少計(jì)算得到結(jié)果 154
5.4.1 HyperLogLog 156
5.4.2 Bloom過(guò)濾器 161
5.4.3 Count-Min Sketch 166
5.5 在Hadoop集群上運(yùn)行 171
5.5.1 在Amazon EC2上安裝CHD集群 171
5.5.2 為合作者提供IAM存取 174
5.5.3 根據(jù)需要增加集群處理能力 175
5.6 總結(jié) 175
第6章 學(xué)習(xí)、映射和推薦 177
6.1 在線社交媒體服務(wù) 177
6.1.1 搜索引擎 177
6.1.2 內(nèi)容參與 178
6.1.3 與現(xiàn)實(shí)世界的互動(dòng) 179
6.1.4 與人的互動(dòng) 180
6.2 問(wèn)題闡述 180
6.3 學(xué)習(xí)和映射 182
6.3.1 矩陣分解 183
6.3.2 學(xué)習(xí)和訓(xùn)練 184
6.3.3 電影評(píng)分示范 187
6.4 預(yù)測(cè)與推薦 197
6.4.1 評(píng)估 199
6.4.2 方法概述 200
6.5 總結(jié) 209
第7章 結(jié)論 210
7.1 人類互動(dòng)模式出乎意料的穩(wěn)定性 210
7.2 均值、標(biāo)準(zhǔn)差和抽樣 211
7.3 移除異常值 216