大概從2014年開始,在我們周圍越來越多地聽到和看到“機(jī)器學(xué)習(xí)”這個(gè)詞。微軟公司推出的通過圖形用戶界面(Graphical L5ser Interface,GUI)工具就可以輕松實(shí)現(xiàn)機(jī)器學(xué)習(xí)的Azure ML于2014年6月首次對(duì)外發(fā)布,并于2015年2月開始提供通用版本(General Availability,GA),之后我感到“機(jī)器學(xué)習(xí)”這一概念快速傳播開來。
2015年5月,在微軟日本股份有限公司舉辦的面向日本國內(nèi)技術(shù)人員的最大盛會(huì)“de:code2015”上,我們幾位介紹了Azure ML成功預(yù)測出超過100萬用戶脫離智能手機(jī)游戲(退會(huì))這一案例。并且于同年10月,我們?cè)谌战?jīng)BP社主辦的學(xué)習(xí)交流會(huì)“從零開始了解‘機(jī)器學(xué)習(xí)’實(shí)踐講座”中擔(dān)任了講師,就AzureML如何實(shí)操進(jìn)行了現(xiàn)場解說。通過這些活動(dòng),一方面大眾對(duì)我們FIXER公司有了更多的了解,另一方面FIXER公司也獲得了來自日本知名企業(yè)的諸如“希望使用機(jī)器學(xué)習(xí)預(yù)測器械、機(jī)器故障并進(jìn)行預(yù)防”“希望使用機(jī)器學(xué)習(xí)創(chuàng)造機(jī)器人人工智能”等委托項(xiàng)目。
本書旨在將機(jī)器學(xué)習(xí)應(yīng)用到現(xiàn)實(shí)的商業(yè)當(dāng)中,并將其轉(zhuǎn)變?yōu)樯唐坊蚍⻊?wù),而不是單純地將機(jī)器學(xué)習(xí)捧為流行語。換言之,我們出版本書的目的并不是追求學(xué)術(shù)價(jià)值,而是為了讓大家能夠使用、活用機(jī)器學(xué)習(xí),不落后于時(shí)代變革的潮流,甚至能夠引領(lǐng)時(shí)代潮流。希望通過本書,工程師以及商業(yè)人士能夠發(fā)明出使用機(jī)器學(xué)習(xí)的新型服務(wù),或者從數(shù)據(jù)中發(fā)現(xiàn)以前被忽略的新視角。
以前,一提到機(jī)器學(xué)習(xí),就會(huì)想到是那些被稱為“數(shù)據(jù)科學(xué)家”的專業(yè)人士使用的專業(yè)工具,但是如今情況會(huì)有所不同。奮戰(zhàn)在商界的企業(yè)家們可以對(duì)數(shù)據(jù)進(jìn)行直接分析,讓使用數(shù)據(jù)的服務(wù)以及搭載人工智能的服務(wù)開始成為可能。可以說,企業(yè)家和數(shù)據(jù)科學(xué)家之間在認(rèn)知以及理解上的障礙已經(jīng)消除。初級(jí)的系統(tǒng)工程師和開發(fā)商很難涉足的數(shù)據(jù)分析、推薦引擎以及人工智能的開發(fā)和使用難度也會(huì)大幅下降。
“統(tǒng)計(jì)”一詞自公元前誕生于埃及以來已經(jīng)發(fā)展了3000多年,機(jī)器學(xué)習(xí)的理論基礎(chǔ)自出現(xiàn)至今已經(jīng)過了40多年,但在商業(yè)中的實(shí)際應(yīng)用可以說依然非常受限。我們幾位常年從事股票數(shù)據(jù)的分析,通過各種方式對(duì)市場動(dòng)向及個(gè)別股票產(chǎn)品進(jìn)行預(yù)測,但是僅僅依據(jù)從金融工程學(xué)以及統(tǒng)計(jì)學(xué)中導(dǎo)出的現(xiàn)有理論,很難獲得高水平成果。
簡單一提的是,過去在未來市場預(yù)測方面能夠取得較高水平成果的方式,是把幾十臺(tái)服務(wù)器聯(lián)接起來,使用計(jì)算機(jī)進(jìn)行大量的運(yùn)算,分析離散數(shù)據(jù)而不是分析函數(shù)數(shù)據(jù)。而現(xiàn)在,隨著摩爾定律的不斷發(fā)展,計(jì)算機(jī)的處Nt陛能以及計(jì)算資源也在不斷擴(kuò)大。自從進(jìn)入了云端時(shí)代,即使是個(gè)人也可以在短時(shí)間內(nèi)以較低成本同時(shí)使用幾十臺(tái)甚至幾百臺(tái)服務(wù)器。
與此同時(shí),現(xiàn)在可以以較低的成本儲(chǔ)存大量數(shù)據(jù)。比如,當(dāng)今世界很多人都使用智能手機(jī),谷歌、蘋果公司的以及手機(jī)App開發(fā)人員每時(shí)每刻都能收到來自世界各地的幾億部智能手機(jī)中的大量數(shù)據(jù)。除此之外,每隔幾分鐘或者幾小時(shí),就能收到來自幾百萬輛、幾千萬輛汽車以及家電產(chǎn)品的注冊(cè)信息。如果是在10年之前,收集、存儲(chǔ)如此巨大的數(shù)據(jù)是不可能的。10年前,1TB容量的企業(yè)版高速存儲(chǔ)器價(jià)格超過1億日元,但是現(xiàn)在,不到1萬日元的硬盤(Hard Disk Drive,HDD)的容量就已經(jīng)超過了1TB。2016年4月,Azure的存儲(chǔ)服務(wù)價(jià)格標(biāo)準(zhǔn)為:使用99.9%的服務(wù)級(jí)別協(xié)議(SLA)用三塊硬盤備份的設(shè)備,1GB平均每月228日元。
作者簡介
千賀大司(Hiroshi Senga)
FIXER公司總經(jīng)理
微軟Azure解決方案架構(gòu)師、信息處理技術(shù)人員
1999年畢業(yè)于名古屋大學(xué)法學(xué)部。曾在佳能IT部門作為金融高級(jí)軟件工程師致力于國內(nèi)外銀行及年金系統(tǒng)的開發(fā)。隨后10余年一直在提供股票分析服務(wù)的網(wǎng)絡(luò)風(fēng)投公司擔(dān)任CTO,目前擔(dān)任東證一部上市企業(yè)R&D的部門負(fù)責(zé)人。擅長金融、證券分析和網(wǎng)絡(luò)服務(wù)數(shù)據(jù)分析、市場自動(dòng)化及大規(guī)模并發(fā)分散系統(tǒng)的體系結(jié)構(gòu),F(xiàn)在,一方面支持機(jī)器學(xué)習(xí)等使用Azure服務(wù)的數(shù)字市場,一方面致力于推進(jìn)面向證券、金融的FinTech解決方案的研究以及由人造機(jī)器人的人工知能或者人工智能構(gòu)成的呼叫中心支援系統(tǒng)的開發(fā)。
山本和貴(Kazuki Yamamoto)
FIXER公司數(shù)據(jù)科學(xué)家
2015年畢業(yè)于東京都立產(chǎn)業(yè)技術(shù)高等專業(yè)學(xué)校制造工學(xué)部的電子信息工學(xué)系。在高等專業(yè)學(xué)校的畢業(yè)論文研究中,為了預(yù)測網(wǎng)絡(luò)輻輳?fù)瑱C(jī)器學(xué)習(xí)相遇,之后一直著迷于機(jī)器學(xué)習(xí)。從事于人工智能云的開發(fā),將使用微軟Azure ML的深層學(xué)習(xí)研究及通過機(jī)器學(xué)習(xí)提高服務(wù)質(zhì)量的音聲識(shí)別、面部識(shí)別、個(gè)性化引擎等進(jìn)行組合。
大澤文孝(Fumitaka Oosawa)
科技作家程序設(shè)計(jì)師信息處理技術(shù)人員
主要面向開發(fā)人員在雜志報(bào)刊上撰寫有關(guān)服務(wù)器、網(wǎng)絡(luò)、網(wǎng)絡(luò)編程、安全等文章。近幾年,主要從事網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)及開發(fā)。著有《掌握幫神技能:掌握J(rèn)ava編程入門》《掌握幫神技能:網(wǎng)絡(luò)和編程基礎(chǔ)中的基礎(chǔ)》《Amazon Web Services云端設(shè)計(jì)模式安裝指導(dǎo)》等書籍
第1章 什么是機(jī)器學(xué)習(xí)
明晰機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)概述
機(jī)器學(xué)習(xí)流行的“原因”
將機(jī)器學(xué)習(xí)用于商業(yè)的方法
消除對(duì)機(jī)器學(xué)習(xí)的誤解
機(jī)器學(xué)習(xí)通過數(shù)據(jù)進(jìn)行判斷
機(jī)器學(xué)習(xí)是“系統(tǒng)”
機(jī)器自己會(huì)變聰明嗎
必須決定“特征向量”
開啟機(jī)器學(xué)習(xí)之旅
機(jī)器學(xué)習(xí)專用工具
無須編程就可以使用的Azure ML
即使如此,依然想編程
通過判斷目標(biāo)來選擇分類器
第2章 收集數(shù)據(jù)
使用公司內(nèi)部數(shù)據(jù)
日志文件等歷史數(shù)據(jù)
非時(shí)間類型數(shù)據(jù)
使用公開數(shù)據(jù)
DATA.GO.JP
DATA.GOV
Twitter
GitHub
第3章 通過Azure ML創(chuàng)建機(jī)器學(xué)習(xí)模型
Azure ML的基本操作
注冊(cè)Azure ML Studio
在工作區(qū)進(jìn)行操作
機(jī)器學(xué)習(xí)的方法
在Azure ML中進(jìn)行機(jī)器學(xué)習(xí)的流程
創(chuàng)建機(jī)器學(xué)習(xí)模型時(shí)Experiment的編輯界面
機(jī)器學(xué)習(xí)模型的構(gòu)成和種類
學(xué)習(xí)邏輯
計(jì)算邏輯
學(xué)習(xí)組件的種類
第4章 使用回歸分析預(yù)測數(shù)據(jù)
什么是回歸分析
本模擬所實(shí)現(xiàn)目標(biāo)
本模擬所建模型
上傳用于分析的數(shù)據(jù)集
下載CSV文件樣本
將CSV文件作為數(shù)據(jù)集進(jìn)行上傳保存
新建Experiment
添加和調(diào)整所要分析的數(shù)據(jù)集對(duì)象
添加數(shù)據(jù)集
將范圍縮小至使用列
修復(fù)受損數(shù)據(jù)
分離學(xué)習(xí)用數(shù)據(jù)和評(píng)價(jià)用數(shù)據(jù)
構(gòu)建學(xué)習(xí)邏輯
構(gòu)成回歸分析的組件
使用已訓(xùn)練模型預(yù)測評(píng)價(jià)用數(shù)據(jù)
使用評(píng)分模型進(jìn)行數(shù)據(jù)預(yù)測
確認(rèn)預(yù)測值
第5章 嘗試使用已建回歸分析模型
使用已訓(xùn)練模型進(jìn)行計(jì)算
上傳用于計(jì)算的數(shù)據(jù)集對(duì)象
在評(píng)分模型右上方輸入數(shù)據(jù)即可得出結(jié)果
保存已訓(xùn)練模型,使其在其他Experiment中也可以使用
保存已訓(xùn)練模型
使用已訓(xùn)練模型進(jìn)行預(yù)測
新建用于預(yù)測的Experiment
創(chuàng)建可進(jìn)行數(shù)據(jù)預(yù)測的機(jī)器學(xué)習(xí)模型
觀察運(yùn)行結(jié)果
以CSV形式輸出
數(shù)據(jù)轉(zhuǎn)換組件
第6章 提高預(yù)測精度
提高預(yù)測精度的方法
確認(rèn)目前的預(yù)測精度
使用評(píng)估模型對(duì)分析結(jié)果進(jìn)行評(píng)價(jià)
確認(rèn)評(píng)價(jià)結(jié)果
更改參數(shù)提高精確度
更改Linear Regression的參數(shù)
優(yōu)化學(xué)習(xí)組件
可用于回歸分析的學(xué)習(xí)組件種類
更改為貝葉斯線性回歸
使用有限的學(xué)習(xí)數(shù)據(jù)進(jìn)行檢驗(yàn)
使用“Cross Validate Model”組件
確認(rèn)“Cross Validate Model”的評(píng)價(jià)結(jié)果
第7章 通過統(tǒng)計(jì)分類進(jìn)行判斷
什么是統(tǒng)計(jì)分類
本模擬所實(shí)現(xiàn)目標(biāo)
本模擬所建模型
用統(tǒng)計(jì)分類創(chuàng)建分類機(jī)器學(xué)習(xí)模型
新建數(shù)據(jù)集
新建Experiment
創(chuàng)建數(shù)據(jù)集
構(gòu)建學(xué)習(xí)邏輯
預(yù)測和評(píng)價(jià)
確認(rèn)和反思學(xué)習(xí)結(jié)果
確認(rèn)使用評(píng)價(jià)用數(shù)據(jù)得出的結(jié)果
評(píng)價(jià)統(tǒng)計(jì)分類的學(xué)習(xí)結(jié)果
使用其他統(tǒng)計(jì)分類學(xué)習(xí)組件
第8章 用聚類方法判別相似數(shù)據(jù)
什么是聚類
本模擬所實(shí)現(xiàn)目標(biāo)
本模擬所建模型
創(chuàng)建可通過聚類分析分組的機(jī)器學(xué)習(xí)模型
新建數(shù)據(jù)集
新建 Experiment
添加數(shù)據(jù)集
構(gòu)建學(xué)習(xí)邏輯
確認(rèn)分組結(jié)果
將用于評(píng)價(jià)的數(shù)據(jù)加入到已訓(xùn)練的學(xué)習(xí)模型中
第9章 活用實(shí)驗(yàn)結(jié)果
Web API化
數(shù)據(jù)可視化
第10章 讓機(jī)器越來越聰明
進(jìn)行模型的二次學(xué)習(xí)
用Web API更新公開的分類器(模型更新)
附錄 使用Azure ML的方法
創(chuàng)建環(huán)境
創(chuàng)建Microsoft賬戶
激活訂閱
登錄Azure
云優(yōu)化您的業(yè)務(wù)
創(chuàng)建工作區(qū)
訪問Azure ML Studio
關(guān)于收費(fèi)
免費(fèi)使用