在筆者完成《SAS數(shù)據(jù)統(tǒng)計分析與編程實(shí)踐》一書后,中國鐵道出版社有限公司的編輯邀請筆者創(chuàng)作一本講解數(shù)據(jù)分析行業(yè)的圖書。聞聽此言,筆者的個反應(yīng)是拒絕,乃至產(chǎn)生一種恐懼的感覺。
數(shù)據(jù)分析行業(yè)是一個龐雜而體系化的產(chǎn)業(yè),從開始的數(shù)據(jù)收集,再到后續(xù)的數(shù)據(jù)前處理、統(tǒng)計分析、建模,再到更靠后的數(shù)據(jù)可視化,乃至人工智能、機(jī)器學(xué)習(xí)的應(yīng)用。筆者僅僅是處于數(shù)據(jù)統(tǒng)計分析階段的一位從業(yè)者,更具體地,筆者所處理的數(shù)據(jù)僅僅是臨床試驗(yàn)數(shù)據(jù)這一個數(shù)據(jù)量極小的分支,筆者又有何德何能撰寫一本圖書,來為從業(yè)者和計劃從事數(shù)據(jù)行業(yè)的人士提供指導(dǎo)呢?
出版社的編輯聽到筆者的顧慮后,反問了一個很有深意的問題:那么您覺得誰能夠完整地洞悉各個數(shù)據(jù)行業(yè)中每個產(chǎn)業(yè)鏈環(huán)節(jié)的技術(shù)呢?
此言一出,筆者的感覺是不知如何回答,繼續(xù)思考后發(fā)現(xiàn)這其實(shí)是一個很有價值的問題。隨著數(shù)據(jù)分析行業(yè)的細(xì)化,數(shù)據(jù)分析師這個名詞其實(shí)也變得具有很多的內(nèi)涵,在有些公司,數(shù)據(jù)分析師是指使用Excel完成報表創(chuàng)建和整理的工作人員,而有的公司的數(shù)據(jù)分析師則需要掌握人工智能的復(fù)雜編程技能,同樣的職位名稱對應(yīng)著不同的工作內(nèi)容,這也是數(shù)據(jù)分析行業(yè)尚處于發(fā)展階段的一個例證。
進(jìn)一步思考,筆者發(fā)現(xiàn),縱觀整個產(chǎn)業(yè)界,無論是所謂的大師、專家或?qū)W者,每個人的視野其實(shí)都只能局限于數(shù)據(jù)分析的某個環(huán)節(jié)。認(rèn)清了這一點(diǎn),筆者也不妨大方承認(rèn),本書中所述內(nèi)容,數(shù)據(jù)處理方法、缺失值處理、統(tǒng)計分析方法、數(shù)據(jù)分析標(biāo)準(zhǔn)化和數(shù)據(jù)可視化,筆者有過親身經(jīng)歷,并使用代碼完成過本書絕大多數(shù)細(xì)節(jié);而針對機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)等領(lǐng)域,筆者僅進(jìn)行過系統(tǒng)性的學(xué)習(xí),并未在項目中有過實(shí)際操作的經(jīng)驗(yàn)。
承認(rèn)以上不足正是因?yàn)楣P者清醒地意識到:數(shù)據(jù)分析行業(yè)的分工正在快速細(xì)化,與其給讀者營造一種自己什么都懂的假象,不妨大方承認(rèn)自己僅僅是復(fù)雜產(chǎn)業(yè)鏈中一環(huán)的工作者,并沒有能力融會貫通地理解數(shù)據(jù)分析行業(yè)所有的體系化知識。筆者甚至愿意承認(rèn),如果你僅對大數(shù)據(jù)、人工智能的數(shù)據(jù)分析前沿領(lǐng)域感興趣,那跳過本書而閱讀其他行業(yè)專家的圖書會是更好的選擇。
但請注意另一方面,筆者并不認(rèn)為因?yàn)閭人局限性本書就會變得毫無價值。數(shù)據(jù)分析行業(yè)是一門實(shí)踐科學(xué),而本書的目的正是指導(dǎo)數(shù)據(jù)分析師的實(shí)踐,不僅僅是高談理論。若僅探討數(shù)據(jù)分析行業(yè)的現(xiàn)狀、新技術(shù)的發(fā)展和數(shù)據(jù)分析的未來,很多人都能如筆者一樣高談闊論出一堆懸而未決的理論。
筆者創(chuàng)作本書的一個目標(biāo)就是指導(dǎo)性,讓讀者不僅理解某些理論,更可以理解理論所應(yīng)用的場景,乃至清楚哪些編程手段會用到這些理論。這些在工作中被作為背景知識的知識,才是筆者更希望傳達(dá)的價值。
提到背景知識,筆者認(rèn)為這個詞很好地概括了本書創(chuàng)作的目的這是一本為數(shù)據(jù)分析師提供背景知識的書籍。所謂背景知識,就是指那些在特定領(lǐng)域中至關(guān)重要卻被認(rèn)為是每個人都應(yīng)該理解的知識。但作為新手從業(yè)者,很多人其實(shí)尚未建立背景知識庫。若以這種視角觀察本書,各位讀者應(yīng)該可以發(fā)現(xiàn)本書的內(nèi)容正是為各位讀者補(bǔ)齊這一短板。
在本書的第1章,我們洞悉了數(shù)據(jù)分析的定義和數(shù)據(jù)分析行業(yè)的特點(diǎn),在第2、3章,筆者對數(shù)據(jù)分析的現(xiàn)狀和未來進(jìn)行了闡述,以此建立起從業(yè)者對數(shù)據(jù)分析行業(yè)的總體認(rèn)知。在第4、5、6、7、8章中,我們深入數(shù)據(jù)分析技術(shù),從數(shù)據(jù)分析選取的工具,談到數(shù)據(jù)前處理、統(tǒng)計分析方法、數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)可視化,它們每一個都是數(shù)據(jù)分析的重要子命題,很多從業(yè)者未來也會選取其中一個方面作為自己的職業(yè)。從第9章到第11章,我們又將視野拉開,觀察一名優(yōu)秀的數(shù)據(jù)分析師應(yīng)當(dāng)具備的能力,從能力塑造的角度重新理解數(shù)據(jù)分析行業(yè)。
筆者非常希望此書能夠幫助到致力于從事數(shù)據(jù)分析行業(yè)的讀者,也希望本書可以作為數(shù)據(jù)分析從業(yè)者的進(jìn)階讀物,為本行業(yè)吸引更多優(yōu)秀、有潛力的人才。
若讀者中十之一二能因本書而對數(shù)據(jù)分析行業(yè)產(chǎn)生興趣,那筆者定會欣慰不已。若讀者發(fā)現(xiàn)本書中的錯誤、不完善之處,乃是因筆者自身水平不高、實(shí)踐經(jīng)驗(yàn)不足所致,歡迎讀者將所發(fā)現(xiàn)的不妥之處或自身感悟發(fā)送至郵箱iwenhaoma@gmail.com,以供筆者自省。