本書(shū)對(duì)數(shù)據(jù)科學(xué)領(lǐng)域應(yīng)用廣泛的R軟件包在科學(xué)計(jì)量數(shù)據(jù)分析中的實(shí)踐進(jìn)行了系統(tǒng)性介紹。按照問(wèn)題、方法、案例的模式,對(duì)R中可進(jìn)行科學(xué)計(jì)量數(shù)據(jù)分析和可視化的工具包進(jìn)行了介紹和演示。本書(shū)是對(duì)CiteSpace、VOSviewer以及BibExcel等科學(xué)計(jì)量和知識(shí)圖譜系列圖書(shū)的補(bǔ)充。
本書(shū)可作為圖書(shū)館和情報(bào)學(xué)專(zhuān)業(yè)、醫(yī)學(xué)和生物信息專(zhuān)業(yè)、公共管理專(zhuān)業(yè)、管理科學(xué)與工程(科技管理、信息管理)專(zhuān)業(yè)、教育信息以及數(shù)據(jù)或信息可視化研究方向本科生和研究生的實(shí)踐教材,也可作為相關(guān)領(lǐng)域科研人員日?茖W(xué)研究甚至科技管理和政策分析的工具書(shū)。
前言
當(dāng)前,我們處于科學(xué)文獻(xiàn)大數(shù)據(jù)時(shí)代。面對(duì)海量的文獻(xiàn)我們?nèi)绾慰焖俚亓私庖粋(gè)研究領(lǐng)域、研究方向或者主題的整體格局以及未來(lái)的趨勢(shì)?在此背景下,與該問(wèn)題直接相關(guān)科學(xué)計(jì)量理論、方法和技術(shù)適時(shí)發(fā)展,成為解決上述科研問(wèn)題的一種有效的途徑。掌握科學(xué)計(jì)量相關(guān)的技術(shù)和方法也成為科研工作者在新時(shí)代進(jìn)行科學(xué)研究活動(dòng)的基本技能。在過(guò)去十余年里,科學(xué)計(jì)量數(shù)據(jù)可視化的理論與方法已經(jīng)大量地滲透到其他學(xué)科的研究實(shí)踐中。在國(guó)內(nèi)這種以科學(xué)文本數(shù)據(jù)為研究對(duì)象,通過(guò)可視化技術(shù)來(lái)揭示學(xué)科結(jié)構(gòu)、演進(jìn)和互動(dòng)的研究領(lǐng)域被統(tǒng)稱(chēng)為“科學(xué)知識(shí)圖譜”。
科學(xué)計(jì)量數(shù)據(jù)可視化背后涉及了大量的科學(xué)計(jì)量學(xué)(還包含文獻(xiàn)計(jì)量學(xué)、網(wǎng)絡(luò)計(jì)量學(xué)以及信息計(jì)量學(xué))方面的基礎(chǔ)理論,比如論文的作者生產(chǎn)率分布、論文的共被引、耦合、主題共現(xiàn)以及作者合作等。還包含了統(tǒng)計(jì)學(xué)和網(wǎng)絡(luò)科學(xué)等方面的技術(shù)和方法,比如多維尺度分析、聚類(lèi)分析、復(fù)雜網(wǎng)絡(luò)分析、自然語(yǔ)言處理和文本挖掘等分析方法。上面的理論和方法構(gòu)成了進(jìn)行科學(xué)計(jì)量數(shù)據(jù)可視化分析的知識(shí)基礎(chǔ),是進(jìn)行知識(shí)圖譜分析的前提。在理論和方法的支持下,當(dāng)前國(guó)內(nèi)外的相關(guān)學(xué)者已經(jīng)開(kāi)發(fā)了數(shù)十種進(jìn)行科技文本挖掘方面的軟件或者工具包,這些知名的工具包含了HistCite、BibExcel、CiteSpace、SCI2以及VOSviewer等。這些工具為有意借助領(lǐng)域文獻(xiàn)分析以獲取學(xué)科研究格局和動(dòng)態(tài)的學(xué)者提供了可能。
筆者在過(guò)去5年從事科學(xué)計(jì)量和知識(shí)圖譜的實(shí)踐研究中,相繼撰寫(xiě)了關(guān)于CiteSpace、VOSviewer以及BibExcel等方面的書(shū)籍,主要目的在于幫助非科學(xué)計(jì)量學(xué)領(lǐng)域的學(xué)者快速應(yīng)用該方法輔助科學(xué)研究。從2016年開(kāi)始已經(jīng)相繼組織了4次與科學(xué)計(jì)量和知識(shí)圖譜相關(guān)的活動(dòng),與來(lái)自國(guó)內(nèi)的數(shù)百名知識(shí)圖譜愛(ài)好者有過(guò)交流。在交流中,最為常見(jiàn)和令我反思的一個(gè)問(wèn)題是:“我得到的圖譜結(jié)果應(yīng)該怎樣解釋呢?”我認(rèn)為科學(xué)計(jì)量及知識(shí)圖譜的方法僅僅給我們提供了一種認(rèn)識(shí)知識(shí)世界的新方式,但這種認(rèn)識(shí)方式更需要知識(shí)圖譜實(shí)踐者結(jié)合自身的專(zhuān)業(yè)背景和知識(shí)圖譜的理論與方法去思考。在進(jìn)行科學(xué)計(jì)量和知識(shí)圖譜分析的時(shí)候,讀者一定要明確自己要解決的問(wèn)題是什么?以及為什么知識(shí)圖譜能夠解決提出的問(wèn)題,它與其他方法相比優(yōu)勢(shì)在哪里?等等。即科學(xué)計(jì)量和知識(shí)圖譜分析之前,一定要確定自己所要研究的問(wèn)題,然后來(lái)選擇要使用何種知識(shí)圖譜呈現(xiàn)方式來(lái)解決問(wèn)題。
本書(shū)是《CiteSpace:科技文本挖掘及可視化》、《科學(xué)計(jì)量與知識(shí)網(wǎng)絡(luò)分析——基于BibExcel等軟件的實(shí)踐》、《科學(xué)知識(shí)圖譜原理及應(yīng)用——VOSviewer與CiteNetExplorer初學(xué)者指南》的姊妹篇。與前面這些應(yīng)用程序不同的是,該書(shū)詳細(xì)介紹了意大利那不勒斯菲里德里克第二大學(xué)(University of Naples Federico II)經(jīng)濟(jì)與統(tǒng)計(jì)系Massimo Aria和Corrado Cuccurullo基于R語(yǔ)言開(kāi)發(fā)的BIBLIOMETRIX工具包(Version 1.6和1.7)[1]。該R工具包基本上涵蓋了進(jìn)行科學(xué)計(jì)量和知識(shí)可視化的功能(圖0. 1),可以滿(mǎn)足愛(ài)好R軟件,并試圖使用R進(jìn)行科學(xué)計(jì)量和知識(shí)圖譜分析的讀者。在此基礎(chǔ)上,對(duì)于科學(xué)計(jì)量與知識(shí)圖譜相關(guān)的一些R工具包,rAltmetric、wordcloud2、gender以及tidytext等工具包進(jìn)行了介紹。本書(shū)對(duì)使用R進(jìn)行英文全文本挖掘進(jìn)行了很少的介紹,對(duì)中文本全文本挖掘還尚未涉及。在今后的更新中將對(duì)使用R進(jìn)行全文本挖掘進(jìn)行適當(dāng)?shù)耐晟啤?/p>
圖0. 1 bibliometrix功能概覽
為了便于讀者熟悉bibliometrix工具包,大多數(shù)的案例運(yùn)行采用了工具包自帶的數(shù)據(jù),一些案例專(zhuān)門(mén)下載了Web of Science和Scopus數(shù)據(jù)集進(jìn)行分析。呈現(xiàn)可所分析的結(jié)果,但并未就結(jié)果進(jìn)行描述性或者帶有特定研究目的的解讀。通過(guò)對(duì)這些結(jié)果的學(xué)習(xí),讀者可以自己去思考可以做些什么?或者至少可以通過(guò)這種方法了解一下自己所關(guān)注的領(lǐng)域哪些情況?
本書(shū)在撰寫(xiě)中有如下約定:
>后為代碼
#為代碼的說(shuō)明
## 為代碼運(yùn)行的結(jié)果
感謝Massimo Aria和Corrado Cuccurullo在本書(shū)寫(xiě)作過(guò)程中給予的大力幫助,并為本書(shū)所撰寫(xiě)英文序言。感謝首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社楊玲社長(zhǎng)在科學(xué)計(jì)量與知識(shí)圖譜系列叢書(shū)出版中的極大支持,感謝中國(guó)科學(xué)院李彬彬博士在提取子矩陣問(wèn)題上的幫助,感謝滑鐵盧大學(xué)博士后于淼對(duì)文稿提出的修改建議,感謝本書(shū)的責(zé)任編輯薛曉紅以及研究生李平對(duì)本書(shū)詳細(xì)校對(duì)。
回首自己在科學(xué)計(jì)量和知識(shí)圖譜研究與實(shí)踐上的經(jīng)歷,感受五味雜陳。衷心地期望本書(shū)及其相關(guān)系列叢書(shū)能進(jìn)一步促進(jìn)科學(xué)計(jì)量與知識(shí)圖譜實(shí)踐研究在國(guó)內(nèi)的發(fā)展和普及,并使每一位讀者受益。
李杰
2017年7月于
李杰,男,管理學(xué)博士。上海海事大學(xué)海洋科學(xué)與工程學(xué)院安全科學(xué)與工程系講師、安全科技趨勢(shì)研究中心常務(wù)副主任、科技情報(bào)研究所高級(jí)研究員,北京理工大學(xué)博士后(在站),F(xiàn)rontiers in Research Metrics and Analytics編委。
曾在首都經(jīng)濟(jì)貿(mào)易大學(xué)、斯泰恩拜斯大學(xué)(德國(guó))、臺(tái)灣省中華大學(xué)、代爾夫特理工大學(xué)(荷蘭)學(xué)習(xí)或研究。研究方向主要集中在安全科學(xué)管理、科學(xué)計(jì)量學(xué)以及應(yīng)用科學(xué)知識(shí)圖譜等領(lǐng)域。已發(fā)表論文50余篇,出版著作5部,包括《CiteSpace科技文本挖掘及可視化》《科學(xué)計(jì)量與知識(shí)網(wǎng)絡(luò)分析》《安全科學(xué)技術(shù)信息檢索基礎(chǔ)》等。