全面攻略指南,熱門游戲應(yīng)有盡有,獨(dú)家秘籍解析
朱揚(yáng)勇1,2英國(guó)科技資訊有哪些期刊,熊贇1,2
1.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海200433;2.上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海200433
摘要:大數(shù)據(jù)時(shí)代,最熱門的職業(yè)是數(shù)據(jù)科學(xué)家(data scientist),而不是傳統(tǒng)的信息科學(xué)家,也不是大數(shù)據(jù)工程師。大數(shù)據(jù)熱潮促進(jìn)了數(shù)據(jù)科學(xué)(data science)研究進(jìn)入快速發(fā)展期,數(shù)據(jù)科學(xué)家的培養(yǎng)也受到廣泛重視,越來(lái)越多的大學(xué)啟動(dòng)數(shù)據(jù)科學(xué)學(xué)位培養(yǎng)計(jì)劃,但值得注意的是,當(dāng)前數(shù)據(jù)科學(xué)家培養(yǎng)的基礎(chǔ)條件缺乏,其知識(shí)結(jié)構(gòu)、學(xué)科體系、人才培養(yǎng)計(jì)劃尚未建立。結(jié)合大數(shù)據(jù)時(shí)代的人才要求,給出了科學(xué)、系統(tǒng)的數(shù)據(jù)科學(xué)人才知識(shí)體系,提出了超學(xué)科、多類型的培養(yǎng)模式。
關(guān)鍵詞:數(shù)據(jù)科學(xué);數(shù)據(jù)科學(xué)家;人才培養(yǎng);大數(shù)據(jù)
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.11959/j.issn.2096-0271.2016035
論文引用格式:朱揚(yáng)勇,熊贇. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)科學(xué)家培養(yǎng)[J]. 大數(shù)據(jù), 2016, 2(3): 106-112.
ZHU Y Y, XIONG Y. Training data scientists in the era of big data[J]. Big Data Research, 2016, 2(3): 106-112.
Training data scientists in the era of big data
ZHU Yangyong1,2, XIONG Yun1,2
1. School of Computer Science, Fudan University, Shanghai 200433, China
2. Shanghai Key Lab of Data Science, Shanghai 200433, China
Abstract:In the age of big data, data scientist has become a hot occupation, supplanting traditional information scientist and big data engineer. Big data boom has been pushing data science research into fast development phase. How to train data scientists has been paid widespread attentions. Many universities launched data science degree training plans. The current situations in data scientists training were analyzed. The achievements of training data scientists in Fudan University were summarized. A systematical data scientists training plan was proposed.
Key words:data science, data scientist, talents training, big data
1 引言
數(shù)據(jù)是網(wǎng)絡(luò)空間(cyberspace)的唯一存在,網(wǎng)絡(luò)空間的數(shù)據(jù)呈現(xiàn)出不可控、未知性、多樣性、復(fù)雜性等自然界的特征,網(wǎng)絡(luò)空間的所有數(shù)據(jù)組成了數(shù)據(jù)界(data nature)[1,2]。2008年,朱揚(yáng)勇等指出“數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,其重要性越來(lái)越顯現(xiàn),在本世紀(jì)有可能超過(guò)石油、煤炭、礦產(chǎn),成為最重要的人類資源”[3]。數(shù)據(jù)資源作為一種基礎(chǔ)性、戰(zhàn)略性資源得到了空前關(guān)注,數(shù)據(jù)資源的開(kāi)發(fā)利用被許多國(guó)家提高到了戰(zhàn)略高度,紛紛出臺(tái)大數(shù)據(jù)戰(zhàn)略。
提高數(shù)據(jù)資源開(kāi)發(fā)利用水平、保護(hù)國(guó)家的戰(zhàn)略資源是增強(qiáng)我國(guó)綜合國(guó)力和國(guó)際競(jìng)爭(zhēng)力的必然選擇[3]。對(duì)數(shù)據(jù)資源的開(kāi)發(fā)利用已形成數(shù)據(jù)產(chǎn)業(yè),其產(chǎn)業(yè)鏈主要包括:從網(wǎng)絡(luò)空間獲取數(shù)據(jù)并進(jìn)行整合、加工和生產(chǎn);數(shù)據(jù)產(chǎn)品傳播、流通和交易[4]。代表性企業(yè)有Google、Facebook、百度、萬(wàn)得資訊、萬(wàn)方數(shù)據(jù)等。在這個(gè)新的生產(chǎn)鏈上急需數(shù)據(jù)人才。不僅如此,越來(lái)越多的領(lǐng)域發(fā)現(xiàn)數(shù)據(jù)的價(jià)值,大數(shù)據(jù)[5]對(duì)人類社會(huì)發(fā)展、科學(xué)研究、經(jīng)濟(jì)建設(shè)、文化生活的各個(gè)領(lǐng)域正在產(chǎn)生革命性的影響。于是,數(shù)據(jù)科學(xué)家作為一種最熱門的職業(yè)在工業(yè)界已經(jīng)受到追捧,例如電商、廣告媒體、汽車制造行業(yè)等都在尋找數(shù)據(jù)科學(xué)家為其探尋數(shù)據(jù)價(jià)值,贏取利潤(rùn)高點(diǎn)。
早在2011年,McKinsey公司預(yù)測(cè)到2018年,僅在美國(guó)本土就可能面臨缺乏19萬(wàn)具備深入分析數(shù)據(jù)能力人才的情況,同時(shí)具備通過(guò)分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)管理人員和分析師也有150萬(wàn)人的缺口[6];美國(guó)專業(yè)招聘公司羅致恒富(Robert Halt)公布的《2015薪資指南(2015 salary guide)》也已把大數(shù)據(jù)人才列為薪資漲幅最大的六大行業(yè)之一。
目前,數(shù)據(jù)人才主要來(lái)自IT、管理、與企業(yè)相關(guān)的專業(yè)領(lǐng)域等各個(gè)方向,通過(guò)相互合作形成數(shù)據(jù)分析決策。但是,情況正在發(fā)生變化,例如,Google Translate團(tuán)隊(duì)在一次招聘中僅招收多名計(jì)算機(jī)科學(xué)家,卻沒(méi)有招收一名語(yǔ)言學(xué)家,并且其部門主管Franz Josef Och是計(jì)算機(jī)科學(xué)家,并不精通語(yǔ)言學(xué)。這個(gè)案例說(shuō)明,培養(yǎng)數(shù)據(jù)科學(xué)家并不是將幾種技能的人簡(jiǎn)單地聚集成一個(gè)團(tuán)隊(duì),而是應(yīng)該探索一種轉(zhuǎn)型模式,Google Translate團(tuán)隊(duì)中這些計(jì)算機(jī)背景的人才是正在向真正數(shù)據(jù)科學(xué)家轉(zhuǎn)型的新型人才。
然而,目前數(shù)據(jù)科學(xué)人才培養(yǎng)、數(shù)據(jù)科學(xué)學(xué)科建設(shè)等剛剛起步,尚未形成持續(xù)為社會(huì)培養(yǎng)和輸送不同層次數(shù)據(jù)人才的教育培養(yǎng)體系。面對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)人才緊缺現(xiàn)狀,大學(xué)有必要盡快研究數(shù)據(jù)科學(xué)學(xué)科構(gòu)成和新型數(shù)據(jù)人才的培養(yǎng)體系,開(kāi)設(shè)數(shù)據(jù)科學(xué)學(xué)科專業(yè),提升人才培養(yǎng)和輸出能力。
2 數(shù)據(jù)科學(xué)家培養(yǎng)現(xiàn)狀
大數(shù)據(jù)時(shí)代,最熱門的職業(yè)是數(shù)據(jù)科學(xué)家,而不是傳統(tǒng)的信息科學(xué)家,也不是大數(shù)據(jù)工程師。在此之前,大學(xué)沒(méi)有設(shè)置數(shù)據(jù)科學(xué)學(xué)科和專業(yè)。近幾年,數(shù)據(jù)科學(xué)家培養(yǎng)開(kāi)始受到大學(xué)的重視,并快速發(fā)展。
2010年起,各國(guó)大學(xué)開(kāi)始了數(shù)據(jù)科學(xué)人才培養(yǎng)工作。美國(guó)哥倫比亞大學(xué)從2011年起開(kāi)設(shè)《數(shù)據(jù)科學(xué)導(dǎo)論》課程,2013年起開(kāi)設(shè)《應(yīng)用數(shù)據(jù)科學(xué)》課程以及“數(shù)據(jù)科學(xué)專業(yè)成就認(rèn)證”培訓(xùn)項(xiàng)目,并從2014年起設(shè)立碩士學(xué)位,2015年起設(shè)立博士學(xué)位;美國(guó)加州大學(xué)伯克利分校從2011年起開(kāi)設(shè)《數(shù)據(jù)科學(xué)導(dǎo)論》課程,并從2012年起開(kāi)設(shè)《數(shù)據(jù)科學(xué)和分析》課程;美國(guó)伊利諾伊大學(xué)香檳分校從2011年起舉辦“數(shù)據(jù)科學(xué)暑期研究班”;美國(guó)紐約大學(xué)從2013年秋季起設(shè)立“數(shù)據(jù)科學(xué)”碩士學(xué)位;美國(guó)華盛頓大學(xué)從2013年5月起開(kāi)設(shè)《數(shù)據(jù)科學(xué)導(dǎo)論》課程,并對(duì)修滿數(shù)據(jù)科學(xué)相關(guān)課程學(xué)分的學(xué)生頒發(fā)數(shù)據(jù)科學(xué)證書(shū);美國(guó)芝加哥大學(xué)開(kāi)設(shè)夏季數(shù)據(jù)科學(xué)培訓(xùn)課程;美國(guó)南加州大學(xué)設(shè)立“數(shù)據(jù)科學(xué)”碩士學(xué)位;美國(guó)雪城大學(xué)也提供數(shù)據(jù)科學(xué)高級(jí)研究證書(shū)培訓(xùn)項(xiàng)目;英國(guó)鄧迪大學(xué)從2013年起設(shè)立“數(shù)據(jù)科學(xué)”科學(xué)碩士學(xué)位。
在中國(guó),復(fù)旦大學(xué)從2007年起開(kāi)設(shè)數(shù)據(jù)科學(xué)討論班,2010年開(kāi)始招收數(shù)據(jù)科學(xué)博士研究生,并從2013年起開(kāi)設(shè)研究生課程《數(shù)據(jù)科學(xué)》,2014年開(kāi)始舉辦數(shù)據(jù)科學(xué)家訓(xùn)練營(yíng),2015年開(kāi)始正式招收數(shù)據(jù)科學(xué)專業(yè)研究生以及本科第二專業(yè)學(xué)位;香港中文大學(xué)自2008年起設(shè)立了“數(shù)據(jù)科學(xué)商業(yè)統(tǒng)計(jì)”科學(xué)碩士學(xué)位;清華大學(xué)于2014年推出大數(shù)據(jù)碩士項(xiàng)目,并于2014年9月開(kāi)始招收研究生。
盡管數(shù)據(jù)科學(xué)的學(xué)位項(xiàng)目大量出現(xiàn),但是,對(duì)數(shù)據(jù)科學(xué)家的培養(yǎng)還缺少統(tǒng)一的認(rèn)識(shí),具體表現(xiàn)在兩個(gè)方面。
(1)數(shù)據(jù)科學(xué)缺少統(tǒng)一的認(rèn)識(shí),研究機(jī)構(gòu)發(fā)展迅速,但學(xué)科體系還沒(méi)有建立
事實(shí)上,數(shù)據(jù)科學(xué)已經(jīng)發(fā)展了很多年,遠(yuǎn)比大數(shù)據(jù)早,1966年,Peter Naur建議計(jì)算機(jī)科學(xué)應(yīng)該被稱為Datalogy,即“關(guān)于研究數(shù)據(jù)使用和本質(zhì)科學(xué)”[7]。2009年,朱揚(yáng)勇等對(duì)數(shù)據(jù)科學(xué)進(jìn)行了定義,并引入Dataology一詞[1]。2008年《Nature》、2011年《Science》都出版了關(guān)于數(shù)據(jù)研究的專輯,隨后Microsoft、IBM、Google等公司都開(kāi)始了大數(shù)據(jù)技術(shù)研究,大數(shù)據(jù)熱潮促進(jìn)了數(shù)據(jù)科學(xué)研究進(jìn)入快速發(fā)展期。國(guó)內(nèi)外紛紛成立數(shù)據(jù)科學(xué)研究機(jī)構(gòu),例如,美國(guó)哥倫比亞大學(xué)數(shù)據(jù)科學(xué)和工程研究院、美國(guó)紐約大學(xué)數(shù)據(jù)科學(xué)研究中心、英國(guó)帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究院、中國(guó)科學(xué)院虛擬經(jīng)濟(jì)和數(shù)據(jù)科學(xué)研究中心、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室、清華大學(xué)數(shù)據(jù)科學(xué)研究院、中山大學(xué)數(shù)據(jù)科學(xué)學(xué)院、華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院等。
然而,數(shù)據(jù)科學(xué)還缺少統(tǒng)一的認(rèn)識(shí)。當(dāng)前,數(shù)據(jù)科學(xué)概念和觀點(diǎn)出現(xiàn)在科學(xué)數(shù)據(jù)處理領(lǐng)域、計(jì)算機(jī)科學(xué)領(lǐng)域、統(tǒng)計(jì)學(xué)領(lǐng)域、商業(yè)智能應(yīng)用等方面。這些概念和觀點(diǎn)的基本思想是:認(rèn)為數(shù)據(jù)科學(xué)是“從領(lǐng)域數(shù)據(jù)中獲取知識(shí),為現(xiàn)有的科學(xué)研究、管理決策提供服務(wù)”。這些工作還不足以形成一個(gè)新的科學(xué),因?yàn)樗鼈兊难芯繉?duì)象仍然是現(xiàn)實(shí)中的事物,并且相應(yīng)的科學(xué)問(wèn)題也都是現(xiàn)有科學(xué)領(lǐng)域的問(wèn)題,數(shù)據(jù)科學(xué)學(xué)科體系尚未建立。
(2)數(shù)據(jù)科學(xué)家的知識(shí)結(jié)構(gòu)還沒(méi)有形成統(tǒng)一框架
信息化是一個(gè)生產(chǎn)數(shù)據(jù)的過(guò)程。目前,幾乎所有領(lǐng)域都已經(jīng)或正在信息化,都或多或少地使用計(jì)算機(jī)來(lái)解決遇到的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算問(wèn)題,計(jì)算機(jī)科學(xué)與技術(shù)無(wú)疑成為數(shù)據(jù)科學(xué)家的基本技能。現(xiàn)有的數(shù)據(jù)科學(xué)家很大一部分來(lái)自于計(jì)算機(jī)學(xué)科,具備計(jì)算機(jī)科學(xué)相關(guān)專業(yè)背景,掌握處理大數(shù)據(jù)所必需的Hadoop、Spark、Mahout等大規(guī)模并行處理技術(shù)、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)知識(shí)。但是,數(shù)據(jù)科學(xué)的研究對(duì)象、目的和方法等都與計(jì)算機(jī)科學(xué)、信息科學(xué)和知識(shí)科學(xué)有本質(zhì)的不同[1,2],僅僅具備這些計(jì)算機(jī)技能并不能被稱為一個(gè)真正的數(shù)據(jù)科學(xué)家。
科學(xué)研究的對(duì)象也信息化了,變成了計(jì)算機(jī)中的數(shù)據(jù),并且需要處理的數(shù)據(jù)越來(lái)越多,形成了專門的科學(xué)數(shù)據(jù)處理領(lǐng)域,于是有了生物信息學(xué)、地理信息學(xué)、行為信息學(xué)等。科學(xué)家可以通過(guò)研究數(shù)據(jù)來(lái)研究自然和行為,數(shù)據(jù)科學(xué)為科學(xué)研究提供了數(shù)據(jù)方法。于是,數(shù)據(jù)科學(xué)家的培養(yǎng)逐步發(fā)展為多領(lǐng)域聯(lián)合培養(yǎng)。在培養(yǎng)過(guò)程中,領(lǐng)域?qū)<抑攸c(diǎn)是學(xué)習(xí)如何將領(lǐng)域業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)問(wèn)題交給數(shù)據(jù)分析人員,并不關(guān)注數(shù)據(jù)處理細(xì)節(jié);而數(shù)據(jù)分析人員注重對(duì)領(lǐng)域?qū)<宜o的數(shù)據(jù)集進(jìn)行處理,缺乏對(duì)領(lǐng)域知識(shí)的理解。這是目前數(shù)據(jù)科學(xué)家培養(yǎng)的常見(jiàn)方式,但卻缺乏系統(tǒng)性。
3 如何培養(yǎng)數(shù)據(jù)科學(xué)家
自計(jì)算機(jī)發(fā)明以來(lái),人們一直在處理和使用數(shù)據(jù),主要工作是將現(xiàn)實(shí)的東西用計(jì)算機(jī)數(shù)據(jù)表示,存儲(chǔ)在計(jì)算機(jī)中,然后管理這些數(shù)據(jù),并在需要時(shí)使用它們。隨著數(shù)據(jù)量的不斷、快速增長(zhǎng),對(duì)數(shù)據(jù)的處理分析變成了科學(xué)研究、商業(yè)應(yīng)用的一個(gè)重要環(huán)節(jié),而這樣的數(shù)據(jù)分析工作往往依靠人的創(chuàng)造性,于是從事商業(yè)數(shù)據(jù)分析、科學(xué)數(shù)據(jù)分析的人被稱為數(shù)據(jù)科學(xué)家。近年來(lái),對(duì)數(shù)據(jù)分析理論和技術(shù)的一些共性需求導(dǎo)致對(duì)數(shù)據(jù)本身的研究,例如,分析數(shù)據(jù)本身的現(xiàn)象和規(guī)律;研究數(shù)據(jù)每年的增長(zhǎng)規(guī)律;預(yù)測(cè)10年后網(wǎng)絡(luò)空間數(shù)據(jù)的規(guī)模等,這樣就出現(xiàn)了專門研究數(shù)據(jù)自身規(guī)律和現(xiàn)象的數(shù)據(jù)科學(xué)家。
上述“從事商業(yè)(業(yè)務(wù))數(shù)據(jù)分析的人”、“從事科學(xué)數(shù)據(jù)分析的人”、“研究數(shù)據(jù)的人”是目前被稱為數(shù)據(jù)科學(xué)家的3類人。但在解決一個(gè)大數(shù)據(jù)分析問(wèn)題時(shí),常常是由來(lái)自于數(shù)學(xué)與統(tǒng)計(jì)、計(jì)算機(jī)和業(yè)務(wù)領(lǐng)域的一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)完成。這說(shuō)明,目前在大學(xué)沒(méi)有什么專業(yè)具備了數(shù)據(jù)科學(xué)家所需要的知識(shí),這是一個(gè)新問(wèn)題。
下面,以精準(zhǔn)營(yíng)銷與數(shù)據(jù)相關(guān)的業(yè)務(wù)為例,討論數(shù)據(jù)科學(xué)家做什么工作。
簡(jiǎn)單地將一個(gè)互聯(lián)網(wǎng)精準(zhǔn)營(yíng)銷描述為:“將商品推薦給可能購(gòu)買的人群”。其具體實(shí)施則涉及工程、技術(shù)和科學(xué)3個(gè)層次的工作,見(jiàn)表1。
表1 數(shù)據(jù)科學(xué)家做什么(以精準(zhǔn)營(yíng)銷為例)
(1)工程實(shí)施
作為互聯(lián)網(wǎng)廣告,當(dāng)用戶上網(wǎng)登錄頁(yè)面時(shí),需要在不到100 ms的時(shí)間內(nèi)將廣告彈出,這主要是一個(gè)工程實(shí)施的問(wèn)題。
(2)業(yè)務(wù)模型和技術(shù)手段
精準(zhǔn)營(yíng)銷的業(yè)務(wù)模型包括商品分類和人群分類,對(duì)應(yīng)的技術(shù)手段主要是聚類分析等數(shù)據(jù)挖掘技術(shù)。
(3)科學(xué)研究
聚類分析的核心是相似性及其計(jì)算。如何確定兩個(gè)客戶是相似的,這是一個(gè)科學(xué)問(wèn)題,需要科學(xué)家創(chuàng)造性地勞動(dòng)。不同的相似性設(shè)計(jì)會(huì)導(dǎo)致不同的聚類結(jié)果,不同的聚類結(jié)果會(huì)導(dǎo)致不同的營(yíng)銷精準(zhǔn)性,最后導(dǎo)致?tīng)I(yíng)銷效果,即商品銷售。
“精準(zhǔn)營(yíng)銷”的例子也說(shuō)明了為什么叫做數(shù)據(jù)科學(xué)家。因?yàn)檫@些人是在從事創(chuàng)造性的工作,是在發(fā)現(xiàn)數(shù)據(jù)的現(xiàn)象和規(guī)律,而不是從事制造性工作,英國(guó)科技資訊有哪些期刊他們的工作結(jié)果會(huì)有不確定性,因此是一項(xiàng)科學(xué)工作,所以他們是數(shù)據(jù)科學(xué)家。
2014年,Cleveland W S提出了一個(gè)數(shù)據(jù)科學(xué)行動(dòng)計(jì)劃,指出了數(shù)據(jù)科學(xué)需要發(fā)展的重要方面(跨領(lǐng)域數(shù)據(jù)分析能力、數(shù)據(jù)建模和方法、數(shù)據(jù)計(jì)算能力、學(xué)科規(guī)劃、工具、基礎(chǔ)理論)[8]。筆者認(rèn)為,數(shù)據(jù)科學(xué)是研究數(shù)據(jù)界的科學(xué)或關(guān)于數(shù)據(jù)的科學(xué)[1,2,9,10],主要由兩部分組成:一是研究數(shù)據(jù)本身的規(guī)律和現(xiàn)象,解決關(guān)于數(shù)據(jù)界的科學(xué)問(wèn)題,這部分研究工作并不考慮數(shù)據(jù)的現(xiàn)實(shí)含義,只研究數(shù)據(jù)自身的現(xiàn)象和規(guī)律,包括數(shù)據(jù)的歷史、進(jìn)化和遷移等;二是研究數(shù)據(jù)表示的現(xiàn)實(shí)含義的現(xiàn)象和規(guī)律,即通過(guò)研究數(shù)據(jù)來(lái)研究現(xiàn)實(shí),是指數(shù)據(jù)科學(xué)為傳統(tǒng)科學(xué)研究提供了方法,其目的在于揭示自然界和人類行為的現(xiàn)象和規(guī)律。相應(yīng)地,數(shù)據(jù)科學(xué)的主要研究?jī)?nèi)容包括:數(shù)據(jù)科學(xué)基礎(chǔ)理論研究,如數(shù)據(jù)相似性、數(shù)據(jù)測(cè)度、數(shù)據(jù)代數(shù)、數(shù)據(jù)實(shí)驗(yàn)、數(shù)據(jù)分類、數(shù)據(jù)百科全書(shū)等;數(shù)據(jù)界探索,如數(shù)據(jù)界有多大、全球數(shù)據(jù)如何增長(zhǎng)等科學(xué)問(wèn)題;科學(xué)研究的數(shù)據(jù)方法,如數(shù)據(jù)方法的框架;數(shù)據(jù)技術(shù)研究,如數(shù)據(jù)分析、數(shù)據(jù)探索、數(shù)據(jù)挖掘、數(shù)據(jù)偽裝和辨?zhèn)巍㈩I(lǐng)域驅(qū)動(dòng)的數(shù)據(jù)技術(shù)(如生物信息學(xué)、業(yè)務(wù)智能(business intelligent,BI)和社會(huì)計(jì)算等)。
數(shù)據(jù)科學(xué)學(xué)科結(jié)構(gòu)布局與數(shù)據(jù)科學(xué)的研究?jī)?nèi)容是對(duì)應(yīng)的:將數(shù)據(jù)科學(xué)基礎(chǔ)理論研究為基礎(chǔ),尤其是數(shù)據(jù)相似性理論研究是數(shù)據(jù)研究的關(guān)鍵和基礎(chǔ),這是第一類數(shù)據(jù)科學(xué)家——“研究數(shù)據(jù)的人”的基礎(chǔ)知識(shí)結(jié)構(gòu);數(shù)據(jù)界探索作為數(shù)據(jù)科學(xué)的科學(xué)問(wèn)題的探索,并且與社會(huì)科學(xué)、自然科學(xué)形成差異和支持,突出數(shù)據(jù)科學(xué)學(xué)科特色,這是第一類數(shù)據(jù)科學(xué)家——“研究數(shù)據(jù)的人”必備的知識(shí)結(jié)構(gòu);科學(xué)研究的數(shù)據(jù)方法是對(duì)現(xiàn)有科學(xué)研究創(chuàng)新研究方法,是數(shù)據(jù)科學(xué)學(xué)科的重點(diǎn)內(nèi)容,涉及各個(gè)科學(xué)研究領(lǐng)域方向,這是第二類數(shù)據(jù)科學(xué)家——“從事科學(xué)數(shù)據(jù)分析的人”必備的知識(shí)結(jié)構(gòu);數(shù)據(jù)技術(shù)研究是數(shù)據(jù)科學(xué)學(xué)科的技術(shù)支撐和應(yīng)用體現(xiàn),這是第三類數(shù)據(jù)科學(xué)家——“從事商業(yè)(業(yè)務(wù))數(shù)據(jù)分析的人”必備的知識(shí)結(jié)構(gòu)。因此,數(shù)據(jù)科學(xué)在人才培養(yǎng)方面將打破原有的學(xué)科限制,數(shù)據(jù)科學(xué)家需要的知識(shí)結(jié)構(gòu)是涵蓋和橫跨不同學(xué)科,融合多學(xué)科的研究方法,甚至取代并超越它們,是一種新的視角和一種新的學(xué)習(xí)體驗(yàn),即超學(xué)科[11]。
數(shù)據(jù)科學(xué)家培養(yǎng)應(yīng)該是多類型的,包括學(xué)位培養(yǎng)、科研人員培養(yǎng)和應(yīng)用人才培訓(xùn)。學(xué)位培養(yǎng)和科研人員培養(yǎng)的主要是在數(shù)據(jù)上做科學(xué)研究的人以及研究數(shù)據(jù)的人;而應(yīng)用人才培養(yǎng)的主要是從事商業(yè)數(shù)據(jù)分析的人。并且,不同類型人才的培養(yǎng)在整個(gè)知識(shí)體系結(jié)構(gòu)中的側(cè)重是不同的,其重點(diǎn)掌握的知識(shí)層次是有所劃分的,具體如下。
(1)學(xué)位培養(yǎng)
針對(duì)未來(lái)從事研究數(shù)據(jù)本身的人的學(xué)位培養(yǎng),應(yīng)該注重?cái)?shù)據(jù)基礎(chǔ)理論的訓(xùn)練,要求掌握各種數(shù)據(jù)技術(shù);針對(duì)未來(lái)從事在數(shù)據(jù)上做科學(xué)研究的人的學(xué)位培養(yǎng),則應(yīng)該注重學(xué)生對(duì)專業(yè)領(lǐng)域知識(shí)的掌握以及對(duì)領(lǐng)域數(shù)據(jù)學(xué)的培養(yǎng),提升在專業(yè)領(lǐng)域的數(shù)據(jù)能力。
(2)科研人員培養(yǎng)
主要是指獲得數(shù)據(jù)科學(xué)學(xué)位后,繼續(xù)從事科學(xué)研究活動(dòng)的人。這里指的從事科學(xué)研究活動(dòng),包括從事數(shù)據(jù)科學(xué)研究和從事社會(huì)科學(xué)或自然科學(xué)研究。他們已經(jīng)具備了學(xué)位培養(yǎng)期間的專業(yè)訓(xùn)練,需要進(jìn)一步提升他們的數(shù)據(jù)創(chuàng)新能力。
(3)應(yīng)用人才培訓(xùn)
主要針對(duì)從事商業(yè)數(shù)據(jù)分析的人才,這里包括獲得數(shù)據(jù)科學(xué)學(xué)位后從事商業(yè)數(shù)據(jù)分析的人以及未接受數(shù)據(jù)科學(xué)學(xué)位培養(yǎng)的社會(huì)人才,需要注重的是技能培訓(xùn),掌握大數(shù)據(jù)分析工具,例如Hadoop、Spark、MapReduce、Mahout等,熟悉大數(shù)據(jù)應(yīng)用案例。以開(kāi)展數(shù)據(jù)科學(xué)家訓(xùn)練營(yíng)或社會(huì)技能培訓(xùn)的方式開(kāi)展。
盡管國(guó)內(nèi)數(shù)據(jù)科學(xué)家的培養(yǎng)已經(jīng)起步,但值得注意的是,當(dāng)前數(shù)據(jù)科學(xué)家培養(yǎng)中遭遇的主要問(wèn)題是:獨(dú)立培養(yǎng)、缺乏交叉。在技能培訓(xùn)方面,更多的是讓受訓(xùn)者掌握數(shù)據(jù)分析工具,卻缺少數(shù)據(jù)科學(xué)家思維。總體而言,數(shù)據(jù)科學(xué)家培養(yǎng)的基礎(chǔ)條件缺乏,需要重視數(shù)據(jù)科學(xué)人才培養(yǎng)的基礎(chǔ)條件建設(shè),具體如下
● 計(jì)算條件:建設(shè)數(shù)據(jù)科學(xué)人才培養(yǎng)所需的計(jì)算能力,包括軟硬件環(huán)境。
● 數(shù)據(jù)條件:數(shù)據(jù)是資源,也是數(shù)據(jù)科學(xué)人才培養(yǎng)的核心,需要建設(shè)豐富的數(shù)據(jù)資源環(huán)境。
● 師資條件:這是目前相當(dāng)缺乏的數(shù)據(jù)科學(xué)人才培養(yǎng)資源,也是影響未來(lái)數(shù)據(jù)科學(xué)人才培養(yǎng)成果的關(guān)鍵。
4 復(fù)旦大學(xué)探索實(shí)踐
上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室(依托復(fù)旦大學(xué))在數(shù)據(jù)科學(xué)家培養(yǎng)方面起步早,主要思路是強(qiáng)調(diào)數(shù)據(jù)基礎(chǔ)、數(shù)據(jù)分析能力,注重超學(xué)科特色教育。目標(biāo)是培養(yǎng)具有深度的數(shù)據(jù)探索能力、扎實(shí)的數(shù)據(jù)挖掘技能以及掌握數(shù)據(jù)分析工具的數(shù)據(jù)人才,能夠?qū)?shù)據(jù)技術(shù)、理論和方法與實(shí)際應(yīng)用結(jié)合,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策。
復(fù)旦大學(xué)數(shù)據(jù)科學(xué)家培養(yǎng)體系建設(shè)已初見(jiàn)成效,主要的探索成果如下。
(1)系統(tǒng)化的培養(yǎng)體系
包括青年數(shù)據(jù)科學(xué)家交流計(jì)劃、數(shù)據(jù)科學(xué)家博士后計(jì)劃、數(shù)據(jù)科學(xué)家研究生計(jì)劃、數(shù)據(jù)科學(xué)家本科第二專業(yè)計(jì)劃、軟件工程碩士大數(shù)據(jù)方向培養(yǎng)計(jì)劃和數(shù)據(jù)科學(xué)家訓(xùn)練營(yíng)計(jì)劃、數(shù)據(jù)科學(xué)FIST課程計(jì)劃,涵蓋了數(shù)據(jù)科學(xué)家培養(yǎng)的各個(gè)方面,是目前國(guó)際上領(lǐng)先的系統(tǒng)化的數(shù)據(jù)科學(xué)家培養(yǎng)計(jì)劃。
(2)多學(xué)科的課程和師資隊(duì)伍
利用實(shí)驗(yàn)室多學(xué)科團(tuán)隊(duì)優(yōu)勢(shì),組織數(shù)據(jù)科學(xué)家培養(yǎng)課件的編寫,內(nèi)容涵蓋數(shù)學(xué)、計(jì)算機(jī)、金融、醫(yī)療、生物、管理、經(jīng)濟(jì)、新聞等多學(xué)科領(lǐng)域,圍繞數(shù)據(jù)科學(xué)家所需要的數(shù)學(xué)基礎(chǔ)、計(jì)算機(jī)技能、領(lǐng)域知識(shí)和實(shí)踐經(jīng)驗(yàn),設(shè)置課程和配置老師,使學(xué)生對(duì)數(shù)據(jù)科學(xué)的基本原理、方法、技術(shù)及應(yīng)用進(jìn)行深入的理解。
(3)雄厚的基礎(chǔ)設(shè)施
建設(shè)形成了近200 TB的各類數(shù)據(jù)資源,主要涵蓋:常用的科研實(shí)驗(yàn)數(shù)據(jù)集;世界主要語(yǔ)種語(yǔ)料庫(kù);交通、醫(yī)療、生物、證券期貨、社交網(wǎng)絡(luò)與輿情、互聯(lián)網(wǎng)營(yíng)銷、公共設(shè)施安全、天文和遙感等應(yīng)用領(lǐng)域的數(shù)據(jù)資源;208個(gè)CPU核心,4 032 GB內(nèi)存;1 081 TB的數(shù)據(jù)存儲(chǔ)能力;48個(gè)萬(wàn)兆以太網(wǎng)口、144個(gè)吉比特以太網(wǎng)口接入能力;30個(gè)公網(wǎng)地址。
5 結(jié)束語(yǔ)
數(shù)據(jù)的生產(chǎn)、存儲(chǔ)、管理和分析已成為常態(tài)工作。大數(shù)據(jù)催生了數(shù)據(jù)科學(xué)人才的需求,數(shù)據(jù)科學(xué)為各行各業(yè)革命性的變革提供數(shù)據(jù)方法。掌握數(shù)據(jù)科學(xué)的理論基礎(chǔ)、數(shù)據(jù)技術(shù)的研發(fā)和科學(xué)研究的數(shù)據(jù)方法,有助于科學(xué)研究的方法創(chuàng)新和能力提高,有助于將數(shù)據(jù)技術(shù)與應(yīng)用結(jié)合產(chǎn)生經(jīng)濟(jì)效益,有助于數(shù)據(jù)產(chǎn)業(yè)的培育和發(fā)展。通過(guò)分析數(shù)據(jù)科學(xué)人才培養(yǎng)現(xiàn)狀,指出數(shù)據(jù)科學(xué)并不是簡(jiǎn)單的學(xué)科交叉,應(yīng)該基于并和所有學(xué)科相關(guān);分析數(shù)據(jù)科學(xué)學(xué)科構(gòu)成,給出數(shù)據(jù)科學(xué)系統(tǒng)知識(shí)結(jié)構(gòu),提出超學(xué)科數(shù)據(jù)人才培養(yǎng)體系,實(shí)現(xiàn)以團(tuán)隊(duì)培養(yǎng)為主的數(shù)據(jù)人才培養(yǎng)模式向培養(yǎng)具有數(shù)據(jù)能力的人(而非團(tuán)隊(duì))為目標(biāo)的培養(yǎng)模式轉(zhuǎn)變。
參考文獻(xiàn):
[1] ZHU Y Y, ZHONG N, XIONG Y. Data explosion, data nature and dataology[C]// International Conference on Brain Informatics, October 22-24, 2009, Beijing, China. New York: Springer, 2009: 147-158.
[2] 朱揚(yáng)勇, 熊赟. 數(shù)據(jù)學(xué)[M]. 上海: 復(fù)旦大學(xué)出版社, 2009.
ZHU Y Y, XIONG Y. Dataology and data science[M]. Shanghai: Fudan University Press, 2009.
[3] 上海市信息化專家委員會(huì). 專家論城市信息化[M]//朱揚(yáng)勇, 熊赟. 數(shù)據(jù)資源保護(hù)與開(kāi)發(fā)利用. 上海: 上海科技文獻(xiàn)出版社,2008: 133-137.
Shanghai Informationalization Expert Committee. Expert forum on urban informationalization[M]//ZHU Y Y, XIONG Y. Protection and utilization of data resources. Shanghai: Shanghai Scientific & Technical Publishers, 2008: 133-137.
[4] 朱揚(yáng)勇. 數(shù)據(jù)科學(xué)與數(shù)據(jù)產(chǎn)業(yè)[J]. 科技促進(jìn)發(fā)展, 2014, 10(1): 72-75.
ZHU Y Y. Data science and data industry[J]. Science & Technology for Development, 2014, 10(1): 72-75.
[5] 朱揚(yáng)勇, 熊赟. 大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用[J]. 大數(shù)據(jù), 2015007.
ZHU Y Y, XIONG Y. Defining big data[J]. Big Data Research, 2015007.
[6] McKinsey Global Institute. Big data: the next frontier for innovation, competition, and productivity[R]. [S.l]: McKinsey Global Institute, 2011.
[7] NAUR P. The science of datalogy[J]. Communications of the ACM, 1966, 9(7): 485.
[8] CLEVELAND W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International Statistical Review, 2001, 69(1): 21-26.
[9] ZHU Y Y, XIONG Y. Towards data science[J]. Data Science Journal, 2015, 14(8): 1-7.
[10] CODATA中國(guó)全國(guó)委員會(huì). 大數(shù)據(jù)時(shí)代的科研活動(dòng)[M]// 朱揚(yáng)勇, 熊赟. 數(shù)據(jù)科學(xué)發(fā)展與展望. 北京: 科學(xué)出版社, 2014: 188-198.
Chinese National Committee for CODATA. Scientific discovery in big data era[M]// ZHU Y Y, XIONG Y. Research progress and prospect for data science. Beijing: Science Press, 2014: 188-198.
[11] BASARAB N. Transdisciplinarity: theory and practice[M]. Cresskill: Hampton Press, 2008.
朱揚(yáng)勇(1963-),男,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、學(xué)術(shù)委員會(huì)主任,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護(hù)和利用,2009年發(fā)表了數(shù)據(jù)科學(xué)論文“Data explosion, data nature and dataology”,并出版專著《數(shù)據(jù)學(xué)》,對(duì)數(shù)據(jù)科學(xué)進(jìn)行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。第462次香山科學(xué)會(huì)議“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的理論問(wèn)題探索”的執(zhí)行主席。《大數(shù)據(jù)技術(shù)與應(yīng)用叢書(shū)》主編。目前研究興趣為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。
熊贇(1980-),女,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項(xiàng)目負(fù)責(zé)人主持國(guó)家自然科學(xué)基金、上海市科委發(fā)展基金以及企業(yè)合作項(xiàng)目。相關(guān)研究成果在本領(lǐng)域國(guó)際權(quán)威期刊或會(huì)議發(fā)表論文30余篇,出版著作3本。目前研究興趣為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。
相關(guān)閱讀:
大數(shù)據(jù)人才缺口將達(dá)150萬(wàn)人
大數(shù)據(jù)行業(yè)火熱,不過(guò)與之相比從業(yè)人才缺口的現(xiàn)實(shí)冰冷。8月5日,清華大學(xué)數(shù)據(jù)科學(xué)院與大數(shù)據(jù)公司Cloudera宣布合作,培訓(xùn)未來(lái)的數(shù)據(jù)專業(yè)人才,解決國(guó)內(nèi)大數(shù)據(jù)行業(yè)人才稀缺困境。
國(guó)際數(shù)據(jù)公司IDC預(yù)測(cè),到2020年,企業(yè)基于大數(shù)據(jù)計(jì)算分析平臺(tái)的支出將突破5000億美元,大數(shù)據(jù)解決方案在未來(lái)四年中,幫助全球企業(yè)分享大約1.6萬(wàn)億美元新增收入的數(shù)據(jù)紅利。隨著數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,我國(guó)需要更多的數(shù)據(jù)人才。數(shù)聯(lián)尋英近日發(fā)布的首份《大數(shù)據(jù)人才報(bào)告》顯示,目前全國(guó)大數(shù)據(jù)人才只有46萬(wàn),未來(lái)3到5年人才缺口達(dá)150萬(wàn)之多。
記者發(fā)現(xiàn),在招聘市場(chǎng)上,數(shù)據(jù)人才的薪酬也顯示了其“熱度”。阿里巴巴數(shù)字化客戶運(yùn)營(yíng)平臺(tái)首席構(gòu)架師周芳雷舉例,在一些招聘網(wǎng)站上搜索“數(shù)據(jù)分析師”,一般有3到5年工作經(jīng)驗(yàn)的數(shù)據(jù)分析師年薪可以達(dá)到50萬(wàn)元。但在市場(chǎng)上招聘3年以上有經(jīng)驗(yàn)的數(shù)據(jù)人才非常困難,高校教學(xué)仍處于起步階段,因此清華大學(xué)數(shù)科院等高校機(jī)構(gòu),紛紛與Cloudera這樣的大數(shù)據(jù)公司開(kāi)展合作,推進(jìn)人才培養(yǎng)。
注:本文來(lái)源大數(shù)據(jù)期刊、北京日?qǐng)?bào)。版權(quán)著作權(quán)屬原創(chuàng)者所有。數(shù)據(jù)觀整理分享此文并非商業(yè)用途,以上內(nèi)容并不代表數(shù)據(jù)觀觀點(diǎn),如涉著作權(quán)等事宜請(qǐng)聯(lián)系小編更正。數(shù)據(jù)觀微信公眾號(hào)(ID:cbdioreview) ,欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊,可搜索數(shù)據(jù)觀(中國(guó)大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.cbdio.com)進(jìn)入查看。
推薦閱讀:
?點(diǎn)擊標(biāo)題即可直接進(jìn)入閱讀文章(數(shù)據(jù)觀小編:Fynlch)
●一份來(lái)自“大數(shù)據(jù)”的自我介紹英國(guó)科技資訊有哪些期刊!
推薦理由:該篇文章是上周發(fā)布的一篇小文,現(xiàn)在雖不再是探討大數(shù)據(jù)概念的初期,但無(wú)論怎樣,這算得上是一篇比較輕松、易懂的文章。
●《云計(jì)算工程師必備技能圖譜》(高清大圖)
推薦理由:該圖譜文內(nèi)還做了跳轉(zhuǎn)鏈接到它的配套版《大數(shù)據(jù)工程師必備技能圖譜》(高清大圖),圖譜做得相對(duì)精細(xì),是個(gè)很好的學(xué)習(xí)導(dǎo)圖,值得收藏!
●2016中國(guó)云計(jì)算500強(qiáng)(Cloud500)榜單發(fā)布
推薦理由:榜單是上周發(fā)布的,這500家公司是國(guó)內(nèi)最具實(shí)力的云計(jì)算公司的代表,可供參考!
●2016年《中國(guó)大數(shù)據(jù)產(chǎn)業(yè)地圖》發(fā)布
推薦理由:該地圖是對(duì)中國(guó)大數(shù)據(jù)產(chǎn)業(yè)鏈的深度分析,根據(jù)企業(yè)架構(gòu)連續(xù)系列、大數(shù)據(jù)技術(shù)框架等方法繪制而成。
●《大數(shù)據(jù)服務(wù)行業(yè)研究報(bào)告》(完整版PPT)
推薦理由:報(bào)告共分為三個(gè)部分,包括大數(shù)據(jù)行業(yè)概述&發(fā)展現(xiàn)狀、通用型大數(shù)據(jù)服務(wù)分析以及大數(shù)據(jù)在垂直領(lǐng)域的應(yīng)用。
●《大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書(shū)(2016)》(完整版PPT)
推薦理由:很多讀者都在詢問(wèn)這個(gè)白皮書(shū)的下載方式,其實(shí)該白皮書(shū)直接在微信上點(diǎn)擊圖片就可以放大閱讀,或者點(diǎn)擊閱讀原文進(jìn)入數(shù)據(jù)觀網(wǎng)站查看網(wǎng)頁(yè)版。讀者反響很好,有讀者留言表示看后受益匪淺,所以再次推薦給大家。
●干貨丨大數(shù)據(jù)基礎(chǔ)術(shù)語(yǔ)精粹來(lái)襲
推薦理由:DMP英國(guó)科技資訊有哪些期刊?DSP英國(guó)科技資訊有哪些期刊?SaaS?Paas?HaaS?我天這是說(shuō)的什么,外行人和初學(xué)者都是懵的吧?以下為您帶來(lái)49例大數(shù)據(jù)基礎(chǔ)術(shù)語(yǔ),一起來(lái)學(xué)習(xí)吧。即便不是學(xué)習(xí)所用,了解了解也是可以的!
●2016中國(guó)大數(shù)據(jù)企業(yè)排行榜發(fā)布(完整版PPT)
推薦理由:本次發(fā)布的2016年《中國(guó)大數(shù)據(jù)企業(yè)排行榜》是2015年發(fā)布以來(lái)的又一次全面更新,算是大數(shù)據(jù)行業(yè)比較受關(guān)注的大事了,排行及細(xì)分都有所講究,值得了解。
●《中國(guó)數(shù)谷周刊》第9期:到2018年,貴陽(yáng)大數(shù)據(jù)走廊基本形成
推薦理由:我們的數(shù)谷周刊至今已做了9期。周刊立足貴陽(yáng),放眼全球,既有國(guó)家級(jí)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展聚集區(qū)貴陽(yáng)的探索,也有全球大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的前沿。各位讀者有好的建議和意見(jiàn)都可以在數(shù)據(jù)觀微信后臺(tái)留言哦!
●《國(guó)家信息化發(fā)展戰(zhàn)略綱要》發(fā)布:將建數(shù)據(jù)統(tǒng)一開(kāi)放門戶(附全文)
推薦理由:該《綱要》是規(guī)范和指導(dǎo)未來(lái)10年國(guó)家信息化發(fā)展的綱領(lǐng)性文件,小編在文內(nèi)附上了導(dǎo)讀、視頻、圖說(shuō)、解讀和全文,比較全面和完整,值得細(xì)讀。