全面攻略指南,熱門游戲應有盡有,獨家秘籍解析


朱揚勇1,2英國科技資訊有哪些期刊,熊贇1,2
1.復旦大學計算機科學技術(shù)學院,上海200433;2.上海市數(shù)據(jù)科學重點實驗室,上海200433
摘要:大數(shù)據(jù)時代,最熱門的職業(yè)是數(shù)據(jù)科學家(data scientist),而不是傳統(tǒng)的信息科學家,也不是大數(shù)據(jù)工程師。大數(shù)據(jù)熱潮促進了數(shù)據(jù)科學(data science)研究進入快速發(fā)展期,數(shù)據(jù)科學家的培養(yǎng)也受到廣泛重視,越來越多的大學啟動數(shù)據(jù)科學學位培養(yǎng)計劃,但值得注意的是,當前數(shù)據(jù)科學家培養(yǎng)的基礎條件缺乏,其知識結(jié)構(gòu)、學科體系、人才培養(yǎng)計劃尚未建立。結(jié)合大數(shù)據(jù)時代的人才要求,給出了科學、系統(tǒng)的數(shù)據(jù)科學人才知識體系,提出了超學科、多類型的培養(yǎng)模式。
關(guān)鍵詞:數(shù)據(jù)科學;數(shù)據(jù)科學家;人才培養(yǎng);大數(shù)據(jù)
中圖分類號:TP399 文獻標識碼:A
doi:10.11959/j.issn.2096-0271.2016035
論文引用格式:朱揚勇,熊贇. 大數(shù)據(jù)時代的數(shù)據(jù)科學家培養(yǎng)[J]. 大數(shù)據(jù), 2016, 2(3): 106-112.
ZHU Y Y, XIONG Y. Training data scientists in the era of big data[J]. Big Data Research, 2016, 2(3): 106-112.
Training data scientists in the era of big data
ZHU Yangyong1,2, XIONG Yun1,2
1. School of Computer Science, Fudan University, Shanghai 200433, China
2. Shanghai Key Lab of Data Science, Shanghai 200433, China
Abstract:In the age of big data, data scientist has become a hot occupation, supplanting traditional information scientist and big data engineer. Big data boom has been pushing data science research into fast development phase. How to train data scientists has been paid widespread attentions. Many universities launched data science degree training plans. The current situations in data scientists training were analyzed. The achievements of training data scientists in Fudan University were summarized. A systematical data scientists training plan was proposed.
Key words:data science, data scientist, talents training, big data
1 引言
數(shù)據(jù)是網(wǎng)絡空間(cyberspace)的唯一存在,網(wǎng)絡空間的數(shù)據(jù)呈現(xiàn)出不可控、未知性、多樣性、復雜性等自然界的特征,網(wǎng)絡空間的所有數(shù)據(jù)組成了數(shù)據(jù)界(data nature)[1,2]。2008年,朱揚勇等指出“數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,其重要性越來越顯現(xiàn),在本世紀有可能超過石油、煤炭、礦產(chǎn),成為最重要的人類資源”[3]。數(shù)據(jù)資源作為一種基礎性、戰(zhàn)略性資源得到了空前關(guān)注,數(shù)據(jù)資源的開發(fā)利用被許多國家提高到了戰(zhàn)略高度,紛紛出臺大數(shù)據(jù)戰(zhàn)略。
提高數(shù)據(jù)資源開發(fā)利用水平、保護國家的戰(zhàn)略資源是增強我國綜合國力和國際競爭力的必然選擇[3]。對數(shù)據(jù)資源的開發(fā)利用已形成數(shù)據(jù)產(chǎn)業(yè),其產(chǎn)業(yè)鏈主要包括:從網(wǎng)絡空間獲取數(shù)據(jù)并進行整合、加工和生產(chǎn);數(shù)據(jù)產(chǎn)品傳播、流通和交易[4]。代表性企業(yè)有Google、Facebook、百度、萬得資訊、萬方數(shù)據(jù)等。在這個新的生產(chǎn)鏈上急需數(shù)據(jù)人才。不僅如此,越來越多的領(lǐng)域發(fā)現(xiàn)數(shù)據(jù)的價值,大數(shù)據(jù)[5]對人類社會發(fā)展、科學研究、經(jīng)濟建設、文化生活的各個領(lǐng)域正在產(chǎn)生革命性的影響。于是,數(shù)據(jù)科學家作為一種最熱門的職業(yè)在工業(yè)界已經(jīng)受到追捧,例如電商、廣告媒體、汽車制造行業(yè)等都在尋找數(shù)據(jù)科學家為其探尋數(shù)據(jù)價值,贏取利潤高點。
早在2011年,McKinsey公司預測到2018年,僅在美國本土就可能面臨缺乏19萬具備深入分析數(shù)據(jù)能力人才的情況,同時具備通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)管理人員和分析師也有150萬人的缺口[6];美國專業(yè)招聘公司羅致恒富(Robert Halt)公布的《2015薪資指南(2015 salary guide)》也已把大數(shù)據(jù)人才列為薪資漲幅最大的六大行業(yè)之一。
目前,數(shù)據(jù)人才主要來自IT、管理、與企業(yè)相關(guān)的專業(yè)領(lǐng)域等各個方向,通過相互合作形成數(shù)據(jù)分析決策。但是,情況正在發(fā)生變化,例如,Google Translate團隊在一次招聘中僅招收多名計算機科學家,卻沒有招收一名語言學家,并且其部門主管Franz Josef Och是計算機科學家,并不精通語言學。這個案例說明,培養(yǎng)數(shù)據(jù)科學家并不是將幾種技能的人簡單地聚集成一個團隊,而是應該探索一種轉(zhuǎn)型模式,Google Translate團隊中這些計算機背景的人才是正在向真正數(shù)據(jù)科學家轉(zhuǎn)型的新型人才。
然而,目前數(shù)據(jù)科學人才培養(yǎng)、數(shù)據(jù)科學學科建設等剛剛起步,尚未形成持續(xù)為社會培養(yǎng)和輸送不同層次數(shù)據(jù)人才的教育培養(yǎng)體系。面對大數(shù)據(jù)時代數(shù)據(jù)人才緊缺現(xiàn)狀,大學有必要盡快研究數(shù)據(jù)科學學科構(gòu)成和新型數(shù)據(jù)人才的培養(yǎng)體系,開設數(shù)據(jù)科學學科專業(yè),提升人才培養(yǎng)和輸出能力。
2 數(shù)據(jù)科學家培養(yǎng)現(xiàn)狀
大數(shù)據(jù)時代,最熱門的職業(yè)是數(shù)據(jù)科學家,而不是傳統(tǒng)的信息科學家,也不是大數(shù)據(jù)工程師。在此之前,大學沒有設置數(shù)據(jù)科學學科和專業(yè)。近幾年,數(shù)據(jù)科學家培養(yǎng)開始受到大學的重視,并快速發(fā)展。
2010年起,各國大學開始了數(shù)據(jù)科學人才培養(yǎng)工作。美國哥倫比亞大學從2011年起開設《數(shù)據(jù)科學導論》課程,2013年起開設《應用數(shù)據(jù)科學》課程以及“數(shù)據(jù)科學專業(yè)成就認證”培訓項目,并從2014年起設立碩士學位,2015年起設立博士學位;美國加州大學伯克利分校從2011年起開設《數(shù)據(jù)科學導論》課程,并從2012年起開設《數(shù)據(jù)科學和分析》課程;美國伊利諾伊大學香檳分校從2011年起舉辦“數(shù)據(jù)科學暑期研究班”;美國紐約大學從2013年秋季起設立“數(shù)據(jù)科學”碩士學位;美國華盛頓大學從2013年5月起開設《數(shù)據(jù)科學導論》課程,并對修滿數(shù)據(jù)科學相關(guān)課程學分的學生頒發(fā)數(shù)據(jù)科學證書;美國芝加哥大學開設夏季數(shù)據(jù)科學培訓課程;美國南加州大學設立“數(shù)據(jù)科學”碩士學位;美國雪城大學也提供數(shù)據(jù)科學高級研究證書培訓項目;英國鄧迪大學從2013年起設立“數(shù)據(jù)科學”科學碩士學位。
在中國,復旦大學從2007年起開設數(shù)據(jù)科學討論班,2010年開始招收數(shù)據(jù)科學博士研究生,并從2013年起開設研究生課程《數(shù)據(jù)科學》,2014年開始舉辦數(shù)據(jù)科學家訓練營,2015年開始正式招收數(shù)據(jù)科學專業(yè)研究生以及本科第二專業(yè)學位;香港中文大學自2008年起設立了“數(shù)據(jù)科學商業(yè)統(tǒng)計”科學碩士學位;清華大學于2014年推出大數(shù)據(jù)碩士項目,并于2014年9月開始招收研究生。
盡管數(shù)據(jù)科學的學位項目大量出現(xiàn),但是,對數(shù)據(jù)科學家的培養(yǎng)還缺少統(tǒng)一的認識,具體表現(xiàn)在兩個方面。
?。?)數(shù)據(jù)科學缺少統(tǒng)一的認識,研究機構(gòu)發(fā)展迅速,但學科體系還沒有建立
事實上,數(shù)據(jù)科學已經(jīng)發(fā)展了很多年,遠比大數(shù)據(jù)早,1966年,Peter Naur建議計算機科學應該被稱為Datalogy,即“關(guān)于研究數(shù)據(jù)使用和本質(zhì)科學”[7]。2009年,朱揚勇等對數(shù)據(jù)科學進行了定義,并引入Dataology一詞[1]。2008年《Nature》、2011年《Science》都出版了關(guān)于數(shù)據(jù)研究的專輯,隨后Microsoft、IBM、Google等公司都開始了大數(shù)據(jù)技術(shù)研究,大數(shù)據(jù)熱潮促進了數(shù)據(jù)科學研究進入快速發(fā)展期。國內(nèi)外紛紛成立數(shù)據(jù)科學研究機構(gòu),例如,美國哥倫比亞大學數(shù)據(jù)科學和工程研究院、美國紐約大學數(shù)據(jù)科學研究中心、英國帝國理工學院數(shù)據(jù)科學研究院、中國科學院虛擬經(jīng)濟和數(shù)據(jù)科學研究中心、上海市數(shù)據(jù)科學重點實驗室、清華大學數(shù)據(jù)科學研究院、中山大學數(shù)據(jù)科學學院、華東師范大學數(shù)據(jù)科學與工程研究院等。
然而,數(shù)據(jù)科學還缺少統(tǒng)一的認識。當前,數(shù)據(jù)科學概念和觀點出現(xiàn)在科學數(shù)據(jù)處理領(lǐng)域、計算機科學領(lǐng)域、統(tǒng)計學領(lǐng)域、商業(yè)智能應用等方面。這些概念和觀點的基本思想是:認為數(shù)據(jù)科學是“從領(lǐng)域數(shù)據(jù)中獲取知識,為現(xiàn)有的科學研究、管理決策提供服務”。這些工作還不足以形成一個新的科學,因為它們的研究對象仍然是現(xiàn)實中的事物,并且相應的科學問題也都是現(xiàn)有科學領(lǐng)域的問題,數(shù)據(jù)科學學科體系尚未建立。
?。?)數(shù)據(jù)科學家的知識結(jié)構(gòu)還沒有形成統(tǒng)一框架
信息化是一個生產(chǎn)數(shù)據(jù)的過程。目前,幾乎所有領(lǐng)域都已經(jīng)或正在信息化,都或多或少地使用計算機來解決遇到的數(shù)據(jù)存儲和數(shù)據(jù)計算問題,計算機科學與技術(shù)無疑成為數(shù)據(jù)科學家的基本技能?,F(xiàn)有的數(shù)據(jù)科學家很大一部分來自于計算機學科,具備計算機科學相關(guān)專業(yè)背景,掌握處理大數(shù)據(jù)所必需的Hadoop、Spark、Mahout等大規(guī)模并行處理技術(shù)、數(shù)據(jù)挖掘與機器學習知識。但是,數(shù)據(jù)科學的研究對象、目的和方法等都與計算機科學、信息科學和知識科學有本質(zhì)的不同[1,2],僅僅具備這些計算機技能并不能被稱為一個真正的數(shù)據(jù)科學家。
科學研究的對象也信息化了,變成了計算機中的數(shù)據(jù),并且需要處理的數(shù)據(jù)越來越多,形成了專門的科學數(shù)據(jù)處理領(lǐng)域,于是有了生物信息學、地理信息學、行為信息學等。科學家可以通過研究數(shù)據(jù)來研究自然和行為,數(shù)據(jù)科學為科學研究提供了數(shù)據(jù)方法。于是,數(shù)據(jù)科學家的培養(yǎng)逐步發(fā)展為多領(lǐng)域聯(lián)合培養(yǎng)。在培養(yǎng)過程中,領(lǐng)域?qū)<抑攸c是學習如何將領(lǐng)域業(yè)務需求轉(zhuǎn)化為數(shù)據(jù)問題交給數(shù)據(jù)分析人員,并不關(guān)注數(shù)據(jù)處理細節(jié);而數(shù)據(jù)分析人員注重對領(lǐng)域?qū)<宜o的數(shù)據(jù)集進行處理,缺乏對領(lǐng)域知識的理解。這是目前數(shù)據(jù)科學家培養(yǎng)的常見方式,但卻缺乏系統(tǒng)性。
3 如何培養(yǎng)數(shù)據(jù)科學家
自計算機發(fā)明以來,人們一直在處理和使用數(shù)據(jù),主要工作是將現(xiàn)實的東西用計算機數(shù)據(jù)表示,存儲在計算機中,然后管理這些數(shù)據(jù),并在需要時使用它們。隨著數(shù)據(jù)量的不斷、快速增長,對數(shù)據(jù)的處理分析變成了科學研究、商業(yè)應用的一個重要環(huán)節(jié),而這樣的數(shù)據(jù)分析工作往往依靠人的創(chuàng)造性,于是從事商業(yè)數(shù)據(jù)分析、科學數(shù)據(jù)分析的人被稱為數(shù)據(jù)科學家。近年來,對數(shù)據(jù)分析理論和技術(shù)的一些共性需求導致對數(shù)據(jù)本身的研究,例如,分析數(shù)據(jù)本身的現(xiàn)象和規(guī)律;研究數(shù)據(jù)每年的增長規(guī)律;預測10年后網(wǎng)絡空間數(shù)據(jù)的規(guī)模等,這樣就出現(xiàn)了專門研究數(shù)據(jù)自身規(guī)律和現(xiàn)象的數(shù)據(jù)科學家。
上述“從事商業(yè)(業(yè)務)數(shù)據(jù)分析的人”、“從事科學數(shù)據(jù)分析的人”、“研究數(shù)據(jù)的人”是目前被稱為數(shù)據(jù)科學家的3類人。但在解決一個大數(shù)據(jù)分析問題時,常常是由來自于數(shù)學與統(tǒng)計、計算機和業(yè)務領(lǐng)域的一個數(shù)據(jù)科學家團隊完成。這說明,目前在大學沒有什么專業(yè)具備了數(shù)據(jù)科學家所需要的知識,這是一個新問題。
下面,以精準營銷與數(shù)據(jù)相關(guān)的業(yè)務為例,討論數(shù)據(jù)科學家做什么工作。
簡單地將一個互聯(lián)網(wǎng)精準營銷描述為:“將商品推薦給可能購買的人群”。其具體實施則涉及工程、技術(shù)和科學3個層次的工作,見表1。
表1 數(shù)據(jù)科學家做什么(以精準營銷為例)
?。?)工程實施
作為互聯(lián)網(wǎng)廣告,當用戶上網(wǎng)登錄頁面時,需要在不到100 ms的時間內(nèi)將廣告彈出,這主要是一個工程實施的問題。
?。?)業(yè)務模型和技術(shù)手段
精準營銷的業(yè)務模型包括商品分類和人群分類,對應的技術(shù)手段主要是聚類分析等數(shù)據(jù)挖掘技術(shù)。
?。?)科學研究
聚類分析的核心是相似性及其計算。如何確定兩個客戶是相似的,這是一個科學問題,需要科學家創(chuàng)造性地勞動。不同的相似性設計會導致不同的聚類結(jié)果,不同的聚類結(jié)果會導致不同的營銷精準性,最后導致營銷效果,即商品銷售。
“精準營銷”的例子也說明了為什么叫做數(shù)據(jù)科學家。因為這些人是在從事創(chuàng)造性的工作,是在發(fā)現(xiàn)數(shù)據(jù)的現(xiàn)象和規(guī)律,而不是從事制造性工作,英國科技資訊有哪些期刊他們的工作結(jié)果會有不確定性,因此是一項科學工作,所以他們是數(shù)據(jù)科學家。

2014年,Cleveland W S提出了一個數(shù)據(jù)科學行動計劃,指出了數(shù)據(jù)科學需要發(fā)展的重要方面(跨領(lǐng)域數(shù)據(jù)分析能力、數(shù)據(jù)建模和方法、數(shù)據(jù)計算能力、學科規(guī)劃、工具、基礎理論)[8]。筆者認為,數(shù)據(jù)科學是研究數(shù)據(jù)界的科學或關(guān)于數(shù)據(jù)的科學[1,2,9,10],主要由兩部分組成:一是研究數(shù)據(jù)本身的規(guī)律和現(xiàn)象,解決關(guān)于數(shù)據(jù)界的科學問題,這部分研究工作并不考慮數(shù)據(jù)的現(xiàn)實含義,只研究數(shù)據(jù)自身的現(xiàn)象和規(guī)律,包括數(shù)據(jù)的歷史、進化和遷移等;二是研究數(shù)據(jù)表示的現(xiàn)實含義的現(xiàn)象和規(guī)律,即通過研究數(shù)據(jù)來研究現(xiàn)實,是指數(shù)據(jù)科學為傳統(tǒng)科學研究提供了方法,其目的在于揭示自然界和人類行為的現(xiàn)象和規(guī)律。相應地,數(shù)據(jù)科學的主要研究內(nèi)容包括:數(shù)據(jù)科學基礎理論研究,如數(shù)據(jù)相似性、數(shù)據(jù)測度、數(shù)據(jù)代數(shù)、數(shù)據(jù)實驗、數(shù)據(jù)分類、數(shù)據(jù)百科全書等;數(shù)據(jù)界探索,如數(shù)據(jù)界有多大、全球數(shù)據(jù)如何增長等科學問題;科學研究的數(shù)據(jù)方法,如數(shù)據(jù)方法的框架;數(shù)據(jù)技術(shù)研究,如數(shù)據(jù)分析、數(shù)據(jù)探索、數(shù)據(jù)挖掘、數(shù)據(jù)偽裝和辨?zhèn)?、領(lǐng)域驅(qū)動的數(shù)據(jù)技術(shù)(如生物信息學、業(yè)務智能(business intelligent,BI)和社會計算等)。
數(shù)據(jù)科學學科結(jié)構(gòu)布局與數(shù)據(jù)科學的研究內(nèi)容是對應的:將數(shù)據(jù)科學基礎理論研究為基礎,尤其是數(shù)據(jù)相似性理論研究是數(shù)據(jù)研究的關(guān)鍵和基礎,這是第一類數(shù)據(jù)科學家——“研究數(shù)據(jù)的人”的基礎知識結(jié)構(gòu);數(shù)據(jù)界探索作為數(shù)據(jù)科學的科學問題的探索,并且與社會科學、自然科學形成差異和支持,突出數(shù)據(jù)科學學科特色,這是第一類數(shù)據(jù)科學家——“研究數(shù)據(jù)的人”必備的知識結(jié)構(gòu);科學研究的數(shù)據(jù)方法是對現(xiàn)有科學研究創(chuàng)新研究方法,是數(shù)據(jù)科學學科的重點內(nèi)容,涉及各個科學研究領(lǐng)域方向,這是第二類數(shù)據(jù)科學家——“從事科學數(shù)據(jù)分析的人”必備的知識結(jié)構(gòu);數(shù)據(jù)技術(shù)研究是數(shù)據(jù)科學學科的技術(shù)支撐和應用體現(xiàn),這是第三類數(shù)據(jù)科學家——“從事商業(yè)(業(yè)務)數(shù)據(jù)分析的人”必備的知識結(jié)構(gòu)。因此,數(shù)據(jù)科學在人才培養(yǎng)方面將打破原有的學科限制,數(shù)據(jù)科學家需要的知識結(jié)構(gòu)是涵蓋和橫跨不同學科,融合多學科的研究方法,甚至取代并超越它們,是一種新的視角和一種新的學習體驗,即超學科[11]。
數(shù)據(jù)科學家培養(yǎng)應該是多類型的,包括學位培養(yǎng)、科研人員培養(yǎng)和應用人才培訓。學位培養(yǎng)和科研人員培養(yǎng)的主要是在數(shù)據(jù)上做科學研究的人以及研究數(shù)據(jù)的人;而應用人才培養(yǎng)的主要是從事商業(yè)數(shù)據(jù)分析的人。并且,不同類型人才的培養(yǎng)在整個知識體系結(jié)構(gòu)中的側(cè)重是不同的,其重點掌握的知識層次是有所劃分的,具體如下。
?。?)學位培養(yǎng)
針對未來從事研究數(shù)據(jù)本身的人的學位培養(yǎng),應該注重數(shù)據(jù)基礎理論的訓練,要求掌握各種數(shù)據(jù)技術(shù);針對未來從事在數(shù)據(jù)上做科學研究的人的學位培養(yǎng),則應該注重學生對專業(yè)領(lǐng)域知識的掌握以及對領(lǐng)域數(shù)據(jù)學的培養(yǎng),提升在專業(yè)領(lǐng)域的數(shù)據(jù)能力。
?。?)科研人員培養(yǎng)
主要是指獲得數(shù)據(jù)科學學位后,繼續(xù)從事科學研究活動的人。這里指的從事科學研究活動,包括從事數(shù)據(jù)科學研究和從事社會科學或自然科學研究。他們已經(jīng)具備了學位培養(yǎng)期間的專業(yè)訓練,需要進一步提升他們的數(shù)據(jù)創(chuàng)新能力。
?。?)應用人才培訓
主要針對從事商業(yè)數(shù)據(jù)分析的人才,這里包括獲得數(shù)據(jù)科學學位后從事商業(yè)數(shù)據(jù)分析的人以及未接受數(shù)據(jù)科學學位培養(yǎng)的社會人才,需要注重的是技能培訓,掌握大數(shù)據(jù)分析工具,例如Hadoop、Spark、MapReduce、Mahout等,熟悉大數(shù)據(jù)應用案例。以開展數(shù)據(jù)科學家訓練營或社會技能培訓的方式開展。
盡管國內(nèi)數(shù)據(jù)科學家的培養(yǎng)已經(jīng)起步,但值得注意的是,當前數(shù)據(jù)科學家培養(yǎng)中遭遇的主要問題是:獨立培養(yǎng)、缺乏交叉。在技能培訓方面,更多的是讓受訓者掌握數(shù)據(jù)分析工具,卻缺少數(shù)據(jù)科學家思維。總體而言,數(shù)據(jù)科學家培養(yǎng)的基礎條件缺乏,需要重視數(shù)據(jù)科學人才培養(yǎng)的基礎條件建設,具體如下
● 計算條件:建設數(shù)據(jù)科學人才培養(yǎng)所需的計算能力,包括軟硬件環(huán)境。
● 數(shù)據(jù)條件:數(shù)據(jù)是資源,也是數(shù)據(jù)科學人才培養(yǎng)的核心,需要建設豐富的數(shù)據(jù)資源環(huán)境。
● 師資條件:這是目前相當缺乏的數(shù)據(jù)科學人才培養(yǎng)資源,也是影響未來數(shù)據(jù)科學人才培養(yǎng)成果的關(guān)鍵。
4 復旦大學探索實踐
上海市數(shù)據(jù)科學重點實驗室(依托復旦大學)在數(shù)據(jù)科學家培養(yǎng)方面起步早,主要思路是強調(diào)數(shù)據(jù)基礎、數(shù)據(jù)分析能力,注重超學科特色教育。目標是培養(yǎng)具有深度的數(shù)據(jù)探索能力、扎實的數(shù)據(jù)挖掘技能以及掌握數(shù)據(jù)分析工具的數(shù)據(jù)人才,能夠?qū)?shù)據(jù)技術(shù)、理論和方法與實際應用結(jié)合,實現(xiàn)數(shù)據(jù)驅(qū)動決策。
復旦大學數(shù)據(jù)科學家培養(yǎng)體系建設已初見成效,主要的探索成果如下。
?。?)系統(tǒng)化的培養(yǎng)體系
包括青年數(shù)據(jù)科學家交流計劃、數(shù)據(jù)科學家博士后計劃、數(shù)據(jù)科學家研究生計劃、數(shù)據(jù)科學家本科第二專業(yè)計劃、軟件工程碩士大數(shù)據(jù)方向培養(yǎng)計劃和數(shù)據(jù)科學家訓練營計劃、數(shù)據(jù)科學FIST課程計劃,涵蓋了數(shù)據(jù)科學家培養(yǎng)的各個方面,是目前國際上領(lǐng)先的系統(tǒng)化的數(shù)據(jù)科學家培養(yǎng)計劃。
?。?)多學科的課程和師資隊伍
利用實驗室多學科團隊優(yōu)勢,組織數(shù)據(jù)科學家培養(yǎng)課件的編寫,內(nèi)容涵蓋數(shù)學、計算機、金融、醫(yī)療、生物、管理、經(jīng)濟、新聞等多學科領(lǐng)域,圍繞數(shù)據(jù)科學家所需要的數(shù)學基礎、計算機技能、領(lǐng)域知識和實踐經(jīng)驗,設置課程和配置老師,使學生對數(shù)據(jù)科學的基本原理、方法、技術(shù)及應用進行深入的理解。
(3)雄厚的基礎設施
建設形成了近200 TB的各類數(shù)據(jù)資源,主要涵蓋:常用的科研實驗數(shù)據(jù)集;世界主要語種語料庫;交通、醫(yī)療、生物、證券期貨、社交網(wǎng)絡與輿情、互聯(lián)網(wǎng)營銷、公共設施安全、天文和遙感等應用領(lǐng)域的數(shù)據(jù)資源;208個CPU核心,4 032 GB內(nèi)存;1 081 TB的數(shù)據(jù)存儲能力;48個萬兆以太網(wǎng)口、144個吉比特以太網(wǎng)口接入能力;30個公網(wǎng)地址。
5 結(jié)束語
數(shù)據(jù)的生產(chǎn)、存儲、管理和分析已成為常態(tài)工作。大數(shù)據(jù)催生了數(shù)據(jù)科學人才的需求,數(shù)據(jù)科學為各行各業(yè)革命性的變革提供數(shù)據(jù)方法。掌握數(shù)據(jù)科學的理論基礎、數(shù)據(jù)技術(shù)的研發(fā)和科學研究的數(shù)據(jù)方法,有助于科學研究的方法創(chuàng)新和能力提高,有助于將數(shù)據(jù)技術(shù)與應用結(jié)合產(chǎn)生經(jīng)濟效益,有助于數(shù)據(jù)產(chǎn)業(yè)的培育和發(fā)展。通過分析數(shù)據(jù)科學人才培養(yǎng)現(xiàn)狀,指出數(shù)據(jù)科學并不是簡單的學科交叉,應該基于并和所有學科相關(guān);分析數(shù)據(jù)科學學科構(gòu)成,給出數(shù)據(jù)科學系統(tǒng)知識結(jié)構(gòu),提出超學科數(shù)據(jù)人才培養(yǎng)體系,實現(xiàn)以團隊培養(yǎng)為主的數(shù)據(jù)人才培養(yǎng)模式向培養(yǎng)具有數(shù)據(jù)能力的人(而非團隊)為目標的培養(yǎng)模式轉(zhuǎn)變。
參考文獻:
[1] ZHU Y Y, ZHONG N, XIONG Y. Data explosion, data nature and dataology[C]// International Conference on Brain Informatics, October 22-24, 2009, Beijing, China. New York: Springer, 2009: 147-158.
[2] 朱揚勇, 熊赟. 數(shù)據(jù)學[M]. 上海: 復旦大學出版社, 2009.
ZHU Y Y, XIONG Y. Dataology and data science[M]. Shanghai: Fudan University Press, 2009.
[3] 上海市信息化專家委員會. 專家論城市信息化[M]//朱揚勇, 熊赟. 數(shù)據(jù)資源保護與開發(fā)利用. 上海: 上海科技文獻出版社,2008: 133-137.
Shanghai Informationalization Expert Committee. Expert forum on urban informationalization[M]//ZHU Y Y, XIONG Y. Protection and utilization of data resources. Shanghai: Shanghai Scientific & Technical Publishers, 2008: 133-137.
[4] 朱揚勇. 數(shù)據(jù)科學與數(shù)據(jù)產(chǎn)業(yè)[J]. 科技促進發(fā)展, 2014, 10(1): 72-75.
ZHU Y Y. Data science and data industry[J]. Science & Technology for Development, 2014, 10(1): 72-75.
[5] 朱揚勇, 熊赟. 大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應用[J]. 大數(shù)據(jù), 2015007.
ZHU Y Y, XIONG Y. Defining big data[J]. Big Data Research, 2015007.
[6] McKinsey Global Institute. Big data: the next frontier for innovation, competition, and productivity[R]. [S.l]: McKinsey Global Institute, 2011.
[7] NAUR P. The science of datalogy[J]. Communications of the ACM, 1966, 9(7): 485.
[8] CLEVELAND W S. Data science: an action plan for expanding the technical areas of the field of statistics[J]. International Statistical Review, 2001, 69(1): 21-26.
[9] ZHU Y Y, XIONG Y. Towards data science[J]. Data Science Journal, 2015, 14(8): 1-7.
[10] CODATA中國全國委員會. 大數(shù)據(jù)時代的科研活動[M]// 朱揚勇, 熊赟. 數(shù)據(jù)科學發(fā)展與展望. 北京: 科學出版社, 2014: 188-198.
Chinese National Committee for CODATA. Scientific discovery in big data era[M]// ZHU Y Y, XIONG Y. Research progress and prospect for data science. Beijing: Science Press, 2014: 188-198.
[11] BASARAB N. Transdisciplinarity: theory and practice[M]. Cresskill: Hampton Press, 2008.
朱揚勇(1963-),男,博士,復旦大學計算機科學技術(shù)學院教授、學術(shù)委員會主任,上海市數(shù)據(jù)科學重點實驗室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護和利用,2009年發(fā)表了數(shù)據(jù)科學論文“Data explosion, data nature and dataology”,并出版專著《數(shù)據(jù)學》,對數(shù)據(jù)科學進行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。第462次香山科學會議“數(shù)據(jù)科學與大數(shù)據(jù)的理論問題探索”的執(zhí)行主席。《大數(shù)據(jù)技術(shù)與應用叢書》主編。目前研究興趣為數(shù)據(jù)科學、大數(shù)據(jù)。
熊贇(1980-),女,博士,復旦大學計算機科學技術(shù)學院教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項目負責人主持國家自然科學基金、上海市科委發(fā)展基金以及企業(yè)合作項目。相關(guān)研究成果在本領(lǐng)域國際權(quán)威期刊或會議發(fā)表論文30余篇,出版著作3本。目前研究興趣為數(shù)據(jù)科學、大數(shù)據(jù)。
相關(guān)閱讀:
大數(shù)據(jù)人才缺口將達150萬人
大數(shù)據(jù)行業(yè)火熱,不過與之相比從業(yè)人才缺口的現(xiàn)實冰冷。8月5日,清華大學數(shù)據(jù)科學院與大數(shù)據(jù)公司Cloudera宣布合作,培訓未來的數(shù)據(jù)專業(yè)人才,解決國內(nèi)大數(shù)據(jù)行業(yè)人才稀缺困境。
國際數(shù)據(jù)公司IDC預測,到2020年,企業(yè)基于大數(shù)據(jù)計算分析平臺的支出將突破5000億美元,大數(shù)據(jù)解決方案在未來四年中,幫助全球企業(yè)分享大約1.6萬億美元新增收入的數(shù)據(jù)紅利。隨著數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析等數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,我國需要更多的數(shù)據(jù)人才。數(shù)聯(lián)尋英近日發(fā)布的首份《大數(shù)據(jù)人才報告》顯示,目前全國大數(shù)據(jù)人才只有46萬,未來3到5年人才缺口達150萬之多。
記者發(fā)現(xiàn),在招聘市場上,數(shù)據(jù)人才的薪酬也顯示了其“熱度”。阿里巴巴數(shù)字化客戶運營平臺首席構(gòu)架師周芳雷舉例,在一些招聘網(wǎng)站上搜索“數(shù)據(jù)分析師”,一般有3到5年工作經(jīng)驗的數(shù)據(jù)分析師年薪可以達到50萬元。但在市場上招聘3年以上有經(jīng)驗的數(shù)據(jù)人才非常困難,高校教學仍處于起步階段,因此清華大學數(shù)科院等高校機構(gòu),紛紛與Cloudera這樣的大數(shù)據(jù)公司開展合作,推進人才培養(yǎng)。
注:本文來源大數(shù)據(jù)期刊、北京日報。版權(quán)著作權(quán)屬原創(chuàng)者所有。數(shù)據(jù)觀整理分享此文并非商業(yè)用途,以上內(nèi)容并不代表數(shù)據(jù)觀觀點,如涉著作權(quán)等事宜請聯(lián)系小編更正。數(shù)據(jù)觀微信公眾號(ID:cbdioreview) ,欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊,可搜索數(shù)據(jù)觀(中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.cbdio.com)進入查看。
推薦閱讀:
?點擊標題即可直接進入閱讀文章(數(shù)據(jù)觀小編:Fynlch)
●一份來自“大數(shù)據(jù)”的自我介紹英國科技資訊有哪些期刊!
推薦理由:該篇文章是上周發(fā)布的一篇小文,現(xiàn)在雖不再是探討大數(shù)據(jù)概念的初期,但無論怎樣,這算得上是一篇比較輕松、易懂的文章。
●《云計算工程師必備技能圖譜》(高清大圖)
推薦理由:該圖譜文內(nèi)還做了跳轉(zhuǎn)鏈接到它的配套版《大數(shù)據(jù)工程師必備技能圖譜》(高清大圖),圖譜做得相對精細,是個很好的學習導圖,值得收藏!
●2016中國云計算500強(Cloud500)榜單發(fā)布
推薦理由:榜單是上周發(fā)布的,這500家公司是國內(nèi)最具實力的云計算公司的代表,可供參考!
●2016年《中國大數(shù)據(jù)產(chǎn)業(yè)地圖》發(fā)布
推薦理由:該地圖是對中國大數(shù)據(jù)產(chǎn)業(yè)鏈的深度分析,根據(jù)企業(yè)架構(gòu)連續(xù)系列、大數(shù)據(jù)技術(shù)框架等方法繪制而成。
●《大數(shù)據(jù)服務行業(yè)研究報告》(完整版PPT)
推薦理由:報告共分為三個部分,包括大數(shù)據(jù)行業(yè)概述&發(fā)展現(xiàn)狀、通用型大數(shù)據(jù)服務分析以及大數(shù)據(jù)在垂直領(lǐng)域的應用。
●《大數(shù)據(jù)標準化白皮書(2016)》(完整版PPT)
推薦理由:很多讀者都在詢問這個白皮書的下載方式,其實該白皮書直接在微信上點擊圖片就可以放大閱讀,或者點擊閱讀原文進入數(shù)據(jù)觀網(wǎng)站查看網(wǎng)頁版。讀者反響很好,有讀者留言表示看后受益匪淺,所以再次推薦給大家。

●干貨丨大數(shù)據(jù)基礎術(shù)語精粹來襲
推薦理由:DMP英國科技資訊有哪些期刊?DSP英國科技資訊有哪些期刊?SaaS?Paas?HaaS?我天這是說的什么,外行人和初學者都是懵的吧?以下為您帶來49例大數(shù)據(jù)基礎術(shù)語,一起來學習吧。即便不是學習所用,了解了解也是可以的!
●2016中國大數(shù)據(jù)企業(yè)排行榜發(fā)布(完整版PPT)
推薦理由:本次發(fā)布的2016年《中國大數(shù)據(jù)企業(yè)排行榜》是2015年發(fā)布以來的又一次全面更新,算是大數(shù)據(jù)行業(yè)比較受關(guān)注的大事了,排行及細分都有所講究,值得了解。
●《中國數(shù)谷周刊》第9期:到2018年,貴陽大數(shù)據(jù)走廊基本形成
推薦理由:我們的數(shù)谷周刊至今已做了9期。周刊立足貴陽,放眼全球,既有國家級大數(shù)據(jù)產(chǎn)業(yè)發(fā)展聚集區(qū)貴陽的探索,也有全球大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的前沿。各位讀者有好的建議和意見都可以在數(shù)據(jù)觀微信后臺留言哦!
●《國家信息化發(fā)展戰(zhàn)略綱要》發(fā)布:將建數(shù)據(jù)統(tǒng)一開放門戶(附全文)
推薦理由:該《綱要》是規(guī)范和指導未來10年國家信息化發(fā)展的綱領(lǐng)性文件,小編在文內(nèi)附上了導讀、視頻、圖說、解讀和全文,比較全面和完整,值得細讀。

