- 相關(guān)推薦
什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘
上午嘉賓的講課,講的東西大部分是給管理階層和領(lǐng)導(dǎo)階層說(shuō)的。我是講給學(xué)生,給年輕人聽(tīng)的。如果你管理階層再好,你找不到人也什么都沒(méi)有,而對(duì)于每個(gè)人來(lái)說(shuō)最重要的就是把自己的價(jià)值提高,而不是地位。
一、數(shù)據(jù)科學(xué)的前途
這是一些調(diào)查的結(jié)果,數(shù)據(jù)科學(xué)家的年薪是多少,這是美國(guó)的。
程序員的平均年薪不是我們的目標(biāo),也不是成功的標(biāo)志,這是一種價(jià)值的標(biāo)志。怎么樣才能有價(jià)值?我說(shuō)的可能有點(diǎn)過(guò)分,但是我必須這么說(shuō),現(xiàn)在的統(tǒng)計(jì),特別數(shù)據(jù)統(tǒng)計(jì)問(wèn)題很嚴(yán)重。
美國(guó)的一個(gè)調(diào)查報(bào)告說(shuō)人才缺口很大,說(shuō)明在美國(guó)培養(yǎng)這樣的人數(shù)也不夠,可以用大數(shù)據(jù)來(lái)做的缺少得更多。美國(guó)是這樣,中國(guó)將來(lái)肯定也是這樣,現(xiàn)在實(shí)際上有很多缺口。現(xiàn)在就怕跳槽,怕找不著(工作),我們的成功不是要通過(guò)關(guān)系,不是通過(guò)老子有個(gè)什么樣的頭銜,我們要有能力,這樣誰(shuí)都想要你,這才是價(jià)值。我們要的是價(jià)值,而不是所謂的成功。
如果你擅長(zhǎng)數(shù)學(xué),有很清晰的邏輯思維能力(文科的人是沒(méi)有的,但是可以訓(xùn)練,因?yàn)榇蟛糠种R(shí)都是自學(xué)的),并且對(duì)某個(gè)行業(yè)了如指掌,如果你有這樣的技能組合,就可能當(dāng)上數(shù)據(jù)科學(xué)家。曾經(jīng)LinkedIn有個(gè)投票顯示,數(shù)據(jù)分析和數(shù)據(jù)挖掘是最大的求職法寶。那些高科技團(tuán)隊(duì)都有自己的數(shù)據(jù)科學(xué)團(tuán)隊(duì),而那些非科技公司和大公司也需要做這些東西,他們現(xiàn)在需要的是人才,你們就是要把自己做變成被需要的人才。
數(shù)據(jù)科學(xué)家專業(yè)人才干什么呢?對(duì)公司來(lái)說(shuō),他們可以挖掘新的信息,幫助公司開(kāi)源節(jié)流,所以它需要的是人才,關(guān)鍵是人才。我們說(shuō)數(shù)據(jù)科學(xué),科學(xué)意味著沒(méi)有權(quán)威,不要迷信那些權(quán)威,中國(guó)人喜歡崇拜權(quán)威。任何科學(xué)研究的目的是基于數(shù)據(jù),顛覆理論,這樣才能往前進(jìn)。中國(guó)人從小學(xué)會(huì)的就是聽(tīng)老師話,聽(tīng)爸爸媽媽話,聽(tīng)家長(zhǎng)話,古人什么都好,現(xiàn)代人什么都不好,這樣一代不如一代,所以你必須要有科學(xué)精神。諾貝爾物理獎(jiǎng)沒(méi)有一個(gè)是承認(rèn)過(guò)去怎么樣的,而是推翻過(guò)去的事情,這是科學(xué),是顛覆性的。
數(shù)據(jù)科學(xué)有很多很多定義,最基本的定義就是這個(gè),就是Computer science,還有數(shù)學(xué)、統(tǒng)計(jì)、目標(biāo)、知識(shí),這是最基本的,再說(shuō)多了就過(guò)分了。
二、數(shù)據(jù)科學(xué)家所需的技能
對(duì)于現(xiàn)在的你們來(lái)說(shuō),一般不會(huì)細(xì)到那種程度。我們應(yīng)該變成一個(gè)通才,哪個(gè)公司都應(yīng)該愿意要我們。清華大學(xué)之所以現(xiàn)在變成這個(gè)樣子,就是因?yàn)樵?952年院系調(diào)整的時(shí)候,每一個(gè)專業(yè)就是一個(gè)生產(chǎn)線,弄的很細(xì)很細(xì),沒(méi)有一個(gè)更寬廣的視野。
主要是三部分:數(shù)學(xué)、統(tǒng)計(jì)、知識(shí)。
1.數(shù)學(xué)關(guān)鍵是邏輯而不是具體的方法,不是你怎么求多項(xiàng)式的根,而是它的基本邏輯,它的數(shù)學(xué)語(yǔ)言,這一點(diǎn)要懂。數(shù)學(xué)邏輯是各種學(xué)科當(dāng)中最嚴(yán)格的邏輯,無(wú)論你是學(xué)邏輯的,學(xué)物理的,學(xué)什么的,文科學(xué)邏輯的肯定是不如學(xué)物理的,學(xué)物理的邏輯肯定不如學(xué)數(shù)學(xué)的,所以你要跟學(xué)數(shù)學(xué)的辯論的話就很困難。文理分科造成沒(méi)有邏輯的文章,沒(méi)有邏輯的法官,現(xiàn)在法官錯(cuò)判率那么高,他們中學(xué)平面幾何沒(méi)學(xué)好,基本的常識(shí),基本的邏輯推理都不會(huì)。
2.統(tǒng)計(jì)學(xué)的是批判性思維。你們?cè)诮y(tǒng)計(jì)學(xué)課本上學(xué)到的是70年前、100年前的知識(shí),是前計(jì)算機(jī)時(shí)代的東西。那時(shí)候沒(méi)有那么多計(jì)算機(jī),數(shù)據(jù)量不大,所以他做什么都用假定來(lái)做結(jié)論。中國(guó)在數(shù)據(jù)統(tǒng)計(jì)方面的研究大部分還是遵循著70年前、100年前的東西來(lái)做,你不能假定地球是方的,然后得出結(jié)論去發(fā)表,這沒(méi)有什么意義的,你必須根據(jù)現(xiàn)實(shí)生活的意義來(lái)做。
所以我們要學(xué)的也不是基于無(wú)法驗(yàn)證的假定而形成的假設(shè)檢驗(yàn)和區(qū)間估計(jì)。就像我說(shuō)的你假設(shè)檢驗(yàn),什么顯著,0.05就是顯著。親子鑒定100個(gè)人有5個(gè)鑒定錯(cuò)了,能接受嗎?能認(rèn)為這是小概率嗎?區(qū)間估計(jì)就更難說(shuō)了。
我們所要學(xué)習(xí)和了解的,是最近20年發(fā)展而且仍然在發(fā)展的最新的經(jīng)濟(jì)學(xué)方法,這是最根本的。像我現(xiàn)在正在尋找經(jīng)典方法,比經(jīng)濟(jì)學(xué)好的方法,我每天都在算數(shù)據(jù),我就想找這樣的例子。我舉個(gè)例子,對(duì)于做出貢獻(xiàn)性的方法,回歸什么的那一大堆方法,我如果做的話,我沒(méi)找到一個(gè)例子說(shuō)用這些方法比神經(jīng)網(wǎng)絡(luò)做的更好的。所以說(shuō)你不能從理論出發(fā),不能從你在數(shù)學(xué)雜志上發(fā)表出發(fā),一定要從數(shù)據(jù)出發(fā)。
有一個(gè)瑞士人到科學(xué)院講課,就講這些東西,底下科研的學(xué)究們,研究生們說(shuō),這個(gè)系數(shù)有什么意義啊?他說(shuō)貢獻(xiàn)的變量的系數(shù),沒(méi)有任何意義,只要這個(gè)方法預(yù)測(cè)準(zhǔn)確,那就是好。中國(guó)人學(xué)呆了。像回歸分析,在別的變量不變的時(shí)候,我這個(gè)量增加不增加?別的變量肯定不變的,特別經(jīng)濟(jì)統(tǒng)計(jì),沒(méi)有兩個(gè)變量是完全不變的。
3.計(jì)算機(jī)科學(xué),不是一兩個(gè)盜版傻瓜軟件+點(diǎn)鼠標(biāo)就是計(jì)算機(jī)科學(xué)了。還加上網(wǎng)絡(luò)漫游能力和泛型編程能力,我說(shuō)的這個(gè)泛型編程能力是計(jì)算機(jī)編程理念,我用了很多編程理念沒(méi)有一個(gè)是在課堂上學(xué)的,就是自己在編的時(shí)候自己領(lǐng)會(huì)。一切東西依賴于自學(xué),而不是依賴?yán)蠋,這可能跟我的經(jīng)歷有關(guān)。
這是2015年的一個(gè)網(wǎng)站調(diào)查,用的最多的是R語(yǔ)言,這是2014年的,R語(yǔ)言在圖片當(dāng)中也是最多的,其他的軟件加起來(lái)是17%,底下這個(gè)是2014年,也是R語(yǔ)言,為什么是這樣?第一,它們是開(kāi)源的,它們的代碼是公開(kāi)的。
第二是計(jì)算機(jī)的親和性,還有SQL,親和性很大,就是它的語(yǔ)言你懂一個(gè),再學(xué)一個(gè),直到后來(lái)一天一個(gè)就學(xué)下來(lái)了,真是這樣的,不是開(kāi)玩笑。我不想說(shuō)SAS,我在美國(guó)的第一個(gè)研究就是SAS,它的親和力小。實(shí)際上現(xiàn)在很多會(huì)R語(yǔ)言的都可以去做東西。
第三是轉(zhuǎn)換性的,就是R語(yǔ)言跟Python轉(zhuǎn)化的多,所以第一學(xué)的編程語(yǔ)言應(yīng)該是R語(yǔ)言,然后Python,然后是其他的語(yǔ)言,其他點(diǎn)鼠標(biāo)的語(yǔ)言是用不著學(xué)的。
4.最根本的就是領(lǐng)域知識(shí),你必須了解領(lǐng)域知識(shí),你才能夠知道該怎么做。如果你僅僅是一個(gè)干巴巴的統(tǒng)計(jì)學(xué)家,就不會(huì)了解實(shí)際問(wèn)題。
原來(lái)在醫(yī)學(xué)雜志發(fā)表的一個(gè)很有名的文章講,如果父母在嬰兒房間內(nèi)睡覺(jué)總是開(kāi)著燈,嬰兒就會(huì)有高度近視。后來(lái)再發(fā)現(xiàn),凡是父母高度近視的,往往有給小孩開(kāi)燈的習(xí)慣。到底什么造成小孩高度近視,現(xiàn)在你們知道的,但是當(dāng)時(shí)的人不知道,所以要有很深刻的領(lǐng)域知識(shí),只有明白目標(biāo)領(lǐng)域知識(shí)的人才能明白它的意義,知道往哪個(gè)方向努力,去判斷分析結(jié)果的可能性。所以用數(shù)據(jù)來(lái)說(shuō)話,其他的一切都是廢話,不要做一些莫名其妙的假定,我每年看到很多很多的文章,包括一些大賽,好多比賽題目都是莫名其妙的假定,就連31個(gè)省市自治區(qū)的數(shù)據(jù)都假設(shè)是正態(tài)分布,這31個(gè)省市自治區(qū)的就不是樣本,更不用說(shuō)是正態(tài)分布。
科學(xué),對(duì)年輕人來(lái)說(shuō)就是要明白這些基本的東西,太花哨的東西就沒(méi)意義了。你離得越遠(yuǎn)看得越清楚,站得越高對(duì)全局的了解越好,不要太具體了,不要迷信這些炒作的新名詞、新概念。用自己的大腦,用常識(shí)判斷,想想合不合理。過(guò)去某個(gè)人的經(jīng)驗(yàn)是他的經(jīng)驗(yàn),不是你的經(jīng)驗(yàn),他在特定環(huán)境、特定時(shí)間有作用,如果你要跟風(fēng)就意味著永遠(yuǎn)是跟隨,也絕對(duì)不會(huì)有出息。
個(gè)人要有快速的自學(xué)能力和對(duì)數(shù)據(jù)分析的愛(ài)好,我從來(lái)沒(méi)學(xué)過(guò)計(jì)算機(jī),也沒(méi)學(xué)過(guò)計(jì)算機(jī)編程。英文都沒(méi)學(xué)過(guò),全都是自學(xué)的,所以我對(duì)自學(xué)很相信。現(xiàn)在我教的東西都是最近這幾年的東西,我現(xiàn)在實(shí)際上比一個(gè)全職教師教的課還多,但是我教的東西好多都是前一天網(wǎng)上才出現(xiàn)的,我看到了覺(jué)得有價(jià)值,第二天就放到課堂上了。只有這樣,只有不斷的自學(xué),不斷的學(xué)習(xí)才能當(dāng)老師。如果你不斷的跟學(xué)生演示80年前的推導(dǎo)過(guò)程,只能顯示你的記憶力好,那不是好老師。
三、判斷是否適合做數(shù)據(jù)科學(xué)家
另外你是不是做數(shù)據(jù)科學(xué)家的材料?你專長(zhǎng)于任何特定編程語(yǔ)言相比,泛型變成技巧更重要。最重要的素質(zhì)就是能快速學(xué)習(xí)東西,在這個(gè)時(shí)代技術(shù)發(fā)展的突飛猛進(jìn),語(yǔ)言很快會(huì)過(guò)時(shí),新的語(yǔ)言會(huì)迅速普及,所以學(xué)習(xí)東西快的人比單獨(dú)領(lǐng)域的專家更有前途。我要看你這個(gè)人的潛力,而不是你知道什么。知識(shí)再多你也超不過(guò)一個(gè)硬盤(pán)吧?但是硬盤(pán)沒(méi)有創(chuàng)造力。
如果你每天花大量的時(shí)間編程,分析控制面板上的數(shù)據(jù),獲得相關(guān)知識(shí)和信息,你對(duì)這樣的工作感興趣,你就適合干這行,F(xiàn)在我沒(méi)事就處理變成數(shù)據(jù)。如果僅僅是想拿高工資,那可能覺(jué)得這樣的日子就很苦了。實(shí)際上不光是這個(gè)工作,干任何工作,即使是坐牢你也要把它當(dāng)成樂(lè)趣,這個(gè)不是玩兒的。
真正適合干這一行的人,會(huì)在業(yè)余時(shí)間里編程序、分析數(shù)據(jù),他的目的就是自?shī)首詷?lè),而不是為了要拿著什么學(xué)位,拿到什么樣的頭銜,最終他自己把自己的價(jià)值就提高了。如果你愛(ài)的不是數(shù)據(jù)本身,而是它給你帶來(lái)的高薪,那你很難跟上來(lái)的人來(lái)競(jìng)爭(zhēng)了。要學(xué)會(huì)干一行愛(ài)一行,每個(gè)人都應(yīng)該學(xué)會(huì)熱愛(ài)數(shù)據(jù),即使是為了自己的事業(yè)前途也應(yīng)該這樣想,為了自己的心里也應(yīng)該這樣想。
還需要什么呢?剛才我說(shuō)了,學(xué)習(xí)能力比知識(shí)更重要,歡迎挑戰(zhàn)、樂(lè)于攀登。有點(diǎn)挑戰(zhàn)的我就很高興,我相信很多人都這樣,這樣活著才有意義,像豬一樣的活著沒(méi)有意義。你像富二代開(kāi)著寶馬到處飆車,他是找不到活著的意義啊,穿名牌什么的,是讓別人覺(jué)得你有點(diǎn)價(jià)值,實(shí)際上別人一看你更沒(méi)有價(jià)值了。馬克思的座右銘懷疑一切,在懷疑中成長(zhǎng)。
不要給自己貼標(biāo)簽,就是我學(xué)什么方向的,別的不搞,歲數(shù)大了,學(xué)不會(huì)了,很多人都有這樣的借口,這實(shí)際上是借口,我現(xiàn)在每天都在網(wǎng)上學(xué)東西,所以我現(xiàn)在教的東西總是新的,我的書(shū)一版再版,我現(xiàn)在大概寫(xiě)了有30本書(shū)了,為什么再版,因?yàn)槲野l(fā)現(xiàn)原來(lái)的有錯(cuò)或者不全面,我一定要把事情說(shuō)的更透徹一點(diǎn),說(shuō)的更好一點(diǎn)。
四、結(jié)尾
什么人最快樂(lè)?被人需要,這是很重要的,就是你得有價(jià)值。因?yàn)槟愕膶iL(zhǎng),能力、善良、尊重、愛(ài)心、品質(zhì)、性格、智力、分享。在公司里跟人家能相處,至少你得是可愛(ài)的。還要關(guān)心他人,能讓別人快樂(lè)的人是快樂(lè)的。尊敬別人的人是快樂(lè)的,誠(chéng)實(shí)坦蕩的人是快樂(lè)的,心胸開(kāi)闊,不去計(jì)較一些小事情。最關(guān)鍵的就是愛(ài)人如己,你愛(ài)人不是因?yàn)樗軔?ài)你回來(lái),也不是因?yàn)樗蓯?ài),而是對(duì)任何事情都尊重,這是最根本的一點(diǎn)。如果這點(diǎn)你要做到了,人人都能做到,那世界就太理想了。不管怎么樣,我希望大家能夠快樂(lè)。
【什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘】相關(guān)文章:
數(shù)據(jù)挖掘論文07-15
數(shù)據(jù)挖掘論文07-16
數(shù)據(jù)挖掘論文(精品)07-29
數(shù)據(jù)分析報(bào)告02-02
數(shù)據(jù)挖掘論文常用15篇07-29