時(shí)間(jiān):2018-09-05 10:29:28 次數(shù):5386
大(dà)數(shù)據思維原理(lǐ)是什麽?下文為(wèi)概括的10項原理(lǐ)。
一、數(shù)據核心原理(lǐ)
大(dà)數(shù)據時(shí)代,計(jì)算(suàn)模式也發生(shēng)了轉變,從‘流程’核心轉變為(wèi)‘數(shù)據’核心。Hadoop體(tǐ)系的分布式計(jì)算(suàn)框架已經是‘數(shù)據’為(wèi)核心的範式。非結構化數(shù)據及分析需求,将改變IT系統的升級方式:從簡單增量到架構變化。大(dà)數(shù)據下的新思維-計(jì)算(suàn)模式的轉變。
例如:IBM将使用以數(shù)據為(wèi)中心的設計(jì),目的是降低(dī)在超級計(jì)算(suàn)機之間(jiān)進行(xíng)大(dà)量數(shù)據交換的必要性。大(dà)數(shù)據下,雲計(jì)算(suàn)找到了破繭重生(shēng)的機會(huì),在存儲和(hé)計(jì)算(suàn)上(shàng)都體(tǐ)現了數(shù)據為(wèi)核心的理(lǐ)念。大(dà)數(shù)據和(hé)雲計(jì)算(suàn)的關系:雲計(jì)算(suàn)為(wèi)大(dà)數(shù)據提供了有(yǒu)力的工具和(hé)途徑,大(dà)數(shù)據為(wèi)雲計(jì)算(suàn)提供了很(hěn)有(yǒu)價值的用武之地。而大(dà)數(shù)據比雲計(jì)算(suàn)更為(wèi)落地,可(kě)有(yǒu)效利用已大(dà)量建設的雲計(jì)算(suàn)資源,最後加以利用。
科學進步越來(lái)越多(duō)地由數(shù)據來(lái)推動,海量數(shù)據給數(shù)據分析既帶來(lái)了機遇,也構成了新的挑戰。大(dà)數(shù)據往往是利用衆多(duō)技(jì)術(shù)和(hé)方法,綜合源自多(duō)個(gè)渠道(dào)、不同時(shí)間(jiān)的信息而獲得(de)的。為(wèi)了應對大(dà)數(shù)據帶來(lái)的挑戰,我們需要新的統計(jì)思路和(hé)計(jì)算(suàn)方法。
說明(míng):用數(shù)據核心思維方式思考問題,解決問題。以數(shù)據為(wèi)核心,反映了當下IT産業的變革,數(shù)據成為(wèi)人(rén)工智能的基礎,也成為(wèi)智能化的基礎,數(shù)據比流程更重要,數(shù)據庫、記錄數(shù)據庫,都可(kě)開(kāi)發出深層次信息。雲計(jì)算(suàn)機可(kě)以從數(shù)據庫、記錄數(shù)據庫中搜索出你(nǐ)是誰,你(nǐ)需要什麽,從而推薦給你(nǐ)需要的信息。
二、數(shù)據價值原理(lǐ)
功能是價值轉變為(wèi)數(shù)據是價值
大(dà)數(shù)據真正有(yǒu)意思的是數(shù)據變得(de)在線了,這個(gè)恰恰是互聯網的特點。非互聯網時(shí)期的産品,功能一定是它的價值,今天互聯網的産品,數(shù)據一定是它的價值。
例如:大(dà)數(shù)據的真正價值在于創造,在于填補無數(shù)個(gè)還(hái)未實現過的空(kōng)白。有(yǒu)人(rén)把數(shù)據比喻為(wèi)蘊藏能量的煤礦,煤炭按照性質有(yǒu)焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山(shān)煤礦的挖掘成本又不一樣。與此類似,大(dà)數(shù)據并不在‘大(dà)’,而在于‘有(yǒu)用’,價值含量、挖掘成本比數(shù)量更為(wèi)重要。不管大(dà)數(shù)據的核心價值是不是預測,但(dàn)是基于大(dà)數(shù)據形成決策的模式已經為(wèi)不少(shǎo)的企業帶來(lái)了盈利和(hé)聲譽。
數(shù)據能告訴我們,每一個(gè)客戶的消費傾向,他們想要什麽,喜歡什麽,每個(gè)人(rén)的需求有(yǒu)哪些(xiē)區(qū)别,哪些(xiē)又可(kě)以被集合到一起來(lái)進行(xíng)分類。大(dà)數(shù)據是數(shù)據數(shù)量上(shàng)的增加,以至于我們能夠實現從量變到質變的過程。舉例來(lái)說,這裏有(yǒu)一張照片,照片裏的人(rén)在騎馬,這張照片每一分鍾,每一秒(miǎo)都要拍一張,但(dàn)随着處理(lǐ)速度越來(lái)越快,從1分鍾一張到1秒(miǎo)鍾1張,突然到1秒(miǎo)鍾10張後,就産生(shēng)了電(diàn)影(yǐng)。當數(shù)量的增長實現質變時(shí),就從照片變成了一部電(diàn)影(yǐng)。
美國有(yǒu)一家(jiā)創新企業Decide.com;它可(kě)以幫助人(rén)們做(zuò)購買決策,告訴消費者什麽時(shí)候買什麽産品,什麽時(shí)候買最便宜,預測産品的價格趨勢,這家(jiā)公司背後的驅動力就是大(dà)數(shù)據。他們在全球各大(dà)網站(zhàn)上(shàng)搜集數(shù)以十億計(jì)的數(shù)據,然後幫助數(shù)以十萬計(jì)的用戶省錢(qián),為(wèi)他們的采購找到最好的時(shí)間(jiān),降低(dī)交易成本,為(wèi)終端的消費者帶去更多(duō)價值。
在這類模式下,盡管一些(xiē)零售商的利潤會(huì)進一步受擠壓,但(dàn)從商業本質上(shàng)來(lái)講,可(kě)以把錢(qián)更多(duō)地放回到消費者的口袋裏,讓購物變得(de)更理(lǐ)性,這是依靠大(dà)數(shù)據催生(shēng)出的一項全新産業。這家(jiā)為(wèi)數(shù)以十萬計(jì)的客戶省錢(qián)的公司,在幾個(gè)星期前,被eBay以高(gāo)價收購。
再舉一個(gè)例子,SWIFT是全球最大(dà)的支付平台,在該平台上(shàng)的每一筆交易都可(kě)以進行(xíng)大(dà)數(shù)據的分析,他們可(kě)以預測一個(gè)經濟體(tǐ)的健康性和(hé)增長性。比如,該公司現在為(wèi)全球性客戶提供經濟指數(shù),這又是一個(gè)大(dà)數(shù)據服務。,定制(zhì)化服務的關鍵是數(shù)據。《大(dà)數(shù)據時(shí)代》的作(zuò)者維克托,邁爾,舍恩伯格認為(wèi),大(dà)量的數(shù)據能夠讓傳統行(xíng)業更好地了解客戶需求,提供個(gè)性化的服務。
說明(míng):用數(shù)據價值思維方式思考問題,解決問題。信息總量的變化導緻了信息形态的變化,量變引發了質變,最先經曆信息爆炸的學科,如天文學和(hé)基因學,創造出了‘大(dà)數(shù)據’這個(gè)概念。如今,這個(gè)概念幾乎應用到了所有(yǒu)人(rén)類緻力于發展的領域中。從功能為(wèi)價值轉變為(wèi)數(shù)據為(wèi)價值,說明(míng)數(shù)據和(hé)大(dà)數(shù)據的價值在擴大(dà),數(shù)據為(wèi)‘王’的時(shí)代出現了。數(shù)據被解釋是信息,信息常識化是知識,所以說數(shù)據解釋、數(shù)據分析能産生(shēng)價值。
三、全樣本原理(lǐ)
從抽樣轉變為(wèi)需要全部數(shù)據樣本
需要全部數(shù)據樣本而不是抽樣,你(nǐ)不知道(dào)的事情比你(nǐ)知道(dào)的事情更重要,但(dàn)如果現在數(shù)據足夠多(duō),它會(huì)讓人(rén)能夠看得(de)見、摸得(de)着規律。數(shù)據這麽大(dà)、這麽多(duō),所以人(rén)們覺得(de)有(yǒu)足夠的能力把握未來(lái),對不确定狀态的一種判斷,從而做(zuò)出自己的決定。這些(xiē)東西我們聽(tīng)起來(lái)都是非常原始的,但(dàn)是實際上(shàng)背後的思維方式,和(hé)我們今天所講的大(dà)數(shù)據是非常像的。
舉例:在大(dà)數(shù)據時(shí)代,無論是商家(jiā)還(hái)是信息的搜集者,會(huì)比我們自己更知道(dào)你(nǐ)可(kě)能會(huì)想幹什麽。現在的數(shù)據還(hái)沒有(yǒu)被真正挖掘,如果真正挖掘的話(huà),通(tōng)過信用卡消費的記錄,可(kě)以成功預測未來(lái)5年內(nèi)的情況。統計(jì)學裏頭最基本的一個(gè)概念就是,全部樣本才能找出規律。為(wèi)什麽能夠找出行(xíng)為(wèi)規律?一個(gè)更深層的概念是人(rén)和(hé)人(rén)是一樣的,如果是一個(gè)人(rén)特例出來(lái),可(kě)能很(hěn)有(yǒu)個(gè)性,但(dàn)當人(rén)口樣本數(shù)量足夠大(dà)時(shí),就會(huì)發現其實每個(gè)人(rén)都是一模一樣的。
說明(míng):用全數(shù)據樣本思維方式思考問題,解決問題。從抽樣中得(de)到的結論總是有(yǒu)水(shuǐ)分的,而全部樣本中得(de)到的結論水(shuǐ)分就很(hěn)少(shǎo),大(dà)數(shù)據越大(dà),真實性也就越大(dà),因為(wèi)大(dà)數(shù)據包含了全部的信息。
四、關注效率原理(lǐ)
由關注精确度轉變為(wèi)關注效率
關注效率而不是精确度,大(dà)數(shù)據标志(zhì)着人(rén)類在尋求量化和(hé)認識世界的道(dào)路上(shàng)前進了一大(dà)步,過去不可(kě)計(jì)量、存儲、分析和(hé)共享的很(hěn)多(duō)東西都被數(shù)據化了,擁有(yǒu)大(dà)量的數(shù)據和(hé)更多(duō)不那(nà)麽精确的數(shù)據為(wèi)我們理(lǐ)解世界打開(kāi)了一扇新的大(dà)門(mén)。大(dà)數(shù)據能提高(gāo)生(shēng)産效率和(hé)銷售效率,原因是大(dà)數(shù)據能夠讓我們知道(dào)市場(chǎng)的需要,人(rén)的消費需要。大(dà)數(shù)據讓企業的決策更科學,由關注精确度轉變為(wèi)關注效率的提高(gāo),大(dà)數(shù)據分析能提高(gāo)企業的效率。
例如:在互聯網大(dà)數(shù)據時(shí)代,企業産品叠代的速度在加快。三星、小(xiǎo)米手機制(zhì)造商半年就推出一代新智能手機。利用互聯網、大(dà)數(shù)據提高(gāo)企業效率的趨勢下,快速就是效率、預測就是效率、預見就是效率、變革就是效率、創新就是效率、應用就是效率。
競争是企業的動力,而效率是企業的生(shēng)命,效率低(dī)與效率高(gāo)是衡量企來(lái)成敗的關鍵。一般來(lái)講,投入與産出比是效率,追求高(gāo)效率也就是追求高(gāo)價值。手工、機器(qì)、自動機器(qì)、智能機器(qì)之間(jiān)效率是不同的,智能機器(qì)效率更高(gāo),已能代替人(rén)的思維勞動。智能機器(qì)核心是大(dà)數(shù)據制(zhì)動,而大(dà)數(shù)據制(zhì)動的速度更快。在快速變化的市場(chǎng),快速預測、快速決策、快速創新、快速定制(zhì)、快速生(shēng)産、快速上(shàng)市成為(wèi)企業行(xíng)動的準則,也就是說,速度就是價值,效率就是價值,而這一切離不開(kāi)大(dà)數(shù)據思維。
說明(míng):用關注效率思維方式思考問題,解決問題。大(dà)數(shù)據思維有(yǒu)點像混沌思維,确定與不确定交織在一起,過去那(nà)種一元思維結果,已被二元思維結果取代。過去尋求精确度,現在尋求高(gāo)效率;過去尋求因果性,現在尋求相關性;過去尋找确定性,現在尋找概率性,對不精确的數(shù)據結果已能容忍。隻要大(dà)數(shù)據分析指出可(kě)能性,就會(huì)有(yǒu)相應的結果,從而為(wèi)企業快速決策、快速動作(zuò)、創占先機提高(gāo)了效率。
五、關注相關性原理(lǐ)
由因果關系轉變為(wèi)關注相關性
關注相關性而不是因果關系,社會(huì)需要放棄它對因果關系的渴求,而僅需關注相關關系,也就是說隻需要知道(dào)是什麽,而不需要知道(dào)為(wèi)什麽。這就推翻了自古以來(lái)的慣例,而我們做(zuò)決定和(hé)理(lǐ)解現實的最基本方式也将受到挑戰。
例如:大(dà)數(shù)據思維一個(gè)最突出的特點,就是從傳統的因果思維轉向相關思維,傳統的因果思維是說我一定要找到一個(gè)原因,推出一個(gè)結果來(lái)。而大(dà)數(shù)據沒有(yǒu)必要找到原因,不需要科學的手段來(lái)證明(míng)這個(gè)事件和(hé)那(nà)個(gè)事件之間(jiān)有(yǒu)一個(gè)必然,先後關聯發生(shēng)的一個(gè)因果規律。它隻需要知道(dào),出現這種迹象的時(shí)候,我就按照一般的情況,這個(gè)數(shù)據統計(jì)的高(gāo)概率顯示它會(huì)有(yǒu)相應的結果,那(nà)麽我隻要發現這種迹象的時(shí)候,我就可(kě)以去做(zuò)一個(gè)決策,我該怎麽做(zuò)。這是和(hé)以前的思維方式很(hěn)不一樣,老實說,它是一種有(yǒu)點反科學的思維,科學要求實證,要求找到準确的因果關系。
在這個(gè)不确定的時(shí)代裏面,等我們去找到準确的因果關系,再去辦事的時(shí)候,這個(gè)事情早已經不值得(de)辦了。所以‘大(dà)數(shù)據’時(shí)代的思維有(yǒu)點像回歸了工業社會(huì)的這種機械思維-機械思維就是說我按那(nà)個(gè)按鈕,一定會(huì)出現相應的結果,是這樣狀态。而農業社會(huì)往前推,不需要找到中間(jiān)非常緊密的、明(míng)确的因果關系,而隻需要找到相關關系,隻需要找到迹象就可(kě)以了。社會(huì)因此放棄了尋找因果關系的傳統偏好,開(kāi)始挖掘相關關系的好處。
例如:美國人(rén)開(kāi)發一款‘個(gè)性化分析報告自動可(kě)視(shì)化程序’軟件從網上(shàng)挖掘數(shù)據信息,這款數(shù)據挖掘軟件将自動從各種數(shù)據中提取重要信息,然後進行(xíng)分析,并把此信息與以前的數(shù)據關聯起來(lái),分析出有(yǒu)用的信息。
非法在屋內(nèi)打隔斷的建築物着火(huǒ)的可(kě)能性比其他建築物高(gāo)很(hěn)多(duō)。紐約市每年接到2.5萬宗有(yǒu)關房(fáng)屋住得(de)過于擁擠的投訴,但(dàn)市裏隻有(yǒu)200名處理(lǐ)投訴的巡視(shì)員,市長辦公室一個(gè)分析專家(jiā)小(xiǎo)組覺得(de)大(dà)數(shù)據可(kě)以幫助解決這一需求與資源的落差。該小(xiǎo)組建立了一個(gè)市內(nèi)全部90萬座建築物的數(shù)據庫,并在其中加入市裏19個(gè)部門(mén)所收集到的數(shù)據:欠稅扣押記錄、水(shuǐ)電(diàn)使用異常、繳費拖欠、服務切斷、救護車(chē)使用、當地犯罪率、鼠患投訴,諸如此類。
接下來(lái),他們将這一數(shù)據庫與過去5年中按嚴重程度排列的建築物着火(huǒ)記錄進行(xíng)比較,希望找出相關性。果然,建築物類型和(hé)建造年份是與火(huǒ)災相關的因素。不過,一個(gè)沒怎麽預料到的結果是,獲得(de)外磚牆施工許可(kě)的建築物與較低(dī)的嚴重火(huǒ)災發生(shēng)率之間(jiān)存在相關性。利用所有(yǒu)這些(xiē)數(shù)據,該小(xiǎo)組建立了一個(gè)可(kě)以幫助他們确定哪些(xiē)住房(fáng)擁擠投訴需要緊急處理(lǐ)的系統。他們所記錄的建築物的各種特征數(shù)據都不是導緻火(huǒ)災的原因,但(dàn)這些(xiē)數(shù)據與火(huǒ)災隐患的增加或降低(dī)存在相關性。這種知識被證明(míng)是極具價值的:過去房(fáng)屋巡視(shì)員出現場(chǎng)時(shí)簽發房(fáng)屋騰空(kōng)令的比例隻有(yǒu)13%,在采用新辦法之後,這個(gè)比例上(shàng)升到了70%-效率**提高(gāo)了。
全世界的商界人(rén)士都在高(gāo)呼大(dà)數(shù)據時(shí)代來(lái)臨的優勢:一家(jiā)超市如何從一個(gè)17歲女孩的購物清單中,發現了她已懷孕的事實;或者将啤酒與尿不濕放在一起銷售,神奇地提高(gāo)了雙方的銷售額。大(dà)數(shù)據透露出來(lái)的信息有(yǒu)時(shí)确實會(huì)起颠覆。比如,騰訊一項針對社交網絡的統計(jì)顯示,愛(ài)看家(jiā)庭劇(jù)的男人(rén)是女性的兩倍還(hái)多(duō);最關心金價的是中國大(dà)媽,但(dàn)緊随其後的卻是90後。而在過去一年,支付寶中無線支付比例排名前十的竟然全部在青海、西藏和(hé)內(nèi)蒙古地區(qū)。
說明(míng):用關注相關性思維方式來(lái)思考問題,解決問題。尋找原因是一種現代社會(huì)的一神論,大(dà)數(shù)據推翻了這個(gè)論斷。過去尋找原因的信念正在被‘更好’的相關性所取代。當世界由探求因果關系變成挖掘相關關系,我們怎樣才能既不損壞建立在因果推理(lǐ)基礎之上(shàng)的社會(huì)繁榮和(hé)人(rén)類進步的基石,又取得(de)實際的進步呢?這是值得(de)思考的問題。
解釋:轉向相關性,不是不要因果關系,因果關系還(hái)是基礎,科學的基石還(hái)是要的。隻是在高(gāo)速信息化的時(shí)代,為(wèi)了得(de)到即時(shí)信息,實時(shí)預測,在快速的大(dà)數(shù)據分析技(jì)術(shù)下,尋找到相關性信息,就可(kě)預測用戶的行(xíng)為(wèi),為(wèi)企業快速決策提供提前量。
比如預警技(jì)術(shù),隻有(yǒu)提前幾十秒(miǎo)察覺,防禦系統才能起作(zuò)用。比如,雷達顯示有(yǒu)個(gè)提前量,如果沒有(yǒu)這個(gè)預知的提前量,雷達的作(zuò)用也就沒有(yǒu)了,相關性也是這個(gè)原理(lǐ)。比如,相對論與量子論的争論也能說明(míng)問題,一個(gè)說上(shàng)帝不擲骰子,一個(gè)說上(shàng)帝擲骰子,争論幾十年,最後承認兩個(gè)都存在,而且量子論取得(de)更大(dà)的發展-一個(gè)适用于宇宙尺度,一個(gè)适用于原子尺度。
六、預測原理(lǐ)
從不能預測轉變為(wèi)可(kě)以預測
大(dà)數(shù)據的核心就是預測,大(dà)數(shù)據能夠預測體(tǐ)現在很(hěn)多(duō)方面。大(dà)數(shù)據不是要教機器(qì)像人(rén)一樣思考,相反,它是把數(shù)學算(suàn)法運用到海量的數(shù)據上(shàng)來(lái)預測事情發生(shēng)的可(kě)能性。正因為(wèi)在大(dà)數(shù)據規律面前,每個(gè)人(rén)的行(xíng)為(wèi)都跟别人(rén)一樣,沒有(yǒu)本質變化,所以商家(jiā)會(huì)比消費者更了消費者的行(xíng)為(wèi)。
例如:大(dà)數(shù)據助微軟準确預測世界懷。微軟大(dà)數(shù)據團隊在2014年巴西世界足球賽前設計(jì)了世界懷模型,該預測模型正确預測了賽事最後幾輪每場(chǎng)比賽的結果,包括預測德國隊将最終獲勝。預測成功歸功于微軟在世界懷進行(xíng)過程中獲取的大(dà)量數(shù)據,到淘汰賽階段,數(shù)據如滾雪球般增多(duō),常握了有(yǒu)關球員和(hé)球隊的足夠信息,以适當校(xiào)準模型并調整對接下來(lái)比賽的預測。
世界杯預測模型的方法與設計(jì)其它事件的模型相同,訣竅就是在預測中去除主觀性,讓數(shù)據說話(huà)。預測性數(shù)學模型幾乎不算(suàn)新事物,但(dàn)它們正變得(de)越來(lái)越準确。在這個(gè)時(shí)代,數(shù)據分析能力終于開(kāi)始趕上(shàng)數(shù)據收集能力,分析師(shī)不僅有(yǒu)比以往更多(duō)的信息可(kě)用于構建模型,也擁有(yǒu)在很(hěn)短(duǎn)時(shí)間(jiān)內(nèi)通(tōng)過計(jì)算(suàn)機将信息轉化為(wèi)相關數(shù)據的技(jì)術(shù)。
幾年前,得(de)等每場(chǎng)比賽結束以後才能獲取所有(yǒu)數(shù)據,現在,數(shù)據是自動實時(shí)發送的,這讓預測模型能獲得(de)更好的調整且更準确。微軟世界懷模型的成績說明(míng)了其模型的實力,它的成功為(wèi)大(dà)數(shù)據的力量提供了強有(yǒu)力的證明(míng),利用同樣的方法還(hái)可(kě)預測選舉或關注股票(piào)。類似的大(dà)數(shù)據分析正用于商業、政府、經濟學和(hé)社會(huì)科學,它們都關于原始數(shù)據進行(xíng)分析。
我們進入了一個(gè)用數(shù)據進行(xíng)預測的時(shí)代,雖然我們可(kě)能無法解釋其背後的原因。如果一個(gè)醫(yī)生(shēng)隻要求病人(rén)遵從醫(yī)囑,卻沒法說明(míng)醫(yī)學幹預的合理(lǐ)性的話(huà),情況會(huì)怎麽樣呢?實際上(shàng),這是依靠大(dà)數(shù)據取得(de)病理(lǐ)分析的醫(yī)生(shēng)們一定會(huì)做(zuò)的事情。
從一個(gè)人(rén)亂穿馬路時(shí)行(xíng)進的軌迹和(hé)速度來(lái)看他能及時(shí)穿過馬路的可(kě)能性,都是大(dà)數(shù)據可(kě)以預測的範圍。當然,如果一個(gè)人(rén)能及時(shí)穿過馬路,那(nà)麽他亂穿馬路時(shí),車(chē)子就隻需要稍稍減速就好。但(dàn)是這些(xiē)預測系統之所以能夠成功,關鍵在于它們是建立在海量數(shù)據的基礎之上(shàng)的。
此外,随着系統接收到的數(shù)據越來(lái)越多(duō),通(tōng)過記錄找到的最好的預測與模式,可(kě)以對系統進行(xíng)改進。它通(tōng)常被視(shì)為(wèi)人(rén)工智能的一部分,或者更确切地說,被視(shì)為(wèi)一種機器(qì)學**。真正的革命并不在于分析數(shù)據的機器(qì),而在于數(shù)據本身和(hé)我們如何運用數(shù)據。一旦把統計(jì)學和(hé)現在大(dà)規模的數(shù)據融合在一起,将會(huì)颠覆很(hěn)多(duō)我們原來(lái)的思維。所以現在能夠變成數(shù)據的東西越來(lái)越多(duō),計(jì)算(suàn)和(hé)處理(lǐ)數(shù)據的能力越來(lái)越強,所以大(dà)家(jiā)突然發現這個(gè)東西很(hěn)有(yǒu)意思。所以,大(dà)數(shù)據能幹啥?能幹很(hěn)多(duō)很(hěn)有(yǒu)意思的事情。
例如,預測當年葡萄酒的品質。
很(hěn)多(duō)品酒師(shī)品的不是葡萄酒,那(nà)時(shí)候葡萄酒還(hái)沒有(yǒu)真正的做(zuò)成,他們品的是發爛的葡萄。因此在那(nà)個(gè)時(shí)間(jiān)點就預測當年葡萄酒的品質是比較冒險的。而且人(rén)的心理(lǐ)的因素是會(huì)影(yǐng)響他做(zuò)的這個(gè)預測,比如說地位越高(gāo)的品酒師(shī),在做(zuò)預測時(shí)會(huì)越保守,因為(wèi)他一旦預測錯了,要損失的名譽代價是很(hěn)大(dà)的。所以的品酒大(dà)師(shī)一般都不敢貿然說今年的酒特别好,或者是特别差;而剛出道(dào)的品酒師(shī)往往會(huì)‘語不驚人(rén)死不休的’。
普林斯頓大(dà)學有(yǒu)一個(gè)英語學教授,他也很(hěn)喜歡喝(hē)酒,喜歡儲藏葡萄酒,所以他就想是否可(kě)以分析到底哪年酒的品質好。然後他就找了很(hěn)多(duō)數(shù)據,比如說降雨量、平均氣溫、土壤成分等等,然後他做(zuò)回歸,最後他說把參數(shù)都找出來(lái),做(zuò)了個(gè)網站(zhàn),告訴大(dà)家(jiā)今年葡萄酒的品質好壞以及秘訣是什麽。
當他的研究公布的時(shí)候,引起了業界的軒然大(dà)波,因為(wèi)他做(zuò)預測做(zuò)的很(hěn)提前,因為(wèi)今年的葡萄收獲後要經過一段的時(shí)間(jiān)發酵,酒的味道(dào)才會(huì)好,但(dàn)這個(gè)教授突然預測說今年的酒是世紀最好的酒。大(dà)家(jiā)說怎麽敢這麽說,太瘋狂了。更瘋狂的是到了第二年,他預測今年的酒比去年的酒更好,連續兩次預測說是百年最好的酒,但(dàn)他真的預測對了。現在品酒師(shī)在做(zuò)評判之前,要先到他的網站(zhàn)上(shàng)看看他的預測,然後再做(zuò)出自己的判斷。有(yǒu)很(hěn)多(duō)的規律我們不知道(dào),但(dàn)是它潛伏在這些(xiē)大(dà)數(shù)據裏頭。
例如,大(dà)數(shù)據描繪‘傷害圖譜’;
廣州市傷害監測信息系統通(tōng)過廣州市紅十字會(huì)醫(yī)院、番禺區(qū)中心醫(yī)院、越秀區(qū)兒童醫(yī)院3個(gè)傷害監測哨點醫(yī)院,持續收集市內(nèi)發生(shēng)的傷害信息,分析傷害發生(shēng)的原因及危險因素,系統共收集傷害患者14681例,接近九成半都是意外事故。整體(tǐ)上(shàng),傷害多(duō)發生(shēng)于男性,占61.76%,5歲以下兒童傷害比例高(gāo)達14.36%,家(jiā)長和(hé)社會(huì)應高(gāo)度重視(shì),45.19%的傷害都是發生(shēng)在家(jiā)中,其次才是公路和(hé)街(jiē)道(dào)。
收集到監測數(shù)據後,關鍵是通(tōng)過分析處理(lǐ),把數(shù)據‘深加工’以利用。比如,監測數(shù)據顯示,老人(rén)跌倒多(duō)數(shù)不是發生(shēng)在雨天屋外,而是發生(shēng)在家(jiā)裏,尤其是旱上(shàng)剛起床時(shí)和(hé)浴室裏,這就提示,防控老人(rén)跌倒的對策應該着重在家(jiā)居,起床要注意不要動作(zuò)過猛,浴室要防滑,加扶手等等。
說明(míng):用大(dà)數(shù)據預測思維方式來(lái)思考問題,解決問題。數(shù)據預測、數(shù)據記錄預測、數(shù)據統計(jì)預測、數(shù)據模型預測,數(shù)據分析預測、數(shù)據模式預測、數(shù)據深層次信息預測等等,已轉變為(wèi)大(dà)數(shù)據預測、大(dà)數(shù)據記錄預測、大(dà)數(shù)據統計(jì)預測、大(dà)數(shù)據模型預測,大(dà)數(shù)據分析預測、大(dà)數(shù)據模式預測、大(dà)數(shù)據深層次信息預測。
互聯網、移動互聯網和(hé)雲計(jì)算(suàn)機保證了大(dà)數(shù)據實時(shí)預測的可(kě)能性,也為(wèi)企業和(hé)用戶提供了實時(shí)預測的信息,相關性預測的信息,讓企業和(hé)用戶搶占先機。由于大(dà)數(shù)據的全樣本性,人(rén)和(hé)人(rén)都是一樣的,所以雲計(jì)算(suàn)機軟件預測的效率和(hé)準确性**提高(gāo),有(yǒu)這種迹象,就有(yǒu)這種結果。
七、信息找人(rén)原理(lǐ)
從人(rén)找信息,轉變為(wèi)信息找人(rén)
互聯網和(hé)大(dà)數(shù)據的發展,是一個(gè)從人(rén)找信息,到信息找人(rén)的過程。先是人(rén)找信息,人(rén)找人(rén),信息找信息,現在是信息找人(rén)的這樣一個(gè)時(shí)代。信息找人(rén)的時(shí)代,就是說一方面我們回到了一種最初的,廣播模式是信息找人(rén),我們聽(tīng)收音(yīn)機,我們看電(diàn)視(shì),它是信息推給我們的,但(dàn)是有(yǒu)一個(gè)缺陷,不知道(dào)我們是誰,後來(lái)互聯網反其道(dào)而行(xíng),提供搜索引擎技(jì)術(shù),讓我知道(dào)如何找到我所需要的信息,所以搜索引擎是一個(gè)很(hěn)關鍵的技(jì)術(shù)。
例如:從搜索引擎-向推薦引擎轉變。今天,後搜索引擎時(shí)代已經正式來(lái)到,什麽叫做(zuò)後搜索引擎時(shí)代呢?使用搜索引擎的頻率會(huì)**降低(dī),使用的時(shí)長也會(huì)**的縮短(duǎn),為(wèi)什麽使用搜索引擎的頻率在下降?時(shí)長在下降?原因是推薦引擎的誕生(shēng)。就是說從人(rén)找信息到信息找人(rén)越來(lái)越成為(wèi)了一個(gè)趨勢,推薦引擎就是說它很(hěn)懂我,知道(dào)我要知道(dào),所以是最好的技(jì)術(shù)。喬布斯說,讓人(rén)感受不到技(jì)術(shù)的技(jì)術(shù)是最好的技(jì)術(shù)。
大(dà)數(shù)據還(hái)改變了信息優勢。按照循證醫(yī)學,現在治病的第一件事情不是去研究病理(lǐ)學,而是拿(ná)過去的數(shù)據去研究,相同情況下是如何治療的。這導緻專家(jiā)和(hé)普通(tōng)人(rén)之間(jiān)的信息優勢沒有(yǒu)了。原來(lái)我相信醫(yī)生(shēng),因為(wèi)醫(yī)生(shēng)知道(dào)的多(duō),但(dàn)現在我可(kě)以到谷歌(gē)上(shàng)查一下,知道(dào)自己得(de)了什麽病。
谷歌(gē)有(yǒu)一個(gè)機器(qì)翻譯的團隊,最開(kāi)始的時(shí)候翻譯之後的文字根本看不懂,但(dàn)是現在60%的內(nèi)容都能讀得(de)懂。谷歌(gē)機器(qì)翻譯團隊裏頭有(yǒu)一個(gè)笑話(huà),說從團隊每離開(kāi)一個(gè)語言學家(jiā),翻譯質量就會(huì)提高(gāo)。越是專家(jiā)越搞不明(míng)白,但(dàn)打破常規讓數(shù)據說話(huà),得(de)到真理(lǐ)的速度反而更快。
說明(míng):用信息找人(rén)的思維方式思考問題,解決問題。從人(rén)找信息到信息找人(rén),是交互時(shí)代一個(gè)轉變,也是智能時(shí)代的要求。智能機器(qì)已不是冷冰冰的機器(qì),而是具有(yǒu)一定智能的機器(qì)。信息找人(rén)這四個(gè)字,預示着大(dà)數(shù)據時(shí)代可(kě)以讓信息找人(rén),原因是企業懂用戶,機器(qì)懂用戶,你(nǐ)需要什麽信息,企業和(hé)機器(qì)提前知道(dào),而且主動提供你(nǐ)需要的信息。
八、機器(qì)懂人(rén)原理(lǐ)
由人(rén)懂機器(qì)轉變為(wèi)機器(qì)更懂人(rén)
不是讓人(rén)更懂機器(qì),而是讓機器(qì)更懂人(rén),或者說是能夠在使用者很(hěn)笨的情況下,仍然可(kě)以使用機器(qì)。甚至不是讓人(rén)懂環境,而是讓我們的環境來(lái)懂我們,環境來(lái)适應人(rén),某種程度上(shàng)自然環境不能這樣講,但(dàn)是在數(shù)字化環境中已經是這樣的一個(gè)趨勢,就是我們所在的生(shēng)活世界,越來(lái)越趨向于它更适應于我們,更懂我們。哪個(gè)企業能夠真正做(zuò)到讓機器(qì)更懂人(rén),讓環境更懂人(rén),讓我們随身攜帶的整個(gè)的生(shēng)活世界更懂得(de)我們的話(huà),那(nà)他一定是具有(yǒu)競争力的了,而‘大(dà)數(shù)據’技(jì)術(shù)能夠助我們一臂之力。
例如:亞馬遜網站(zhàn),隻要買書(shū),就會(huì)提供一個(gè)今天司空(kōng)見慣的推薦,買了這本書(shū)的人(rén)還(hái)買了什麽書(shū),後來(lái)發現相關推薦的書(shū)比我想買的書(shū)還(hái)要好,時(shí)間(jiān)久之後就會(huì)對它産生(shēng)一種信任。這種信任就像在北京的那(nà)麽多(duō)書(shū)店(diàn)裏面,以前買書(shū)的時(shí)候就在幾家(jiā),原因在于我買書(shū)比較多(duō),他都已經認識我了,都是我一去之後,我不說我要買什麽書(shū),他會(huì)推薦最近上(shàng)來(lái)的幾本書(shū),可(kě)能是我感興趣的。這樣我就不會(huì)到别的很(hěn)近的書(shū)店(diàn),因為(wèi)這家(jiā)書(shū)店(diàn)更懂我。
例如,解題機器(qì)人(rén)挑戰大(dà)型預科學校(xiào)高(gāo)考模拟試題的結果,解題機器(qì)人(rén)的學曆水(shuǐ)平應該比肩普通(tōng)高(gāo)三學生(shēng)。計(jì)算(suàn)機不擅長對語言和(hé)知識進行(xíng)綜合解析,但(dàn)通(tōng)過借助大(dà)規模數(shù)據庫對普通(tōng)文章做(zuò)出判斷的方法,在對話(huà)填空(kōng)和(hé)語句重排等題型上(shàng)成績有(yǒu)所提高(gāo)。
讓機器(qì)懂人(rén),是讓機器(qì)具有(yǒu)學**的功能。人(rén)工智能已轉變為(wèi)研究機器(qì)學**。大(dà)數(shù)據分析要求機器(qì)更智能,具有(yǒu)分析能力,機器(qì)即時(shí)學**變得(de)更重要。機器(qì)學**是指:計(jì)算(suàn)機利用經驗改善自身性能的行(xíng)為(wèi)。機器(qì)學**主要研究如何使用計(jì)算(suàn)機模拟和(hé)實現人(rén)類獲取知識(學**)過程、創新、重構已有(yǒu)的知識,從而提升自身處理(lǐ)問題的能力,機器(qì)學**的最終目的是從數(shù)據中獲取知識。
大(dà)數(shù)據技(jì)術(shù)的其中一個(gè)核心目标是要從體(tǐ)量巨大(dà)、結構繁多(duō)的數(shù)據中挖掘出隐蔽在背後的規律,從而使數(shù)據發揮最大(dà)化的價值。由計(jì)算(suàn)機代替人(rén)去挖掘信息,獲取知識。從各種各樣的數(shù)據(包括結構化、半結構化和(hé)非結構化數(shù)據)中快速獲取有(yǒu)價值信息的能力,就是大(dà)數(shù)據技(jì)術(shù)。大(dà)數(shù)據機器(qì)分析中,半監督學**、集成學**、 概率模型等技(jì)術(shù)尤為(wèi)重要。
說明(míng):用機器(qì)更懂人(rén)的思維方式思考問題,解決問題。機器(qì)從沒有(yǒu)常識到逐步有(yǒu)點常識,這是很(hěn)大(dà)的變化。去年,美國人(rén)把一台雲計(jì)算(suàn)機送到大(dà)學裏去進修,增加知識和(hé)常識。最近俄羅斯人(rén)開(kāi)發一台計(jì)算(suàn)機軟件通(tōng)過圖林測試,表明(míng)計(jì)算(suàn)機已初步具有(yǒu)智能。
讓機器(qì)懂人(rén),這是人(rén)工智能的成功,同時(shí),也是人(rén)的大(dà)數(shù)據思維轉變。你(nǐ)的機器(qì)、你(nǐ)的軟件、你(nǐ)的服務是否更懂人(rén)?将是衡量一個(gè)機器(qì)、一件軟件、一項服務好壞的标準。人(rén)機關系已發生(shēng)很(hěn)大(dà)變化,由人(rén)機分離,轉化為(wèi)人(rén)機溝通(tōng),人(rén)機互補,機器(qì)懂人(rén),現在年青人(rén)已離不開(kāi)智能手機是一個(gè)很(hěn)好的例證。在互聯網大(dà)數(shù)據時(shí)代,有(yǒu)問題問機器(qì)問百度,成為(wèi)生(shēng)活的一部分。機器(qì)什麽都知道(dào),原因是有(yǒu)大(dà)數(shù)據庫,機器(qì)可(kě)搜索到相關數(shù)據,從而使機器(qì)懂人(rén)。是人(rén)讓機器(qì)更懂人(rén),如果機器(qì)更懂人(rén),那(nà)麽機器(qì)的價值更高(gāo)。
九、電(diàn)子商務智能原理(lǐ)
大(dà)數(shù)據改變了電(diàn)子商務模式,讓電(diàn)子商務更智能
商務智能,在今天大(dà)數(shù)據時(shí)代它獲得(de)的重新的定義
例如:傳統企業進入互聯網,在掌握了‘大(dà)數(shù)據’技(jì)術(shù)應用途徑之後,會(huì)發現有(yǒu)一種豁然開(kāi)朗的感覺,我整天就像在黑(hēi)屋子裏面找東西,找不着,突然碰到了一個(gè)開(kāi)關,發現那(nà)麽費力的找東西,原來(lái)很(hěn)容易找得(de)到。大(dà)數(shù)據思維,事實上(shàng)它不是一個(gè)全稱的判斷,隻是對我們所處的時(shí)代某一個(gè)緯度的描述。