RFID世界網(wǎng) > 新聞中心 > 物聯(lián)網(wǎng)新聞 > 正文

十分鐘了解大數(shù)據(jù)處理的五大關(guān)鍵技術(shù)及其應(yīng)用

作者：本站收錄

來(lái)源：西部數(shù)碼

日期：2018-11-12 14:21:10

摘要：?數(shù)據(jù)處理是對(duì)紛繁復(fù)雜的海量數(shù)據(jù)價(jià)值的提煉，而其中最有價(jià)值的地方在于預(yù)測(cè)性分析，即可以通過(guò)數(shù)據(jù)可視化、統(tǒng)計(jì)模式識(shí)別、數(shù)據(jù)描述等數(shù)據(jù)挖掘形式幫助數(shù)據(jù)科學(xué)家更好的理解數(shù)據(jù)，根據(jù)數(shù)據(jù)挖掘的結(jié)果得出預(yù)測(cè)性決策。

關(guān)鍵詞：大數(shù)據(jù)物聯(lián)網(wǎng)智能制造

　　數(shù)據(jù)處理是對(duì)紛繁復(fù)雜的海量數(shù)據(jù)價(jià)值的提煉，而其中最有價(jià)值的地方在于預(yù)測(cè)性分析，即可以通過(guò)數(shù)據(jù)可視化、統(tǒng)計(jì)模式識(shí)別、數(shù)據(jù)描述等數(shù)據(jù)挖掘形式幫助數(shù)據(jù)科學(xué)家更好的理解數(shù)據(jù)，根據(jù)數(shù)據(jù)挖掘的結(jié)果得出預(yù)測(cè)性決策。其中主要工作環(huán)節(jié)包括：

　　大數(shù)據(jù)采集、

　　大數(shù)據(jù)預(yù)處理、

　　大數(shù)據(jù)存儲(chǔ)及管理、

　　大數(shù)據(jù)分析及挖掘

　　大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。

　　一、大數(shù)據(jù)采集技術(shù)

　　數(shù)據(jù)是指通過(guò)RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù)，是大數(shù)據(jù)知識(shí)服務(wù)模型的根本。重點(diǎn)要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù);突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù);設(shè)計(jì)質(zhì)量評(píng)估模型，開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。

十分鐘了解大數(shù)據(jù)處理的五大關(guān)鍵技術(shù)及其應(yīng)用

　　大數(shù)據(jù)采集一般分為：

　　1)大數(shù)據(jù)智能感知層：主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng)，實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。必須著重攻克針對(duì)大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)。

　　2)基礎(chǔ)支撐層：提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器，結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。重點(diǎn)攻克分布式虛擬存儲(chǔ)技術(shù)，大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù)，大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù)，大數(shù)據(jù)隱私保護(hù)技術(shù)等。

　　二、大數(shù)據(jù)預(yù)處理技術(shù)

　　完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗等操作。

　　1)抽?。阂颢@取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型，數(shù)據(jù)抽取過(guò)程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型，以達(dá)到快速分析處理的目的。

　　2)清洗：對(duì)于大數(shù)據(jù)，并不全是有價(jià)值的，有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容，而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng)，因此要對(duì)數(shù)據(jù)通過(guò)過(guò)濾“去噪”從而提取出有效數(shù)據(jù)。

　　三、大數(shù)據(jù)存儲(chǔ)及管理技術(shù)

　　大數(shù)據(jù)存儲(chǔ)與管理要用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來(lái)，建立相應(yīng)的數(shù)據(jù)庫(kù)，并進(jìn)行管理和調(diào)用。重點(diǎn)解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。主要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問(wèn)題。開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)，異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)，數(shù)據(jù)組織技術(shù)，研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。

　　開發(fā)新型數(shù)據(jù)庫(kù)技術(shù)，數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)緩存系統(tǒng)。其中，非關(guān)系型數(shù)據(jù)庫(kù)主要指的是NoSQL數(shù)據(jù)庫(kù)，分為：鍵值數(shù)據(jù)庫(kù)、列存數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)以及文檔數(shù)據(jù)庫(kù)等類型。關(guān)系型數(shù)據(jù)庫(kù)包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)以及NewSQL數(shù)據(jù)庫(kù)。

　　開發(fā)大數(shù)據(jù)安全技術(shù)：改進(jìn)數(shù)據(jù)銷毀、透明加解密、分布式訪問(wèn)控制、數(shù)據(jù)審計(jì)等技術(shù);突破隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R(shí)別和取證、數(shù)據(jù)持有完整性驗(yàn)證等技術(shù)。

　　四、大數(shù)據(jù)分析及挖掘技術(shù)

　　大數(shù)據(jù)分析技術(shù)：改進(jìn)已有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù);開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語(yǔ)義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。

　　數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。

　　數(shù)據(jù)挖掘涉及的技術(shù)方法很多，有多種分類法。根據(jù)挖掘任務(wù)可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分，可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。

　　機(jī)器學(xué)習(xí)中，可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中，可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中，可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法，另外還有面向?qū)傩缘臍w納方法。

　　數(shù)據(jù)挖掘主要過(guò)程是：根據(jù)分析挖掘目標(biāo)，從數(shù)據(jù)庫(kù)中把數(shù)據(jù)提取出來(lái)，然后經(jīng)過(guò)ETL組織成適合分析挖掘算法使用寬表，然后利用數(shù)據(jù)挖掘軟件進(jìn)行挖掘。傳統(tǒng)的數(shù)據(jù)挖掘軟件，一般只能支持在單機(jī)上進(jìn)行小規(guī)模數(shù)據(jù)處理,受此限制傳統(tǒng)數(shù)據(jù)分析挖掘一般會(huì)采用抽樣方式來(lái)減少數(shù)據(jù)分析規(guī)模。

　　數(shù)據(jù)挖掘的計(jì)算復(fù)雜度和靈活度遠(yuǎn)遠(yuǎn)超過(guò)前兩類需求。一是由于數(shù)據(jù)挖掘問(wèn)題開放性，導(dǎo)致數(shù)據(jù)挖掘會(huì)涉及大量衍生變量計(jì)算，衍生變量多變導(dǎo)致數(shù)據(jù)預(yù)處理計(jì)算復(fù)雜性;二是很多數(shù)據(jù)挖掘算法本身就比較復(fù)雜，計(jì)算量就很大，特別是大量機(jī)器學(xué)習(xí)算法，都是迭代計(jì)算，需要通過(guò)多次迭代來(lái)求最優(yōu)解，例如K-means聚類算法、PageRank算法等。

　　從挖掘任務(wù)和挖掘方法的角度，著重突破：

　　1)可視化分析。數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶或是數(shù)據(jù)分析專家，都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話，讓用戶直觀的感受到結(jié)果。

　　2)數(shù)據(jù)挖掘算法。圖像化是將機(jī)器語(yǔ)言翻譯給人看，而數(shù)據(jù)挖掘就是機(jī)器的母語(yǔ)。分割、集群、孤立點(diǎn)分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù)，挖掘價(jià)值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量，同時(shí)還具有很高的處理速度。

　　3)預(yù)測(cè)性分析。預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。

　　4)語(yǔ)義引擎。語(yǔ)義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。語(yǔ)言處理技術(shù)包括機(jī)器翻譯、情感分析、輿情分析、智能輸入、問(wèn)答系統(tǒng)等。

　　5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐，透過(guò)標(biāo)準(zhǔn)化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)行處理可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果。

　　預(yù)測(cè)分析成功的7個(gè)秘訣

　　預(yù)測(cè)未來(lái)一直是一個(gè)冒險(xiǎn)的命題。幸運(yùn)的是，預(yù)測(cè)分析技術(shù)的出現(xiàn)使得用戶能夠基于歷史數(shù)據(jù)和分析技術(shù)(如統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí))預(yù)測(cè)未來(lái)的結(jié)果，這使得預(yù)測(cè)結(jié)果和趨勢(shì)變得比過(guò)去幾年更加可靠。

　　盡管如此，與任何新興技術(shù)一樣，想要充分發(fā)揮預(yù)測(cè)分析的潛力也是很難的。而可能使挑戰(zhàn)變得更加復(fù)雜的是，由不完善的策略或預(yù)測(cè)分析工具的誤用導(dǎo)致的不準(zhǔn)確或誤導(dǎo)性的結(jié)果可能在幾周、幾個(gè)月甚至幾年內(nèi)才會(huì)顯現(xiàn)出來(lái)。

　　預(yù)測(cè)分析有可能徹底改變?cè)S多的行業(yè)和業(yè)務(wù)，包括零售、制造、供應(yīng)鏈、網(wǎng)絡(luò)管理、金融服務(wù)和醫(yī)療保健。AI網(wǎng)絡(luò)技術(shù)公司Mist Systems的聯(lián)合創(chuàng)始人、首席技術(shù)官Bob fridy預(yù)測(cè):“深度學(xué)習(xí)和預(yù)測(cè)性AI分析技術(shù)將會(huì)改變我們社會(huì)的所有部分，就像十年來(lái)互聯(lián)網(wǎng)和蜂窩技術(shù)所帶來(lái)的轉(zhuǎn)變一樣。”。

　　這里有七個(gè)建議，旨在幫助您的組織充分利用其預(yù)測(cè)分析計(jì)劃。

　　1.能夠訪問(wèn)高質(zhì)量、易于理解的數(shù)據(jù)

　　預(yù)測(cè)分析應(yīng)用程序需要大量數(shù)據(jù)，并依賴于通過(guò)反饋循環(huán)提供的信息來(lái)不斷改進(jìn)。全球IT解決方案和服務(wù)提供商Infotech的首席數(shù)據(jù)和分析官Soumendra Mohanty評(píng)論道:“數(shù)據(jù)和預(yù)測(cè)分析之間是相互促進(jìn)的關(guān)系。”

　　了解流入預(yù)測(cè)分析模型的數(shù)據(jù)類型非常重要。“一個(gè)人身上會(huì)有什么樣的數(shù)據(jù)?” Eric Feigl – Ding問(wèn)道，他是流行病學(xué)家、營(yíng)養(yǎng)學(xué)家和健康經(jīng)濟(jì)學(xué)家，目前是哈佛陳氏公共衛(wèi)生學(xué)院的訪問(wèn)科學(xué)家。“是每天都在Facebook和谷歌上收集的實(shí)時(shí)數(shù)據(jù)，還是難以訪問(wèn)的醫(yī)療記錄所需的醫(yī)療數(shù)據(jù)?”為了做出準(zhǔn)確的預(yù)測(cè)，模型需要被設(shè)計(jì)成能夠處理它所吸收的特定類型的數(shù)據(jù)。

　　簡(jiǎn)單地將大量數(shù)據(jù)扔向計(jì)算資源的預(yù)測(cè)建模工作注定會(huì)失敗。“由于存在大量數(shù)據(jù)，而其中大部分?jǐn)?shù)據(jù)可能與特定問(wèn)題無(wú)關(guān)，只是在給定樣本中可能存在相關(guān)關(guān)系，”FactSet投資組合管理和交易解決方案副總裁兼研究主管Henri Waelbroeck解釋道，F(xiàn)actSet是一家金融數(shù)據(jù)和軟件公司。“如果不了解產(chǎn)生數(shù)據(jù)的過(guò)程，一個(gè)在有偏見的數(shù)據(jù)上訓(xùn)練的模型可能是完全錯(cuò)誤的。”

　　2.找到合適的模式

　　SAP高級(jí)分析產(chǎn)品經(jīng)理Richard Mooney指出，每個(gè)人都癡迷于算法，但是算法必須和輸入到算法中的數(shù)據(jù)一樣好。“如果找不到適合的模式，那么他們就毫無(wú)用處，”他寫道。“大多數(shù)數(shù)據(jù)集都有其隱藏的模式。”

　　模式通常以兩種方式隱藏:

　　1)模式位于兩列之間的關(guān)系中。例如，可以通過(guò)即將進(jìn)行的交易的截止日期信息與相關(guān)的電子郵件開盤價(jià)數(shù)據(jù)進(jìn)行比較來(lái)發(fā)現(xiàn)一種模式。Mooney說(shuō):“如果交易即將結(jié)束，電子郵件的公開率應(yīng)該會(huì)大幅提高，因?yàn)橘I方會(huì)有很多人需要閱讀并審查合同。”

　　2)模式顯示了變量隨時(shí)間變化的關(guān)系。 “以上面的例子為例，了解客戶打開了200次電子郵件并不像知道他們?cè)谏现艽蜷_了175次那樣有用，”Mooney說(shuō)。

　　3 .專注于可管理的任務(wù)，這些任務(wù)可能會(huì)帶來(lái)積極的投資回報(bào)

　　紐約理工學(xué)院的分析和商業(yè)智能主任Michael Urmeneta稱:“如今，人們很想把機(jī)器學(xué)習(xí)算法應(yīng)用到海量數(shù)據(jù)上，以期獲得更深刻的見解。”他說(shuō)，這種方法的問(wèn)題在于，它就像試圖一次治愈所有形式的癌癥一樣。Urmeneta解釋說(shuō):“這會(huì)導(dǎo)致問(wèn)題太大，數(shù)據(jù)太亂——沒有足夠的資金和足夠的支持。這樣是不可能獲得成功的。”

　　而當(dāng)任務(wù)相對(duì)集中時(shí)，成功的可能性就會(huì)大得多。Urmeneta指出:“如果有問(wèn)題的話，我們很可能會(huì)接觸到那些能夠理解復(fù)雜關(guān)系的專家” 。“這樣，我們就很可能會(huì)有更清晰或更好理解的數(shù)據(jù)來(lái)進(jìn)行處理。”

　　4.使用正確的方法來(lái)完成工作

　　好消息是，幾乎有無(wú)數(shù)的方法可以用來(lái)生成精確的預(yù)測(cè)分析。然而，這也是個(gè)壞消息。芝加哥大學(xué)NORC (前國(guó)家意見研究中心)的行為、經(jīng)濟(jì)分析和決策實(shí)踐主任Angela Fontes說(shuō):“每天都有新的、熱門的分析方法出現(xiàn)，使用新方法很容易讓人興奮”。“然而，根據(jù)我的經(jīng)驗(yàn)，最成功的項(xiàng)目是那些真正深入思考分析結(jié)果并讓其指導(dǎo)他們選擇方法的項(xiàng)目——即使最合適的方法并不是最性感、最新的方法。”

　　羅切斯特理工學(xué)院計(jì)算機(jī)工程系主任、副教授shanchie Jay Yang建議說(shuō):“用戶必須謹(jǐn)慎選擇適合他們需求的方法”。“必須擁有一種高效且可解釋的技術(shù)，一種可以利用序列數(shù)據(jù)、時(shí)間數(shù)據(jù)的統(tǒng)計(jì)特性，然后將其外推到最有可能的未來(lái)，”Yang說(shuō)。

　　5.用精確定義的目標(biāo)構(gòu)建模型

　　這似乎是顯而易見的，但許多預(yù)測(cè)分析項(xiàng)目開始時(shí)的目標(biāo)是構(gòu)建一個(gè)宏偉的模型，卻沒有一個(gè)明確的最終使用計(jì)劃。“有很多很棒的模型從來(lái)沒有被人使用過(guò)，因?yàn)闆]有人知道如何使用這些模型來(lái)實(shí)現(xiàn)或提供價(jià)值，”汽車、保險(xiǎn)和碰撞修復(fù)行業(yè)的SaaS提供商CCC信息服務(wù)公司的產(chǎn)品管理高級(jí)副總裁Jason Verlen評(píng)論道。

　　對(duì)此，F(xiàn)ontes也表示同意。“使用正確的工具肯定會(huì)確保我們從分析中得到想要的結(jié)果……”因?yàn)檫@迫使我們必須對(duì)自己的目標(biāo)非常清楚，”她解釋道。“如果我們不清楚分析的目標(biāo)，就永遠(yuǎn)也不可能真正得到我們想要的東西。”

　　6.在IT和相關(guān)業(yè)務(wù)部門之間建立密切的合作關(guān)系

　　在業(yè)務(wù)和技術(shù)組織之間建立牢固的合作伙伴關(guān)系是至關(guān)重要的。客戶體驗(yàn)技術(shù)提供商Genesys的人工智能產(chǎn)品管理副總裁Paul lasserr說(shuō):“你應(yīng)該能夠理解新技術(shù)如何應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)或改善現(xiàn)有的業(yè)務(wù)環(huán)境。”然后，一旦設(shè)置了目標(biāo)，就可以在一個(gè)限定范圍的應(yīng)用程序中測(cè)試模型，以確定解決方案是否真正提供了所需的價(jià)值。

　　7.不要被設(shè)計(jì)不良的模型誤導(dǎo)

　　模型是由人設(shè)計(jì)的，所以它們經(jīng)常包含著潛在的缺陷。錯(cuò)誤的模型或使用不正確或不當(dāng)?shù)臄?shù)據(jù)構(gòu)建的模型很容易產(chǎn)生誤導(dǎo)，在極端情況下，甚至?xí)a(chǎn)生完全錯(cuò)誤的預(yù)測(cè)。

　　沒有實(shí)現(xiàn)適當(dāng)隨機(jī)化的選擇偏差會(huì)混淆預(yù)測(cè)。例如，在一項(xiàng)假設(shè)的減肥研究中，可能有50%的參與者選擇退出后續(xù)的體重測(cè)量。然而，那些中途退出的人與留下來(lái)的人有著不同的體重軌跡。這使得分析變得復(fù)雜，因?yàn)樵谶@樣的研究中，那些堅(jiān)持參加這個(gè)項(xiàng)目的人通常是那些真正減肥的人。另一方面，戒煙者通常是那些很少或根本沒有減肥經(jīng)歷的人。因此，雖然減肥在整個(gè)世界都是具有因果性和可預(yù)測(cè)性的，但在一個(gè)有50%退出率的有限數(shù)據(jù)庫(kù)中，實(shí)際的減肥結(jié)果可能會(huì)被隱藏起來(lái)。

　　六、大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)

　　大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識(shí)挖掘出來(lái)，為人類的社會(huì)經(jīng)濟(jì)活動(dòng)提供依據(jù)，從而提高各個(gè)領(lǐng)域的運(yùn)行效率，大大提高整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。

　　在我國(guó)，大數(shù)據(jù)將重點(diǎn)應(yīng)用于以下三大領(lǐng)域：商業(yè)智能、政府決策、公共服務(wù)。例如：商業(yè)智能技術(shù)，政府決策技術(shù)，電信數(shù)據(jù)信息處理與挖掘技術(shù)，電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù)，氣象信息分析技術(shù)，環(huán)境監(jiān)測(cè)技術(shù)，警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng))，大規(guī)?；蛐蛄蟹治霰葘?duì)技術(shù)，Web信息挖掘技術(shù)，多媒體數(shù)據(jù)并行化處理技術(shù)，影視制作渲染技術(shù)，其他各種行業(yè)的云計(jì)算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。