物聯(lián)網(wǎng)趨勢(shì)與數(shù)據(jù)科學(xué)自動(dòng)化
數(shù)據(jù)科學(xué)是對(duì)大數(shù)據(jù)或物聯(lián)網(wǎng)(IoT)環(huán)境進(jìn)行的任何分析練習(xí)的核心。數(shù)據(jù)科學(xué)涉及廣泛的技術(shù),業(yè)務(wù)和機(jī)器學(xué)習(xí)算法。數(shù)據(jù)科學(xué)的目的不僅是做機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析,而且還可以從沒有統(tǒng)計(jì)知識(shí)的用戶理解的數(shù)據(jù)中得出洞察。
在諸如大數(shù)據(jù)和物聯(lián)網(wǎng)等快節(jié)奏的環(huán)境中,數(shù)據(jù)類型可能隨時(shí)間而變化,變得難以每次都維護(hù)和重新建立模型。這個(gè)差距需要一種自動(dòng)化的方式來管理這些環(huán)境中的數(shù)據(jù)科學(xué)算法。數(shù)據(jù)科學(xué)的興起旨在將我們從基于規(guī)則的系統(tǒng)轉(zhuǎn)移到機(jī)器自身學(xué)習(xí)規(guī)則的系統(tǒng)中。機(jī)器學(xué)習(xí)使數(shù)據(jù)科學(xué)固有地部分自動(dòng)化。需要手動(dòng)干預(yù)的數(shù)據(jù)科學(xué)的一半仍然是自動(dòng)化的。然而,這些領(lǐng)域涉及到人們的經(jīng)驗(yàn)和智慧:數(shù)據(jù)科學(xué)家,商業(yè)專家,軟件開發(fā)人員,數(shù)據(jù)集成商,目前有助于使數(shù)據(jù)科學(xué)項(xiàng)目運(yùn)作的人。這使得數(shù)據(jù)科學(xué)的各個(gè)方面都難以實(shí)現(xiàn)自動(dòng)化。但是,我們可以將數(shù)據(jù)科學(xué)自動(dòng)化視為兩級(jí)架構(gòu),其中:
不同的數(shù)據(jù)科學(xué)學(xué)科/組件是自動(dòng)化的
所有單獨(dú)的自動(dòng)化組件都是互連的,以形成一個(gè)連貫的數(shù)據(jù)科學(xué)系統(tǒng)
我們可以將數(shù)據(jù)科學(xué)系統(tǒng)視為自動(dòng)化,只要它們足夠能夠在我們拋出數(shù)據(jù)集時(shí)解決我們的問題。此外,應(yīng)該足夠聰明地向我們提供我們可以理解的語言中的所有可能的解決方案。
數(shù)據(jù)準(zhǔn)備,機(jī)器學(xué)習(xí),領(lǐng)域知識(shí)和結(jié)果解釋是成功執(zhí)行數(shù)據(jù)科學(xué)項(xiàng)目所需的四個(gè)主要任務(wù)。所有這些任務(wù)都必須轉(zhuǎn)換為自動(dòng)化模塊,以創(chuàng)建一個(gè)自動(dòng)化的數(shù)據(jù)科學(xué)系統(tǒng)(圖1)。
數(shù)據(jù)準(zhǔn)備自動(dòng)化
數(shù)據(jù)準(zhǔn)備是每次創(chuàng)建模型時(shí)必須完成的重復(fù)任務(wù)。數(shù)據(jù)提取,數(shù)據(jù)清理和數(shù)據(jù)轉(zhuǎn)換(例如估算空值和算法特定轉(zhuǎn)換)是屬于此類別的一些任務(wù)。許多組織將這些任務(wù)自動(dòng)化,并將引擎標(biāo)記為數(shù)據(jù)科學(xué)自動(dòng)化工具。但是,大多數(shù)這些工具使用基于規(guī)則的邏輯來自動(dòng)執(zhí)行數(shù)據(jù)預(yù)處理任務(wù)。這是正確的做法嗎?我們是否需要基于規(guī)則的系統(tǒng)來自動(dòng)化數(shù)據(jù)科學(xué),這是終止基于規(guī)則的系統(tǒng)誕生的?不,我們需要通過機(jī)器學(xué)習(xí)自動(dòng)進(jìn)行數(shù)據(jù)預(yù)處理。例如,關(guān)于什么預(yù)處理功能必須應(yīng)用于問題的數(shù)據(jù)的決定是由機(jī)器本身做出的。
特征工程是需要自動(dòng)化的另一個(gè)數(shù)據(jù)準(zhǔn)備領(lǐng)域。特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為屬性/預(yù)測(cè)變量的技術(shù),可提高機(jī)器學(xué)習(xí)項(xiàng)目的準(zhǔn)確性。特征工程自動(dòng)化仍處于初級(jí)階段,也是一個(gè)積極的研究領(lǐng)域。麻省理工學(xué)院的數(shù)據(jù)科學(xué)家正在開發(fā)一種能夠從原始數(shù)據(jù)生成特征的“深度特征綜合”算法取得了令人難以置信的進(jìn)步。
自動(dòng)機(jī)器學(xué)習(xí)/統(tǒng)計(jì)
這是統(tǒng)計(jì)程序自動(dòng)化的數(shù)據(jù)科學(xué)自動(dòng)化領(lǐng)域。系統(tǒng)根據(jù)提供的數(shù)據(jù)集執(zhí)行最佳算法。它隱藏了用戶的復(fù)雜性和算法的數(shù)學(xué)復(fù)雜性,使其向群眾提供。用戶需要向自動(dòng)統(tǒng)計(jì)學(xué)家提供數(shù)據(jù)。它了解數(shù)據(jù),創(chuàng)建不同的數(shù)學(xué)模型,并根據(jù)最能說明數(shù)據(jù)的模型返回結(jié)果。自動(dòng)統(tǒng)計(jì)學(xué)家是一個(gè)復(fù)雜的科學(xué),因?yàn)樗枰到y(tǒng)學(xué)習(xí)輸入數(shù)據(jù)模式,找到最佳擬合值,并使用幾種統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法自我優(yōu)化其參數(shù)。這需要各種算法約束的推廣和巨大的計(jì)算能力。
通過利用基于云的服務(wù)器來管理高計(jì)算能力的需求,自動(dòng)機(jī)器學(xué)習(xí)逐漸成熟。創(chuàng)建數(shù)據(jù)產(chǎn)品的組織逐漸包括諸如元學(xué)習(xí)的功能,基于數(shù)據(jù)集的元數(shù)據(jù)自動(dòng)選擇合適的機(jī)器學(xué)習(xí)算法的過程。像H2O.ai這樣的組織通過引入幾個(gè)內(nèi)置功能來推廣模型構(gòu)建過程,并提供了許多模型調(diào)整選項(xiàng),可以更好地控制算法。此外,他們已經(jīng)將超參數(shù)調(diào)優(yōu)作為幾乎所有算法的特征,使數(shù)據(jù)科學(xué)家免于使用不同參數(shù)測(cè)試模型的繁瑣過程。超參數(shù)調(diào)整是使機(jī)器學(xué)習(xí)模型重新運(yùn)行多次的自動(dòng)化嘗試和錯(cuò)誤的過程,以確定數(shù)據(jù)集上的模型的適當(dāng)參數(shù)。
洞察產(chǎn)生自動(dòng)化
數(shù)據(jù)科學(xué)項(xiàng)目的結(jié)果直到和除非業(yè)務(wù)用戶或沒有統(tǒng)計(jì)知識(shí)的觀眾理解它才有用。數(shù)據(jù)科學(xué)活動(dòng)的奶油是講故事的部分,數(shù)據(jù)科學(xué)家以全面透明的方式向人們解釋結(jié)果。自動(dòng)化此任務(wù)需要從統(tǒng)計(jì)學(xué)家友好的結(jié)果自動(dòng)生成用戶友好的文本。自然語言生成(NLG)是當(dāng)前的前沿框架,可以幫助將語言翻譯成自然語言。 Nlgserv和simplenlg是我們可以用于此任務(wù)的兩個(gè)NLG框架。此外,我們可以使用馬爾科夫鏈自動(dòng)生成句子和制作故事。
數(shù)據(jù)科學(xué)自動(dòng)化的創(chuàng)新已經(jīng)開始,并將在未來幾年逐漸演變。我們目前正處于一個(gè)階段,我們已經(jīng)開始處理個(gè)別數(shù)據(jù)科學(xué)模塊的自動(dòng)化。從這里,我們需要轉(zhuǎn)移到更通用的數(shù)據(jù)科學(xué)平臺(tái),所有模塊都自動(dòng)化并集成在一起。這是一個(gè)變化的開始,就像房間大小的計(jì)算機(jī)被轉(zhuǎn)換為信用卡大小的計(jì)算機(jī)一樣。