物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

微軟即將開源REEF大數(shù)據(jù)框架

作者:RFID世界網(wǎng)收錄
來源:ZDNET
日期:2013-08-13 14:19:06
摘要:微軟開發(fā)出一套名為REEF(即可保留評估執(zhí)行框架的簡稱)的大數(shù)據(jù)框架,并有意在一個月之內(nèi)將其推向開源。REEF在設(shè)計上以下一代Hadoop資源管理器YARN為運(yùn)行基礎(chǔ),尤其適合完成機(jī)器學(xué)習(xí)類任務(wù)。

  微軟開發(fā)出一套名為REEF(即可保留評估執(zhí)行框架的簡稱)的大數(shù)據(jù)框架,并有意在一個月之內(nèi)將其推向開源。REEF在設(shè)計上以下一代Hadoop資源管理器YARN為運(yùn)行基礎(chǔ),尤其適合完成機(jī)器學(xué)習(xí)類任務(wù)。

  微軟公司技術(shù)研究員兼信息服務(wù)部門CTO Raghu Ramakrishnan在本周一上午于芝加哥舉辦的知識發(fā)掘與數(shù)據(jù)發(fā)現(xiàn)國際大會上,以主題演講的形式介紹了REEF項(xiàng)目與微軟的開源規(guī)劃。

  YARN是一款資源管理器,最初作為Apache Hadoop項(xiàng)目的組成部分開發(fā)而來,旨在幫助用戶在由多臺物理設(shè)備構(gòu)成的同一套集群內(nèi)運(yùn)行并管理多種任務(wù)類型(例如批量MapReduce、與Storm及/或圖形處理包共同實(shí)現(xiàn)流處理等)。這項(xiàng)新機(jī)制不僅能夠縮減機(jī)構(gòu)所需管理的系統(tǒng)數(shù)量,而且能在同一位置以同一批數(shù)據(jù)為基礎(chǔ)執(zhí)行不同類型的分析工作。在某些情況下,全部數(shù)據(jù)工作流甚至可以完全在同一套設(shè)備集群內(nèi)進(jìn)行處理。

  不過根據(jù)Ramakrishnan的解釋,某些工作類型(例如機(jī)器學(xué)習(xí))對于YARN類框架并不適合,因?yàn)樗鼈儗τ跀?shù)據(jù)移動、任務(wù)監(jiān)控以及前續(xù)結(jié)果集迭代(以避免多次重啟)等功能存在特殊要求。針對REEF,Ramakrishnan表示這是一套運(yùn)行在YARN之上的庫;雖然他并未深入探討其具體運(yùn)作機(jī)制,但宣稱REEF能在一定程度上解決上述問題。

  但他曾明確解釋稱,REEF被分為兩大主要部分:首先是作為容納REEF服務(wù)的YARN容器——Evaluator;然后是使用戶代碼運(yùn)行在Evaluator當(dāng)中的Activity。他還為我們帶來一段工作流演示,即在YARN當(dāng)中啟動Evaluator,并以Evaluator為容器實(shí)現(xiàn)Activity代碼運(yùn)行直到結(jié)束。值得一提的是,同一Evaluator還可以再次啟動并維持其初始狀態(tài),這樣其它Activity進(jìn)程也可以針對初始數(shù)據(jù)實(shí)現(xiàn)運(yùn)行。據(jù)推測,微軟很可能是利用某種SQL查詢或者其它機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn)這樣的效果。

  從理論上講,REEF是一種非常有趣的技術(shù)。它希望解決企業(yè)在嘗試對數(shù)據(jù)進(jìn)行進(jìn)一步分析時所面對的遺留問題。我們期待微軟正式發(fā)布REEF之后,再從實(shí)際使用中獲取更多效果信息。盡管目前尚未實(shí)踐證明,但REEF仍然值得關(guān)注——這是因?yàn)槲④浺呀?jīng)對Hadoop(YARN即為Hadoop的重要組成部分)及開源社區(qū)表現(xiàn)出高度關(guān)注。就在幾年前,微軟還在尋找Hadoop的替代方案及專有平臺。如今,軟件巨頭已經(jīng)開始在Hadoop技術(shù)社區(qū)中傾注心力,希望借開源之力助自己更上一層樓。

人物訪談