華為助北大實(shí)驗(yàn)室大數(shù)據(jù)科研走在最前沿
2013年即將畫上句號,這一年IT界關(guān)注的焦點(diǎn)之一即“智慧城市”,媒體甚至將2013年稱為智慧城市發(fā)展元年。隨著智慧城市大帷幕的開啟,大數(shù)據(jù)也作為其中一個主角走上了舞臺,并伴隨著大數(shù)據(jù)搜集和分析技術(shù)的發(fā)展,未來的交通、零售、醫(yī)療、安全、教育等領(lǐng)域都將發(fā)生重大變化。大數(shù)據(jù)將在智慧城市中擔(dān)當(dāng)重任,也使得當(dāng)前大數(shù)據(jù)的研究更加緊迫和關(guān)鍵。
大數(shù)據(jù)研究前沿 北大重點(diǎn)實(shí)驗(yàn)室擔(dān)重任
如今越來越多的領(lǐng)域都需要使用大數(shù)據(jù)分析和挖掘技術(shù),大數(shù)據(jù)的獲取、挖掘和分析不只是生產(chǎn)工具,而且它已經(jīng)成為科學(xué)進(jìn)程的組成部分,未來不論在自然科學(xué)還是社會科學(xué)方面,很多研究都將由大數(shù)據(jù)驅(qū)動。大數(shù)據(jù)研究這一具有挑戰(zhàn)性的課題,目前由國內(nèi)最頂尖的高等學(xué)府北京大學(xué)重點(diǎn)研究實(shí)驗(yàn)室承擔(dān),也就是北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室(以下簡稱北大重點(diǎn)實(shí)驗(yàn)室)。
北大重點(diǎn)實(shí)驗(yàn)室是一個橫跨多個研究領(lǐng)域的實(shí)驗(yàn)室,目前涉及的主要領(lǐng)域包括計算機(jī)科學(xué)、智能科學(xué)技術(shù)、心理學(xué)以及認(rèn)知科學(xué)等,是一個多學(xué)科交叉科研機(jī)構(gòu)。實(shí)驗(yàn)室以實(shí)現(xiàn)高度智能化的機(jī)器感知系統(tǒng)為目標(biāo),并緊密結(jié)合國民經(jīng)濟(jì)和社會發(fā)展的要求,開展機(jī)器感知、智能信息處理與認(rèn)知科學(xué)方面的基礎(chǔ)與應(yīng)用基礎(chǔ)研究。目前實(shí)驗(yàn)室的主要研究方向有感知機(jī)理,計算智能與知識發(fā)現(xiàn),視感知,聽感知,數(shù)字媒體技術(shù),可視化與視覺計算。
北大重點(diǎn)實(shí)驗(yàn)室承擔(dān)著多學(xué)科的重點(diǎn)研究,并一直走在科技的前沿,這次北大重點(diǎn)實(shí)驗(yàn)室承接了大數(shù)據(jù)研究這一項(xiàng)目后,將工作重點(diǎn)不僅放在了研發(fā)用于處理海量數(shù)據(jù)的新技術(shù)和系統(tǒng)上面,還放在了確保個人資料的收集、處理和分析在一個嚴(yán)密、安全的環(huán)境下進(jìn)行上面。同時,北大重點(diǎn)實(shí)驗(yàn)室還承擔(dān)著如何利用大數(shù)據(jù)解決交通運(yùn)輸、城市規(guī)劃、衛(wèi)生、財政和教育等現(xiàn)實(shí)中不同領(lǐng)域的問題,以及如何通過大數(shù)據(jù)建立分析模型,來預(yù)測傳染病的傳播并進(jìn)行輿情分析等研究方向。
大數(shù)據(jù)研究面臨的挑戰(zhàn)及北大重點(diǎn)實(shí)驗(yàn)室IT選型重點(diǎn)
目前,參與大數(shù)據(jù)研究的各方面臨著一些技術(shù)上的挑戰(zhàn),其中包括:
1. 非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高效處理
據(jù)統(tǒng)計,目前采集到的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而傳統(tǒng)的關(guān)系數(shù)據(jù)庫技術(shù)無法勝任這些數(shù)據(jù)的處理,因?yàn)殛P(guān)系數(shù)據(jù)庫系統(tǒng)的出發(fā)點(diǎn)是追求高度的數(shù)據(jù)一致性和容錯性。
2. 如何探索大數(shù)據(jù)復(fù)雜性、不確定性特征描述的刻畫方法及大數(shù)據(jù)的系統(tǒng)建模
這一問題的突破是實(shí)現(xiàn)大數(shù)據(jù)知識發(fā)現(xiàn)的前提和關(guān)鍵。從長遠(yuǎn)角度來看,依照大數(shù)據(jù)的個體復(fù)雜性和隨機(jī)性所帶來的挑戰(zhàn)將促使大數(shù)據(jù)數(shù)學(xué)結(jié)構(gòu)的形成,從而導(dǎo)致大數(shù)據(jù)統(tǒng)一理論的完備。從短期而言,學(xué)術(shù)界鼓勵發(fā)展一種一般性的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)之間的轉(zhuǎn)化原則,以支持大數(shù)據(jù)的交叉工業(yè)應(yīng)用。管理科學(xué),尤其是基于最優(yōu)化的理論將在發(fā)展大數(shù)據(jù)知識發(fā)現(xiàn)的一般性方法和規(guī)律性中發(fā)揮重要的作用。
3. 數(shù)據(jù)異構(gòu)性與決策異構(gòu)性的關(guān)系對大數(shù)據(jù)知識發(fā)現(xiàn)與管理決策的影響
由于大數(shù)據(jù)本身的復(fù)雜性,這一問題無疑是一個重要的科研課題,對傳統(tǒng)的數(shù)據(jù)挖掘理論和技術(shù)提出了新的挑戰(zhàn)。在大數(shù)據(jù)環(huán)境下,管理決策面臨著兩個“異構(gòu)性”問題:“數(shù)據(jù)異構(gòu)性”和“決策異構(gòu)性”。傳統(tǒng)的管理決定模式取決于對業(yè)務(wù)知識的學(xué)習(xí)和日益積累的實(shí)踐經(jīng)驗(yàn),而管理決策又是以數(shù)據(jù)分析為基礎(chǔ)的。
4. 數(shù)據(jù)的去冗余和高效率低成本的數(shù)據(jù)存儲
數(shù)據(jù)中有大量的冗余,消除冗余是降低開銷的重要途徑。大數(shù)據(jù)的存儲方式不僅影響效率也影響成本,需要研究高效率低成本的數(shù)據(jù)存儲方式。需要研究多源多模態(tài)數(shù)據(jù)的高質(zhì)量獲取與整合的理論和技術(shù)、錯誤自動檢測與修復(fù)的理論和技術(shù)、低質(zhì)量數(shù)據(jù)上的近似計算的理論和算法等。
5. 大數(shù)據(jù)的有效融合
數(shù)據(jù)不整合就發(fā)揮不出大數(shù)據(jù)的大價值。大數(shù)據(jù)的泛濫與數(shù)據(jù)格式太多有關(guān)。大數(shù)據(jù)面臨的一個重要問題是個人、企業(yè)和政府機(jī)構(gòu)的各種數(shù)據(jù)和信息能否方便地融合。
6. 適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境
不同行業(yè)需要不同的大數(shù)據(jù)分析工具和開發(fā)環(huán)境,應(yīng)鼓勵計算機(jī)算法研究人員與各領(lǐng)域的科研人員密切合作,在分析工具和開發(fā)環(huán)境上創(chuàng)新。當(dāng)前跨領(lǐng)域跨行業(yè)的數(shù)據(jù)共享仍存在大量壁壘,海量數(shù)據(jù)的收集,特別是關(guān)聯(lián)領(lǐng)域的同時收集還存在很大挑戰(zhàn)。
7. 大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術(shù)
大數(shù)據(jù)的獲取、通信、存儲、管理與分析處理都需要消耗大量的能源。在能源問題日益突出的今天,研究創(chuàng)新的數(shù)據(jù)處理和傳送的節(jié)能方法與技術(shù)是重要的研究方向。
顯然,這些挑戰(zhàn)是大數(shù)據(jù)研究者共同面臨的,而北大重點(diǎn)實(shí)驗(yàn)室IT選型的重點(diǎn)就是針對上述的挑戰(zhàn),找到合適的解決方案。
北大重點(diǎn)實(shí)驗(yàn)室IT架構(gòu)解決方案
經(jīng)過大量的前期調(diào)查,比較和分析準(zhǔn)備工作,北大重點(diǎn)實(shí)驗(yàn)室最后選擇了華為基于高性能服務(wù)器RH5885 V2的HANA數(shù)據(jù)處理平臺。HANA提供的對大量實(shí)時業(yè)務(wù)數(shù)據(jù)進(jìn)行快速查詢和分析以及實(shí)時數(shù)據(jù)計算等功能,在很大程度上得益于華為RH5885 V2服務(wù)器的高可靠、高性能和高可用性的支撐。
華為RH5885 V2是新一代四路/八路機(jī)架服務(wù)器,采用Intel® Xeon® E7-8800/4800系列處理器,支持6核、8核及10核CPU類型,最高頻率2.66GHz,最大30MB L3緩存空間,完全能滿足大數(shù)據(jù)分析、挖掘?qū)Ψ?wù)器提出的具備強(qiáng)大處理性能的要求;支持兩個高性能GPU,這就在很大程度上提升了系統(tǒng)圖形處理與浮點(diǎn)計算能力,恰好滿足了大數(shù)據(jù)分析中圖形展示對服務(wù)器提出的高性能GPU要求。
RH5885 V2其他的特點(diǎn)還包括:可靈活擴(kuò)展,八路服務(wù)器支持128條內(nèi)存,最大容量4TB;可靠性高,支持多達(dá)35項(xiàng)容錯特性;維護(hù)簡單,支持免開箱維護(hù)和綠色環(huán)保等。這些特點(diǎn)都為HANA提供了強(qiáng)大的硬件支撐,讓HANA能夠順暢地進(jìn)行大數(shù)據(jù)的各種應(yīng)用。
北大重點(diǎn)實(shí)驗(yàn)室繼續(xù)引領(lǐng)大數(shù)據(jù)研究前沿
華為高性能服務(wù)器RH5885V2的HANA一體機(jī)應(yīng)用于北大重點(diǎn)實(shí)驗(yàn)室后,經(jīng)過近一年的使用,以事實(shí)證明了其高可靠、高性能的領(lǐng)先優(yōu)勢,不僅如此,北大重點(diǎn)實(shí)驗(yàn)室的相關(guān)負(fù)責(zé)人認(rèn)為:“華為創(chuàng)新的SSD 高速存儲卡,使一體機(jī)I/O 性能提升了5 倍,僅系統(tǒng)硬件就幫助北大重點(diǎn)實(shí)驗(yàn)節(jié)省投資60%,一體機(jī)方案優(yōu)勢明顯。更重要的是,通過使用華為高性能服務(wù)器RH5885V2的HANA一體機(jī),優(yōu)越的性能幫助我們的研究取得事半功倍的效果,并在智能化大數(shù)據(jù)領(lǐng)域的研究始終走在國內(nèi)的最前沿?!岸A為也在此次與北大重點(diǎn)實(shí)驗(yàn)室的合作中,更細(xì)致的把握了教育行業(yè)及大數(shù)據(jù)應(yīng)用的需求特點(diǎn),幫助更多的中國教育行業(yè)用戶及大數(shù)據(jù)應(yīng)用用戶構(gòu)建更加卓越的IT系統(tǒng)架構(gòu)。