大規(guī)模計算給主流數(shù)據(jù)中心帶來的五大啟示
數(shù)據(jù)中心擴(kuò)大規(guī)模時,大多數(shù)IT團(tuán)隊會尋求這樣一種管理控制臺:能夠提供一種直觀、全面的視圖,從而簡化日常的管理任務(wù)。IT團(tuán)隊在管理超大規(guī)模的數(shù)據(jù)中心時,還學(xué)會了尋找這樣一種控制臺:可以調(diào)用如今的數(shù)據(jù)中心平臺帶來的細(xì)粒度數(shù)據(jù)。這包括每一個服務(wù)器、機架或整屋子計算設(shè)備的實時用電情況和溫度。
第一個經(jīng)驗:別忽視了“小”數(shù)據(jù)。
整合能源管理中間件的管理控制臺可以把這些數(shù)據(jù)中心的數(shù)據(jù)點聚合到一覽無遺的熱相圖和電力圖,并將用于趨勢分析和容量規(guī)劃的所有數(shù)據(jù)記入日志。之后可以充分利用這些數(shù)據(jù),用于各種削減成本的實踐。比如說,數(shù)據(jù)中心的團(tuán)隊可以根據(jù)實際的耗電情況,更高效地配置機架。要是不了解實時模式,數(shù)據(jù)中心團(tuán)隊就只好依賴電源額定功率和靜態(tài)的實驗室測試。
一種示例性的使用場合表明了實時監(jiān)控與靜態(tài)計算之間的重大區(qū)別。配置4000瓦電量的機架時,傳統(tǒng)的計算方法導(dǎo)致數(shù)據(jù)中心團(tuán)隊為每個機架安裝大約10臺服務(wù)器。(在這個例子中,服務(wù)器電源額定功率為650瓦,實驗室測試表明400瓦對預(yù)期的配置而言是個穩(wěn)妥的數(shù)值。)
同樣這個團(tuán)隊對耗電量執(zhí)行實時監(jiān)控后發(fā)現(xiàn),服務(wù)器的用電量很少超過250瓦。了解這個情況后,團(tuán)隊將為機架配置的服務(wù)器數(shù)量增加到16臺,計算容量增加了 60%。萬一任何某一個機架中的服務(wù)器帶來的需求讓總耗電量超過機架閾值,以免造成破壞,數(shù)據(jù)中心團(tuán)隊同時為每個機架采取了保護(hù)性的電量封頂,這會在下面的第五個經(jīng)驗中作更詳細(xì)的解釋。
第二個經(jīng)驗:消除幽靈服務(wù)器。
一旦數(shù)據(jù)中心團(tuán)隊有能力監(jiān)控實時耗電情況,評估工作負(fù)載在整個數(shù)據(jù)中心的分配狀況就成了一項簡單的工作。很容易發(fā)現(xiàn)通常未得到充分利用的服務(wù)器和機架。經(jīng)過一段時間后,數(shù)據(jù)中心管理人員就能確定可以合并或精簡哪些服務(wù)器。幽靈服務(wù)器是上了電但處于閑置狀態(tài)的系統(tǒng),可以讓它們處于節(jié)省電力的睡眠模式??梢圆扇≈T如此類的節(jié)能措施,避免能源浪費,因而可以縮短用電預(yù)算。實際情況表明,如果處理好幽靈服務(wù)器,無論規(guī)模大小,普通的數(shù)據(jù)中心可以將預(yù)算縮減15%到20%。
第三個經(jīng)驗:選擇軟件而不是硬件。
超大規(guī)模運營常常橫跨分布在不同地區(qū)的多個數(shù)據(jù)中心,這樣一來遠(yuǎn)程管理顯得至關(guān)重要,以確保服務(wù)的日常連續(xù)性。當(dāng)前的全球經(jīng)濟(jì)氣候讓許多企業(yè)和機構(gòu)面臨同樣的情形,IT部門在設(shè)法高效地管理多個站點,又不必將人手增加一倍,或?qū)r間浪費在奔波于多個地方。
遠(yuǎn)程鍵盤、視頻和鼠標(biāo)(KVM)技術(shù)在過去幾十年有了長足發(fā)展,可幫助IT部門與時俱進(jìn),但硬件KVM解決方案因而變得日益復(fù)雜起來。為了避免管理管理覆蓋系統(tǒng)(management overlay)本身,許多世界上最龐大、最復(fù)雜的基礎(chǔ)設(shè)施的操作人員在采用軟件KVM解決方案,最近還在采用虛擬化的KVM解決方案。
即便對普通的數(shù)據(jù)中心而言,節(jié)省的成本也會迅速積少成多。IT團(tuán)隊?wèi)?yīng)該把任何現(xiàn)有的KVM切換器和適配器的成本以及相關(guān)的許可費(切換器軟件、帶內(nèi)許可證和帶外許可證等)加起來。一套典型的硬件KVM切換解決方案其成本通常如下:切換器超過50萬美元,切換器軟件要12.5萬美元,帶內(nèi)和帶外節(jié)點許可證另外要50萬美元。連適配器也有可能超過25萬美元。另外,軟件KVM解決方案可以避免100多萬美元的硬件KVM成本。
第四個經(jīng)驗:適當(dāng)調(diào)高溫度。
世界上一些規(guī)模最大的數(shù)據(jù)中心在監(jiān)控和管理能源及熱量模式方面有著多年的豐富經(jīng)驗,它們率先采用了提高環(huán)境溫度的運營模式。發(fā)布的數(shù)字表明,將數(shù)據(jù)中心的環(huán)境溫度調(diào)高1°C,就可以讓數(shù)據(jù)中心電費減少2%。
適當(dāng)調(diào)高數(shù)據(jù)中心的環(huán)境溫度后,經(jīng)常檢查局部熱點,并實時監(jiān)控數(shù)據(jù)中心設(shè)備,這一步很重要。一旦有效的監(jiān)控實時到位,就可以逐步調(diào)整工作溫度,并且對照預(yù)算和容量規(guī)劃來評估節(jié)省了多少成本。
第五個經(jīng)驗:別讓你的機架溫度過高。
由于企業(yè)期望以及要求IT部門識別和避免原本會干擾關(guān)鍵業(yè)務(wù)運營的故障,已在超大規(guī)模數(shù)據(jù)中心證實切實可行的任何主動管理方法都應(yīng)該予以評估,看看有沒有可能適用于規(guī)模較小的數(shù)據(jù)中心。過高的工作溫度會給硬件帶來毀滅性后果,所以要密切關(guān)注這會給設(shè)備正常運行時間和生命周期帶來怎樣的影響,這點很要緊。
Hadoop 等許多HPC集群添置了冗余和動態(tài)負(fù)載均衡機制,以便遇到故障后可以順暢恢復(fù)。有助于盡量降低超大規(guī)模能源需求的同一套基本的監(jiān)控、警報和自動化控制機制也能幫助規(guī)模較小的數(shù)據(jù)中心識別和消除局部熱點;而從長遠(yuǎn)來看,局部熱點會給設(shè)備的健康狀況帶來不利影響。電源和溫度方面采取統(tǒng)一的做法還有助于在數(shù)據(jù)中心保持更一致的環(huán)境,這最終可以避免損壞設(shè)備的溫度突增和電力尖峰。
除了環(huán)境控制外,IT團(tuán)隊還可以充分利用最前沿的能源管理解決方案,它們提供了電力封頂功能。如果設(shè)置電力閾值,就能隨心所欲地配置機架,又不用擔(dān)心電力尖峰這個風(fēng)險。在一些地區(qū),電力封頂對保護(hù)數(shù)據(jù)中心避免有干擾、不可靠的電源起到了重要的作用。
向前看齊
幸好,大多數(shù)數(shù)據(jù)中心在相比超大數(shù)據(jù)中心和超大規(guī)模計算環(huán)境風(fēng)險低得多的規(guī)模下運行。不過,任何規(guī)模的數(shù)據(jù)中心都應(yīng)該將減少能源成本、避免服務(wù)中斷視作一個優(yōu)先事項。如果采用成熟可靠的方法,并充分利用整個數(shù)據(jù)中心中的所有實時數(shù)據(jù),IT和設(shè)施部門就可以效仿超大規(guī)模數(shù)據(jù)中心,只需要投入比較少的前期成本和精力,就能獲得重大回報。