隨著當(dāng)今全球氣候危機(jī)迫在眉睫,通過提高數(shù)據(jù)中心效率、減少能源消耗和電子廢物來變得更加對環(huán)境負(fù)責(zé),企業(yè)也面臨著更大的壓力。

如今的處境

據(jù)估計(jì),全球8000多個數(shù)據(jù)中心每年運(yùn)行所需的電力占全球總發(fā)電量的3%。盡管服務(wù)器和存儲技術(shù)在處理和管理大量數(shù)據(jù)方面已經(jīng)變得非常高效,但數(shù)據(jù)增長速度超過了這些進(jìn)步,推動了對數(shù)據(jù)處理能力的額外能源需求。

如今,數(shù)據(jù)中心大約55%的能源用于為服務(wù)器和存儲等硬件系統(tǒng)供電,而超過40%的能源用于冷卻這些和其他硬件資源。隨著人工智能驅(qū)動的數(shù)據(jù)處理和深度學(xué)習(xí)變得更加普遍,對能源的需求預(yù)計(jì)將加速增長。

數(shù)據(jù)數(shù)字化和貨幣化的提高與生成式人工智能相結(jié)合,正在推動數(shù)據(jù)量和服務(wù)需求的新一輪爆炸式增長。這將顯著增加對計(jì)算、存儲和網(wǎng)絡(luò)資源的需求,并進(jìn)一步加劇降低能耗的挑戰(zhàn)。

因此,IT管理人員必須優(yōu)先考慮數(shù)據(jù)管理效率——使用最少的能源快速、安全地處理、存儲和移動數(shù)據(jù),同時不影響可擴(kuò)展性或性能。事實(shí)上,這是推動未開發(fā)的數(shù)據(jù)中心效率的關(guān)鍵。

將討論范圍從容量和密度擴(kuò)展到性能

長期以來,數(shù)據(jù)中心管理者一直將占地面積視為提高效率和降低成本的關(guān)鍵因素??紤]到數(shù)據(jù)的爆炸性增長,提高容量利用率,無論是基于虛擬機(jī)的整合、高密度磁盤、重復(fù)數(shù)據(jù)刪除還是壓縮,將降低能耗,這是合乎邏輯的。

但是性能的作用呢?雖然IT組織可能已經(jīng)考慮到更快的CPU、內(nèi)存和磁盤在增加能耗方面的作用,但可能沒有考慮現(xiàn)代數(shù)據(jù)管理解決方案在加速計(jì)算以降低能耗方面所發(fā)揮的作用。

事實(shí)上,加速計(jì)算的最新發(fā)展包括特定領(lǐng)域的架構(gòu),其中包括用于并行處理的GPU、用于超高速網(wǎng)絡(luò)的數(shù)據(jù)處理單元(DPU)以及基于并行文件系統(tǒng)的存儲。對于人工智能工作負(fù)載,這些架構(gòu)比現(xiàn)有的企業(yè)基礎(chǔ)架構(gòu)要高效得多。以下是需要考慮的幾個因素:
  • 效率

性能不足會降低效率。數(shù)據(jù)等待時間長、不必要的數(shù)據(jù)移動和高延遲會消耗能源,并減慢工作流程。現(xiàn)代數(shù)據(jù)管理系統(tǒng)利用并行處理和數(shù)據(jù)路徑,來加速計(jì)算并優(yōu)化應(yīng)用性能。并行計(jì)算對存儲系統(tǒng)提出了一些獨(dú)特的要求,特別是以適當(dāng)?shù)乃俣炔⑿邢騁PU提供大量數(shù)據(jù)的能力。這可以提高創(chuàng)建和運(yùn)行人工智能模型的效率。

  • 能源

專為加速計(jì)算而設(shè)計(jì)的服務(wù)器和存儲架構(gòu)可提供更高的能效和線性橫向擴(kuò)展性能,從而大大減少數(shù)據(jù)中心部署的系統(tǒng)數(shù)量。

GPU的能源效率是人工智能的42倍,而并行文件系統(tǒng)每瓦驅(qū)動的數(shù)據(jù)量可提高10倍,兩者相結(jié)合,只需傳統(tǒng)技術(shù)的一小部分功耗和機(jī)架空間即可提供出色的結(jié)果系統(tǒng)。

  • 電子垃圾

電子垃圾是增長最快的環(huán)境問題之一,占全球城市固體垃圾的5%以上。隨著世界日益電子化,這個數(shù)字肯定會增長。與此同時,全球回收率低迷至17%左右。隨著越來越多的電子設(shè)備的生產(chǎn),每個設(shè)備都有自己的碳足跡,以及空氣、土壤和地下水污染,這對氣候變化的影響可能是災(zāi)難性的。

向軟件驅(qū)動、硬件加速架構(gòu)的轉(zhuǎn)變可以實(shí)現(xiàn)未來的技術(shù)增強(qiáng),而無需硬件升級。這是延長技術(shù)壽命而不產(chǎn)生不必要浪費(fèi)的重要一步。

完整的數(shù)據(jù)管理

我們正處于眾所周知的十字路口,數(shù)據(jù)中心效率既有惡化的機(jī)會,也有可能提高的機(jī)會。全球幾乎每個組織的數(shù)據(jù)都將繼續(xù)快速增長。

我們也正在進(jìn)入一個人工智能的新時代,其依賴大型語言模型(LLM)來提高NLP準(zhǔn)確性,如驅(qū)動ChatGPT等復(fù)雜工具。這些新的人工智能模型將包括訓(xùn)練、分析和推理,使用多達(dá)數(shù)萬億個參數(shù),這給服務(wù)器和其他基礎(chǔ)設(shè)施帶來了更大的負(fù)擔(dān)。

組織如何才能保持領(lǐng)先地位?

專注于高效的數(shù)據(jù)管理和快速性能,包括IO吞吐量。能夠優(yōu)化GPU并行處理的存儲解決方案對于加速人工智能、數(shù)據(jù)分析、模擬和可視化的計(jì)算將變得更加重要。正確的存儲可以提高GPU性能和資源利用率,這將對數(shù)據(jù)中心的可持續(xù)性產(chǎn)生積極影響。更高的性能還可以實(shí)現(xiàn)每瓦特更多的操作,從而可以將能源效率提高3.5倍,并將AI數(shù)據(jù)中心TCO降低3倍以上。

利用智能監(jiān)控工具,例如,掃描數(shù)據(jù)中心的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM),不僅可以查明多余的用電量,還可以確定哪些地方的電力容量未得到充分利用。大多數(shù)數(shù)據(jù)中心資源嚴(yán)重過度配置,平均服務(wù)器利用率低得驚人,只有12%到18%??梢哉匣蛑匦虏渴鹩撵`服務(wù)器,以減少浪費(fèi)的處理能力,并提高整體性能和效率。

最后,可能會擔(dān)心人工智能工作負(fù)載加速計(jì)算在數(shù)據(jù)中心產(chǎn)生的熱量。請注意,包括Equinix和Meta在內(nèi)的多家知名組織已開始在80華氏度或更高溫度下運(yùn)行其數(shù)據(jù)中心,大約比行業(yè)平均水平高出10度。研究是否可以將數(shù)據(jù)中心溫度提高幾度,以大幅節(jié)省冷卻成本。同時,探索蒸發(fā)冷卻、儲熱器和潛在的外部空氣等技術(shù),在不損害環(huán)境的情況下冷卻數(shù)據(jù)中心。