數(shù)字金融
網(wǎng)絡(luò)營銷推廣
電商服務(wù)
【環(huán)球時報報道 記者 馬俊】伴隨著人工智能(AI)技術(shù)的高速發(fā)展,包括OpenAI公司CEO山姆·奧特曼在內(nèi)的業(yè)內(nèi)人士都開始擔心,它將被能源問題“卡脖子”,因為AI當前面臨的現(xiàn)實難題之一就是能源和智能的轉(zhuǎn)化效率。被稱為“硅谷鋼鐵俠”的特斯拉CEO馬斯克近日也警告稱,“AI算力瓶頸是可以預見的”,未來可能沒有足夠的電力能滿足AI對算力的需求。有沒有辦法緩解AI發(fā)展與算力消耗海量資源之間的矛盾?《環(huán)球時報》記者就此采訪了業(yè)內(nèi)專家。
訓練AI為何會消耗海量資源
隨著OpenAI公司發(fā)布的聊天機器人ChatGPT的爆紅,各國都加快了AI大模型的訓練,需要的算力也急速增加。馬斯克最近在公開采訪中表示,現(xiàn)在AI對算力的需求差不多每半年就會增加10倍,AI算力的瓶頸是可以預見的:“一年前,短缺的是芯片。然后下一個短缺的將是電力。當芯片短缺緩解之后,明年可能就會出現(xiàn)電力將不足以運轉(zhuǎn)這些芯片?!?/p>
為何訓練AI對于電力的消耗如此龐大?這是因為大語言模型的規(guī)模實在太大。OpenAI的大語言模型GPT-3擁有1750億參數(shù),而GPT-4擁有2萬億參數(shù)。要訓練這種規(guī)模的模型,需要在大規(guī)模數(shù)據(jù)集上反復迭代,每次都需要計算和調(diào)整其中數(shù)百億乃至數(shù)千億個參數(shù)。為完成如此龐大的計算,需要動用由大量服務(wù)器組成的數(shù)據(jù)中心。例如GPT-4完成一次訓練需要約3個月,使用約2.5萬塊英偉達A100圖形處理器(GPU)。以每塊GPU的功耗400瓦計算,GPT-4一次訓練就要耗費2.4億度電。
據(jù)《環(huán)球時報》記者了解,數(shù)據(jù)中心通過網(wǎng)絡(luò)提供高效的數(shù)據(jù)計算和存儲服務(wù),是承載算力的基礎(chǔ)設(shè)施。隨著傳統(tǒng)科學與工程計算對算力的需求持續(xù)增長以及人工智能應(yīng)用對算力需求的急劇上升,預計未來5年內(nèi)智能算力規(guī)模的復合增長率將高達52.3%。據(jù)統(tǒng)計,2022年中國數(shù)據(jù)中心耗電量達2700億度,占全社會用電量約3%。預計到2025年,全國數(shù)據(jù)中心用電量占全社會用電量的5%。2030年全國數(shù)據(jù)中心耗電量接近4000億度。
除了芯片運算時的耗電量外,數(shù)據(jù)中心運行時還需要耗費大量淡水用于冷卻服務(wù)器產(chǎn)生的熱能。益企研究院創(chuàng)始人張廣彬告訴《環(huán)球時報》記者,數(shù)據(jù)中心消耗的水,主要用于散熱(冷卻)環(huán)節(jié)。就是通過水的蒸發(fā),換取數(shù)據(jù)中心內(nèi)部溫度的降低。美國科羅拉多大學的研究表明,每當ChatGPT回答20-50個問題,就需要消耗500毫升水資源用于冷卻計算設(shè)備和為數(shù)據(jù)中心供電的發(fā)電廠。OpenAI公司今年年初發(fā)布的“文生視頻”大模型Sora以驚人的視覺沖擊力令全球矚目,但相關(guān)評估認為,為此消耗的算力約是生成文字對話的千倍以上,它在峰值運算時消耗的電力和水資源更是天文數(shù)字。
對于AI與人爭奪資源的擔憂正在快速增加。谷歌發(fā)布的2023年環(huán)境報告顯示,該公司2022年耗水量高達2545萬立方米,相當于8500個標準游泳池。到2027年,全球范圍內(nèi)的AI需求可能需要消耗66億立方米的水資源,幾乎相當于美國華盛頓州全年的取水量。美國AI企業(yè)的數(shù)據(jù)中心從科羅拉多河取水計劃遭到當?shù)孛癖姷牡种?。谷歌在烏拉圭南部建立?shù)據(jù)中心、微軟在智利建立數(shù)據(jù)中心等海外項目也引發(fā)了當?shù)厝说目棺h。
降低散熱能耗,有多條技術(shù)路線
業(yè)內(nèi)常用PUE值作為評價數(shù)據(jù)中心能源效率的指標,它是數(shù)據(jù)中心消耗的所有能源與IT設(shè)備能耗的比值,PUE值越接近1,說明能效水平越好。傳統(tǒng)風冷數(shù)據(jù)中心PUE值在1.5左右,意味著IT設(shè)備自身能耗占比約為六成,以制冷為主的其他能耗約四成。因此降低散熱能耗,不但是數(shù)據(jù)中心最直接的節(jié)能方向,還可節(jié)省大量用于散熱的水資源。
臉書、谷歌等公司紛紛選擇在北極圈附近修建大型數(shù)據(jù)中心,借助低溫的自然環(huán)境,可節(jié)省大量的冷卻電力。中國近年推動的“東數(shù)西算”戰(zhàn)略,在貴州、青海、內(nèi)蒙古等地修建數(shù)據(jù)中心,在很大程度上也考慮了這方面的因素。在海底數(shù)據(jù)中心方面,微軟早在2015年就將試驗性的數(shù)據(jù)中心建在蘇格蘭周邊的北海海域水下,但沒有大規(guī)模推廣。
中國海南海底數(shù)據(jù)中心于2022年12月成功將全球首個海底數(shù)據(jù)中心核心裝備“海底數(shù)據(jù)艙”放入海底,開啟了全球商業(yè)海底數(shù)據(jù)中心運營的先河。業(yè)內(nèi)人士介紹說,“以陸地1萬個機柜為例,同等算力的海底數(shù)據(jù)中心,每年能節(jié)省用電總量1.75億度、節(jié)省淡水15萬噸。數(shù)據(jù)艙內(nèi)恒壓恒濕無氧無塵的環(huán)境還會讓服務(wù)器的可靠性大幅提升?!?
但這些方案受到自然環(huán)境、網(wǎng)絡(luò)技術(shù)等約束較大,而且會讓數(shù)據(jù)中心遠離主干網(wǎng)絡(luò),影響運維的便捷性。對于常規(guī)地面數(shù)據(jù)中心而言,更可行的方案是將風冷模式轉(zhuǎn)為液冷模式,即用特制液體取代空氣作為冷媒為發(fā)熱部件進行散熱,主要包括冷板式“非接觸液冷”以及浸沒式和噴淋式“接觸液冷”技術(shù)。
曙光數(shù)創(chuàng)股份有限公司董事長任京暘接受《環(huán)球時報》記者采訪時表示,國家相關(guān)部門多次出臺有關(guān)政策,推動數(shù)據(jù)中心等設(shè)施的節(jié)能減排,如明確要求到2025年,全國新建大型、超大型數(shù)據(jù)中心PUE值降到1.3以下。從曙光實踐來看,最先進且成熟度最高的液冷技術(shù)是“浸沒式相變液冷方案”,能讓數(shù)據(jù)中心PUE值最低降至1.04,這一結(jié)果在世界范圍來看,是處在第一梯隊的。它在完全釋放計算設(shè)備性能的同時,可極大提高設(shè)備穩(wěn)定性。但最顯著的一點還是可極大降低數(shù)據(jù)中心設(shè)備的散熱能耗,且不受地域、環(huán)境等影響。
張廣彬表示,液冷技術(shù)是當前數(shù)據(jù)中心節(jié)能的熱門方向。他透露,液冷技術(shù)還有一個光看PUE值體現(xiàn)不明顯的優(yōu)勢。在IT設(shè)備能耗中,包括了服務(wù)器風扇的用電和電源模塊轉(zhuǎn)換的損耗,其中風扇的用電是大頭,能占到服務(wù)器總用電的10%甚至更多。而浸沒式液冷理論上可以完全不用風扇,冷板式液冷的風扇只需要負責20%-30%的散熱量。所以采用液冷技術(shù)的數(shù)據(jù)中心PUE值可能沒有很明顯下降,但實際更省電了。
任京暘還介紹說,在節(jié)水方面,曙光最新研發(fā)的“液冷節(jié)水型室外機”,采用離心霧化等新型散熱技術(shù),在西北限水、缺水地區(qū)部署,相比傳統(tǒng)閉式冷卻塔設(shè)備可節(jié)水70%-80%。該方案通用于風冷、液冷等多模式數(shù)據(jù)中心,可最大程度支持我國西北缺水地區(qū)建設(shè)中大型節(jié)水數(shù)據(jù)中心。
超算互聯(lián)網(wǎng)是未來方向之一
張廣彬認為,數(shù)據(jù)中心基礎(chǔ)設(shè)施層面節(jié)能減排的傳統(tǒng)手段,隨著PUE值逐漸逼近1,已快趨近極限了?!安捎酶鞣N節(jié)能措施,把供電損耗、制冷開銷等環(huán)節(jié)的浪費控制在很低的水平之后,剩下的就是必需的業(yè)務(wù)需求了。不能單純指責數(shù)據(jù)中心耗能,這應(yīng)該是信息社會的必需開銷??偛荒芡ㄟ^削減真實的應(yīng)用需求,來達到節(jié)能的目標?!彼J為,未來數(shù)據(jù)中心節(jié)省耗能仍然大有可為,包括對上層軟件和應(yīng)用進行優(yōu)化,減少不必要的算力使用量?!叭绻ㄟ^優(yōu)化大模型,讓60億參數(shù)的模型能達到原來130億參數(shù)模型的效果,那就可以減少GPU和服務(wù)器的使用量,最終降低數(shù)據(jù)中心層面的用電量”。
技術(shù)的進步也能在一定程度上緩解外界對于AI能耗的擔憂。英偉達首席執(zhí)行官黃仁勛6月2日宣布,新一代AI芯片架構(gòu)在性能提升30倍的同時,能耗只有上一代產(chǎn)品的1/25。美國波士頓大學工程教授科斯昆認為,在AI巨頭完成大模型的測試后,AI能耗問題可能就沒有那么突出了。屆時將確定哪些領(lǐng)域需要復雜模型,哪些領(lǐng)域只要簡單模型就夠了。“人們開始思考這個問題:‘我是否真的需要用大錘子敲擊這個小釘子,也許只用一把螺絲刀就夠了?’”
接受《環(huán)球時報》采訪的專家表示,當前流行的通用大模型訓練高度消耗算力,從長遠來看,只有少數(shù)有條件有基礎(chǔ)有能力的機構(gòu)能持續(xù)推進??紤]到技術(shù)和經(jīng)濟性,未來更合理的發(fā)展方向是針對領(lǐng)域應(yīng)用問題,基于通用大模型開發(fā)領(lǐng)域模型和推理系統(tǒng)。在這方面,美國安騰超級計算機提供了很好的例子。它采用專用超級計算機體系結(jié)構(gòu)用于生物系統(tǒng)的分子動力學模擬,在由專用高速互聯(lián)網(wǎng)緊耦合連接的分子動力學計算ASIC芯片上執(zhí)行海量并行計算,所消耗的能源只有同期最快GPU的1/10。
國內(nèi)方面,今年4月正式上線的國家超算互聯(lián)網(wǎng),也有望在減少未來AI訓練能耗方面發(fā)揮重要作用。國家超算互聯(lián)網(wǎng)是以互聯(lián)網(wǎng)思維運營超算中心,依托一體化的算力調(diào)度、數(shù)據(jù)傳輸、生態(tài)協(xié)作體系,實現(xiàn)算力供給、軟件開發(fā)、數(shù)據(jù)交易、模型服務(wù)等產(chǎn)業(yè)鏈相關(guān)各方的緊密鏈接,構(gòu)建市場化、互聯(lián)網(wǎng)化、標準化的先進計算服務(wù)環(huán)境。國家高性能計算機工程技術(shù)研究中心副主任曹振南告訴《環(huán)球時報》記者,未來國家超算互聯(lián)網(wǎng)所連接的各個算力中心會扮演不同的角色,“類似醫(yī)院會分為專科醫(yī)院和綜合醫(yī)院,未來算力中心可能也會分化為??扑懔χ行暮途C合算力中心,其中專注于大模型訓練的??扑懔χ行模褂玫哪芎?、性價比肯定要超過通用算力中心?!逼浯?,國家超算互聯(lián)網(wǎng)可優(yōu)化算力的調(diào)度和服務(wù),在提供同樣算力情況下,進一步降低能耗。
中國正在推進的“東數(shù)西算”戰(zhàn)略是考慮到東部電力緊張,西部新能源豐富,在西部合理布局建設(shè)數(shù)據(jù)中心,承接東部的算力需求。曹振南表示,通過超算互聯(lián)網(wǎng)打造的算力網(wǎng)絡(luò)在“東數(shù)西算”中節(jié)省的能源也是相當可觀的。