義合控股投關部:AI模型升級如何影響硬件投資週期

分享

過去兩年,大型語言模型的迭代速度呈現指數級成長,GPT-4、Claude 3、Gemini 1.5/2.0之間的能力差距,已不僅是參數量擴張,而是推理能力、上下文長度與多模態能力的全面躍升。每一次升級,都對算力基礎設施提出新的需求,並直接推動硬件投資週期加速。

以上下文長度(context length)為例:GPT-3的主要設計約2,000 tokens,而GPT-4進入32K、128K甚至更高規格;Claude 3 Opus推進至能處理百萬級tokens;而Google Gemini 1.5更提出超長上下文模型,直接將推理計算時間與GPU記憶體需求推向新高。上下文越長,推理時的序列運算越多,所需的運算量(FLOPs)呈倍數增長。

當推理從「單句對話」邁向「長文閱讀」、「視頻理解」、「多模態推理」,模型不只是大,而是「更耗時、更耗記憶體」。這意味著原有GPU集群難以高效支援新模型,從而引發加速器、大規模記憶體架構、高效互聯(如NVLink或光互聯)等基建升級。

這正是為何大型雲端服務商,包括Microsoft、Google、Amazon,在過去一年持續擴大資本開支,年增幅均達雙位數,背後邏輯是所有生成式AI的技術突破,都會造成明確、可量化的算力需求擴張。而模型每一次迭代都代表硬件需求曲線的新拐點。

硬件投資從「訓練驅動」轉向「推理驅動」

早期的硬件投資主要由模型訓練驅動。例如GPT-3或Llama 2的訓練一次性需要數千至上萬顆GPU,因此訓練成本被視為AI進展的主要限制。然而,當模型步入商業化階段,推理(inference)成為真正的成本核心。

推理成本取決於三個關鍵因素:模型大小、上下文需求與並發量。隨著模型進入產品化,例如GPT-4o的即時語音對話、Gemini在Google Workspace的全面整合、Claude於多語種企業場景的部署,推理需長時間在線,服務數千萬級活躍用戶。

以推理成本推算,若企業期望以原生GPT-4類型模型支持大型企業級場景,其推理要求甚至可能超越訓練階段需求。這正導致硬件投資週期出現新的特徵:
第一,推理需求的持續性高於訓練需求。訓練是一次性投入,而推理是每日成本,形成固定算力需求,使企業必須維持長期GPU儲備。
第二,推理延遲(latency)要求越高,對硬件效率要求越嚴苛。即時語音對話模型需要毫秒級反應,使雲端集群不僅要多,更要快。
第三,推理成本驅動模型走向「壓縮-蒸餾-專用化」。這將使硬件需求呈現雙軌化:高端GPU用於訓練及高精度推理,而低功耗加速器/專用ASIC適用於大規模企業場景。

換言之,生成式AI的商業化使硬件需求不再呈現短期爆發,而是進入「持續、高黏性」的週期,支撐雲服務商保持高資本開支。

從稀缺GPU到專用AI加速器

從GPT到Claude,再到Gemini的迭代軌跡顯示,模型能力不會停下,而是繼續朝更高維度的推理能力前進,例如agentic AI、自我調度模型(self-directed models)、長期記憶系統、端雲協同的大型模型網路等。每一項進展,都意味著下一輪硬件投資。

短期(1至2年),硬件需求仍由GPU稀缺性主導。NVIDIA H100、H200、B100/B200等架構因具備高記憶體頻寬與專為Transformer設計的Tensor Core,因此仍是新模型訓練與推理的主力。各雲端廠的GPU集群基本處於「滿載使用+持續擴容」狀態。

中期(3至5年),投資焦點將轉向以下三類硬件:第一,專用AI加速器(ASIC)。大型企業會深化自研芯片(如Google TPU、AWS Trainium / Inferentia),以降低推理成本。模型越複雜,越需要為特定任務定制的硬件以提升能效。
第二,內存與互聯架構升級。多模態模型需要巨量中間特徵,光互聯、HBM(High Bandwidth Memory)及memory-centric設計將成為新瓶頸。
第三,邊緣端AI加速器。當語音、影像推理遷移至個人設備,投資週期會從雲端擴展至終端設備(手提電腦、手機、IoT裝置),形成新的硬件替換浪潮。
長期(5年以上),AI模型可能進入「多模型協作」與「自我調度(orchestration)」階段,形成分布式AI系統。這將帶來兩個影響:一是算力需求將呈線性外,甚至超線性增長;二是硬件不再是單一GPU的堆疊,而是整個AI基礎設施的系統級整合,包括分佈式調度軟件、可重構加速器、能源供應系統等。

義合控股投資者關係部

分享