快20倍還便宜 NVIDIA GPU的「掘墓人」出現了？

晶片初創公司Etched近日宣布推出了一款針對 Transformer架構專用的AISC晶片 “Sohu”，並聲稱其在AI大語言模型（LLM）推理性能方面擊敗了NVIDIA最新的B200 GPU，AI性能達到了H100的20倍。

這也意味著Sohu晶片將可以大幅降低現有AI數據中心的采購成本和安裝成本。

目前，Etched公司已就其Sohu晶片的生產與台積電4nm工藝展開直接合作，並且已從頂級供應商處獲得足夠的 HBM 和伺服器供應，以快速提高第一年的生產能力。

一些早期客戶已經向Etched公司預訂了數千萬美元的硬體。

一、AI性能超過NVIDIA H100的20倍，是如何做到的？

據Etched公司介紹，Sohu是世界上第一個基於Transformer架構的ASIC。

根據Etched公司披露的數據顯示，一台配備了8顆Sohu晶片的伺服器每秒可以處理超過 500，000 個 Llama 70B Token，達到了同樣配備8張NVIDIA H100 GPU加速卡的伺服器的20倍。

同樣，也遠遠超過了配備8張NVIDIA最新的B200 GPU加速卡的伺服器約10倍。

△基準測試針對的是 FP8 精度的 Llama-3 70B：無稀疏性、8x 模型並行、2048 輸入/128 輸出長度。使用 TensorRT-LLM 0.10.08（最新版本）計算的 8xH100，8xGB200 的數字是估算的。

Etched公司表示，Sohu速度比NVIDIA的最新一代Blackwell架構的B200 GPU還要快一個數量級，而且價格更便宜。可以幫助客戶構建 GPU 無法實現的產品。

不過，這里還是要強調以下，雖然Sohu的AI性能要比NVIDIAGPU更好，但這是有一個前提的，因為Sohu是專為基於Transformer架構的大模型定製的，所以其也僅支持基於Transformer架構的大模型加速。

“通過將Transformer架構集成到我們的晶片中，雖然無法運行大多數傳統的 AI 模型，比如為 Instagram 廣告提供支持的 DLRM、像 AlphaFold 2 這樣的蛋白質折疊模型、像 Stable Diffusion 2 這樣的舊的圖像模型，以及CNN、RNN 或 LSTM等模型，但是針對基於Transformer架構的大模型，Sohu將是有史以來最快的AI晶片，沒有哪個晶片能夠與之匹敵。”Etched公司說道。

1、更高的計算利用率

由於Sohu只運行Transformer這一種類型的算法，因此可以刪除絕大多數控制流邏輯，從而擁有更多數學計算邏輯。因此，Sohu的 FLOPS 利用率超過 90%（而使用 TRT-LLM 的GPU上 FLOPS 利用率約為 30%）。

雖然NVIDIA H200 擁有 989 TFLOPS 的 FP16/BF16 計算能力（無稀疏性），這無疑是非常強大的，甚至比谷歌的新 Trillium 晶片還要好。

但NVIDIA已經發布的B200的計算能力僅高出25%（每個晶片 1，250 TFLOPS）。這是由於 GPU 的絕大部分區域都用於可編程性，因此專注於 Transformer 可以讓晶片進行更多的計算。

比如，構建單個 FP16/BF16/FP8 乘加電路需要 10，000 個電晶體，這是所有矩陣數學的基石。NVIDIA H100 SXM 有 528 個張量核心，每個都有4 x 8 × 16FMA 電路。

因此，NVIDIA H100 有 27 億個專用於張量核心的電晶體。但是 H100 擁有 800 億個電晶體！這意味著 H100 GPU 上只有 3.3% 的電晶體用於矩陣乘法！

這是NVIDIA和其他靈活的 AI 晶片經過深思熟慮的設計決定的。如果想要支持所有類型的模型（比如CNN、LSTM、SSM 等），那麼沒有比這更好的設計了。

而Etched公司的Sohu晶片僅支持運行Transformer架構的AI大模型，這使得其可以在晶片上安裝更多的 FLOPS，且無需降低精度或稀疏性。

2、提升記憶體帶寬利用率

通常來說，AI推理會受到記憶體帶寬的限制，計算的限制相對較小。但是事實上，對於像Llama-3這樣的現代模型來說，需要更高的計算力來提升帶寬的利用率。

如果使用NVIDIA和 AMD 的標准基準：2048 個輸入標記和 128 個輸出標記。大多數 AI 產品的提示比完成時間長得多（即使是新的 Claude 聊天應用在系統提示中也有 1，000 多個標記）。

在 GPU 和Sohu上，推理是分批運行的。每個批次加載一次所有模型權重，並在批次中的每個標記中重復使用它們。

通常，大語言模型輸入是計算密集型的，而輸出是記憶體密集型的。當我們將輸入和輸出標記與連續批處理相結合時，工作負載變得非常計算密集型。

以下是大語言模型連續批處理的示例。這里我們運行具有四個輸入標記和四個輸出標記的序列；每種顏色都是不同的序列。

我們可以擴展同樣的技巧來運行具有 2048 個輸入標記和 128 個輸出標記的 Llama-3-70B。讓每個批次包含一個序列的 2048 個輸入標記和 127 個不同序列的 127 個輸出標記。

如果我們這樣做，每個批次將需要大約(2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs，而只需要加載70B params × 2 bytes per param = 140 GB模型權重和大約127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GBKV緩存權重。這比記憶體帶寬要多得多。

NVIDIA H200需要6.8 PFLOPS的計算才能最大限度地利用其記憶體帶寬。這是在100%的利用率下——如果利用率為30%，將需要3倍的計算量。

由於Sohu擁有如此之多的計算能力且利用率極高，因此可以運行巨大的吞吐量而不會出現記憶體帶寬瓶頸。

3、軟體問題不再是一場噩夢

在 GPU 和 TPU 上，通常軟體開發是一場噩夢。處理任意 CUDA 和 PyTorch 代碼需要極其復雜的編譯器。第三方 AI 晶片（AMD、英特爾、AWS 等）在軟體上總共花費了數十億美元，但收效甚微。

但由於Etched公司的Sohu只運行Transformers，因此開發人員只需要為 Transformer 編寫軟體！

大多數運行開源或內部模型的公司都使用特定於 Transformer 的推理庫，如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

這些框架非常僵化 ——雖然你可以調整模型超參數，但實際上不支持更改底層模型代碼。但這沒關系，因為所有 Transformer 模型都非常相似（甚至是文本/圖像/視頻模型），調整超參數就是你真正需要的。

雖然這支持了 95% 的 AI 公司，但最大的 AI 實驗室還是採用定製化。他們有工程師團隊手動調整 GPU 內核以擠出更多的利用率，逆向工程哪些寄存器對每個張量核心的延遲最低。

Etched公司表示，“有了Sohu，您不再需要進行逆向工程。因為我們的軟體（從驅動程序到內核再到服務堆棧）都將是開源的。如果您想實現自定義轉換器層，您的內核向導可以自由地這樣做。”

4、成本優勢

對於目前的AI基礎市場運營商來說，NVIDIA的AI GPU是最為高昂的一項投資，其H100 80G版本的價格高達3萬美元，即便是便宜的英特爾Gaudi 3 的價格也要15，650美元左右。

現在一座大型的AI數據中心的建設已經達到了數百億美元，甚至傳聞微軟和OpenAI正計劃推出被稱為“星際之門”（Stargate）的AI超級計算機，用來為OpenAI提供更強的算力支持，該項目的總成本或將超過1150億美元。顯然，這當中NVIDIAAI GPU將會占據相當大的一部分成本。

並且這些高能耗的GPU還將會帶來龐大的能源供應支出（按照現有的發展速度，很多地區的能源供應已經不足以支撐大型AI數據中心的建設）互聯支出和散熱支出。

如果一顆Etched的Sohu晶片就能夠代替20顆NVIDIA H100晶片，那麼這無疑將會帶來巨大的采購及建設成本和運營成本的降低。

二、專用晶片替代GPU已不可避免

在Etched看來，近年來雖然GPU性能得到了增長，但是實際上並沒有變得更好，因為主要是通過更先進的製程工藝以及更大的晶片面積來實現的。

近四年來，GPU晶片單位面積的計算能力 (TFLOPS) 幾乎保持不變。比如NVIDIA的GB200、AMD的MI300、英特爾的Gaudi 3 和亞馬遜的Trainium2 幾乎都將兩塊晶片算作稱一張加速卡，以實現“雙倍”性能。

面對越來越龐大的大語言模型對於AI算力需求的快速增長，GPU晶片在摩爾定律放緩以及單位面積AI算力提升放緩的背景之下，已經難以滿足需求，因此提高性能的唯一方法就是採用專用晶片。

Etched公司指出，在Transformer架構的模型統治世界之前，許多公司都構建了靈活的 AI 晶片和 GPU 來處理數百種不同的算法模型。

比如：NVIDIA的GPU、谷歌的TPU、亞馬遜的 Trainium、AMD的MI系列加速器、英特爾的Gaudi加速器、Graphcore 的 IPU、SambaNova SN 系列晶片、Cerebras的CS系列晶圓級AI晶片、Groq的GroqNode、Tenstorrent 的 Grayskull、D-Matrix 的 Corsair、寒武紀的思源等。

但是幾乎沒有廠商製造過專門針對Transformer架構算法的專用 AI 晶片 (ASIC)。因為一個晶片項目至少將花費 5000 萬到 1 億美元，需要數年時間才能投入生產。

如果真的一個特定算法模型推出專用的AI晶片，很可能在這期間由於新的更優秀算法架構出現，而使得原來的專用的AI晶片不再有效，這將會沒有市場。

但是現在情況變了，Transformer 架構的算法模型市場規模正在迅速增長。在 ChatGPT 出現之前，Transformer 推理的市場規模約為 5000 萬美元，而現在已達到數十億美元。

所有大型科技公司都使用 Transformer 架構的模型，比如OpenAI、谷歌、亞馬遜、微軟、Meta 等。

另外，AI算法經過多年的發展，已經開始出現架構上的融合趨勢。AI模型過去發展很快，因此可能每個幾個月就會有新的AI模型出來。

但是自GPT-2以來，最先進的模型架構幾乎保持不變，不論是OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa，甚至 Tesla FSD 都是基於Transformer架構。

△基於Transformer架構的模型驚人地相似。諸如 SwiGLU 激活和 RoPE 編碼之類的調整被廣泛應用於LLM、嵌入模型、圖像修復和視頻生成。

△雖然 GPT-2 和 Llama-3 是相隔五年的最先進的 (SoTA) 模型，但它們的架構幾乎相同，唯一的主要區別是規模。

在此背景之下，如果算法模型架構開始趨於穩定，那麼想要進一步提升算力，專擁的ASIC晶片將會是很好的選擇。

特別是在目前基於GPU的AI訓練和推理基礎設施成本超過100億美元時，這樣高昂的成本的壓力之下，專用的AISC是不可避免的，因為1%的改進就足以覆蓋專用AISC的成本。

事實上，在特定算法模型上，ASIC 的速度可能會比 GPU 快幾個數量級。比如，當針對比特幣礦機的AISC晶片於 2014 年進入市場時，傳統的利用GPU 來“挖礦”的做法很快被拋棄，因為使用AISC比使用GPU來挖掘比特幣更便宜。

顯然，在AI算法模型基礎架構開始趨於穩定，GPU算力提升遭遇瓶頸以及成本越來越高的情況下，人工智慧領域可能也將會發生同樣的事情。這也正是Etched公司下重注推出基於Transformer架構專用的AISC晶片 “Sohu”的原因。

三、對於未來的一場豪賭

與NVIDIA等頭部的AI公司一樣，Etched公司也預測，在五年內，AI模型在大多數標准化測試中將變得比人類更聰明。

Etched公司進一步指出， Meta訓練的 Llama 400B（2024 SoTA，比大多數人類都聰明）所用的計算量，比 OpenAI 在 GPT-2（2019 SoTA）上所用的計算量要高出 50，000 倍。通過為人工智慧模型提供更多計算力和更好的數據，它們會變得更聰明。

規模化將是未來幾十年來唯一持續有效的秘訣，每家大型人工智慧公司（谷歌、OpenAI / 微軟、Anthropic / 亞馬遜等）都將在未來幾年投入超過 1000億美元來保持規模的增長。我們正處於有史以來最大規模的基礎設施建設中。

OpenAI 執行長Sam Altman此前就曾表示：“規模化確實是一件好事。當我們在太陽周圍建造出戴森球時，我們就可以討論是否應該停止規模化，但在此之前不能停止。”

Anthropic 執行長 Dario Amodei也表示：“我認為（我們）的規模可以擴大到 1000 億美元，我們將在幾年內實現這一目標。”

不過，如果按照現在的AI數據中心算力，再擴大 1，000 倍，將會面臨非常昂貴的成本。下一代數據中心的成本將超過一個小國一年的GDP。按照目前的速度，現有的硬體、電網和資金投入都跟不上需求。

Etched公司表示：“我們並不擔心數據耗盡。無論是通過合成數據、注釋管道還是新的 AI 標記數據源，我們都認為數據問題實際上是推理計算問題。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei、 Google DeepMind CEO Demis Hassabis 似乎都同意這一觀點。”

基於這樣的發展趨勢，Etched公司認為，未來能夠獲勝的大模型一定會是那些能夠在硬體上運行速度最快、成本最低的模型。

Transformer 功能強大、實用且利潤豐厚，足以在替代方案出現之前主宰每個主要的 AI 計算市場。

目前，Transformer 正在為每款大型 AI 產品提供動力：從代理到搜索再到聊天。很多AI 實驗室已投入數億美元進行研發，以優化 GPU 以支持 Transformer。

並且當前的和下一代最先進的大模型也都是 Transformer架構的。

隨著這些大模型的規模在未來幾年內所需要的硬體資源從 10 億美元擴大到 100 億美元，再到 1000 億美元，測試新架構的風險也隨之飆升。

與其重新測試縮放定律和性能，不如花時間在 Transformer 之上構建功能，例如多標記預測等。

當今的很多軟體堆棧也針對 Transformer 進行了優化。每個流行的庫（TensorRT-LLM、vLLM、Huggingface TGI 等）都有用於在 GPU 上運行 Transformer 架構模型的特殊內核。

許多基於Transformer 構建的功能在替代方案中不易獲得支持（例如推測解碼、樹搜索）。

所以，未來的硬體堆棧也將持續針對 Transformer 進行優化。比如，NVIDIA的 GB200 特別支持 Transformer（TransformerEngine）。

在Etched公司看來，Transformer架構就是未來，“如果我們猜對了，Soho將改變世界。這就是我們下注的原因。”Etched公司在網站上寫道。

在2022年的時候，Etched公司就已經開始下注，開始研發基於Transformer架構的Sohu晶片，當時ChatGPT還沒有推出，圖像和視頻生成模型是 U-Nets，自動駕駛汽車由 CNN 驅動，而 Transformer 架構並未無處不在。顯然這是一場豪賭。

雖然現在看來，Sohu可以支持所有的Transformer架構的AI大模型，比如OpenAI的GPT、Sora，谷歌的Gemini、Stability AI公司的Stable Diffusion 3 等，但是在兩年前，這些模型都還沒有出現。

如果，Transformer架構的AI大模型沒有成為主流，再加上無法支持CNN、RNN 、LSTM等傳統模型以及SSM、RWKV 或其他的全新架構的AI大模型，那麼Sohu將會毫無用處。

幸運的是，從目前來看，形勢已經對Etched公司有利。從語言到視覺，每個領域的頂級模型現在都是基於Transformer架構的。

這種融合不僅驗證了Etched公司下對了賭注，也有望使Sohu成為十年來最重要的硬體項目。

“像 Sohu 這樣的 ASIC 晶片進入市場，標志著進入一條不歸路。其他Transformer “殺手”要想成功，需要在 GPU 上的運行速度需要比 Transformer 在 Sohu 晶片上的運行速度更快。

如果發生這種情況，我們也會為此構重新建一個 ASIC！”Etched公司非常堅定的說道。

最後說一句，Etched公司的看法與芯智訊在多年前所寫的《NVIDIA的AI盛世危機！》所表達的核心觀點類似，即GPU並是不專為處理特定AI算法所設計的，其優勢在於比其他AI晶片更通用，可以適應各種AI算法，但是當未來AI算法的演進開始趨於穩定時，那麼屆時專用的面向特定算法的更高效的ASIC晶片無疑將會更具優勢。

現在越來越多的雲服務廠商都有推出自研的雲端AI晶片也正是順應這一趨勢。

文章內容舉報

來源：快科技

快20倍還便宜 NVIDIA GPU的「掘墓人」出現了？

台韓情侶遠距離好思念對方　「男友視角」日常記錄甜翻網友：我也要歐巴

大腦「拖延症」讓你直呼「眼瞎」：加工視覺信息有15秒延遲

美銀預計今年全球晶片銷售額飆升24% 有望達5440億美元

【配音詩朗誦】小資誦讀《一樹花開》|| 李偉玲（總期434）

《暗黑破壞神永生不朽》武僧普攻流BD思路

FLARE: 24年1月《Fate/Grand Order》 Assassin/光之高揚斯卡婭(旗袍Ver.) 日店展圖

旅今天是世界森林日，地球的綠肺由我們來守護

索尼：不用再恢復出廠就可解決PS5下載隊列的BUG

《魔法門10》元素祭壇水之房間謎題解法

《Apex英雄》第六賽季新英雄電影風預告蕾帕特現身！

原住民神人在KTV輕鬆飆高音　宛如演唱會現場「不出唱片不行啊」

動真格部分大學生遭退學教育部發文…