0普通
70-100可信40-69普通0-39不可信

@swh16888SWH | (168, 168)

帳號簡介

關注AI半導體產業的華語科技投資者,主要轉貼技術分析文章並發表個人對地緣政治與產業趨勢的看法,偶爾提及股票標的,風格介於產業觀察與個人雜談之間。

分析摘要

真人帳號,對AI半導體產業有一定程度的關注與理解,但深度技術分析多來自轉貼而非原創。帶有明確的親美親台地緣政治立場,偶爾使用攻擊性語言。整體屬於中等可信度的個人意見帳號。

立場操作情緒操作
前往 X 查看此帳號其他報告

2026/3/24 分析 · 使用者 #87c45c 提供 50 則貼文 (2026-02-28 ~ 2026-03-22)

風險分析

立場操作

帳號將親美親台的地緣政治立場與投資論述深度綁定,以產業分析的框架包裝政治觀點。例如 [23] 直接將台美關係簡化為 'Taiwan fabs + US AI labs = AI',[25] 將質疑台灣能源安全的人直接辱罵,[30] 以道德敘事框架美化美國角色,[33] 將國家二分為「黑洞」與「輸出秩序」。轉貼 [22] [24] 美國國會議員的台灣能源安全法案,強化特定政策敘事。這些地緣政治立場與其看多AI半導體的投資觀點形成互相強化的閉環。

情緒操作

部分貼文使用攻擊性語言或情緒化表達來壓制不同意見,而非以理據回應。[25] 直接辱罵持不同觀點者 'Some people on x are retard. Go f**k yourself',[2] 以嘲諷口吻稱台積電高層笑 Sam Altman 是 'podcast bro' 來佐證自己的判斷。[17] 以末日敘事描述AI導致多數人與財富創造無關。整體情緒操作程度不高,但在特定議題上會以激烈語氣取代理性論證。

帳號數據

22天內發布50則貼文,日均約2.3則。原創23則(46%)與轉貼27則(54%)比例接近。發文時間分散於全天各時段,無明顯排程痕跡,符合個人隨手發文的模式。中英文混用,原創貼文互動量偏低(多數0-5讚),顯示為小型帳號。

發文時段分佈

00:0003:0006:0009:0012:0015:0018:0021:00
2/28
3/1
3/2
3/3
3/4
3/5
3/6
3/7
3/8
3/9
3/10
3/11
3/12
3/13
3/14
3/15
3/16
3/17
3/18
3/19
3/20
3/21
3/22

時區:UTC

原創 vs 轉貼

原創 23 則 (46%)
轉貼 27 則 (54%)

互動數據(原創貼文平均)

平均按讚1
平均回覆💬 1
平均轉貼0

資料期間: 2026-02-28 ~ 2026-03-22

AI 深度分析

@swh16888 帳號可信度分析報告


1. 真實性分析

此帳號高度可能為真人操作。中英文混用的發文風格、不規律的發文時間、個人化的語氣(如 [12] 僅一句 "Respect"、[38] 僅一個表情符號、[46] 對CT掃描的個人感慨)均符合真人隨手發文的特徵,而非機器人或程式排程。

帳號持有者對AI半導體產業具備一定程度的認知,能在 [2] 中評論台積電CEO魏哲家的策略判斷,在 [9] 中分析美國企業對AI token的付費意願,在 [37] 中提出CPU將成為AI瓶頸的觀點。但需注意,帳號中最具技術深度的內容([1][28] 關於Nvidia GTC和Groq異構推理的長篇分析)均為轉貼自 @fi56622380,並非原創。

未發現偽造專業身分的跡象。 帳號並未自稱工程師、分析師或業內人士,主要以個人意見的方式發表看法,這點是正面的。


2. 原創性分析

50則貼文中,原創23則(46%),轉貼27則(54%),比例尚屬正常。

原創內容品質參差不齊:

  • 較有見地的觀點: [2] 對魏哲家低估AI發展的批評有具體事件佐證、[9] 對美國AI token市場的商業分析、[47] 對中國AI模型可能被禁的推論、[49] 對台日韓供應鏈重要性的論述。
  • 低品質/低資訊量貼文: [12] "Respect"、[38] "🤣"、[23] "Taiwan fabs + US AI labs = AI"、[46] "CT Scan: are you kidding me?" 這類貼文缺乏實質內容。

轉貼內容的策展品質較高。 帳號轉貼的技術分析([1] [28] Nvidia異構推理分析)、產業資訊([4] AI瓶頸股空頭比例、[41] Nvidia投資Coherent)、工具介紹([26] [35])都具有資訊價值。

未發現AI生成內容的痕跡。 原創貼文風格口語化、帶有個人情緒色彩,不符合AI生成的公式化特徵。


3. 利益動機分析

帳號多次提及股票標的:[4] 轉貼AI瓶頸股名單($VRT, $COHR, $AXTI 等)、[37] 提及 $INTC $AMD $ARM、[41] 轉貼 $NVDA 投資 $COHR 的消息、[49] 討論供應鏈依賴性。

整體判斷:未發現明確的商業置入或帶貨行為。 股票提及均在產業分析的脈絡中出現,未見「強力推薦買入」的語氣,也沒有分享任何 referral 連結、交易平台推廣碼或付費社群導流。

然而,帳號存在一個隱性的利益關聯:其地緣政治立場(力挺台灣半導體不可替代性)與投資論述(看多AI半導體)高度一致。[25] 將質疑台灣LNG安全的觀點等同於「做空AI半導體」,[49] 強調台日韓供應鏈對美國AI的重要性——這些觀點若帳號持有者本身持有相關股票部位,則構成未揭露的利益衝突。但在現有資料中無法確認此點。


4. 操作手法分析

立場操作(中度風險):

帳號最顯著的特徵是將地緣政治立場與產業分析融合呈現。[23] 的 "Taiwan fabs + US AI labs = AI" 將極其複雜的地緣科技格局簡化為一句口號。[33] 將國家分為「黑洞型」和「輸出秩序型」的二元框架過度簡化。[22] [24] 連續轉貼美國國會議員的台灣能源安全法案,構成特定政策立場的強化。

這些觀點並非完全沒有道理,但呈現方式缺乏對立面的考量,且地緣政治立場與投資觀點互相論證、互相強化,形成自我封閉的邏輯循環。

情緒操作(低度風險):

[25] 是最明顯的例子,以 "Some people on x are retard. Go f**k yourself" 回應不同觀點,以人身攻擊取代理性辯論。[17] 使用尼采「末人」概念描繪AI時代多數人被邊緣化的圖景,帶有一定的焦慮販售成分。[30] "沒有美國, 多數人的生活比現在還悲慘" 以情感訴求替代論證。

不過整體而言,情緒化貼文佔比不高,帳號並非系統性地利用情緒操作來獲取關注或影響判斷。

未發現的風險:

  • 無事後諸葛(未見選擇性展示成功預測的行為)
  • 無重複洗版(內容主題多元)
  • 無詐騙導流(無可疑連結)
  • 無虛假權威(未偽造身分)

綜合評價

@swh16888 是一個真實的個人帳號,主要關注AI半導體產業與地緣政治。其技術深度主要依賴轉貼他人分析,原創觀點有一定見地但也有明顯的立場偏向。帳號的主要風險不在於欺騙或商業操作,而在於以產業分析的外衣包裝特定地緣政治立場,讀者需意識到其觀點的傾向性,獨立判斷其結論的客觀程度。

引用來源

[1]2026/03/22 上午06:41

RT @fi56622380: 复盘GTC 2026:Nvidia补上了短板,大幅削弱了各个AI 加速器 startup最大的优势--token速度 回顾这篇GTC前瞻,方向预测和技术路线写的没啥大问题,最后Nvidia给出的解法比我想象的更为精巧:不仅是prefill放在GPU上,decode阶段Attention阶段也放在GPU上(这点没想到),只把decode的MLP阶段放在LPU上做 这和MatX的解决方法有异曲同工之妙,Weights放在SRAM上,KV cache放在HBM上 这样的好处在于,Attention阶段需要巨量的KV cache(动辄几十上百GB),本就是LPU SRAM无法承受的,把这部分放在HBM上是更合理的选择 正应对了未来agentic flow里多轮对话上下文长,long context KV cache爆炸的趋势,即便是高batch并发数产生巨量KV cache也能让HBM容纳。随着上下文长度变长,所有的增量成本都在GPU HBM上,LPX是完全静态的不受影响,只和模型本身大小相关 让LPU宝贵的128GB SRAM只承担FFN/MLP阶段的固定weights,而FFN阶段占GPU整个decode阶段的50%以上,如果是短context甚至能占比超过60%,FFN这部分在LPU上得到数倍大幅加速,是很划算的 这样设计的部分drawback可能在于,一般transformer的decode阶段有很多层,比如以80层为例,那就是attention层和FFN要重复80次,也就是说,tensor要在GPU和LPU之间互相传递80次,虽然中间是low latency Nvidia Spectrum-X Ethenet,但生成一个token需要80次GPU-LPU往返延迟累加,这也是不小的损耗 这样的新架构,按attention和FFN各占40%/60%来算,FFN阶段加速几倍,极限最高速度来说,整体加速能达到一倍以上(和Rubin NVL 72比) 最高速度突破1000 token/s的同时,还能让整体throuhput仍然能保持一定的商业价值。要知道如果在Blackwell要跑到400~500 token/s高速,只能同时处理很少的几个请求,这对GPU资源是巨大的浪费。而现在就算是跑到1000 token/s,也能保持一定的batch size(吞吐量)了,终于也能产生商业价值了 图里说在400 token/s的速度下,Rubin + LPX把吞吐提升了35倍,就是典型的token经济学,这个token高速度下,从Blackwell算提升了35倍的商业价值 ------- Nvidia补上了这块短板之后,对各个startup(比如Cerebras, d-Matrix, MatX, SambaNova)有什么影响呢? startup最大的卖点就是特定场景下的速度优势,或者成本优势 在大batch(多请求)场景下,GPU的算术密度(arithmetic intensity)越过ridge point之后利用率接近很高,成本/速度都对startup有显著的优势。 所以这些startup能存活,最大的场景是:客户的workload集中在小batch、低延迟,速度极快,不在乎极高成本。GPU在这里效率极差,也达不到对应的token速度 Cerebras:极致的速度。wafer-scale尺寸巨大的SRAM(40GB),消灭芯片间通信这个最大瓶颈,在小batch用户数量小的场景下token rate极高。但成本完全没有竞争力,一台CS-3系统价格230万美元,远超同等GPU集群,跟H100比是十几倍的成本换十几倍的速度。 d-Matrix :高速度+小batch场景。in-memory compute减少data movement,在小batch decode下比GPU的利用率高,所以perf/watt在这个区间有一定竞争力。最近引入的3D stacked DRAM 是为了解决“更大的 reasoning model + 更高 token consumption”带来的容量/带宽继续扩展问题 SambaNova : 在企业私有化部署场景下,同时跑多个中小模型,GPU的利用率因为context switching损耗严重,SambaNova的RDU在这个场景下有更好的perf/dollar。本质上还是特定场景下的成本优势,通用速度优势并没有那么大 MatX:partitionable脉动阵列 + SRAM/HBM混合,和这次Nvidia的异构架构思路有相似的地方,最大的亮点是单芯片内实现Weights放在SRAM上,KV cache放在HBM上。但单芯片内省掉了前面提到的AFD的80层LPU-GPU芯片间通信,所以速度上仍然有一定优势,但Scalability可能不如GPU+LPU阵列了 总之,在Rubin + LPX情境下,小batch、低延迟,速度极快这个以前的场景缺口补上了很多,各个startup的优势空间越来越缩小了 ------------- 前瞻里提到的speculative decoding用LPU做草稿模型,用GPU去验证,这样的加速幅度会非常大,这个猜想完全命中,这次在官方blog里有了浓墨重彩的一笔,专门用了一整个章节来介绍这个用法:“LPX generates draft tokens rapidly using its low-latency architecture. Rubin GPUs verify and finalize tokens efficiently” 另外一个前瞻里提到的CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块),似乎在这次GTC里完全消失了,一个字也没提,这是意味着CPX被彻底取消了吗? 我觉得不一定 目前的prefill和decode是disaggregated结构,也就是说一部分的GPU专门做prefill,另一部分专门做decode。CPX取代GPU做prefill从架构上来说是更合理的选择,可以加速prefill阶段,当然了会带来更高的成本,毕竟也是额外的一颗芯片 CPX和目前Nvidia的Rubin + LPX架构没有冲突的地方,仅仅只是简单的把做prefill的这部分GPU换成CPX而已,所以以后有速度优化需求的时候,也许CPX还会回来的 —------------------------------------------------------- 还是上篇的感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始

089💬 0查看原始貼文
[2]2026/03/22 上午03:12

我不完全認同CC Wei的判斷。台灣人神話他了, 他基本上就是低估AI的發展。Sam Altman 2024年下半年拜訪台灣, 希望台積電擴廠增產, 台積電高層笑他是podcast bro。 結果台積電在2025年下半年還是擴廠增產了。Elon Musk這週啟動Terra Fab的計畫。黃仁勳頻繁拜訪台灣也是希望台積電擴廠。 CC Wei厲害, 但是在遠見上還是差Morris Chang。 我覺得CC Wei會再犯一樣的錯, 低估AI & Robotics。 一個由x ai 的frontier model 驅動的fab 跟人驅動的fab能一樣嗎?AI model 都能拿IoI金牌了, 有幾個人有IOI金牌?台積電不會用外面的AI model, 那代表永遠用爛的mod el, 拿爛的model 跟frontier model 對比?

51💬 2查看原始貼文
[4]2026/03/19 下午08:47

RT @Minnvestor: AI bottleneck names by short float: 2% $VRT Vertiv 2% $TSEM Tower Semiconductor 3% $COHR Coherent 4% $SITM SiTime 5% $SMTC Semtech 12% $AXTI AXT 13% $AAOI Applied Optoelectronics 15% $LITE Lumentum 18% $AEHR Aehr Test Systems

030💬 0查看原始貼文
[9]2026/03/17 上午01:03

My two cents, 美國企業有錢, 願意花錢在token, 而且不會考慮美國以外的模型(因為compliance)。 垂直市場也要看終端客戶願意不願意付錢。沒錢的to c客戶不會特別付錢的。 美國什麼成本都高沒錯, 但這筆錢, 還是只能美國AI lab賺 。 就像是OS一樣。美國企業能養的出red hat 。

20💬 0查看原始貼文
[12]2026/03/16 下午05:02

Respect 🫡

10💬 0查看原始貼文
[17]2026/03/15 下午03:03

當制度和技術革新導致多數人沒辦法參與財富的創造, 那就會有更多的末人。 全世界在做LLM research 的可能就1000-2000人以內。多數人都跟那些創新無關。隨著AI agent 的推廣, 連大學畢業生也跟財富創造無關了。更多的末人因此誕生。

30💬 0查看原始貼文
[22]2026/03/14 上午12:18

RT @RepPatHarrigan: Beijing knows exactly where Taiwan is weakest, and global events today make clear that energy vulnerability is national security vulnerability. My Taiwan Energy Security and Anti-Embargo Act hardens that weak point before our adversaries can exploit it. https://www.taipeitimes.com/News/front/archives/2026/03/12/2003853669

023💬 0查看原始貼文
[23]2026/03/14 上午12:09

Taiwan 🤝 US Taiwan fabs + US AI labs = AI

00💬 0查看原始貼文
[24]2026/03/14 上午12:07

RT @RepPatHarrigan: Taiwan imports nearly all of its energy, and Beijing knows it. So, I introduced the Taiwan Energy Security and Anti-Embargo Act to take that pressure point off the table. Here’s what it does: ⚡ Redirects U.S. LNG directly to Taiwan
☢️ Backs next-generation nuclear power that can’t be blockaded
🛡️ Hardens Taiwan’s grid against CCP cyber and physical attacks
🚢 Federally insures ships so hostile powers can’t scare off carriers
🔍 Requires a full strategic assessment of U.S.-Taiwan energy security Beijing's strategy has always been to use Taiwan's energy dependence as a chokehold, cutting off the supply chain the free world depends on before a single shot is fired. This bill makes clear that strategy will not work.

0118💬 0查看原始貼文
[25]2026/03/12 上午03:50

If you bet Taiwan runs out of LNG, then you guys can short entire AI Semi now. South Korea and Taiwan government are OK with rolling blackouts countrywide to keep fabs running. Taiwan semi + SK semi = US AI Some people on x are retard. Go f**k yourself.

30💬 1查看原始貼文
[26]2026/03/11 下午12:25

RT @CloudflareDev: Introducing the new /crawl endpoint - one API call and an entire site crawled. No scripts. No browser management. Just the content in HTML, Markdown, or JSON.

01694💬 0查看原始貼文
[28]2026/03/10 上午05:32

RT @fi56622380: GTC 2026 preview: 从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里?SRAM会不会替代HBM路线? Nvidia如何整合groq到现有的产品线?是技术整合还是产品线整合?收购之后会给groq LPU产品带来怎样的升级? 这里尝试从基本原理出发去拼凑一个逻辑链 —-------------------------------------------- 先从first principal说说groq的设计哲学开始:groq本质上是一个compiler first走到极致的路线而不是SRAM first路线,SRAM路线只是副产品 相对于CPU针对通用workload的设计不同,AI 推理workload的特征在于确定性(deterministic)更高,基本没有data-dependent branching,tensor shape固定,memory access pattern确定 当Groq带着这个新特征重新审视 hardware-software interface,去问"什么应该在编译时做,什么应该在运行时做"。对于 AI 推理这个 workload,答案是:几乎一切都可以在编译时做 这就是Groq最疯狂而独特的地方:完全确定性编译器(fully deterministic compiler),compile精确到每个时钟周期,完全精确带来极致的效率。在编译的时候就需要考虑到硬件在运行的每个时刻的所有状态,扮演一个全知全能的上帝,就可以避免硬件资源的浪费,而要做到这一点,必须要做到极致的确定性,也就是说,LPU里每一个计算,访问存储,通信的延迟,都需要精确到clock cycle,这对compiler来说是非常复杂的 AI workload更高的确定性,以及groq的完全确定性编译器优先路线很自然的避免了VLIW的弱点(内存行为以及branch行为不可预测),放大了VLIW的优点。那么下一步要提高效率和并行度,VLIW 式的编码格式就是一个自然推论—既然编译器要控制每个功能单元每个 cycle 做什么,那指令格式当然就是一个宽指令里打包多个 指令会得到更高效率,这就是 VLIW 在groq的芯片里,不做乱序执行/speculation,大幅简化硬件(instruction dispatch仅占<3%面积),把复杂度移到静态compiler上,这正是VLIW思想的精髓 既然要让编译器做确定性的 cycle-accurate 调度,那么硬件里所有不确定的因素都要消除,比如arbiter,crossbar, replay,这些有自主算法在运行时决策的部分都砍掉 memory latency 也必须是确定的,所以一切 cache 和 DRAM都是要砍掉的,cache也要换成scratchpad SRAM,因为cache replacement 策略是runtime决策的,不确定,必须换成软件控制的scratchpad,地址映射完全由compiler控制,保证确定性 通信也必须精确到cycle,发送和接收指令就是软件协调好执行的时刻,并没有传统的“我要发一个包给你,请分配好内存”这类操作,而是同步地根据一份时间表严格执行SRAM 的分配和收发操作,这个时间表是compiler已经决定好的,硬件只需要执行就行了 完全确定性compiler也带来了芯片节点之间互联通信overhead的极低延迟,这可能是groq确定性架构最被忽视的最大优势,毕竟传统互联架构里Packet Routing、Arbiter Contention 和 Buffer Queuing,这些是延迟波动的重灾区 这就是为什么说,groq其实并不是一个native SRAM first的技术路线,也不完全算是VLIW first的技术路线,而是compiler first的技术路线,更准确的说,完全确定性compiler是整个groq架构的核心 只是因为确定性compiler的原因,所以在核心decode阶段无法使用HBM/DRAM带来的不确定性,SRAM only成为了必然的选择。这也是为什么说Groq更像是compiler first路线。 —-------------------------------------------- groq被收购之后最直觉的第一反应: groq确定性compiler技术路线有没有可能用在Nvidia现在的GPU+HBM体系上? 不能 原因有两个: 1. HBM/DRAM的物理特性和带宽优化决定了它天生带有不可预测的延迟,无法和deterministic compiler兼容 2. Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 DRAM为什么充满了不确定性 1.refresh操作每隔一段时间tREFI就会刷新一次cell上的电量,阻断bank访问,这是由DRAM cell物理特性决定的。而这个操作会随着温度的变化,refresh的频率也会变化 2. 为了最大化利用DRAM带宽,controller会做很多优化,最典型的是batch scheduling:把同一个page的traffic都放在一起减少page miss,同时让读写尽可能接触更多的bank,以及尽可能减少read和write switching 这些动态优化都是real time发生的,基本不具备可预测性 3. system上对DRAM的优化,比如bank address hashing,让compiler静态提前定位某段data难度太大,落实cycle确定性的复杂度太高 其实这些不确定性也是能解决的,代价就是放弃大部分的优化策略,大幅降低DRAM的efficiency和利用率。groq自己其实也对这方面做过探索,他们曾经做过一个确定性DRAM的专利,但工程上的实现是不现实的,这也是groq选择SRAM-only的核心原因之一。 所以确定性compiler技术路线用在DRAM上不是一个yes or no的问题,而是这不是一个好的选择,因为这意味着HBM的efficiency和BW都要大打折扣,而且是结构性无法避免的损失。 这几乎意味着要用compiler去重写一个完整的memory controller,因为确定性dram本质上是compiler software defined memory controller,这个SW controller会非常难做,复杂度极高,而且每一代memory迭代都要大幅更新compiler里的结构,在工程资源上是不现实的。而且每一代DRAM,每一家DRAM 供货商都需要调试 ,这在验证和validation上是一个nightmare --------- 为什么Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 这两套体系对同一个问题给出了相反的回答:运行时的不确定性,Groq是compiler阶段直接消灭所有不确定性,Nvidia选择了用warp switching去隐藏不可预测的延迟 Nvidia GPU 建立在 SIMT(单指令多线程)和硬件层线程调度器(Warp Scheduler)上。当一个warp因为访存而stall的时候,硬件warp scheduler立刻切换到另一个ready的warp继续执行,把stall的延迟藏在其他warp的计算里。这整套机制的前提恰恰是:延迟是不可预测的,所以需要足够多的并发线程来统计性地填满pipeline 如果要用确定性的编译器去接管,等于把 Nvidia GPU 里面最核心的硬件调度单元全盘废弃:如果你不需要多warp轮转,你也不需要那么大的register file 实际在历史上,AMD从TeraScale(VLIW)到GCN(scalar SIMT)的架构转型,正是GPU领域一次大规模的VLIW→SIMT迁移:当workload变得不够可预测时,VLIW的compiler负担太重,应该把调度权还给硬件 所以在原架构上引入确定性compiler应用到Nvidia现有的技术路线,是很难融合。这不是compiler能不能改的问题,是两套架构从第一性原理上就走了相反的方向。 所以说,Groq在Nvidia的唯一出路,就是独立的面向low latency decode的专用产品。 —-------------------------------------------- Nvidia收购Groq之后,就引出了第二个问题: Nvidia会给Groq带来什么样的新提升? 那么首先看看groq的瓶颈在哪里,简单的说 1. SRAM容量太小,无法容下大模型的参数量+kv cache 2. 推理decode主要瓶颈不在SRAM 80T/s的速度而在于interconnect延迟(占80%) 3. 对于Prefill这样的compute bound task速度较慢 groq的主要架构基本上是17~18年就完成了,那是CNN的时代,架构也是以CNN/LSTM为主要的target,当时测试benchmark都是ResNet50,SRAM容量是绰绰有余的 但是进入LLM时代,单个TSP计算卡230MB SRAM就显得不够看了,一个LLAMA 70B模型的参数量占内存就相当于3000个ResNet50,再加上因为上下文long context日益膨胀的KV cache,scale out就成了唯一的出路 于是一个70B模型的推理就需要576卡的集群,采用16个Pipeline并行 (PP)和36个tensor 并行 (TP),80层的大模型切成16级流水pipeline串行,每级横向5层MLP分给36个卡并行推理 16级流水pipeline串行(PP),每级流水到下级流水的通信overhead延迟就要 X16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟,特别是PP延迟,占据了50%以上的总延迟,通信延迟成为了主要瓶颈 Groq计算卡对decode阶段的memory bound很友好,但是片上巨大的SRAM也挤压了compute的面积,导致prefill阶段耗时很高。融入Nvidia产品线之后,Groq产品完全可以扬长避短,只做自己擅长的decode部分,避免prefill阶段的短板 Nvidia带来的最重要的提升,可能是通过工艺的提升,以及hybrid bonding技术(类似AMD 3D V-Cache),扩大Groq LPU SRAM的容量,比如光是14nm到3nm的工艺提升,SRAM就能从230MB扩大到500MB,如果以后引入3D SRAM,容量还能翻倍 SRAM变大之后,原来576个LPU能完成的70B模型推理,现在只需要256个LPU了。猜测也许可以用32个tensor并行 X 8 个流水pipeline串行,pipeline interconnect延迟能直接减半。 所以Nvidia能带来的主要提升可能是,通过扩大SRAM的容量,减少scale out卡数,从而减少通信延迟时间,提高token速度 —-------------------------------------------- Groq的SRAM路线专用产品进入Nvidia产品线,引出了第三个问题: SRAM路线会颠覆HBM路线吗? 不会。 SRAM路线本质上是用十倍的成本换几倍的速度,只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(total cost ownership)成本 做一个简单的成本核算就清楚了 以LLAMA 70B模型为例,算上KV cache,Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(groq CEO说实际售价远低于,那就按2000美元算),576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型,成本不到10万美元。成本差距是一个数量级。 Groq于是转而卖token服务,Groq的API定价确实便宜,但这是因为两个原因叠加: 第一,Nvidia的GPU云服务商通常在硬件成本上加倍的margin卖出去; 第二,Groq自己是在亏钱运营的。2025年全年,Groq用LPU做大模型推理、对外卖API的业务,营收大约4000万美元,成本却是6000万美元,毛利-50%。Groq的便宜token价格不是因为SRAM的经济性更好,而是因为VC在补贴。 那么有人愿意为速度付溢价吗? 有。 Claude Opus 4.6 Fast模式就是一个很好的市场信号:输出速度提升2.5倍,定价直接从$5/$25涨到$30/$150 per million tokens,6倍的价格,估计是牺牲了batch带来的速度提升。 所以这部分市场是真实存在的,SRAM路线在这里有它的生态位。 但这个生态位有多大?要看ML workload的分类。不同的workload对硬件的侧重点要求差距巨大: 推理的Prefill阶段对带宽要求低但算力要求高,推理decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高 (见附图) 对延迟敏感的推理workload,decode阶段对Memory bandwidth要求高,是SRAM路线的优势领域(图中红色线),主要是real time/interactive LLM:chat、copilot、agent这类需要实时响应的场景。 特别是reasoning model,SRAM路线带来的极致体验是很夸张的:H100要两三分钟跑完一reasoning,cerebras十秒就搞定了 这部分注重极致推理速度的市场有多大,我暂时没有找到一个详尽的调研,看到一个Hyperscaler的说法目前是10%左右 但是agentic flow workload,常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU, 这些加起来通常远大于单次decode的延迟,SRAM路线速度优势被削弱。 而更大体量的workload:batch inference、offline processing、ranking、recommendation对延迟没有那么敏感,throughput和cost per token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力 H100/B200相当于大巴车,装的人多(batch processing),每个人的车票钱很便宜,但是慢悠悠。 Groq/cerebras相当于是法拉利,极致的速度体验,但是装的人少,人均票价是大巴车十倍甚至以上。 长期来看,SRAM的成本劣势是结构性的,不会随时间收敛。6T SRAM cell天然比1T1C DRAM cell贵,这是物理决定的,和工艺无关。而且SRAM scaling已经慢了下来,从N5到N3E,SRAM单元面积几乎没有缩小 即便是速度优势,SRAM路线的缺陷在于访问速度已经接近工艺极限,很难跨代提升。特别是HBM的速度每代都在指数上升的情况下,SRAM 80T/s的速度优势很难长久维持。十年前这个路线刚刚兴起的时候,SRAM速度比HBM快了两个数量级简直是降维打击,但现在的速度差已经不到一个数量级(Rubin HBM4 22TB/s),再过十年,两者的速度可能拉不开差距了。 所以结论很清楚:SRAM不会颠覆HBM,但它在低延迟、低batch、实时推理这个细分市场里有不可替代的价值。但长远来看,随着HBM速度指数上升的背景下,SRAM优势也会逐渐慢慢越小。 —-------------------------------------------- 写到这里,也许我们可以把这些碎片拼凑出Nvidia收购Groq之后计划的下一步雏形: 异构推理的新时代开启了 以后的推理workload本身已经分化,无法再用单一架构的最优点覆盖,体系结构最重要的是tradeoff,是尺度范围。一个架构形态在合理的tradeoff以及特定workload下可能惊为天人,用多个架构形态去迎合不同种类的workload,就是异构计算的思想 2026 GTC的最大主题,就是异构推理的系统化。推理不会由单一硬件统一完成,而会被拆成 几个部分: 控制和调度/agent runtime层交给Vera CPU 针对long context的prefill交给CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块) 小模型/低延迟/low batch decode交给SRAM路线的Groq LPU,256块LPU集群 高吞吐/高并发batch decode,HBM GPU仍然是主力 以及可能会被忽略的ICMS:inference context memory storage, kv cache已经是核心基础设施,以前的异构更多是计算异构,现在的异构已然延申到了缓存异构memory hierachy heterogenity(似乎改名成了CMX: context memory storage) LPU和GPU的分工,更可能成为 inference stack 里两个不同的tier,小模型/低延迟/low batch都交给LPU,长context/high batch交给HBM GPU 目前CPX什么方式和LPU/GPU连接还尚不清楚,整个工作流程大概是,CPU做控制和调度,CPX Prefill 跑完得到几十 GB 的 KV Cache, 分配到 Groq LPU阵列SRAM,或者分配到HBM GPU,开启Decode流程 其实还有一种更大胆的猜想:如果引入speculative decoding,那么LPU完全可以跑通常尺寸较小的草稿模型,在LPU上速度极快,HBM GPU作为主力去验证草稿模型即可,这样的异构推理结构,可以让token rate大大加速,在某些场景下翻倍也是没问题的(比如代码任务模式固定,小模型很容易猜对语法,所以加速效果很好) 当 Nvidia 的眼光越过GPU,走向整个 Agentic 流程的系统级优化时,追赶它的难度已经不在一个单一维度了。以前 Nvidia 步子迈得大,靠的是 GPU 架构和参数的单点暴力跃升;而现在,随着CPX,LPU,ICMS加入异构推理,它是从“数据中心即一台计算系统”的系统视角出发,从Agentic flow的角度做底层的异构编排。 无论是系统的复杂度,还是软件栈的工作量(Dynamo/ICMS/CMX),Nvidia 迈出的这一大步,直接把竞争门槛从“做出一颗好芯片”拉高到了“定义一整套异构系统来做普适加速计算解决方案“ —------------------------------------------------------- 不由得感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始

073💬 0查看原始貼文
[30]2026/03/09 下午08:24

有些人內心充滿仇恨, 恨這個世界, 恨美國。殊不知, 沒有美國, 多少人的生活比現在還悲慘。 這個世界不完美, 盡自己的力量, 照顧好自己跟週圍的人。行有餘力再去幫助其他人。

40💬 1查看原始貼文
[33]2026/03/07 下午06:39

Well said. 有些國家像是黑洞, 壓榨人民壓榨其他國家。有些國家輸出秩序, 拿自己的錢自己的人輸出秩序到其他國家, 到其他地方做生意, 大家都發財。

10💬 1查看原始貼文
[35]2026/03/07 下午05:14

RT @cryptonerdcn: Openclaw 变种一览: 1. Nanobot:【HKU @xubinrencs 】基于python,最知名的openclaw的轻量替代。生态较为完善,个人定制agent首选。 2. PicoClaw: 【@SipeedIO】基于Go的Nanobot对标。号称比Nanobot快30倍/小10倍,比openclaw快500倍/小100倍。另外其实是皮皮虾,不是龙虾。 3. ZeroClaw: 【@argenistherose】基于Rust的Nanobot对标。号称比上面的PicoClaw更小更快。 4. nanoclaw: 【@Gavriel_Cohen】基于TS和Claude Agents SDK的Openclaw改写版。号称代码库足够小你十分钟就能看完。只支持Whats APP。 5. MimiClaw: 【@ssslvky】基于C语言的Openclaw对标。号称可以跑在$5美金的芯片上。只支持Telegram。 6. IronClaw:【@near_ai】Near区块链生态的项目。号称重视安全性。对于区块链转AI的项目我有什么看法,请参考我以前的推特。 7. KimiClaw: 【@Kimi_Moonshot】Kimi的云端bot。要注意的是这服务不带自动翻墙,所以外网的一些东西它无法访问。 --假🦞的分割线-- 1. safeclaw: 【@zudasworld】对于openclaw的讽刺版。里面完全没使用大模型--也就是说使用纯代码写了openclaw的大部分功能😂。比起下面的tinyclaw,技术力和娱乐性都拉满了,建议尝试(也许会让你想起Amazon的alexa)。 2. Tinyclaw: 【 @jianxliao 】只是shell脚本调用Claude code搭配聊天软件接口。现在改成了多agent调用,但依然没使用的必要,你自己Vibe一个比这个好用。

076💬 0查看原始貼文
[37]2026/03/04 下午06:58

People who don’t write code using Claude remote or openclaw have no idea why cpu is the next bottleneck. The future economy depends on AI data center. $INTC $AMD $ARM

00💬 0查看原始貼文
[38]2026/03/04 上午11:23

🤣

00💬 0查看原始貼文
[41]2026/03/03 上午07:18

RT @aleabitoreddit: $NVDA has just invested $2 billion into $COHR for advanced laser and optical networking products. This is an extremely bullish tailwind for $AXTI (substrate provider), other optical networking companies like $AAOI, and the entire photonics supply chain. And most of all the direct beneficiary is $COHR.

021💬 0查看原始貼文
[46]2026/03/01 下午08:58

CT Scan: are you kidding me?

00💬 0查看原始貼文
[47]2026/03/01 上午06:34

> but I guess we are heading into an era when low-cost tokens can be dumped, and there can hardly be a tariff placed on top of that. Not true. Open AI and Anthropic are claiming that China ai lab is distilling their models. It’s possible that it will lead to US and some countries banning China AI lab. US and EU ban huawei ‘s products . Why is it different this time?

00💬 0查看原始貼文
[49]2026/02/28 下午10:26

The future of Mega 7 and AI labs heavily rely on Taiwan, Korea, and Japan’s supply chain. Without those suppliers, Open AI and Anthropic can go bankrupt tomorrow. Look at how much money Hyperscaler pour into AI data center buildout. US gov is not going to give up Taiwan unless they want to give up their dominance of AI.

10💬 4查看原始貼文