谁在拉高天花板,谁在自缚手脚?(2025年第28周 总第230期)
@谋定后动:
你以为AI大模型只是拼算力?技术跑得再快,也逃不开制度这张“隐形网”:一边是Grok4 以毫秒级推理把benchmark打成游戏,一边是盘古、DeepSeek因信任赤字被按下慢放键。站在普通投资者的视角,哪些才是AI投资领域里噪音背后真正的确定性? 美国:技术烟花一串接一串 Grok 4 一登场,就把“遥遥领先”翻译成了可量化的分数:在号称“博士综合试卷”的ARC-AGI v2 拿下15.9 %,比第二名的9 %一下子提高了一个档次;换到更残酷的Humanity’s Last Exam,无工具模式26.9%,启用工具后一口气蹿到 50.7 %,成为首个闯过 50 % 分数线的封闭模型。更有趣的是,在模拟商战的Vending-Bench里,Grok 4 平均净利润做到 4694 美元,几乎是Claude Opus 4的两倍,人类的6倍。注意:这不是PPT,是实打实的眼前现实。 与此同时,OpenAI 在浏览器侧对谷歌发起侧翼包抄:据路透社报道,基于Chromium的AI浏览器即将上线,内置ChatGPT级助手与自动表单、预订等Agent功能,直接向谷歌的基本盘发起了挑战。 Claude 3.5 Sonnet 也没闲着:它把 Opus 的智商挪到 Sonnet 的价位:输入 $3/百万 token,输出 $15/百万 token,成本仅为 Opus 的五分之一;MMLU反超Opus约 2 个百分点。一句人话:过去企业想用最强模型要“劳斯莱斯的价格”,现在同样钱能买到“特斯拉高配”。 在算力端,Nvidia Rubin R100 路线图抛出288GB HBM4 + 13TB/s 带宽的怪兽卡,机柜级方案扩到 576 节点,明晃晃向业界宣示:训练成本还能再砍一刀,电力和冷却才是物理上的天花板。 百家争鸣的背后,是美系厂商用差异化来构筑护城河:Grok拼极致速度,Claude拼性价比