Anthropic 成立 Anthropic Institute,正式进军 AI 社会治理
🧠 发布动态
Anthropic 成立 Anthropic Institute,正式进军 AI 社会治理。
不是又一个安全实验室 — 这是一个专门应对强 AI 社会影响的独立机构。从纯技术安全研究扩展到政策制定和公众参与,Anthropic 的野心很明确:不只是做最强的模型,还要定义 AI 时代的规则。对行业来说,这意味着 AI 公司开始主动承担"立法顾问"的角色,而不是等监管来敲门。 详情 →
Google 发布 Gemini Embedding 2 — 首个全模态嵌入模型。
文本、图片、视频,一个向量空间搞定。这不是小升级 — 跨模态检索管线一直是 RAG 架构的痛点,现在 Google 直接给了一个统一方案。如果你在做多模态搜索或知识库,这个模型值得立刻跑个 benchmark 对比你现有的嵌入方案。(2,325 likes | 289 RTs) 详情 →
Meta 两年迭代四代自研 AI 芯片。 MTIA 的演进速度说明一件事:芯片迭代周期正在追赶模型架构变化的速度。自研硅片从"省钱手段"变成了竞争壁垒 — Meta 不想在推理成本上受制于 NVIDIA。(264 likes | 44 RTs) 详情 →
Fish Audio 发布 s2-pro 开源语音合成模型。 HuggingFace 上热度不低(240 likes | 746 downloads),做语音交互或音频内容管线的团队值得试试。开源 TTS 的质量天花板又被抬高了一截。 详情 →
🔧 开发者工具
Claude Code 上线 /btw — Agent 干活的时候你可以开小差了。
用过 Claude Code 的都知道那个纠结:Agent 在跑一个大任务,你突然想问个小问题,打断还是等?现在不用选了。/btw 开启侧链对话,主任务不受影响。这个功能看似小,实际上解决了 Agent 编码工作流中最大的效率瓶颈之一。(22,849 likes | 1,388 RTs) 详情 →
OpenAI 发布 GPT-5.4 迁移 Codex Skill。 自动化模型切换、提示词调整和兼容性检查,不用手动一个个改了。如果你还在用 GPT-5.3,这是最省事的升级路径。(700 likes | 26 RTs) 详情 →
Claude for Excel 和 PowerPoint 现在可以共享上下文。 在 Excel 里分析完数据,切到 PowerPoint 做汇报,Claude 自动带上之前的上下文,不用重新解释一遍。对商业用户来说,这才是 AI 融入工作流该有的样子。(407 likes | 34 RTs) 详情 →
Gemini CLI 新增 Plan Mode — 先看再动手。 只读模式下先让模型帮你探索和规划,确认方案再执行。安全第一的设计思路,大重构之前用一次,可能省掉几小时的回滚时间。(250 likes | 22 RTs) 详情 →
📝 技术实战
你的 Agent 编码评测可能在骗你。 一篇很扎实的分析:Agent 编码 benchmark 在不同运行之间可以波动好几个百分点 — 有时候比模型之间的差距还大。如果你在根据一次跑分结果选模型,先看看这篇再说。(480 likes | 16 RTs) 详情 →
Simon Willison 的 AI 辅助编码模式指南。 不是"怎么用 AI 写更快的代码",而是"怎么用 AI 写更好的代码"。质量优先于速度 — 这个视角在 AI 编码圈太稀缺了。 详情 →
LangChain 拆解 Agent Harness 的核心结构。 Agent harness 是把模型智能转化为实际工作的系统框架。LangChain 这篇把核心组件讲得很清楚 — 做生产级 Agent 的必读心智模型。 详情 →
🔬 研究前沿
AlphaEvolve 在极值组合数学中建立全新结果。 DeepMind 的 AlphaEvolve 不是在已知问题上刷分 — 它在极值组合学领域产出了全新的数学结果。AI 从"数学计算器"变成了"数学合作者",这个跨越比任何 benchmark 都有意义。(1,615 likes | 168 RTs) 详情 →
NVIDIA Cosmos Policy:把世界模型接到机器人控制上。 从仿真训练到物理操作的鸿沟一直是机器人领域的核心难题。Cosmos Policy 试图用世界基础模型统一这个链路 — 思路对了,但落地效果还需要看实际部署数据。(115 likes | 19 RTs) 详情 →
NVIDIA 公开合成代码训练数据生成方法论。 从"概念种子"出发生成高质量合成代码数据 — 对训练或微调代码模型的团队来说,这套方法论比数据本身更有价值。 详情 →
💡 行业洞察
Karpathy:IDE 没有在死,它需要进化。
"We're going to need a bigger IDE" — Karpathy 的观点很清楚:人类现在在更高层级编程,基本工作单元在上移,但工具还停在原地。IDE 不该消失,而该跟上这个变化。对所有在思考"AI 时代还需不需要 IDE"的人来说,这是最好的回答。(2,920 likes | 198 RTs) 详情 →
安全研究员用 AI Agent 黑进了麦肯锡的 AI 平台。 不是理论推演 — 是真实的渗透测试报告。AI 攻击 AI 的场景已经从论文变成了现实。每个部署 Agent 的企业都该读这篇,然后审计自己的攻击面。(223 likes | 88 RTs) 详情 →
Anthropic 悉尼办公室开张 — 亚太第四城。 继东京、班加罗尔、首尔之后,悉尼成为 Anthropic 在亚太的第四个据点。激进的区域扩张背后是人才争夺和监管布局的双重考量。 详情 →
🏗️ 值得一试
开源 AI Agent 浏览器协议。 标准浏览器不是为 AI Agent 设计的 — 这个开源项目专门解决 Agent 的网页导航、交互和数据提取需求。如果你在做需要浏览器操作的 Agent,值得关注。(33 likes | 14 RTs) 详情 →
🎓 模型小课堂
多模态嵌入空间(Multimodal Embedding Spaces):传统嵌入模型只能处理单一类型的数据 — 文本归文本,图片归图片,搜索时只能同类匹配。多模态嵌入把文本、图片、视频映射到同一个向量空间里,这意味着你可以用一句话搜到相关的图片,或者用一张图找到相关的文档。Gemini Embedding 2 就是这个思路 — 一个模型、一个空间、多种模态。这解释了为什么检索管线即将迎来一波能力跃升:不再需要为每种数据类型单独建索引了。
⚡ 快讯
- HuggingFace Storage Buckets:S3 级可变存储上线,带 Xet 去重,专为 AI 训练工作流设计。(15 likes | 5 RTs) 链接
- TEI v1.9:HuggingFace 文本嵌入推理引擎新增 NVIDIA Blackwell GPU 支持。(25 likes | 3 RTs) 链接
- Claude 服务波动:Claude Code 和 claude.ai 出现登录错误和性能下降,已在修复中。(1,500 likes | 41 RTs) 链接
- 中国 OpenClaw 淘金热:MIT Tech Review 报道,开源 AI 自主设备控制工具 OpenClaw 在中国引发创业热潮。 链接
🎯 今日精选
AlphaEvolve 在纯数学中产出原创结果 — AI 从计算器变成了合作者:DeepMind 的 AlphaEvolve 在极值组合学中建立了全新的数学结果,这不是在已知问题上跑出更优解,而是在未知领域做出了原创贡献。这个区别至关重要 — 它标志着"AI for Science"从"加速已知计算"跨越到"探索未知领域"。过去我们说 AI 辅助科研,本质上还是人类提出假设、AI 加速验证。现在 AlphaEvolve 展示的是 AI 参与假设生成本身。对数学和科学界来说,这重新定义了 AI 作为研究工具的角色边界。(1,615 likes | 168 RTs) 详情 →
下期见 ✌️