AI 动态

人工智能、AI Agent、大模型、开源模型、AI 产品、模型服务与生态变化。

2026年6月28日

AI 动态日报 2026-06-28

DeepSeek 开源 DSpark 投机解码框架;GLM-5.2 发布,白宫 AI 负责人警告美国勿让模型“炼狱”;美光因AI内存短缺股价飙升236%,市值一度超越Meta和特斯拉

AI 动态日报 2026-06-28

  • DeepSeek 开源 DSpark 投机解码框架:DeepSeek 开源 DSpark,一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构,消除后缀衰减;并引入置信度 head 和负载感知调度器,动态控制验证数量。在 DeepSeek-V4 生产系统中,单用户生成速度比 MTP-1 基线快 60-85%,吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 checkpoint 以及 MIT 协议的 DeepSpec 训练代码,与北京大学联合开发。
  • GLM-5.2 发布,白宫 AI 负责人警告美国勿让模型“炼狱”:中国开源权重模型 GLM-5.2 发布,被评价为继 DeepSeek 之后的第二次“DeepSeek 时刻”,性能可与 OpenAI 和 Anthropic 当前模型媲美。白宫 AI 负责人 David Sacks 就此警告,若美国继续过度监管,世界将转向中国技术,凸显中美 AI 开源竞争进入新阶段。
  • 美光因AI内存短缺股价飙升236%,市值一度超越Meta和特斯拉:内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND(尤其是HBM)供应短缺,股价过去一个月飙升236%,市值接近1.27万亿美元,一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元,利润从18.8亿美元暴涨至282亿美元,并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度,缺货(RAMageddon)预计持续至2027年。
  • OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片;Anthropic 指控阿里巴巴蒸馏 Claude;美国设立前沿模型审查机制:AIGC 周刊报道,OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片 Jalapeño;Anthropic 指控阿里巴巴通过 2.5 万欺诈账户蒸馏 Claude;美国政府为前沿模型发布设立「受信合作伙伴」审查机制。AI 行业正从技术竞赛滑向地缘博弈。
  • Grok 4.5 内测:性能接近或超越 Opus:Grok 4.5 基于 1.5T V9 基础模型,补充训练加入 Cursor 数据,已在 SpaceX 和 Tesla 进行内测。早期评测显示性能接近甚至可能超过 Opus。RL 持续显著改进模型,Grok Build 工具链每日提升。Elon Musk 宣布今年 SpaceX 将每月发布完全从头训练的新模型。
  • Grok 4.5 进入 SpaceX/Tesla 私有 beta,性能接近 Opus:Elon Musk 确认 Grok 4.5 已在 SpaceX 和 Tesla 进入私有 beta。该模型基于 xAI 的 1.5T V9 基础模型,训练中加入了 Cursor 数据,早期评估显示性能接近甚至可能超过 Opus。Musk 表示今年将每月发布从头训练的新模型。
  • 匿名模型"Owl Alpha"实为美团LongCat-2.0-Preview,已在OpenRouter秘密测试近两月:据爆料,OpenRouter增长最快的智能体模型"Owl Alpha"实为美团LongCat-2.0-Preview。该模型采用1.6T参数MoE架构,激活参数量48B,动态激活范围33B-56B,原生支持1M token上下文窗口。OpenRouter数据显示其月处理token达10.1T,月增长率242%,已成为全球使用最多的AI智能体模型之一。
  • GPT-5.6 发布,政府审核限制首批仅 20 家可访问:OpenAI 发布 GPT-5.6 系列(旗舰 Sol、均衡 Terra、低成本 Luna),在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩。发布前 OpenAI 向美国政府展示能力,按政府要求先以有限预览上线,首批约 20 家合作伙伴可访问。
  • GPT-5.6 发布:Sol、Terra、Luna 三款模型,受政府限制有限预览:OpenAI 发布 GPT-5.6 系列,包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%,领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%。价格:Sol 输入 $5/百万 tokens、输出 $30。发布前 OpenAI 向美国政府展示能力,按政府要求先以有限预览上线,首批约 20 家合作伙伴可访问。
  • Stripe报告:AI推动一人公司崛起,年营收千万美元单人企业激增:Stripe Economics发布报告《The Age of the Solopreneur》,数据显示单人公司申请持续加速,年营收超千万美元的单人公司数量较六年前增长五六倍。AI填补了内容、设计、代码、客服等能力缺口,使个人借助Agent和工具即可跑通业务。报告认为未来最有生命力的商业体可能是'一个人+高度杠杆化AI系统'。
  • Anthropic发布Claude Mythos Preview与Fable 5,Project Glasswing向150家组织开放:Anthropic发布Claude Mythos Preview及安全增强版Fable 5,通过Project Glasswing向150家组织开放。英国政府AI安全研究所评估显示,Mythos首次在"专家级任务"和完整攻击链测试中成功,可发现老旧漏洞,但单次漏洞探测成本约2万美元,总token预算达1亿美元。
  • DeepSeek 发布 DSpark 推测解码并开源 DeepSpec:DeepSeek 发布 DSpark 推测解码方法,可将吞吐量提升 51% 到 400%,并开源训练框架 DeepSpec。
  • DeepSeek 开源 DSpark 投机解码框架,加速 V4 生成速度 60-85%:DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60-85% 和 57-78%。离线测试中,接受长度比 Eagle3 高 26-31%,比 DFlash 高 16-18%。配套 DeepSpec 训练代码库采用 MIT 许可证。
  • Anthropic调研:约半数Claude用户称AI已可承担一半以上工作:Anthropic对约9700名Claude用户的调研显示,33%受访者认为AI可完成自身30%至60%工作任务,14%认为比例为60%至90%,约4%称Claude能独立完成全部工作。展望未来12个月,26%用户预计AI将接手大部分工作。Claude Artifacts功能中,使用最多的场景是数据库查询、博客创作和营销文案撰写。
  • Anthropic Fable 5 或数日内恢复,特朗普政府准备解除限制:Axios 报道,Anthropic 的 Fable 5 模型可能数日内重新可用。特朗普政府即将解除限制,商务部长 Howard Lutnick 致信称 Anthropic 已与美国政府合作解决风险,但五角大楼和 NSA 仍需最终批准。该模型因安全担忧于6月12日被关停,其无附加安全限制的变体 Mythos 5 已面向部分合作伙伴恢复。两家公司正推动为新 AI 模型建立法律定义的审查流程。
  • DeepSeek 开源 DSpark 投机解码框架,加速生成速度 60-85%:DeepSeek 发布 DSpark 投机解码框架并开源,通过半自回归生成实现无损加速,生产环境下 V4-Flash 和 V4-Pro 每用户生成速度较基线提升 60-85% 和 57-78%。
  • AI 浪潮推高硬件成本,苹果全线涨价:苹果本周全线涨价,MacBook、iPad、Apple TV 等产品涨幅 6%-54%,主因 AI 热潮引发内存芯片短缺,超大规模 AI 公司抢占供应链资源。微软随后也上调 Xbox 价格。分析指出,这标志着 AI 繁荣成本首次从行业问题变为普通消费者可感知的现实。
  • Grok 4.5 基于1.5T V9进入SpaceX/Tesla测试:马斯克宣布Grok 4.5基于1.5T V9基础模型,并在补充训练中加入Cursor数据,现已于SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。RL持续显著优化模型,Grok Build工具每日改进。此外,SpaceX今年将每月发布完全从零训练的新模型。
  • Coinbase 转向中国 AI 模型,西方实验室面临定价压力测试:Coinbase CEO Brian Armstrong 已将公司迁移至中国 AI 模型,采用智谱 GLM 5.2 和月之暗面 Kimi 2.7,token 用量攀升但支出减半。初创公司 Lindy 近期转向 DeepSeek V4,Snowflake 也在测试中国模型作为廉价替代品。Coinbase 部署自动路由系统,根据任务、价格和缓存潜力选择模型,缓存命中率从 5% 提升至 60%。
  • Grok 4.5 进入 SpaceX 和 Tesla 私人测试:Grok 4.5 基于 1.5T V9 基础模型,补充训练引入了 Cursor 数据,现已在 SpaceX 与 Tesla 进入私人测试阶段。早期评估显示其性能接近甚至超越 Opus。RL 持续显著提升模型能力,Grok Build 工具链每日改进。今年 SpaceX 将每月发布完全从头训练的新模型。
  • 马斯克:Grok 4.5 已在 SpaceX 和特斯拉内部测试,性能接近 Opus:Grok 4.5 基于自研 1.5 万亿参数 V9 基础大模型打造,并引入 Cursor 数据完成补充训练,已在 SpaceX 和特斯拉内部开启测试。早期评测显示其性能接近甚至有望超越 Opus 模型。基于人类反馈的强化学习持续提升模型能力,Grok 配套调度框架每日迭代优化。马斯克还透露,SpaceX 今年每个月将推出一批完全从零开始训练的全新模型。
  • Grok 4.5 在 SpaceX 和 Tesla 私测,性能接近 Opus:马斯克宣布,基于1.5T V9基础模型并加入Cursor数据的Grok 4.5已在SpaceX和Tesla进入私测,初步评估性能接近甚至超越Opus。强化学习持续改进模型,Grok Build工具链也在完善。SpaceX计划今年每月发布完全从头训练的新模型。
  • Elon Musk 确认 Grok 4.5 私测于 SpaceX 和 Tesla:Elon Musk 在 X 平台确认,Grok 4.5 基于 1.5T V9 基础模型,并在补充训练中加入 Cursor 数据,现已在 SpaceX 和 Tesla 进入私测。初步评估显示其性能接近,或许超越 Opus。强化学习仍在持续改进模型,Grok Build 工具链也在完善。
  • 新浪开源VibeThinker-3B:推理可压缩,事实知识不能:新浪发布仅3B参数的VibeThinker-3B,在数学编程基准上持平DeepSeek V3.2等大200-333倍的模型,但知识密集型任务大幅落后。研究提出“参数压缩-覆盖假说”,认为逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
  • 新浪开源 VibeThinker-3B:推理可压缩,事实知识不能:新浪发布仅 3B 参数的 VibeThinker-3B 模型,在 AIME26 等数学编程基准上持平 DeepSeek V3.2 等大 200-333 倍的模型,LiveCodeBench 超越所有 20B 以下模型,LeetCode 竞赛解决 123/128 题超过 GPT-5.2。但知识密集型 GPQA-Diamond 大幅落后。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
  • 美国官员将中美AI竞赛定性为国家安全对抗:美国官员将与中国的人工智能竞赛定位为国家安全对抗,称微小领先也能改变结果。众议院外交委员会主席Brian Mast在哈德逊研究所活动上称美国是"超级英雄"、中国是"超级反派"。参议员Jim Banks表示这场竞赛涉及经济、军事和道德层面,警告美国不能输给"最大对手"。财长Bessent直言,中国愿意讨论AI是因为美国目前仍领先,但华盛顿担忧这一优势正不断缩小。
  • 福特因激进采用AI质检系统导致数十亿美元损失,返聘资深工程师:福特公司因激进采用AI质检系统导致成本损失数十亿美元,三年内返聘350多名资深工程师(内部称"gray beards")负责质量审查并帮助改进AI。首席运营官承认自动化系统未达预期。返聘后,福特在J.D. Power年度新车质量调查中16年来首次获得主流品牌排名第一。
  • Liquid AI 发布 LFM2.5-230M 开源文本模型:Liquid AI 推出 230M 参数开源文本模型 LFM2.5-230M,基于 LFM2 架构,开放权重。支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 推理,内存占用仅 293-375 MB。在 Galaxy S25 Ultra 上达 213 tok/s,Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71,领先同类模型。专为数据提取和工具调用设计。
  • Google TimesFM 2.5:轻量化时序预测模型支持零样本与 LoRA 微调:Google Research 于 2024 年开源时序预测基础模型 TimesFM(ICML 2024),2025 年 9 月发布 2.5 版本,参数从 500M 降至 200M,上下文窗口扩展至 16K,新增 30M 分位数预测头。2026 年 4 月通过 HuggingFace Transformers 和 PEFT 支持 LoRA 微调,便于领域适配。
  • 教师杨某某论文图表被指有AI生成水印,兰州大学成立调查组:兰州大学6月27日发布情况说明,高度重视网上对教师杨某某相关论文问题的反映,已第一时间成立专项调查组启动调查。学校一贯对科研失信行为秉持“零容忍”态度,将根据调查情况严肃认真处理。此前据媒体报道,一篇刊发在Journal of Membrane Science的学术论文,被指出现豆包AI生成的水印。该论文的第一署名单位为兰州大学化学化工学院,第一作者兼共同通讯作者为该院杨某某。
  • 四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板:英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%,计划后10回合内执行率仅48-66%。
  • 四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板:英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
  • CLI 错误输出应直接面向 AI 编码智能体:开发者提议 CLI 工具的错误输出应直接面向 AI 编码智能体,包含问题原因、调查方法、脱敏复现步骤等,使每次失败的智能体交互成为高质量 bug 报告,形成软件改进的良性循环。
  • 中国AI模型价格仅为美国1/50,企业加速转向:J.P. Morgan报告显示,中国AI模型每token比美国便宜50倍,Qwen、DeepSeek、Kimi等施压OpenAI和Anthropic定价。到2026年4月,中国公司在OpenRouter流量占比将从不足2%升至超45%。UBS调查发现,60%监控AI预算的企业已转向更便宜模型。
  • SpaceX注册SpaceXAI商标,将合并xAI:消息称SpaceX刚刚注册了"SpaceXAI"商标。埃隆·马斯克表示xAI将解散,不再作为独立公司,因此它将只是SpaceXAI,SpaceX的AI产品。
  • Anthropic 预测 2028 年前出现自主改进 AI:Anthropic 预测,到 2028 年底,很可能出现一个能完全自主地“造一个更好的自己”的 AI 系统,即实现递归自我改进(RSI)。
  • Gallup民调:71%美国人反对本地建设AI数据中心:Gallup民调显示71%美国人反对在本地建设AI数据中心,女性反对更强烈。反对主因是资源压力(水、电各占18%),支持者看重经济和就业。自2023年以来美国已出现300+州及地方数据中心禁令/暂停。但现代数据中心已能缓解担忧:微软芯片级闭环冷却零水耗,谷歌全球PUE 1.09。
  • DeepSeek 发布 DSpark:半并行推测解码推理优化方法:DeepSeek 提出 DSpark,一种半并行推测解码系统,使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证:草稿模型并行生成多个候选 token,再由一个小型马尔可夫头根据前一个 token 微调每个猜测,弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载,动态决定每个请求需验证的 token 数量,避免无效计算。
  • 美国 AI 基建瓶颈从 GPU 转向许可:300 多项数据中心禁令:美国 AI 基础设施建设最大瓶颈已从 GPU 变为许可,2023 年以来有 300 多项州级和地方数据中心禁令或暂停,但实际数据表明水耗与电费担忧被驳斥。
  • LangChain 发布深度 Agent 教程:三大上下文工程技巧:LangChain 官方发布深度 Agent 从零构建教程,通过三大上下文工程技巧解决长任务"忘事崩链":结构化 TODO 带状态管理、虚拟文件系统省 token 实现跨轮记忆、子代理委派并隔离上下文。教程含 5 个渐进式 Notebook,从 ReAct 循环起步,逐步叠加规划、文件系统、子代理,最终搭建可联网深度研究 Agent。强调高级 Agent 差距在上下文工程架构设计。
  • Apple Vision Pro 主管副总裁加入 OpenAI 硬件团队:据 Bloomberg 报道,负责 Apple Vision Pro 的副总裁 Paul Meade 将离开苹果,加入 OpenAI 硬件团队。Meade 此前还主导了苹果计划于明年推出的 AI 智能眼镜开发。OpenAI 已与苹果前首席设计官 Jony Ive 合作开发 AI 设备。
  • 谷歌因算力限制对Meta调用Gemini大模型实施限制:Meta向谷歌申请的Gemini算力规模超出后者供给能力,谷歌现已对Meta调用其Gemini大模型实施使用限制。Alphabet约在今年3月告知Meta无法满足所需算力,导致Meta多项内部AI项目受阻延期。Meta已要求员工节约使用模型token。谷歌一季度云营收达200亿美元,CEO皮查伊表示算力供给瓶颈制约云业务增速,同时令云部门积压订单量环比近乎翻倍。
  • DeepSeek 成美国企业 AI 账单失控下的“香饽饽”,阿里千问输入法 macOS 版上线:AI 账单失控背景下,美国企业转向 Token 最小化策略,部分已 100% 切换使用 DeepSeek。同时,阿里千问输入法 macOS 版上线,支持最快 300 字/分语音输入和 AI 自动润色,支持 9 种方言且无广告。
  • Anthropic Fable 被美国政府要求下架,OpenAI GPT-5.6 被迫延迟发布:Anthropic 发布 Fable 三天后,美国政府要求限制非美公民访问,模型被撤下。一个月后 OpenAI GPT-5.6 准备就绪,Sam Altman 因政府压力延迟发布,仅向可信伙伴开放。研究员称 GPT-5.6 编程极强,官方博文侧重安全。Box CEO 指出已形成事实监管:达到特定算力规模的模型发布前需政府审查。OpenAI 推迟 IPO 至 2027 年。Anthropic CEO 被指用恐惧营销游说监管获得保护。中国未减速,差距缩小。开源实验室落后。
  • 苹果 Vision 负责人跳槽 OpenAI,触控 OLED MacBook 用 M5 芯片:Mark Gurman 称苹果 Vision 产品组副总裁 Paul Meade 下周离职加入 OpenAI 硬件部门。他负责 Vision Pro、无屏幕 AI 智能眼镜及 AR 眼镜研发。苹果计划首款触控 OLED MacBook 使用 M5 Pro/Max 芯片,2026年底到2027年初发布。核心高管流失至 OpenAI 凸显 AI 硬件竞争加速。
  • 苹果 Vision 负责人跳槽 OpenAI,触控 OLED MacBook 用 M5 芯片:苹果 Vision 产品组副总裁 Paul Meade 下周离职加入 OpenAI 硬件部门。苹果计划首款触控 OLED MacBook 使用 M5 Pro/Max 芯片,2026 年底到 2027 年初发布。
  • Anthropic 分享 Claude Code 记忆管理方法论:四层架构与做梦机制:Anthropic 应用 AI 负责人介绍 Claude Code 记忆管理,采用四层架构:CLAUDE.md、Agent 自主读写、Skills 渐进式披露、文件系统建模。核心做梦机制是带外异步处理,已投入生产。
  • Flock AI 摄像头安全漏洞与滥用问题严重:Flock Safety 的 AI 监控摄像头能识别车牌并通过自然语言搜索车辆描述,全美已安装超 10 万台。报道指出存在严重安全漏洞:至少 70 台设备暴露在互联网上无需密码即可查看实时画面,且可通过物理接触获取 root 权限。执法人员被曝滥用系统骚扰女性,公司未设漏洞赏金计划。
  • Google 因算力配额限制 Meta 使用 Gemini,Llama 热度走低:报道称 Meta 在使用 Google Gemini 模型时遭遇调用量配额上限,而非功能限制。评论指出,这反映了前沿模型访问正因算力紧张、地区限制和 KYC 增多而趋向分层服务,并对比了 OpenRouter、Claude Code 和 DeepSeek 等替代方案。
  • 帕利塞兹火灾审判:检察官用 ChatGPT 日志作证,陪审团不信致悬案:在洛杉矶致命野火纵火案审判中,检察官将被告的 ChatGPT 日志作为关键证据,包括生成火焰图像和抱怨富人等内容。但陪审团以 10 比 2 投票支持辩方,法官宣布悬案。一名陪审员表示自己“经常和 ChatGPT 聊天”,认为聊天记录不能证明任何问题。
  • 检察官将 ChatGPT 日志作为纵火案证据:在洛杉矶帕利塞兹大火案中,检察官首次将 ChatGPT 日志作为关键证据,用于指控嫌疑人纵火。该案涉及 2025 年元旦引发的一场致命山火,除 ChatGPT 日志外,还使用了 iPhone 定位数据、监控录像和证人证词。此案引发了对 AI 对话记录在司法中应用的广泛讨论。
  • AI成为真正同事的关键:停止回答问题,开始完成任务:腾讯Youtu Lab联合多所中国大学发布调查论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。思考型LLM(如OpenAI o1、DeepSeek-R1)采用链式推理实现慢思考;工作空间等概念被提出,以推动AI从回答者转变为任务完成者。
  • LoanLens:基于LandingAI的AI审贷初筛系统:LoanLens利用AI从六类借款人文档中抽取结构化字段,进行欺诈检测与可解释评分,并附带案件RAG问答。系统采用Schema驱动抽取,可追溯字段来源;欺诈检测包括姓名TF-IDF比对和护照篡改检测;评分透明(信用23%、DTI 23%等),≥60批准,40-59复核,<40拒绝。
  • OpenClaw 市场惊现23个冒名技能,存在供应链投毒风险:AI智能体安全公司 Manifold Security 发现,OpenClaw 的插件市场 ClawHub 上 1508 个技能中有 23 个直接冒用官方名称,实际发布者与官方无关。该命名空间抢注手法可能用于供应链投毒,但暂未发现恶意代码。ClawHub 已更新规则并移除误导技能。
  • 普林斯顿 CEO-Bench 测试:仅三个 AI 模型在 500 天创业模拟中盈利:普林斯顿大学推出 CEO-Bench 基准测试,让 AI 智能体在模拟环境中运营订阅软件公司 500 天,起始资金 100 万美元。14 个测试模型中,仅 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中超过起始资本。多数模型无法保持连贯策略,在模拟结束前破产。
  • 普林斯顿CEO-Bench测试:仅三款AI模型在500天创业模拟中盈利:普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司500天。14个模型中仅Claude Fable 5、Claude Opus 4.8和GPT-5.5盈利超过起始资本100万美元。一个简单规则启发式方法表现超越多数模型,多数模型因无法保持连贯策略而破产。
  • 360发布AI安全工具“屠龙锋”和“倚天镇”,周鸿祎呼吁建立网络核威慑:中国网络安全公司360推出两款AI工具:"屠龙锋"用于自动化漏洞挖掘,"倚天镇"用于自动化网络防御。创始人周鸿祎称"屠龙锋"已发现3432个漏洞,并认为中国顶级AI模型仍落后西方20%-30%,因此采用智能体方法结合安全专业知识与自动化工具。他将Mythos类模型比作"AI时代的网络核武器",呼吁中国建立对等战略威慑能力。
  • Wayfinder Router:本地/云端 LLM 确定性路由:Wayfinder Router 是一个将查询在本地模型和云端托管 LLM 之间进行确定性分流的中间层,兼容 OpenAI API。社区讨论聚焦于路由应放在哪一层,以及如何实现离线可用性、统一计费和多模型选择,将推理视为基础设施来调度。
  • 智元第15000台通用具身机器人精灵G2量产下线:智元宣布第15000台通用具身机器人精灵G2量产下线。该机器人搭载NVIDIA Jetson Thor芯片,配备19自由度灵巧手、3D触觉感知、高精度力控双臂等,支持多人连续语音对话与知识库问答,可覆盖工业、巡检、家庭服务等场景。
  • 两节点AMD Strix Halo RDMA集群设置指南:本文介绍如何配置两节点AMD Strix Halo集群,通过Intel E810(RoCE v2)网卡实现RDMA互联,用于分布式vLLM推理(Tensor Parallelism)。硬件采用两块Framework Desktop主板(AMD Ryzen AI MAX+ "Strix Halo",128GB统一内存)及E810-CQDA1 100GbE网卡,直连无需交换机。软件栈基于Fedora 43,使用Ray编排集群、RCCL通信。RDMA延迟约5μs(TCP/IP为70-100μs)。涵盖BIOS设置、网络配置、工具箱安装及启动集群的详细步骤。
  • 医疗AI论文开源评估框架,最新模型仍未达临床标准:一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval),用于复现测试最新模型。@yishan 用该框架测试 GPT-5.5 Pro,在放射影像解读中得分 79/100,优于论文原始最佳模型(69/100),但未达到"适合可靠医疗使用"标准。呼吁所有AI论文开源实验框架,以便社区持续验证。
  • Ford 裁人上 AI 反噬:质量下滑与质检争议:Ford 在生产或质检环节引入 AI 试点并裁撤人工岗位后,出现质量反噬。评论指出,相关系统为 MAIVIS 和 AiTriz 等内部 AI 视觉检测试点,底层是 CNNs 和 IBM 定制硬件。讨论延伸到企业高管用 AI 叙事降本、科技行业包装销售话术等问题。
  • 主动型Agent Vida:读取屏幕与文件上下文,实现电脑全托管:主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文,用户无需提供详细背景即可自动理解项目,优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复,扫描全盘查找重复文件,重新设计Obsidian架构以区分本地与iCloud存储,通过定时任务整理Downloads文件夹,以及通过浏览器自动化分析邮件并分类。与Computer Use不同,Vida通过双击Option键零帧起手启动。
  • Adrafinil:仅在AI Agent工作时阻止Mac睡眠的菜单栏工具:Adrafinil 是一款 macOS 菜单栏应用,仅在 Claude Code、Codex、Cursor 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠,无 agent 工作时合盖后正常睡眠。通过各 agent 钩子系统调用 CLI,往返延迟低于 50ms,支持引用计数断言、热切出、空闲释放及进程嗅探。
  • Sakana Fugu 技术报告:智能正从模型转移到系统:Sakana Fugu 发布技术报告,提出智能正从模型转移到其周围系统。Fugu 是一个编排器,由数据训练的管理器动态选择最合适的专家模型,而非简单规则。Regular 版快速选出单个 worker 模型;Ultra 版则能针对每个任务实时设计工作流。
  • 美国政府即将解除对Anthropic Fable 5模型的出口管制:据Axios报道,特朗普政府即将准许Anthropic重新开放Fable 5大模型。该模型于6月12日因出口管制令被关停,内部人士预计限制最早下周解除。Anthropic已获准向部分美国本土可信机构开放Mythos 5,部分撤销安全管控。
  • Meta AI iOS 应用新增隐身聊天与眼镜页面更新:Meta AI 的 iOS 应用更新,新增隐身聊天功能,并重新设计了 Glasses 页面,提供实时翻译、对话焦点等主要功能的快捷开关。
  • 360与Sakana AI发布对标Anthropic的AI安全工具和模型:中国360推出Tulongfeng和Yitianzhen两款AI安全工具,日本Sakana AI发布前沿模型Fugu,均声称可对标Anthropic的Mythos和Fable 5。这些产品在美国对Anthropic实施出口禁令后推出,旨在为亚洲市场提供不受出口管制限制的替代方案。
  • Claude Code 自动发现 Skills 跨工具安装:一位日本开发者发现,Claude Code 可自动查找 Skills,并跨 Claude、Codex、Cursor 和 Gemini 等工具安装。利用 Vercel 的 skills CLI,可将目标匹配到正确工具,像安装开发工具一样安装 skill,无需手动重写。
  • BrowserBC开源:人类浏览器轨迹转可复用技能:ViDA团队开源BrowserBC项目,探索更高效的web agent运行方式:先用强模型录制一次人类浏览器操作流程,蒸馏为可复用技能,再交给更小更便宜的模型执行。在WebArena-Hard上,tool calls降低27%,成功率从60%升至81%。
  • 福特AI检测缺陷遇瓶颈,召回350名专家补漏:福特汽车的AI自动化缺陷检测遇到硬限制:汽车制造中存在大量边缘案例,微小设计、材料、供应商和装配变化相互作用,导致基于规则的系统与训练模型容易遗漏故障。福特因此召回350名经验丰富的工程师,利用他们多年积累的隐性工程知识,在零件到达工厂前审查设计,同时帮助改进AI系统的训练数据。
  • SpaceX 注册 SpaceXAI 商标,将合并 xAI:消息称 SpaceX 已注册“SpaceXAI”商标,埃隆·马斯克表示 xAI 将解散,不再作为独立公司,而是成为 SpaceX 的 AI 产品 SpaceXAI。
  • 研究证实:学生用AI完成数学作业更快但学习效果更差:基于10年间320万条ALEKS数学学习记录的研究发现,ChatGPT出现后,学生在AI友好的文字题上完成速度显著加快,但学习效果下降,而需视觉操作的图问题受影响较小。后续监考测试显示,学生对AI友好题型的正确率下降约25%,表明通过AI快速完成作业未转化为持久知识。
  • swyx引Noam Brown:开源模型评估应以美元成本而非token数为基准:OpenAI研究员Noam Brown提出,评估开源模型时应按主流推理提供商的美元成本而非token数量来报告思考水平,因为开源模型每美元可获得的token量远超闭源API。该观点源自与@saranormous的播客讨论,涉及大规模测试时计算、基准测试失效及安全等问题。
  • Claude Code 桌面版新增原生多会话拖拽分屏:Claude Code 桌面版更新,支持原生多会话拖拽分屏,将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话,左侧侧边栏统一管理,拖拽即可排列并排窗格,支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布,底部同时显示多个会话的输入区。相比此前依赖 tmux 和终端窗口切换,效率大幅提升。
  • AI Engineer World's Fair 2026 参会人数超6000,预计售罄:swyx 宣布 AI Engineer World's Fair 2026 参会人数已超6000,预计本周末达到7000时正式售罄。本届博览会规模为历届最大:展区扩大4倍,设4个展区舞台;新增研究员海报与 Poaster 环节、AI 领袖闭门会议;覆盖医疗、GTM、FDE、AGC、金融等垂直领域。每位参会者可获得 $40k 信用额度试用赞助商产品。
  • 医疗 AI 的真正壁垒:工作流而非答题准确率:医疗 AI 常被简化为模型答题准确率的竞争,但真正的难点在于进入实际工作流,包括医生自然语言处理、病历结构化、患者上下文理解、支付方对接、院内系统集成以及审计责任。
  • Anthropic Lamis 谈上下文工程实践:从 Claude MD 到"做梦"机制:在2026年AI DevCon上,Anthropic的Lamis介绍了上下文工程演进路径:从纯Markdown的Claude MD文件起步,到记忆工具、Skills、文件系统。生产环境中遇到并发写入、权限、注入等问题,通过版本控制、哈希校验、权限分层、可移植API解决。最后提出"做梦"机制,由专门Agent分析跨会话模式并调整记忆,已投产,可提升任务效率、降低延迟。
  • OpenAI 从 ChatGPT 移除 GPT-4.5,GPT-4 时代在消费端终结:6 月 26 日,OpenAI 正式从 ChatGPT 中移除 GPT-4.5,这是 GPT-4 系列在消费端的最后一个模型。现有对话自动切换至 GPT-5.5,自定义 GPT 同步失效,API 端不受影响。下一个下线模型为 o3,8 月 26 日退役。
  • Google 限制 Meta 使用 Gemini 导致项目延迟:据《金融时报》报道,Google 因容量短缺对 Meta 使用 Gemini 模型施加限制,导致 Meta 内部与客户支持和内容审核相关的 AI 项目延期。这一事件凸显了大型 AI 模型 token 供应紧张的现实,也预示着 token 效率优化可能成为未来重要的商业市场。