DeepSeek 开源 DSpark 投机解码框架；GLM-5.2 发布，白宫 AI 负责人警告美国勿让模型“炼狱”；美光因AI内存短缺股价飙升236%，市值一度超越Meta和特斯拉

AI 动态日报 2026-06-28

DeepSeek 开源 DSpark 投机解码框架：DeepSeek 开源 DSpark，一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构，消除后缀衰减；并引入置信度 head 和负载感知调度器，动态控制验证数量。在 DeepSeek-V4 生产系统中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 checkpoint 以及 MIT 协议的 DeepSpec 训练代码，与北京大学联合开发。
GLM-5.2 发布，白宫 AI 负责人警告美国勿让模型“炼狱”：中国开源权重模型 GLM-5.2 发布，被评价为继 DeepSeek 之后的第二次“DeepSeek 时刻”，性能可与 OpenAI 和 Anthropic 当前模型媲美。白宫 AI 负责人 David Sacks 就此警告，若美国继续过度监管，世界将转向中国技术，凸显中美 AI 开源竞争进入新阶段。
美光因AI内存短缺股价飙升236%，市值一度超越Meta和特斯拉：内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND（尤其是HBM）供应短缺，股价过去一个月飙升236%，市值接近1.27万亿美元，一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元，利润从18.8亿美元暴涨至282亿美元，并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度，缺货（RAMageddon）预计持续至2027年。
OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片；Anthropic 指控阿里巴巴蒸馏 Claude；美国设立前沿模型审查机制：AIGC 周刊报道，OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片 Jalapeño；Anthropic 指控阿里巴巴通过 2.5 万欺诈账户蒸馏 Claude；美国政府为前沿模型发布设立「受信合作伙伴」审查机制。AI 行业正从技术竞赛滑向地缘博弈。
Grok 4.5 内测：性能接近或超越 Opus：Grok 4.5 基于 1.5T V9 基础模型，补充训练加入 Cursor 数据，已在 SpaceX 和 Tesla 进行内测。早期评测显示性能接近甚至可能超过 Opus。RL 持续显著改进模型，Grok Build 工具链每日提升。Elon Musk 宣布今年 SpaceX 将每月发布完全从头训练的新模型。
Grok 4.5 进入 SpaceX/Tesla 私有 beta，性能接近 Opus：Elon Musk 确认 Grok 4.5 已在 SpaceX 和 Tesla 进入私有 beta。该模型基于 xAI 的 1.5T V9 基础模型，训练中加入了 Cursor 数据，早期评估显示性能接近甚至可能超过 Opus。Musk 表示今年将每月发布从头训练的新模型。
匿名模型"Owl Alpha"实为美团LongCat-2.0-Preview，已在OpenRouter秘密测试近两月：据爆料，OpenRouter增长最快的智能体模型"Owl Alpha"实为美团LongCat-2.0-Preview。该模型采用1.6T参数MoE架构，激活参数量48B，动态激活范围33B-56B，原生支持1M token上下文窗口。OpenRouter数据显示其月处理token达10.1T，月增长率242%，已成为全球使用最多的AI智能体模型之一。
GPT-5.6 发布，政府审核限制首批仅 20 家可访问：OpenAI 发布 GPT-5.6 系列（旗舰 Sol、均衡 Terra、低成本 Luna），在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩。发布前 OpenAI 向美国政府展示能力，按政府要求先以有限预览上线，首批约 20 家合作伙伴可访问。
GPT-5.6 发布：Sol、Terra、Luna 三款模型，受政府限制有限预览：OpenAI 发布 GPT-5.6 系列，包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%，领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%。价格：Sol 输入 $5/百万 tokens、输出 $30。发布前 OpenAI 向美国政府展示能力，按政府要求先以有限预览上线，首批约 20 家合作伙伴可访问。
Stripe报告：AI推动一人公司崛起，年营收千万美元单人企业激增：Stripe Economics发布报告《The Age of the Solopreneur》，数据显示单人公司申请持续加速，年营收超千万美元的单人公司数量较六年前增长五六倍。AI填补了内容、设计、代码、客服等能力缺口，使个人借助Agent和工具即可跑通业务。报告认为未来最有生命力的商业体可能是'一个人+高度杠杆化AI系统'。
Anthropic发布Claude Mythos Preview与Fable 5，Project Glasswing向150家组织开放：Anthropic发布Claude Mythos Preview及安全增强版Fable 5，通过Project Glasswing向150家组织开放。英国政府AI安全研究所评估显示，Mythos首次在"专家级任务"和完整攻击链测试中成功，可发现老旧漏洞，但单次漏洞探测成本约2万美元，总token预算达1亿美元。
DeepSeek 发布 DSpark 推测解码并开源 DeepSpec：DeepSeek 发布 DSpark 推测解码方法，可将吞吐量提升 51% 到 400%，并开源训练框架 DeepSpec。
DeepSeek 开源 DSpark 投机解码框架，加速 V4 生成速度 60-85%：DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60-85% 和 57-78%。离线测试中，接受长度比 Eagle3 高 26-31%，比 DFlash 高 16-18%。配套 DeepSpec 训练代码库采用 MIT 许可证。
Anthropic调研：约半数Claude用户称AI已可承担一半以上工作：Anthropic对约9700名Claude用户的调研显示，33%受访者认为AI可完成自身30%至60%工作任务，14%认为比例为60%至90%，约4%称Claude能独立完成全部工作。展望未来12个月，26%用户预计AI将接手大部分工作。Claude Artifacts功能中，使用最多的场景是数据库查询、博客创作和营销文案撰写。
Anthropic Fable 5 或数日内恢复，特朗普政府准备解除限制：Axios 报道，Anthropic 的 Fable 5 模型可能数日内重新可用。特朗普政府即将解除限制，商务部长 Howard Lutnick 致信称 Anthropic 已与美国政府合作解决风险，但五角大楼和 NSA 仍需最终批准。该模型因安全担忧于6月12日被关停，其无附加安全限制的变体 Mythos 5 已面向部分合作伙伴恢复。两家公司正推动为新 AI 模型建立法律定义的审查流程。
DeepSeek 开源 DSpark 投机解码框架，加速生成速度 60-85%：DeepSeek 发布 DSpark 投机解码框架并开源，通过半自回归生成实现无损加速，生产环境下 V4-Flash 和 V4-Pro 每用户生成速度较基线提升 60-85% 和 57-78%。
AI 浪潮推高硬件成本，苹果全线涨价：苹果本周全线涨价，MacBook、iPad、Apple TV 等产品涨幅 6%-54%，主因 AI 热潮引发内存芯片短缺，超大规模 AI 公司抢占供应链资源。微软随后也上调 Xbox 价格。分析指出，这标志着 AI 繁荣成本首次从行业问题变为普通消费者可感知的现实。
Grok 4.5 基于1.5T V9进入SpaceX/Tesla测试：马斯克宣布Grok 4.5基于1.5T V9基础模型，并在补充训练中加入Cursor数据，现已于SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。RL持续显著优化模型，Grok Build工具每日改进。此外，SpaceX今年将每月发布完全从零训练的新模型。
Coinbase 转向中国 AI 模型，西方实验室面临定价压力测试：Coinbase CEO Brian Armstrong 已将公司迁移至中国 AI 模型，采用智谱 GLM 5.2 和月之暗面 Kimi 2.7，token 用量攀升但支出减半。初创公司 Lindy 近期转向 DeepSeek V4，Snowflake 也在测试中国模型作为廉价替代品。Coinbase 部署自动路由系统，根据任务、价格和缓存潜力选择模型，缓存命中率从 5% 提升至 60%。
Grok 4.5 进入 SpaceX 和 Tesla 私人测试：Grok 4.5 基于 1.5T V9 基础模型，补充训练引入了 Cursor 数据，现已在 SpaceX 与 Tesla 进入私人测试阶段。早期评估显示其性能接近甚至超越 Opus。RL 持续显著提升模型能力，Grok Build 工具链每日改进。今年 SpaceX 将每月发布完全从头训练的新模型。
马斯克：Grok 4.5 已在 SpaceX 和特斯拉内部测试，性能接近 Opus：Grok 4.5 基于自研 1.5 万亿参数 V9 基础大模型打造，并引入 Cursor 数据完成补充训练，已在 SpaceX 和特斯拉内部开启测试。早期评测显示其性能接近甚至有望超越 Opus 模型。基于人类反馈的强化学习持续提升模型能力，Grok 配套调度框架每日迭代优化。马斯克还透露，SpaceX 今年每个月将推出一批完全从零开始训练的全新模型。
Grok 4.5 在 SpaceX 和 Tesla 私测，性能接近 Opus：马斯克宣布，基于1.5T V9基础模型并加入Cursor数据的Grok 4.5已在SpaceX和Tesla进入私测，初步评估性能接近甚至超越Opus。强化学习持续改进模型，Grok Build工具链也在完善。SpaceX计划今年每月发布完全从头训练的新模型。
Elon Musk 确认 Grok 4.5 私测于 SpaceX 和 Tesla：Elon Musk 在 X 平台确认，Grok 4.5 基于 1.5T V9 基础模型，并在补充训练中加入 Cursor 数据，现已在 SpaceX 和 Tesla 进入私测。初步评估显示其性能接近，或许超越 Opus。强化学习仍在持续改进模型，Grok Build 工具链也在完善。
新浪开源VibeThinker-3B：推理可压缩，事实知识不能：新浪发布仅3B参数的VibeThinker-3B，在数学编程基准上持平DeepSeek V3.2等大200-333倍的模型，但知识密集型任务大幅落后。研究提出“参数压缩-覆盖假说”，认为逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。
新浪开源 VibeThinker-3B：推理可压缩，事实知识不能：新浪发布仅 3B 参数的 VibeThinker-3B 模型，在 AIME26 等数学编程基准上持平 DeepSeek V3.2 等大 200-333 倍的模型，LiveCodeBench 超越所有 20B 以下模型，LeetCode 竞赛解决 123/128 题超过 GPT-5.2。但知识密集型 GPQA-Diamond 大幅落后。研究提出“参数压缩-覆盖假说”：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。
美国官员将中美AI竞赛定性为国家安全对抗：美国官员将与中国的人工智能竞赛定位为国家安全对抗，称微小领先也能改变结果。众议院外交委员会主席Brian Mast在哈德逊研究所活动上称美国是"超级英雄"、中国是"超级反派"。参议员Jim Banks表示这场竞赛涉及经济、军事和道德层面，警告美国不能输给"最大对手"。财长Bessent直言，中国愿意讨论AI是因为美国目前仍领先，但华盛顿担忧这一优势正不断缩小。
福特因激进采用AI质检系统导致数十亿美元损失，返聘资深工程师：福特公司因激进采用AI质检系统导致成本损失数十亿美元，三年内返聘350多名资深工程师（内部称"gray beards"）负责质量审查并帮助改进AI。首席运营官承认自动化系统未达预期。返聘后，福特在J.D. Power年度新车质量调查中16年来首次获得主流品牌排名第一。
Liquid AI 发布 LFM2.5-230M 开源文本模型：Liquid AI 推出 230M 参数开源文本模型 LFM2.5-230M，基于 LFM2 架构，开放权重。支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 推理，内存占用仅 293-375 MB。在 Galaxy S25 Ultra 上达 213 tok/s，Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71，领先同类模型。专为数据提取和工具调用设计。
Google TimesFM 2.5：轻量化时序预测模型支持零样本与 LoRA 微调：Google Research 于 2024 年开源时序预测基础模型 TimesFM（ICML 2024），2025 年 9 月发布 2.5 版本，参数从 500M 降至 200M，上下文窗口扩展至 16K，新增 30M 分位数预测头。2026 年 4 月通过 HuggingFace Transformers 和 PEFT 支持 LoRA 微调，便于领域适配。
教师杨某某论文图表被指有AI生成水印，兰州大学成立调查组：兰州大学6月27日发布情况说明，高度重视网上对教师杨某某相关论文问题的反映，已第一时间成立专项调查组启动调查。学校一贯对科研失信行为秉持“零容忍”态度，将根据调查情况严肃认真处理。此前据媒体报道，一篇刊发在Journal of Membrane Science的学术论文，被指出现豆包AI生成的水印。该论文的第一署名单位为兰州大学化学化工学院，第一作者兼共同通讯作者为该院杨某某。
四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板：英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具，将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时，因法国文化胜利逼近，花50回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。Wilkinson发现：AI主动检查全局状态仅占1-2%，计划后10回合内执行率仅48-66%。
四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板：英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具，将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时，因法国文化胜利逼近，花50回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。Wilkinson发现：AI主动检查全局状态仅占1-2%（感知盲区），计划后10回合内执行率仅48-66%（知行差距）。结论是智商非瓶颈，感知与执行才是关键。
CLI 错误输出应直接面向 AI 编码智能体：开发者提议 CLI 工具的错误输出应直接面向 AI 编码智能体，包含问题原因、调查方法、脱敏复现步骤等，使每次失败的智能体交互成为高质量 bug 报告，形成软件改进的良性循环。
中国AI模型价格仅为美国1/50，企业加速转向：J.P. Morgan报告显示，中国AI模型每token比美国便宜50倍，Qwen、DeepSeek、Kimi等施压OpenAI和Anthropic定价。到2026年4月，中国公司在OpenRouter流量占比将从不足2%升至超45%。UBS调查发现，60%监控AI预算的企业已转向更便宜模型。
SpaceX注册SpaceXAI商标，将合并xAI：消息称SpaceX刚刚注册了"SpaceXAI"商标。埃隆·马斯克表示xAI将解散，不再作为独立公司，因此它将只是SpaceXAI，SpaceX的AI产品。
Anthropic 预测 2028 年前出现自主改进 AI：Anthropic 预测，到 2028 年底，很可能出现一个能完全自主地“造一个更好的自己”的 AI 系统，即实现递归自我改进（RSI）。
Gallup民调：71%美国人反对本地建设AI数据中心：Gallup民调显示71%美国人反对在本地建设AI数据中心，女性反对更强烈。反对主因是资源压力（水、电各占18%），支持者看重经济和就业。自2023年以来美国已出现300+州及地方数据中心禁令/暂停。但现代数据中心已能缓解担忧：微软芯片级闭环冷却零水耗，谷歌全球PUE 1.09。
DeepSeek 发布 DSpark：半并行推测解码推理优化方法：DeepSeek 提出 DSpark，一种半并行推测解码系统，使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证：草稿模型并行生成多个候选 token，再由一个小型马尔可夫头根据前一个 token 微调每个猜测，弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载，动态决定每个请求需验证的 token 数量，避免无效计算。
美国 AI 基建瓶颈从 GPU 转向许可：300 多项数据中心禁令：美国 AI 基础设施建设最大瓶颈已从 GPU 变为许可，2023 年以来有 300 多项州级和地方数据中心禁令或暂停，但实际数据表明水耗与电费担忧被驳斥。
LangChain 发布深度 Agent 教程：三大上下文工程技巧：LangChain 官方发布深度 Agent 从零构建教程，通过三大上下文工程技巧解决长任务"忘事崩链"：结构化 TODO 带状态管理、虚拟文件系统省 token 实现跨轮记忆、子代理委派并隔离上下文。教程含 5 个渐进式 Notebook，从 ReAct 循环起步，逐步叠加规划、文件系统、子代理，最终搭建可联网深度研究 Agent。强调高级 Agent 差距在上下文工程架构设计。
Apple Vision Pro 主管副总裁加入 OpenAI 硬件团队：据 Bloomberg 报道，负责 Apple Vision Pro 的副总裁 Paul Meade 将离开苹果，加入 OpenAI 硬件团队。Meade 此前还主导了苹果计划于明年推出的 AI 智能眼镜开发。OpenAI 已与苹果前首席设计官 Jony Ive 合作开发 AI 设备。
谷歌因算力限制对Meta调用Gemini大模型实施限制：Meta向谷歌申请的Gemini算力规模超出后者供给能力，谷歌现已对Meta调用其Gemini大模型实施使用限制。Alphabet约在今年3月告知Meta无法满足所需算力，导致Meta多项内部AI项目受阻延期。Meta已要求员工节约使用模型token。谷歌一季度云营收达200亿美元，CEO皮查伊表示算力供给瓶颈制约云业务增速，同时令云部门积压订单量环比近乎翻倍。
DeepSeek 成美国企业 AI 账单失控下的“香饽饽”，阿里千问输入法 macOS 版上线：AI 账单失控背景下，美国企业转向 Token 最小化策略，部分已 100% 切换使用 DeepSeek。同时，阿里千问输入法 macOS 版上线，支持最快 300 字/分语音输入和 AI 自动润色，支持 9 种方言且无广告。
Anthropic Fable 被美国政府要求下架，OpenAI GPT-5.6 被迫延迟发布：Anthropic 发布 Fable 三天后，美国政府要求限制非美公民访问，模型被撤下。一个月后 OpenAI GPT-5.6 准备就绪，Sam Altman 因政府压力延迟发布，仅向可信伙伴开放。研究员称 GPT-5.6 编程极强，官方博文侧重安全。Box CEO 指出已形成事实监管：达到特定算力规模的模型发布前需政府审查。OpenAI 推迟 IPO 至 2027 年。Anthropic CEO 被指用恐惧营销游说监管获得保护。中国未减速，差距缩小。开源实验室落后。
苹果 Vision 负责人跳槽 OpenAI，触控 OLED MacBook 用 M5 芯片：Mark Gurman 称苹果 Vision 产品组副总裁 Paul Meade 下周离职加入 OpenAI 硬件部门。他负责 Vision Pro、无屏幕 AI 智能眼镜及 AR 眼镜研发。苹果计划首款触控 OLED MacBook 使用 M5 Pro/Max 芯片，2026年底到2027年初发布。核心高管流失至 OpenAI 凸显 AI 硬件竞争加速。
苹果 Vision 负责人跳槽 OpenAI，触控 OLED MacBook 用 M5 芯片：苹果 Vision 产品组副总裁 Paul Meade 下周离职加入 OpenAI 硬件部门。苹果计划首款触控 OLED MacBook 使用 M5 Pro/Max 芯片，2026 年底到 2027 年初发布。
Anthropic 分享 Claude Code 记忆管理方法论：四层架构与做梦机制：Anthropic 应用 AI 负责人介绍 Claude Code 记忆管理，采用四层架构：CLAUDE.md、Agent 自主读写、Skills 渐进式披露、文件系统建模。核心做梦机制是带外异步处理，已投入生产。
Flock AI 摄像头安全漏洞与滥用问题严重：Flock Safety 的 AI 监控摄像头能识别车牌并通过自然语言搜索车辆描述，全美已安装超 10 万台。报道指出存在严重安全漏洞：至少 70 台设备暴露在互联网上无需密码即可查看实时画面，且可通过物理接触获取 root 权限。执法人员被曝滥用系统骚扰女性，公司未设漏洞赏金计划。
Google 因算力配额限制 Meta 使用 Gemini，Llama 热度走低：报道称 Meta 在使用 Google Gemini 模型时遭遇调用量配额上限，而非功能限制。评论指出，这反映了前沿模型访问正因算力紧张、地区限制和 KYC 增多而趋向分层服务，并对比了 OpenRouter、Claude Code 和 DeepSeek 等替代方案。
帕利塞兹火灾审判：检察官用 ChatGPT 日志作证，陪审团不信致悬案：在洛杉矶致命野火纵火案审判中，检察官将被告的 ChatGPT 日志作为关键证据，包括生成火焰图像和抱怨富人等内容。但陪审团以 10 比 2 投票支持辩方，法官宣布悬案。一名陪审员表示自己“经常和 ChatGPT 聊天”，认为聊天记录不能证明任何问题。
检察官将 ChatGPT 日志作为纵火案证据：在洛杉矶帕利塞兹大火案中，检察官首次将 ChatGPT 日志作为关键证据，用于指控嫌疑人纵火。该案涉及 2025 年元旦引发的一场致命山火，除 ChatGPT 日志外，还使用了 iPhone 定位数据、监控录像和证人证词。此案引发了对 AI 对话记录在司法中应用的广泛讨论。
AI成为真正同事的关键：停止回答问题，开始完成任务：腾讯Youtu Lab联合多所中国大学发布调查论文，提出AI系统需从聊天机器人转向数字同事，核心是结合持久工作空间和可重用技能。思考型LLM（如OpenAI o1、DeepSeek-R1）采用链式推理实现慢思考；工作空间等概念被提出，以推动AI从回答者转变为任务完成者。
LoanLens：基于LandingAI的AI审贷初筛系统：LoanLens利用AI从六类借款人文档中抽取结构化字段，进行欺诈检测与可解释评分，并附带案件RAG问答。系统采用Schema驱动抽取，可追溯字段来源；欺诈检测包括姓名TF-IDF比对和护照篡改检测；评分透明（信用23%、DTI 23%等），≥60批准，40-59复核，<40拒绝。
OpenClaw 市场惊现23个冒名技能，存在供应链投毒风险：AI智能体安全公司 Manifold Security 发现，OpenClaw 的插件市场 ClawHub 上 1508 个技能中有 23 个直接冒用官方名称，实际发布者与官方无关。该命名空间抢注手法可能用于供应链投毒，但暂未发现恶意代码。ClawHub 已更新规则并移除误导技能。
普林斯顿 CEO-Bench 测试：仅三个 AI 模型在 500 天创业模拟中盈利：普林斯顿大学推出 CEO-Bench 基准测试，让 AI 智能体在模拟环境中运营订阅软件公司 500 天，起始资金 100 万美元。14 个测试模型中，仅 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中超过起始资本。多数模型无法保持连贯策略，在模拟结束前破产。
普林斯顿CEO-Bench测试：仅三款AI模型在500天创业模拟中盈利：普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司500天。14个模型中仅Claude Fable 5、Claude Opus 4.8和GPT-5.5盈利超过起始资本100万美元。一个简单规则启发式方法表现超越多数模型，多数模型因无法保持连贯策略而破产。
360发布AI安全工具“屠龙锋”和“倚天镇”，周鸿祎呼吁建立网络核威慑：中国网络安全公司360推出两款AI工具："屠龙锋"用于自动化漏洞挖掘，"倚天镇"用于自动化网络防御。创始人周鸿祎称"屠龙锋"已发现3432个漏洞，并认为中国顶级AI模型仍落后西方20%-30%，因此采用智能体方法结合安全专业知识与自动化工具。他将Mythos类模型比作"AI时代的网络核武器"，呼吁中国建立对等战略威慑能力。
Wayfinder Router：本地/云端 LLM 确定性路由：Wayfinder Router 是一个将查询在本地模型和云端托管 LLM 之间进行确定性分流的中间层，兼容 OpenAI API。社区讨论聚焦于路由应放在哪一层，以及如何实现离线可用性、统一计费和多模型选择，将推理视为基础设施来调度。
智元第15000台通用具身机器人精灵G2量产下线：智元宣布第15000台通用具身机器人精灵G2量产下线。该机器人搭载NVIDIA Jetson Thor芯片，配备19自由度灵巧手、3D触觉感知、高精度力控双臂等，支持多人连续语音对话与知识库问答，可覆盖工业、巡检、家庭服务等场景。
两节点AMD Strix Halo RDMA集群设置指南：本文介绍如何配置两节点AMD Strix Halo集群，通过Intel E810（RoCE v2）网卡实现RDMA互联，用于分布式vLLM推理（Tensor Parallelism）。硬件采用两块Framework Desktop主板（AMD Ryzen AI MAX+ "Strix Halo"，128GB统一内存）及E810-CQDA1 100GbE网卡，直连无需交换机。软件栈基于Fedora 43，使用Ray编排集群、RCCL通信。RDMA延迟约5μs（TCP/IP为70-100μs）。涵盖BIOS设置、网络配置、工具箱安装及启动集群的详细步骤。
医疗AI论文开源评估框架，最新模型仍未达临床标准：一篇医疗AI论文开源其评估框架（GitHub: health-ai-readiness-eval），用于复现测试最新模型。@yishan 用该框架测试 GPT-5.5 Pro，在放射影像解读中得分 79/100，优于论文原始最佳模型（69/100），但未达到"适合可靠医疗使用"标准。呼吁所有AI论文开源实验框架，以便社区持续验证。
Ford 裁人上 AI 反噬：质量下滑与质检争议：Ford 在生产或质检环节引入 AI 试点并裁撤人工岗位后，出现质量反噬。评论指出，相关系统为 MAIVIS 和 AiTriz 等内部 AI 视觉检测试点，底层是 CNNs 和 IBM 定制硬件。讨论延伸到企业高管用 AI 叙事降本、科技行业包装销售话术等问题。
主动型Agent Vida：读取屏幕与文件上下文，实现电脑全托管：主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文，用户无需提供详细背景即可自动理解项目，优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复，扫描全盘查找重复文件，重新设计Obsidian架构以区分本地与iCloud存储，通过定时任务整理Downloads文件夹，以及通过浏览器自动化分析邮件并分类。与Computer Use不同，Vida通过双击Option键零帧起手启动。
Adrafinil：仅在AI Agent工作时阻止Mac睡眠的菜单栏工具：Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠，无 agent 工作时合盖后正常睡眠。通过各 agent 钩子系统调用 CLI，往返延迟低于 50ms，支持引用计数断言、热切出、空闲释放及进程嗅探。
Sakana Fugu 技术报告：智能正从模型转移到系统：Sakana Fugu 发布技术报告，提出智能正从模型转移到其周围系统。Fugu 是一个编排器，由数据训练的管理器动态选择最合适的专家模型，而非简单规则。Regular 版快速选出单个 worker 模型；Ultra 版则能针对每个任务实时设计工作流。
美国政府即将解除对Anthropic Fable 5模型的出口管制：据Axios报道，特朗普政府即将准许Anthropic重新开放Fable 5大模型。该模型于6月12日因出口管制令被关停，内部人士预计限制最早下周解除。Anthropic已获准向部分美国本土可信机构开放Mythos 5，部分撤销安全管控。
Meta AI iOS 应用新增隐身聊天与眼镜页面更新：Meta AI 的 iOS 应用更新，新增隐身聊天功能，并重新设计了 Glasses 页面，提供实时翻译、对话焦点等主要功能的快捷开关。
360与Sakana AI发布对标Anthropic的AI安全工具和模型：中国360推出Tulongfeng和Yitianzhen两款AI安全工具，日本Sakana AI发布前沿模型Fugu，均声称可对标Anthropic的Mythos和Fable 5。这些产品在美国对Anthropic实施出口禁令后推出，旨在为亚洲市场提供不受出口管制限制的替代方案。
Claude Code 自动发现 Skills 跨工具安装：一位日本开发者发现，Claude Code 可自动查找 Skills，并跨 Claude、Codex、Cursor 和 Gemini 等工具安装。利用 Vercel 的 skills CLI，可将目标匹配到正确工具，像安装开发工具一样安装 skill，无需手动重写。
BrowserBC开源：人类浏览器轨迹转可复用技能：ViDA团队开源BrowserBC项目，探索更高效的web agent运行方式：先用强模型录制一次人类浏览器操作流程，蒸馏为可复用技能，再交给更小更便宜的模型执行。在WebArena-Hard上，tool calls降低27%，成功率从60%升至81%。
福特AI检测缺陷遇瓶颈，召回350名专家补漏：福特汽车的AI自动化缺陷检测遇到硬限制：汽车制造中存在大量边缘案例，微小设计、材料、供应商和装配变化相互作用，导致基于规则的系统与训练模型容易遗漏故障。福特因此召回350名经验丰富的工程师，利用他们多年积累的隐性工程知识，在零件到达工厂前审查设计，同时帮助改进AI系统的训练数据。
SpaceX 注册 SpaceXAI 商标，将合并 xAI：消息称 SpaceX 已注册“SpaceXAI”商标，埃隆·马斯克表示 xAI 将解散，不再作为独立公司，而是成为 SpaceX 的 AI 产品 SpaceXAI。
研究证实：学生用AI完成数学作业更快但学习效果更差：基于10年间320万条ALEKS数学学习记录的研究发现，ChatGPT出现后，学生在AI友好的文字题上完成速度显著加快，但学习效果下降，而需视觉操作的图问题受影响较小。后续监考测试显示，学生对AI友好题型的正确率下降约25%，表明通过AI快速完成作业未转化为持久知识。
swyx引Noam Brown：开源模型评估应以美元成本而非token数为基准：OpenAI研究员Noam Brown提出，评估开源模型时应按主流推理提供商的美元成本而非token数量来报告思考水平，因为开源模型每美元可获得的token量远超闭源API。该观点源自与@saranormous的播客讨论，涉及大规模测试时计算、基准测试失效及安全等问题。
Claude Code 桌面版新增原生多会话拖拽分屏：Claude Code 桌面版更新，支持原生多会话拖拽分屏，将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话，左侧侧边栏统一管理，拖拽即可排列并排窗格，支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布，底部同时显示多个会话的输入区。相比此前依赖 tmux 和终端窗口切换，效率大幅提升。
AI Engineer World's Fair 2026 参会人数超6000，预计售罄：swyx 宣布 AI Engineer World's Fair 2026 参会人数已超6000，预计本周末达到7000时正式售罄。本届博览会规模为历届最大：展区扩大4倍，设4个展区舞台；新增研究员海报与 Poaster 环节、AI 领袖闭门会议；覆盖医疗、GTM、FDE、AGC、金融等垂直领域。每位参会者可获得 $40k 信用额度试用赞助商产品。
医疗 AI 的真正壁垒：工作流而非答题准确率：医疗 AI 常被简化为模型答题准确率的竞争，但真正的难点在于进入实际工作流，包括医生自然语言处理、病历结构化、患者上下文理解、支付方对接、院内系统集成以及审计责任。
Anthropic Lamis 谈上下文工程实践：从 Claude MD 到"做梦"机制：在2026年AI DevCon上，Anthropic的Lamis介绍了上下文工程演进路径：从纯Markdown的Claude MD文件起步，到记忆工具、Skills、文件系统。生产环境中遇到并发写入、权限、注入等问题，通过版本控制、哈希校验、权限分层、可移植API解决。最后提出"做梦"机制，由专门Agent分析跨会话模式并调整记忆，已投产，可提升任务效率、降低延迟。
OpenAI 从 ChatGPT 移除 GPT-4.5，GPT-4 时代在消费端终结：6 月 26 日，OpenAI 正式从 ChatGPT 中移除 GPT-4.5，这是 GPT-4 系列在消费端的最后一个模型。现有对话自动切换至 GPT-5.5，自定义 GPT 同步失效，API 端不受影响。下一个下线模型为 o3，8 月 26 日退役。
Google 限制 Meta 使用 Gemini 导致项目延迟：据《金融时报》报道，Google 因容量短缺对 Meta 使用 Gemini 模型施加限制，导致 Meta 内部与客户支持和内容审核相关的 AI 项目延期。这一事件凸显了大型 AI 模型 token 供应紧张的现实，也预示着 token 效率优化可能成为未来重要的商业市场。

AI 动态

2026年7月

2026年6月

2026年5月

AI 动态日报 2026-06-28

AI 动态日报 2026-06-28