DeepSeek 开源 DSpark 投机解码框架；GLM-5.2发布：AI圈称第二个DeepSeek时刻；DeepSeek 发布 DSpark 推测解码并开源 DeepSpec

开发者工具日报 2026-06-28

DeepSeek 开源 DSpark 投机解码框架：DeepSeek 开源面向生产环境的投机解码框架 DSpark，采用并行 backbone + 顺序 Markov head 混合架构，解决传统 draft 模型后期 token 错误率高的问题。在 DeepSeek-V4 中，单用户生成速度比 MTP-1 基线快 60-85%，吞吐提升 1.5x 至 5x。开源内容包括 checkpoint 和 MIT 协议的训练代码。
GLM-5.2发布：AI圈称第二个DeepSeek时刻：中国开源权重模型 GLM-5.2 发布，被评价为继 DeepSeek 之后的第二次"DeepSeek 时刻"。有评论指出，其性能已可与 OpenAI 和 Anthropic 当前可用模型媲美。白宫 AI 负责人 David Sacks 就此警告，美国若继续将自身模型置于"炼狱"（指过度监管或限制），世界将转向中国技术，美国公司将在竞赛中落后。该言论呼应了此前 DeepSeek 开源模型的全球影响，凸显中美 AI 开源竞争进入新阶段。
DeepSeek 发布 DSpark 推测解码并开源 DeepSpec：DeepSeek 发布 DSpark 推测解码方法，将吞吐量提升 51% 到 400%，并开源训练框架 DeepSpec，推动开放 AI 发展。
DeepSeek 开源 DSpark 投机解码框架，加速生成速度60-85%：DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成实现无损加速。生产环境下，V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升60-85%和57-78%。配套 DeepSpec 训练代码库采用 MIT 许可证。
姚老师免费开源GEO内容工程全套资料：Berry Xia称赞@yaojingang（姚老师）将本可卖到上万元的GEO内容工程课程资料全部免费开源。资源包括：3份核心文档（操作手册、研究报告、实操教程）、2本推荐书籍、3篇学术论文；GEO改写提示词、改写Skill、单篇内容GEO特征标注演示；以及3个GitHub开源仓库（GEO Skills、GEOFlow、Meta skill）。所有资源通过链接直接获取，无需付费或陪跑课程。
Grok 4.5基于1.5T V9进入SpaceX/Tesla测试：马斯克宣布Grok 4.5基于1.5T V9基础模型，补充训练加入Cursor数据，已在SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。
马斯克：Grok 4.5已在SpaceX和特斯拉内部测试：Grok 4.5基于1.5万亿参数V9模型，引入Cursor数据，已在SpaceX和特斯拉内测。性能接近Opus，RL持续优化，SpaceX将每月发布新模型。
新浪开源 VibeThinker-3B：推理可压缩，事实知识不能：新浪发布仅 3B 参数的 VibeThinker-3B 模型，在数学编程基准上持平甚至超越大 200-333 倍的模型，但知识密集型任务大幅落后。研究提出“参数压缩-覆盖假说”，认为逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。
两节点 AMD Strix Halo RDMA 集群设置指南：本文介绍如何配置两节点 AMD Strix Halo 集群，通过 Intel E810（RoCE v2）网卡实现 RDMA 互联，用于分布式 vLLM 推理。硬件采用两块 Framework Desktop 主板及 E810-CQDA1 100GbE 网卡直连，软件栈基于 Fedora 43，使用 Ray 和 RCCL 通信。RDMA 延迟约 5μs，远优于 TCP/IP 的 70-100μs。涵盖 BIOS、网络配置及启动集群的详细步骤。
主动型Agent Vida：读取屏幕与文件上下文实现电脑全托管：AI HOT报道，主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文，用户无需提供详细背景即可自动理解项目，优化提示语并生成生产级Prompt，支持文件管理、浏览器自动化等操作。
Google TimesFM 2.5：轻量化时序预测模型支持零样本与LoRA微调：Google Research 开源时序预测基础模型 TimesFM 2.5，参数从 500M 降至 200M，上下文窗口扩展至 16K，新增 30M 分位数预测头。支持零样本预测和 LoRA 微调，已内置在 BigQuery ML、Google Sheets、Vertex AI 中。
OpenAI 发布 GPT-5.6 系列：Sol 旗舰、Terra 均衡、Luna 速度型：OpenAI 发布 GPT-5.6 系列，包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%（Ultra 模式 91.9%），领先 GPT-5.5 和 Claude Mythos 5；GeneBench v1 以更少输出 tokens 获更强结果。价格：Sol 输入 $5/百万 tokens、输出 $30。发布前 OpenAI 向美国政府展示能力，按政府要求先以有限预览上线，首批约 20 家合作伙伴可访问。
Grouped Query Experts：在GQA自注意力上的混合专家模型：论文提出Grouped Query Experts，在分组查询注意力（GQA）基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练，最佳版本准确率56.04（baseline 55.86），仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量。
BrowserBC 开源：人类浏览器轨迹转可复用技能：ViDA 团队开源 BrowserBC 项目，先用强模型录制一次人类浏览器操作流程，蒸馏为可复用技能，再交给更小更便宜的模型执行。一次录制即可泛化技能，在 WebArena-Hard 上 tool calls 降低 27%，成功率从 60% 升至 81%。
LangChain 发布深度 Agent 教程：三大上下文工程技巧解决长任务难题：LangChain 官方发布深度 Agent 从零构建教程，通过三大上下文工程技巧解决长任务"忘事崩链"：结构化 TODO 带状态管理、虚拟文件系统省 token 实现跨轮记忆、子代理委派并隔离上下文。教程含5个渐进式 Notebook，从 ReAct 循环起步，最终搭建可联网深度研究 Agent。
DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%：DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码，通过半自回归生成实现无损加速，生产环境下 DeepSeek-V4 生成速度提升 60-85%。
普林斯顿CEO-Bench测试：仅三款AI模型在500天创业模拟中盈利：普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司500天。14个测试模型中仅Claude Fable 5、Claude Opus 4.8和GPT-5.5盈利超过起始资本。一个简单规则启发式方法超越多数模型，揭示AI长期战略决策能力的不足。
Persona.js - 集成 WebMCP 原生 AI 聊天到前端：Persona.js 是一个 JavaScript 库，可将 WebMCP 原生的 AI 聊天功能集成到任何前端应用中，简化 AI 对话界面的开发。
io_uring/RDMA 打满 NIC：dTLB miss、hugepages、P2PDMA：Linux 性能调优案例：作者用 io_uring 和 RDMA 试图打满 NIC 和 NVMe SSD 带宽，排查 io-wq、请求拆分、fd 查找和 CRC 计算后，发现瓶颈是 dTLB miss。将读数据放入 hugepages 后 TLB 压力下降，系统接近 NIC 饱和。
Anthropic 分享 Claude Code 记忆管理：四层架构与“做梦”机制：Anthropic 应用 AI 负责人 Lamis 在 AI DevCon 上介绍 Claude Code 记忆管理演进路径：从纯 Markdown 文件到记忆工具、Skills、文件系统四层架构。生产环境通过版本控制、哈希校验、权限分层解决并发问题。核心“做梦”机制是带外异步处理，由专门 Agent 分析会话模式并调整记忆，已投产并提升效率。
Google限制Meta使用Gemini致项目延迟：据《金融时报》报道，Google因容量短缺对Meta使用Gemini施加限制，影响了Meta内部与客户支持和内容审核相关的项目，导致项目延期。
Windows DLL诡异“未卸载却不在内存”的Crash追查：微软Old New Thing博客分享了一则Windows DLL排障故事：一个DLL似乎未被正式卸载，却不在进程内存中，导致崩溃。评论深入探讨了Windows DLL装载/卸载机制、引用计数、强制卸载和Crash归因问题，并引入了Crash Bucket和Heisenbug等调试术语，对深度排查技巧有详细解析。
Coinbase 转向中国 AI 模型，西方实验室面临定价压力：Coinbase CEO 将公司迁移至智谱 GLM 5.2 和月之暗面 Kimi 2.7 等中国 AI 模型，token 用量攀升但支出减半。公司部署自动路由系统，缓存命中率从 5% 提升至 60%。同时 OpenAI 推出 GPT-5.6-Sol 等廉价变体，加剧与 Anthropic 的价格战。
AIGC 周刊：OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片：本期周刊报道 OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片 Jalapeño；Anthropic 指控阿里巴巴通过 2.5 万欺诈账户蒸馏 Claude；美国政府为前沿模型发布设立「受信合作伙伴」审查机制，AI 行业正从技术竞赛滑向地缘博弈。
Dotient - 本地语义搜索应用：Dotient 是一款本地语义搜索应用，支持在本地设备上进行语义级别的文件搜索，无需联网即可快速定位内容。
Hermes代理优化：搭建自复盘Memory.md记忆循环：提供不依赖微调或开发的Hermes代理优化方案，通过Memory.md文件构建会话学习-记录沉淀-迭代优化闭环。核心流程包括建立四层框架、绑定提示词、每周精炼和定期备份，使代理越用越贴合个人工作习惯。
Wayfinder Router：本地与云端 LLM 的确定性路由工具：Wayfinder Router 是一个中间层工具，可在兼容 OpenAI API 的客户端之后，将查询请求在本地模型和云端 LLM 之间进行确定性分流。社区讨论聚焦于其代理位置、术语歧义，以及将其类比为网络调度、统一计费和多模型选择等基础设施层功能。
新浪开源VibeThinker-3B：推理可压缩，事实知识不能：新浪发布仅3B参数的VibeThinker-3B模型，在数学编程基准上持平大200-333倍的模型，但知识密集型任务大幅落后。研究提出“参数压缩-覆盖假说”，认为逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。
GitHub 13万星爬虫神器无需API Key即可使用：逛逛GitHub报道，一款在GitHub上获得13万星标的爬虫工具，现在无需API Key即可直接使用，降低了开发者数据采集的门槛。
Liquid AI 发布 LFM2.5-230M 开源文本模型：Liquid AI 推出 LFM2.5-230M，230M 参数开源文本模型，基于 LFM2 架构，开放权重。支持 llama.cpp、MLX、vLLM、SGLang、ONNX 推理，内存占用仅 293-375 MB。在 Galaxy S25 Ultra 上达 213 tok/s，Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71，领先同类模型。上下文窗口 32768 tokens，预训练于 19 万亿 tokens，专为数据提取和工具调用设计。
Adrafinil：防止AI编码Agent工作时Mac睡眠的菜单栏工具：Adrafinil 是一款 macOS 菜单栏应用，可在 Claude Code、Codex、Cursor 等 9 种 AI 编码 Agent 持有活跃会话时阻止系统睡眠（包括合盖睡眠），无 Agent 工作时则正常休眠。它通过各 Agent 的钩子系统调用 CLI，延迟低于 50ms，支持引用计数、温度阈值强制释放、空闲释放及进程嗅探。需 macOS Tahoe 26.4 和 Xcode 26+ 构建。
Adrafinil：仅在AI agent工作时阻止Mac睡眠的菜单栏工具：Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠。无 agent 工作时，合盖后 Mac 正常睡眠。支持引用计数断言、热切出、空闲释放及进程嗅探。
公共 DNS 选择：自建 Unbound、Quad9 与测速争论：社区讨论公共 DNS 解析器选择，涉及自建 Unbound 递归解析器、DoH 加密、dnscrypt 等工具，以及用 smokeping 对比 ISP DNS 与 1.1.1.1、9.9.9.9 的延迟。核心焦点在隐私控制、速度波动和去中心化，而非单纯平均延迟。
Stripe Economics《The Age of the Solopreneur》：AI重写商业规则，一人公司崛起：Stripe Economics报告显示，AI正推动一人公司崛起，单人公司申请持续加速，年营收超千万美元的单人公司数量增长五六倍。
Anthropic 调研：约半数 Claude 用户称 AI 已可承担一半以上工作：Anthropic 对约9700名 Claude 用户的调研显示，33%受访者认为 AI 可完成自身30%至60%工作任务，14%认为比例为60%至90%。Claude Artifacts 最常用场景为数据库查询、博客创作和营销文案。职场新人交由 AI 处理的任务占比最高且焦虑感最强。
CLI错误输出应直接面向AI编码智能体：软件开发社区提出，CLI工具的错误输出应直接面向AI编码智能体，而非仅显示"Error："。错误消息应包含问题原因、调查方法、如何生成脱敏复现以及发送至何处，使每一次失败的智能体交互成为高质量bug报告，形成软件改进的良性循环。
360与Sakana AI发布对标Mythos的AI安全工具和模型：中国网络安全公司360推出Tulongfeng和Yitianzhen两款AI安全工具，分别用于自动发现软件漏洞和自动化网络防御与事件响应。日本AI初创Sakana AI推出前沿模型Fugu，专为智能体设计，能通过API协调其他模型。两款产品发布于美国政府对Anthropic的Mythos和Fable 5实施出口禁令两周后，旨在为亚洲市场提供不受出口管制限制的替代方案。
Adrafinil：合盖 Mac 仅 AI agent 工作时保持唤醒：macOS 小工具 Adrafinil 可在合盖后仅当 AI agent（如 Claude Code、Codex）继续工作时保持 Mac 唤醒，避免传统防休眠方案（pmset、caffeinate、Amphetamine）的全局锁定。讨论指出合盖长时间运行需注意散热与 thermal cutoff 保护。
Anthropic 发布 Claude Mythos Preview 与 Fable 5，Project Glasswing 向 150 家组织开放：Anthropic 发布 Claude Mythos Preview 及安全增强版 Fable 5，通过 Project Glasswing 向 150 家组织开放。英国政府 AI 安全研究所评估显示，Mythos 在专家级任务和完整攻击链测试中首次成功，但实际提升有限。Mythos 可发现老旧漏洞，但单次漏洞探测成本约 2 万美元，总 token 预算达 1 亿美元。
DeepSeek 发布 DSpark：半并行推测解码推理优化方法：DeepSeek 提出 DSpark 半并行推测解码系统，使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证：草稿模型并行生成多个候选 token，再由小型马尔可夫头微调每个猜测，弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器动态决定验证数量，避免无效计算。
美国AI基础设施建设瓶颈从GPU转为许可：300多项数据中心禁令，但水耗与电费担忧被数据驳斥：美国AI基础设施建设最大瓶颈已从GPU变为许可。2023年以来有300多项州级和地方数据中心禁令或暂停，但现实数据反超担忧：微软新一代AI数据中心采用芯片级闭环冷却，用水效率提升39%；谷歌全球PUE 1.09低于行业平均1.56。趋势已转为"自带电源"，谷歌、微软、Meta纷纷签订核电合同。
AI Engineer World's Fair 2026 规模创纪录，参会人数即将售罄：AI Engineer World's Fair 2026 参会人数已超6000，预计本周末达到7000时售罄。本届博览会规模为历届最大，展区扩大4倍，新增研究员海报、AI领袖闭门会议等环节，覆盖医疗、金融等垂直领域。每位参会者可获 $40k 信用额度试用赞助商产品。
Anthropic 详解 Claude Code 记忆管理：四层架构与“做梦”机制：Anthropic 应用 AI 负责人 Lamis 在 AI DevCon 上介绍 Claude Code 记忆管理。起点是 CLAUDE.md 纯文本文件，但会上下文膨胀。第二层让 Agent 自主读写记忆；第三层 Skills 实现渐进式披露；第四层将记忆系统建模为文件系统。生产环境设版本控制、哈希并发控制、权限分层和干净 API 四道防线。核心“做梦”机制是带外异步处理，已投入生产。
Agent-Reach：为AI Agent免费读取多平台内容的开源CLI工具：Agent-Reach（3.5K Star）是一个开源CLI工具，让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端，自动健康检查和故障切换，无需自写爬虫。安装后Agent可直接处理“看视频字幕”、“搜产品评价”等任务，全程零API费用、本地运行。
OpenAI 测试 Codex 滑条式努力选择器：OpenAI 正在为 Codex 测试一种新的滑条式努力选择器 UI，同时实时语音支持可能被彻底重写，相关组件已被移除。
美光因AI内存短缺股价飙升236%：内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND（尤其是HBM）供应短缺，股价过去一个月飙升236%，市值接近1.27万亿美元，一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元，利润从18.8亿美元暴涨至282亿美元，并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度，缺货（RAMageddon）预计持续至2027年。
奥地利推动欧盟引入Anthropic应对美国AI限制：奥地利数字化国务秘书致信欧盟委员会，敦促将Anthropic作为战略重点引入欧盟，以反制美国阻止外籍人士使用最先进AI模型的举措，意在吸引人才、留住资金并制定行业标准。
AI逆向设计射频芯片：GA进化硬件旧题：文章讨论射频集成电路的逆向设计：设定性能指标后，用AI/优化器在巨大拓扑空间里找电路。评论提到Adrian Thompson在1990年代的进化FPGA实验和遗传天线等早期研究，争议集中在这些结果是否利用了特定硅片或仿真的漏洞，以及能否在温度变化和真实制造公差下保持鲁棒。评论纠正了“AI”术语，更接近遗传算法和参数搜索。
普林斯顿CEO-Bench测试：仅三款AI模型在500天创业模拟中盈利：普林斯顿大学推出CEO-Bench基准测试，让AI智能体模拟运营订阅软件公司500天。14个模型中仅Claude Fable 5、Claude Opus 4.8和GPT-5.5盈利超过起始资本。多数模型无法保持连贯策略，在模拟结束前破产。
360发布AI安全工具屠龙锋和倚天镇，周鸿祎呼吁建立网络核威慑：中国网络安全公司360发布两款AI工具：屠龙锋用于自动化漏洞挖掘，倚天镇用于自动化网络防御。创始人周鸿祎称屠龙锋已发现3432个漏洞，并采用智能体方法结合安全专业知识。他将Mythos类模型比作AI时代的网络核武器，呼吁中国建立对等战略威慑。
Codex 两种计划工作：Scheduled Task 与 Scheduled Message 的区别：Codex 支持两种计划工作方式：Scheduled Tasks 每次运行创建新线程，适合无需上下文延续的任务；Scheduled Messages 在同一现有线程反复运行，适合需要历史上下文的场景。推文还给出创建可复用循环技能的提示词。
在 Colab 中构建 Fable 5 Traces 工作流：本教程使用 Hugging Face 上的 Fable 5 Traces 数据集，在 Google Colab 中搭建轻量环境并手动下载 JSONL 文件。流程包括预览原始 agent trace 示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式，以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的 no-CoT 聊天/SFT 导出，构建关键词搜索辅助，并训练纯 Python 朴素贝叶斯基线。
智元第15000台通用具身机器人精灵G2量产下线：智元机器人宣布第15000台通用具身机器人精灵G2量产下线。该机器人搭载 NVIDIA Jetson Thor 芯片，配备 19 自由度灵巧手、3D 触觉感知、高精度力控双臂等，支持多人连续语音对话与知识库问答，可覆盖工业、巡检、导览、家庭服务等场景。
通用正则难题：方言、BRE 与匹配语义差异：讨论围绕“哪些正则能跨工具/语言通用”展开。Unix 传统工具如 grep、sed 常用 POSIX BRE，现代语言更常见 PCRE，不同引擎在语法和匹配语义（如贪婪 vs 最左最长）上存在差异。JSON Schema 等标准会限定更小的 regex 子集以换取一致性。
Sakana Fugu 技术报告：智能正从模型转移到周围系统：Sakana Fugu 发布技术报告，提出智能正从模型转移到其周围系统。Fugu 是一个编排器，由数据训练的管理器动态选择最合适的专家模型。Regular 版快速选出单个 worker 模型；Ultra 版则能针对每个任务实时设计工作流。
四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板：英国前首相府数据科学家搭建 76 个 MCP 工具，将 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等四个模型放入《文明VI》进行 23 场对局。AI 主动检查全局状态仅占 1-2%，计划后 10 回合内执行率仅 48-66%，结论是感知与执行才是关键瓶颈。
四大顶级 AI 对决《文明 VI》：Claude 核平法国仍输，暴露感知与执行短板：前英国首相府数据科学家 Liam Wilkinson 搭建 76 个 MCP 工具，将 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等四个模型放入《文明 VI》进行 23 场对局。Claude 扮演葡萄牙时，因法国文化胜利逼近，花 50 回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。Wilkinson 发现 AI 主动检查全局状态仅占 1-2%，计划后 10 回合内执行率仅 48-66%，结论是感知与执行才是关键瓶颈。
GPT-5.6 发布，政府审核限制首批仅 20 家可访问：OpenAI发布GPT-5.6系列，包括旗舰Sol、均衡Terra和低成本Luna，在多个基准测试中刷新成绩，但首批仅20家机构可访问。
Mythos 引爆网络安全争论：漏洞能力、管制与炒作：围绕前沿模型 Mythos 的网络安全讨论，涉及 LLM 在 CTF 攻防竞赛中提升效率、Anthropic 模型被美国政府出口管制、开放权重模型与自托管等话题。讨论延伸到谁能获得攻防优势、企业业务连续性以及中美科技管控比较。
Claude Code自动发现Skills跨工具安装：一位日本开发者发现技巧：让Claude Code自动查找Skills，可跨Claude、Codex、Cursor和Gemini使用Vercel的skills CLI将目标匹配到正确的工具。像安装开发工具一样安装skill，而不是手动重写。
中国 AI 模型价格仅为美国 1/50，企业加速转向：J.P. Morgan 报告显示中国 AI 模型每 token 比美国便宜 50 倍，Qwen、DeepSeek、Kimi 施压 OpenAI 和 Anthropic 定价。到 2026 年 4 月中国公司在 OpenRouter 流量占比将从不足 2% 升至超 45%。UBS 调查发现 60% 监控 AI 预算的企业已转向更便宜模型。
学生完成AI友好数学题更快，但学习效果更差：基于10年间320万条ALEKS数学学习记录的研究发现，ChatGPT出现后，学生在AI友好的文字题上完成速度显著加快，但学习效果下降，而需视觉操作的图问题受影响较小。后续监考保留题显示，学生对AI友好题型的正确率下降约25%，表明通过AI快速完成作业未转化为持久知识。
BINEVAL：新型LLM-as-Judge评估方法：BINEVAL 是一种新型 LLM-as-Judge 评估方法，解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题，对每个输出独立回答，再汇总为校准的多维分数。每个问题级判定均可检查，用于精确定位低分原因，并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上，无需训练即可匹配或超越 UniEval 和 G-Eval。
Claude Code 桌面版新增原生多会话拖拽分屏：Claude Code 桌面版更新，支持原生多会话拖拽分屏，将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话，左侧侧边栏统一管理，拖拽即可排列并排窗格，支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布，底部同时显示多个会话的输入区，相比此前依赖 tmux 和终端窗口切换，效率大幅提升。
受限认知下的系统设计：注意力、LLM Context Engineering与Mental Model：文章讨论如何为受限认知设计系统：人类注意力、工作记忆和LLM的Context Window都有限，交互与信息组织不能假设用户或模型会自动抓住重点。评论延伸到GenAI决策支持系统和CLI工具，认为要在正确时刻提供正确上下文。还从知识表示入手，提到Concept Map和Mental Model显式化工具，与Rich Hickey的Simple Made Easy演讲呼应。
Flock摄像头追踪的不只是车牌，安全漏洞与滥用问题严重：Flock Safety 的 AI 监控摄像头能识别车牌并通过自然语言搜索特定描述。全美已安装超 10 万台自动车牌识别器，多数来自 Flock。这些摄像头存在严重安全漏洞：至少 70 台暴露在互联网上无需密码即可查看实时画面；可通过物理接触获取 root 权限。执法人员滥用系统骚扰和跟踪女性，公司未设漏洞赏金计划。
腾讯Youtu Lab提出AI应从聊天机器人转向数字同事：腾讯Youtu Lab联合多所大学发布论文，提出AI系统需从聊天机器人转向数字同事，核心是结合持久工作空间和可重用技能。论文探讨了思考型LLM（如OpenAI o1、DeepSeek-R1）的链式推理实现慢思考，以及工作空间的应用。
换行变成j：Signal TUI疑似粘贴乱码：一篇抱怨“多出来的j毁了一个晚上”的帖子引发讨论，追查这个字符从哪一层冒出来。评论将其与Unix换行控制字符ctrl-J（ASCII 10）联系起来，并猜测问题出在Signal TUI或剪贴板处理链路上。讨论还涉及旧式编码/字体怪事，如Wingdings中字母J显示为笑脸，说明“看到的字符”和“实际的字节”常常不是一回事。
Bashblog - 单个 Bash 脚本创建博客：Bashblog 是一个用单个 Bash 脚本实现的极简博客工具，依赖极少，可在大多数系统上默认运行，引发关于轻量、可用性与可维护性的讨论。
instructor 1.15.4 发布：instructor 1.15.4 发布，主要进行维护性更新：修复了 v2 列表/标量响应模型，保留了流式 JSON 字符串中的反引号，Image.autodetect 现在处理原始字节，并刷新了过时的文档模型字符串。
匿名模型"Owl Alpha"实为美团 LongCat-2.0-Preview：据爆料，OpenRouter 增长最快的智能体模型"Owl Alpha"实为美团 LongCat-2.0-Preview。该模型采用 1.6T 参数 MoE 架构，激活参数量 48B，原生支持 1M token 上下文窗口。已在 OpenRouter 秘密测试近两月，成为全球使用最多的 AI 智能体模型之一。月处理 token 10.1T，日 token 559B，月增长率 242%。
谷歌因算力限制对 Meta 调用 Gemini 大模型实施限制：Meta 向谷歌申请的 Gemini 算力规模超出供给能力，谷歌已对 Meta 调用其 Gemini 大模型实施使用限制，导致 Meta 多项内部 AI 项目受阻。谷歌云一季度营收达 200 亿美元，CEO 皮查伊表示算力供给瓶颈制约云业务增速。
Ford 裁人上 AI 反噬：质量下滑与质检争议：Ford 在生产和质检环节引入 AI 试点并裁撤人工岗位后，出现质量反噬。评论指出相关系统基于 CNN 和 IBM 定制硬件，而非 LLM。讨论延伸到企业高管用 AI 叙事降本、科技行业包装销售话术等深层问题。
Anthropic CEO 称开源 AI 模型是“红鲱鱼”：Anthropic CEO Dario Amodei 在访谈中表示，开源在 AI 领域与传统开源不同，属于“红鲱鱼”（干扰因素）。他指出当前 AI 模型通常只开放权重而非源代码，无法看到内部逻辑，因此传统开源带来的协作改进优势不成立。他强调只关心模型在关键任务上的表现，且大模型必须托管在云端进行推理，并非免费。
Codex 本周更新：长线程流畅、新增 Pets 面板：Codex 本周推出多项体验改进：超长线程处理更流畅，导航栏悬浮可预览和跳转对话回合；设置搜索覆盖更多控制项；复制到 Slack 保留 Markdown 格式；大文本粘贴不冻结 UI；新增专属 Pets 面板。
MWC观察 | 6G尚远，Token当红，运营商的挑战和转型：三大运营商在MWC26上海展上集体转向Token化，从卖流量转向卖Token，面临重构服务范式与网络架构的挑战。
消息称美国政府即将解除对 Anthropic Fable 5 模型的出口管制：据 Axios 报道，特朗普政府即将准许 Anthropic 重新开放 Fable 5 大模型。6 月 12 日出口管制令后，Anthropic 关停了 Mythos 5 与 Fable 5。内部人士预计 Fable 5 限制最早下周解除。Anthropic 已获准向部分美国本土“可信机构”开放 Mythos 5，部分撤销管制。Fable 5 面向大众，Mythos 解除部分安全管控。
加州 7 月禁流媒体爆音广告，评论区批平台推责：加州法律自7月1日起禁止流媒体广告音量明显高于正片。评论区指出 ReplayGain、LUFS 等音量标准化技术早已成熟，平台以多声道混音和设备差异为由拒绝合规是推责。讨论还涉及 YouTube、Instagram 等平台的 HDR 广告问题。
NVIDIA被指报复非自家设备云厂商：多家neocloud高管表示，如果集群中有非NVIDIA的网络设备，或云提供AMD GPU/TPU，NVIDIA就会报复，包括不给予早期分配或不再支持潜在的IPO/VC融资。
福特AI检测缺陷遇瓶颈，召回350名专家补漏：福特汽车的AI自动化缺陷检测遇到硬限制：汽车制造中存在大量边缘案例，微小设计、材料、供应商和装配变化相互作用，导致基于规则的系统与训练模型容易遗漏故障。福特因此召回350名经验丰富的工程师，利用他们多年积累的隐性工程知识，在零件到达工厂前审查设计，同时帮助改进AI系统的训练数据。

开发者工具

2026年7月

2026年6月

2026年5月

开发者工具日报 2026-06-28

开发者工具日报 2026-06-28