2026年6月28日
开发者工具日报 2026-06-28
DeepSeek 开源 DSpark 投机解码框架;GLM-5.2发布:AI圈称第二个DeepSeek时刻;DeepSeek 发布 DSpark 推测解码并开源 DeepSpec
开发者工具日报 2026-06-28
- DeepSeek 开源 DSpark 投机解码框架:DeepSeek 开源面向生产环境的投机解码框架 DSpark,采用并行 backbone + 顺序 Markov head 混合架构,解决传统 draft 模型后期 token 错误率高的问题。在 DeepSeek-V4 中,单用户生成速度比 MTP-1 基线快 60-85%,吞吐提升 1.5x 至 5x。开源内容包括 checkpoint 和 MIT 协议的训练代码。
- GLM-5.2发布:AI圈称第二个DeepSeek时刻:中国开源权重模型 GLM-5.2 发布,被评价为继 DeepSeek 之后的第二次"DeepSeek 时刻"。有评论指出,其性能已可与 OpenAI 和 Anthropic 当前可用模型媲美。白宫 AI 负责人 David Sacks 就此警告,美国若继续将自身模型置于"炼狱"(指过度监管或限制),世界将转向中国技术,美国公司将在竞赛中落后。该言论呼应了此前 DeepSeek 开源模型的全球影响,凸显中美 AI 开源竞争进入新阶段。
- DeepSeek 发布 DSpark 推测解码并开源 DeepSpec:DeepSeek 发布 DSpark 推测解码方法,将吞吐量提升 51% 到 400%,并开源训练框架 DeepSpec,推动开放 AI 发展。
- DeepSeek 开源 DSpark 投机解码框架,加速生成速度60-85%:DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成实现无损加速。生产环境下,V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升60-85%和57-78%。配套 DeepSpec 训练代码库采用 MIT 许可证。
- 姚老师免费开源GEO内容工程全套资料:Berry Xia称赞@yaojingang(姚老师)将本可卖到上万元的GEO内容工程课程资料全部免费开源。资源包括:3份核心文档(操作手册、研究报告、实操教程)、2本推荐书籍、3篇学术论文;GEO改写提示词、改写Skill、单篇内容GEO特征标注演示;以及3个GitHub开源仓库(GEO Skills、GEOFlow、Meta skill)。所有资源通过链接直接获取,无需付费或陪跑课程。
- Grok 4.5基于1.5T V9进入SpaceX/Tesla测试:马斯克宣布Grok 4.5基于1.5T V9基础模型,补充训练加入Cursor数据,已在SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。
- 马斯克:Grok 4.5已在SpaceX和特斯拉内部测试:Grok 4.5基于1.5万亿参数V9模型,引入Cursor数据,已在SpaceX和特斯拉内测。性能接近Opus,RL持续优化,SpaceX将每月发布新模型。
- 新浪开源 VibeThinker-3B:推理可压缩,事实知识不能:新浪发布仅 3B 参数的 VibeThinker-3B 模型,在数学编程基准上持平甚至超越大 200-333 倍的模型,但知识密集型任务大幅落后。研究提出“参数压缩-覆盖假说”,认为逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
- 两节点 AMD Strix Halo RDMA 集群设置指南:本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810(RoCE v2)网卡实现 RDMA 互联,用于分布式 vLLM 推理。硬件采用两块 Framework Desktop 主板及 E810-CQDA1 100GbE 网卡直连,软件栈基于 Fedora 43,使用 Ray 和 RCCL 通信。RDMA 延迟约 5μs,远优于 TCP/IP 的 70-100μs。涵盖 BIOS、网络配置及启动集群的详细步骤。
- 主动型Agent Vida:读取屏幕与文件上下文实现电脑全托管:AI HOT报道,主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文,用户无需提供详细背景即可自动理解项目,优化提示语并生成生产级Prompt,支持文件管理、浏览器自动化等操作。
- Google TimesFM 2.5:轻量化时序预测模型支持零样本与LoRA微调:Google Research 开源时序预测基础模型 TimesFM 2.5,参数从 500M 降至 200M,上下文窗口扩展至 16K,新增 30M 分位数预测头。支持零样本预测和 LoRA 微调,已内置在 BigQuery ML、Google Sheets、Vertex AI 中。
- OpenAI 发布 GPT-5.6 系列:Sol 旗舰、Terra 均衡、Luna 速度型:OpenAI 发布 GPT-5.6 系列,包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%(Ultra 模式 91.9%),领先 GPT-5.5 和 Claude Mythos 5;GeneBench v1 以更少输出 tokens 获更强结果。价格:Sol 输入 $5/百万 tokens、输出 $30。发布前 OpenAI 向美国政府展示能力,按政府要求先以有限预览上线,首批约 20 家合作伙伴可访问。
- Grouped Query Experts:在GQA自注意力上的混合专家模型:论文提出Grouped Query Experts,在分组查询注意力(GQA)基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练,最佳版本准确率56.04(baseline 55.86),仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量。
- BrowserBC 开源:人类浏览器轨迹转可复用技能:ViDA 团队开源 BrowserBC 项目,先用强模型录制一次人类浏览器操作流程,蒸馏为可复用技能,再交给更小更便宜的模型执行。一次录制即可泛化技能,在 WebArena-Hard 上 tool calls 降低 27%,成功率从 60% 升至 81%。
- LangChain 发布深度 Agent 教程:三大上下文工程技巧解决长任务难题:LangChain 官方发布深度 Agent 从零构建教程,通过三大上下文工程技巧解决长任务"忘事崩链":结构化 TODO 带状态管理、虚拟文件系统省 token 实现跨轮记忆、子代理委派并隔离上下文。教程含5个渐进式 Notebook,从 ReAct 循环起步,最终搭建可联网深度研究 Agent。
- DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%:DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码,通过半自回归生成实现无损加速,生产环境下 DeepSeek-V4 生成速度提升 60-85%。
- 普林斯顿CEO-Bench测试:仅三款AI模型在500天创业模拟中盈利:普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司500天。14个测试模型中仅Claude Fable 5、Claude Opus 4.8和GPT-5.5盈利超过起始资本。一个简单规则启发式方法超越多数模型,揭示AI长期战略决策能力的不足。
- Persona.js - 集成 WebMCP 原生 AI 聊天到前端:Persona.js 是一个 JavaScript 库,可将 WebMCP 原生的 AI 聊天功能集成到任何前端应用中,简化 AI 对话界面的开发。
- io_uring/RDMA 打满 NIC:dTLB miss、hugepages、P2PDMA:Linux 性能调优案例:作者用 io_uring 和 RDMA 试图打满 NIC 和 NVMe SSD 带宽,排查 io-wq、请求拆分、fd 查找和 CRC 计算后,发现瓶颈是 dTLB miss。将读数据放入 hugepages 后 TLB 压力下降,系统接近 NIC 饱和。
- Anthropic 分享 Claude Code 记忆管理:四层架构与“做梦”机制:Anthropic 应用 AI 负责人 Lamis 在 AI DevCon 上介绍 Claude Code 记忆管理演进路径:从纯 Markdown 文件到记忆工具、Skills、文件系统四层架构。生产环境通过版本控制、哈希校验、权限分层解决并发问题。核心“做梦”机制是带外异步处理,由专门 Agent 分析会话模式并调整记忆,已投产并提升效率。
- Google限制Meta使用Gemini致项目延迟:据《金融时报》报道,Google因容量短缺对Meta使用Gemini施加限制,影响了Meta内部与客户支持和内容审核相关的项目,导致项目延期。
- Windows DLL诡异“未卸载却不在内存”的Crash追查:微软Old New Thing博客分享了一则Windows DLL排障故事:一个DLL似乎未被正式卸载,却不在进程内存中,导致崩溃。评论深入探讨了Windows DLL装载/卸载机制、引用计数、强制卸载和Crash归因问题,并引入了Crash Bucket和Heisenbug等调试术语,对深度排查技巧有详细解析。
- Coinbase 转向中国 AI 模型,西方实验室面临定价压力:Coinbase CEO 将公司迁移至智谱 GLM 5.2 和月之暗面 Kimi 2.7 等中国 AI 模型,token 用量攀升但支出减半。公司部署自动路由系统,缓存命中率从 5% 提升至 60%。同时 OpenAI 推出 GPT-5.6-Sol 等廉价变体,加剧与 Anthropic 的价格战。
- AIGC 周刊:OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片:本期周刊报道 OpenAI 预览 GPT-5.6 Sol 并发布首款自研芯片 Jalapeño;Anthropic 指控阿里巴巴通过 2.5 万欺诈账户蒸馏 Claude;美国政府为前沿模型发布设立「受信合作伙伴」审查机制,AI 行业正从技术竞赛滑向地缘博弈。
- Dotient - 本地语义搜索应用:Dotient 是一款本地语义搜索应用,支持在本地设备上进行语义级别的文件搜索,无需联网即可快速定位内容。
- Hermes代理优化:搭建自复盘Memory.md记忆循环:提供不依赖微调或开发的Hermes代理优化方案,通过Memory.md文件构建会话学习-记录沉淀-迭代优化闭环。核心流程包括建立四层框架、绑定提示词、每周精炼和定期备份,使代理越用越贴合个人工作习惯。
- Wayfinder Router:本地与云端 LLM 的确定性路由工具:Wayfinder Router 是一个中间层工具,可在兼容 OpenAI API 的客户端之后,将查询请求在本地模型和云端 LLM 之间进行确定性分流。社区讨论聚焦于其代理位置、术语歧义,以及将其类比为网络调度、统一计费和多模型选择等基础设施层功能。
- 新浪开源VibeThinker-3B:推理可压缩,事实知识不能:新浪发布仅3B参数的VibeThinker-3B模型,在数学编程基准上持平大200-333倍的模型,但知识密集型任务大幅落后。研究提出“参数压缩-覆盖假说”,认为逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
- GitHub 13万星爬虫神器无需API Key即可使用:逛逛GitHub报道,一款在GitHub上获得13万星标的爬虫工具,现在无需API Key即可直接使用,降低了开发者数据采集的门槛。
- Liquid AI 发布 LFM2.5-230M 开源文本模型:Liquid AI 推出 LFM2.5-230M,230M 参数开源文本模型,基于 LFM2 架构,开放权重。支持 llama.cpp、MLX、vLLM、SGLang、ONNX 推理,内存占用仅 293-375 MB。在 Galaxy S25 Ultra 上达 213 tok/s,Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71,领先同类模型。上下文窗口 32768 tokens,预训练于 19 万亿 tokens,专为数据提取和工具调用设计。
- Adrafinil:防止AI编码Agent工作时Mac睡眠的菜单栏工具:Adrafinil 是一款 macOS 菜单栏应用,可在 Claude Code、Codex、Cursor 等 9 种 AI 编码 Agent 持有活跃会话时阻止系统睡眠(包括合盖睡眠),无 Agent 工作时则正常休眠。它通过各 Agent 的钩子系统调用 CLI,延迟低于 50ms,支持引用计数、温度阈值强制释放、空闲释放及进程嗅探。需 macOS Tahoe 26.4 和 Xcode 26+ 构建。
- Adrafinil:仅在AI agent工作时阻止Mac睡眠的菜单栏工具:Adrafinil 是一款 macOS 菜单栏应用,仅在 Claude Code、Codex、Cursor 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠。无 agent 工作时,合盖后 Mac 正常睡眠。支持引用计数断言、热切出、空闲释放及进程嗅探。
- 公共 DNS 选择:自建 Unbound、Quad9 与测速争论:社区讨论公共 DNS 解析器选择,涉及自建 Unbound 递归解析器、DoH 加密、dnscrypt 等工具,以及用 smokeping 对比 ISP DNS 与 1.1.1.1、9.9.9.9 的延迟。核心焦点在隐私控制、速度波动和去中心化,而非单纯平均延迟。
- Stripe Economics《The Age of the Solopreneur》:AI重写商业规则,一人公司崛起:Stripe Economics报告显示,AI正推动一人公司崛起,单人公司申请持续加速,年营收超千万美元的单人公司数量增长五六倍。
- Anthropic 调研:约半数 Claude 用户称 AI 已可承担一半以上工作:Anthropic 对约9700名 Claude 用户的调研显示,33%受访者认为 AI 可完成自身30%至60%工作任务,14%认为比例为60%至90%。Claude Artifacts 最常用场景为数据库查询、博客创作和营销文案。职场新人交由 AI 处理的任务占比最高且焦虑感最强。
- CLI错误输出应直接面向AI编码智能体:软件开发社区提出,CLI工具的错误输出应直接面向AI编码智能体,而非仅显示"Error:"。错误消息应包含问题原因、调查方法、如何生成脱敏复现以及发送至何处,使每一次失败的智能体交互成为高质量bug报告,形成软件改进的良性循环。
- 360与Sakana AI发布对标Mythos的AI安全工具和模型:中国网络安全公司360推出Tulongfeng和Yitianzhen两款AI安全工具,分别用于自动发现软件漏洞和自动化网络防御与事件响应。日本AI初创Sakana AI推出前沿模型Fugu,专为智能体设计,能通过API协调其他模型。两款产品发布于美国政府对Anthropic的Mythos和Fable 5实施出口禁令两周后,旨在为亚洲市场提供不受出口管制限制的替代方案。
- Adrafinil:合盖 Mac 仅 AI agent 工作时保持唤醒:macOS 小工具 Adrafinil 可在合盖后仅当 AI agent(如 Claude Code、Codex)继续工作时保持 Mac 唤醒,避免传统防休眠方案(pmset、caffeinate、Amphetamine)的全局锁定。讨论指出合盖长时间运行需注意散热与 thermal cutoff 保护。
- Anthropic 发布 Claude Mythos Preview 与 Fable 5,Project Glasswing 向 150 家组织开放:Anthropic 发布 Claude Mythos Preview 及安全增强版 Fable 5,通过 Project Glasswing 向 150 家组织开放。英国政府 AI 安全研究所评估显示,Mythos 在专家级任务和完整攻击链测试中首次成功,但实际提升有限。Mythos 可发现老旧漏洞,但单次漏洞探测成本约 2 万美元,总 token 预算达 1 亿美元。
- DeepSeek 发布 DSpark:半并行推测解码推理优化方法:DeepSeek 提出 DSpark 半并行推测解码系统,使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证:草稿模型并行生成多个候选 token,再由小型马尔可夫头微调每个猜测,弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器动态决定验证数量,避免无效计算。
- 美国AI基础设施建设瓶颈从GPU转为许可:300多项数据中心禁令,但水耗与电费担忧被数据驳斥:美国AI基础设施建设最大瓶颈已从GPU变为许可。2023年以来有300多项州级和地方数据中心禁令或暂停,但现实数据反超担忧:微软新一代AI数据中心采用芯片级闭环冷却,用水效率提升39%;谷歌全球PUE 1.09低于行业平均1.56。趋势已转为"自带电源",谷歌、微软、Meta纷纷签订核电合同。
- AI Engineer World's Fair 2026 规模创纪录,参会人数即将售罄:AI Engineer World's Fair 2026 参会人数已超6000,预计本周末达到7000时售罄。本届博览会规模为历届最大,展区扩大4倍,新增研究员海报、AI领袖闭门会议等环节,覆盖医疗、金融等垂直领域。每位参会者可获 $40k 信用额度试用赞助商产品。
- Anthropic 详解 Claude Code 记忆管理:四层架构与“做梦”机制:Anthropic 应用 AI 负责人 Lamis 在 AI DevCon 上介绍 Claude Code 记忆管理。起点是 CLAUDE.md 纯文本文件,但会上下文膨胀。第二层让 Agent 自主读写记忆;第三层 Skills 实现渐进式披露;第四层将记忆系统建模为文件系统。生产环境设版本控制、哈希并发控制、权限分层和干净 API 四道防线。核心“做梦”机制是带外异步处理,已投入生产。
- Agent-Reach:为AI Agent免费读取多平台内容的开源CLI工具:Agent-Reach(3.5K Star)是一个开源CLI工具,让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端,自动健康检查和故障切换,无需自写爬虫。安装后Agent可直接处理“看视频字幕”、“搜产品评价”等任务,全程零API费用、本地运行。
- OpenAI 测试 Codex 滑条式努力选择器:OpenAI 正在为 Codex 测试一种新的滑条式努力选择器 UI,同时实时语音支持可能被彻底重写,相关组件已被移除。
- 美光因AI内存短缺股价飙升236%:内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND(尤其是HBM)供应短缺,股价过去一个月飙升236%,市值接近1.27万亿美元,一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元,利润从18.8亿美元暴涨至282亿美元,并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度,缺货(RAMageddon)预计持续至2027年。
- 奥地利推动欧盟引入Anthropic应对美国AI限制:奥地利数字化国务秘书致信欧盟委员会,敦促将Anthropic作为战略重点引入欧盟,以反制美国阻止外籍人士使用最先进AI模型的举措,意在吸引人才、留住资金并制定行业标准。
- AI逆向设计射频芯片:GA进化硬件旧题:文章讨论射频集成电路的逆向设计:设定性能指标后,用AI/优化器在巨大拓扑空间里找电路。评论提到Adrian Thompson在1990年代的进化FPGA实验和遗传天线等早期研究,争议集中在这些结果是否利用了特定硅片或仿真的漏洞,以及能否在温度变化和真实制造公差下保持鲁棒。评论纠正了“AI”术语,更接近遗传算法和参数搜索。
- 普林斯顿CEO-Bench测试:仅三款AI模型在500天创业模拟中盈利:普林斯顿大学推出CEO-Bench基准测试,让AI智能体模拟运营订阅软件公司500天。14个模型中仅Claude Fable 5、Claude Opus 4.8和GPT-5.5盈利超过起始资本。多数模型无法保持连贯策略,在模拟结束前破产。
- 360发布AI安全工具屠龙锋和倚天镇,周鸿祎呼吁建立网络核威慑:中国网络安全公司360发布两款AI工具:屠龙锋用于自动化漏洞挖掘,倚天镇用于自动化网络防御。创始人周鸿祎称屠龙锋已发现3432个漏洞,并采用智能体方法结合安全专业知识。他将Mythos类模型比作AI时代的网络核武器,呼吁中国建立对等战略威慑。
- Codex 两种计划工作:Scheduled Task 与 Scheduled Message 的区别:Codex 支持两种计划工作方式:Scheduled Tasks 每次运行创建新线程,适合无需上下文延续的任务;Scheduled Messages 在同一现有线程反复运行,适合需要历史上下文的场景。推文还给出创建可复用循环技能的提示词。
- 在 Colab 中构建 Fable 5 Traces 工作流:本教程使用 Hugging Face 上的 Fable 5 Traces 数据集,在 Google Colab 中搭建轻量环境并手动下载 JSONL 文件。流程包括预览原始 agent trace 示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式,以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的 no-CoT 聊天/SFT 导出,构建关键词搜索辅助,并训练纯 Python 朴素贝叶斯基线。
- 智元第15000台通用具身机器人精灵G2量产下线:智元机器人宣布第15000台通用具身机器人精灵G2量产下线。该机器人搭载 NVIDIA Jetson Thor 芯片,配备 19 自由度灵巧手、3D 触觉感知、高精度力控双臂等,支持多人连续语音对话与知识库问答,可覆盖工业、巡检、导览、家庭服务等场景。
- 通用正则难题:方言、BRE 与匹配语义差异:讨论围绕“哪些正则能跨工具/语言通用”展开。Unix 传统工具如 grep、sed 常用 POSIX BRE,现代语言更常见 PCRE,不同引擎在语法和匹配语义(如贪婪 vs 最左最长)上存在差异。JSON Schema 等标准会限定更小的 regex 子集以换取一致性。
- Sakana Fugu 技术报告:智能正从模型转移到周围系统:Sakana Fugu 发布技术报告,提出智能正从模型转移到其周围系统。Fugu 是一个编排器,由数据训练的管理器动态选择最合适的专家模型。Regular 版快速选出单个 worker 模型;Ultra 版则能针对每个任务实时设计工作流。
- 四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板:英国前首相府数据科学家搭建 76 个 MCP 工具,将 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等四个模型放入《文明VI》进行 23 场对局。AI 主动检查全局状态仅占 1-2%,计划后 10 回合内执行率仅 48-66%,结论是感知与执行才是关键瓶颈。
- 四大顶级 AI 对决《文明 VI》:Claude 核平法国仍输,暴露感知与执行短板:前英国首相府数据科学家 Liam Wilkinson 搭建 76 个 MCP 工具,将 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等四个模型放入《文明 VI》进行 23 场对局。Claude 扮演葡萄牙时,因法国文化胜利逼近,花 50 回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson 发现 AI 主动检查全局状态仅占 1-2%,计划后 10 回合内执行率仅 48-66%,结论是感知与执行才是关键瓶颈。
- GPT-5.6 发布,政府审核限制首批仅 20 家可访问:OpenAI发布GPT-5.6系列,包括旗舰Sol、均衡Terra和低成本Luna,在多个基准测试中刷新成绩,但首批仅20家机构可访问。
- Mythos 引爆网络安全争论:漏洞能力、管制与炒作:围绕前沿模型 Mythos 的网络安全讨论,涉及 LLM 在 CTF 攻防竞赛中提升效率、Anthropic 模型被美国政府出口管制、开放权重模型与自托管等话题。讨论延伸到谁能获得攻防优势、企业业务连续性以及中美科技管控比较。
- Claude Code自动发现Skills跨工具安装:一位日本开发者发现技巧:让Claude Code自动查找Skills,可跨Claude、Codex、Cursor和Gemini使用Vercel的skills CLI将目标匹配到正确的工具。像安装开发工具一样安装skill,而不是手动重写。
- 中国 AI 模型价格仅为美国 1/50,企业加速转向:J.P. Morgan 报告显示中国 AI 模型每 token 比美国便宜 50 倍,Qwen、DeepSeek、Kimi 施压 OpenAI 和 Anthropic 定价。到 2026 年 4 月中国公司在 OpenRouter 流量占比将从不足 2% 升至超 45%。UBS 调查发现 60% 监控 AI 预算的企业已转向更便宜模型。
- 学生完成AI友好数学题更快,但学习效果更差:基于10年间320万条ALEKS数学学习记录的研究发现,ChatGPT出现后,学生在AI友好的文字题上完成速度显著加快,但学习效果下降,而需视觉操作的图问题受影响较小。后续监考保留题显示,学生对AI友好题型的正确率下降约25%,表明通过AI快速完成作业未转化为持久知识。
- BINEVAL:新型LLM-as-Judge评估方法:BINEVAL 是一种新型 LLM-as-Judge 评估方法,解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题,对每个输出独立回答,再汇总为校准的多维分数。每个问题级判定均可检查,用于精确定位低分原因,并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上,无需训练即可匹配或超越 UniEval 和 G-Eval。
- Claude Code 桌面版新增原生多会话拖拽分屏:Claude Code 桌面版更新,支持原生多会话拖拽分屏,将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话,左侧侧边栏统一管理,拖拽即可排列并排窗格,支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布,底部同时显示多个会话的输入区,相比此前依赖 tmux 和终端窗口切换,效率大幅提升。
- 受限认知下的系统设计:注意力、LLM Context Engineering与Mental Model:文章讨论如何为受限认知设计系统:人类注意力、工作记忆和LLM的Context Window都有限,交互与信息组织不能假设用户或模型会自动抓住重点。评论延伸到GenAI决策支持系统和CLI工具,认为要在正确时刻提供正确上下文。还从知识表示入手,提到Concept Map和Mental Model显式化工具,与Rich Hickey的Simple Made Easy演讲呼应。
- Flock摄像头追踪的不只是车牌,安全漏洞与滥用问题严重:Flock Safety 的 AI 监控摄像头能识别车牌并通过自然语言搜索特定描述。全美已安装超 10 万台自动车牌识别器,多数来自 Flock。这些摄像头存在严重安全漏洞:至少 70 台暴露在互联网上无需密码即可查看实时画面;可通过物理接触获取 root 权限。执法人员滥用系统骚扰和跟踪女性,公司未设漏洞赏金计划。
- 腾讯Youtu Lab提出AI应从聊天机器人转向数字同事:腾讯Youtu Lab联合多所大学发布论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。论文探讨了思考型LLM(如OpenAI o1、DeepSeek-R1)的链式推理实现慢思考,以及工作空间的应用。
- 换行变成j:Signal TUI疑似粘贴乱码:一篇抱怨“多出来的j毁了一个晚上”的帖子引发讨论,追查这个字符从哪一层冒出来。评论将其与Unix换行控制字符ctrl-J(ASCII 10)联系起来,并猜测问题出在Signal TUI或剪贴板处理链路上。讨论还涉及旧式编码/字体怪事,如Wingdings中字母J显示为笑脸,说明“看到的字符”和“实际的字节”常常不是一回事。
- Bashblog - 单个 Bash 脚本创建博客:Bashblog 是一个用单个 Bash 脚本实现的极简博客工具,依赖极少,可在大多数系统上默认运行,引发关于轻量、可用性与可维护性的讨论。
- instructor 1.15.4 发布:instructor 1.15.4 发布,主要进行维护性更新:修复了 v2 列表/标量响应模型,保留了流式 JSON 字符串中的反引号,Image.autodetect 现在处理原始字节,并刷新了过时的文档模型字符串。
- 匿名模型"Owl Alpha"实为美团 LongCat-2.0-Preview:据爆料,OpenRouter 增长最快的智能体模型"Owl Alpha"实为美团 LongCat-2.0-Preview。该模型采用 1.6T 参数 MoE 架构,激活参数量 48B,原生支持 1M token 上下文窗口。已在 OpenRouter 秘密测试近两月,成为全球使用最多的 AI 智能体模型之一。月处理 token 10.1T,日 token 559B,月增长率 242%。
- 谷歌因算力限制对 Meta 调用 Gemini 大模型实施限制:Meta 向谷歌申请的 Gemini 算力规模超出供给能力,谷歌已对 Meta 调用其 Gemini 大模型实施使用限制,导致 Meta 多项内部 AI 项目受阻。谷歌云一季度营收达 200 亿美元,CEO 皮查伊表示算力供给瓶颈制约云业务增速。
- Ford 裁人上 AI 反噬:质量下滑与质检争议:Ford 在生产和质检环节引入 AI 试点并裁撤人工岗位后,出现质量反噬。评论指出相关系统基于 CNN 和 IBM 定制硬件,而非 LLM。讨论延伸到企业高管用 AI 叙事降本、科技行业包装销售话术等深层问题。
- Anthropic CEO 称开源 AI 模型是“红鲱鱼”:Anthropic CEO Dario Amodei 在访谈中表示,开源在 AI 领域与传统开源不同,属于“红鲱鱼”(干扰因素)。他指出当前 AI 模型通常只开放权重而非源代码,无法看到内部逻辑,因此传统开源带来的协作改进优势不成立。他强调只关心模型在关键任务上的表现,且大模型必须托管在云端进行推理,并非免费。
- Codex 本周更新:长线程流畅、新增 Pets 面板:Codex 本周推出多项体验改进:超长线程处理更流畅,导航栏悬浮可预览和跳转对话回合;设置搜索覆盖更多控制项;复制到 Slack 保留 Markdown 格式;大文本粘贴不冻结 UI;新增专属 Pets 面板。
- MWC观察 | 6G尚远,Token当红,运营商的挑战和转型:三大运营商在MWC26上海展上集体转向Token化,从卖流量转向卖Token,面临重构服务范式与网络架构的挑战。
- 消息称美国政府即将解除对 Anthropic Fable 5 模型的出口管制:据 Axios 报道,特朗普政府即将准许 Anthropic 重新开放 Fable 5 大模型。6 月 12 日出口管制令后,Anthropic 关停了 Mythos 5 与 Fable 5。内部人士预计 Fable 5 限制最早下周解除。Anthropic 已获准向部分美国本土“可信机构”开放 Mythos 5,部分撤销管制。Fable 5 面向大众,Mythos 解除部分安全管控。
- 加州 7 月禁流媒体爆音广告,评论区批平台推责:加州法律自7月1日起禁止流媒体广告音量明显高于正片。评论区指出 ReplayGain、LUFS 等音量标准化技术早已成熟,平台以多声道混音和设备差异为由拒绝合规是推责。讨论还涉及 YouTube、Instagram 等平台的 HDR 广告问题。
- NVIDIA被指报复非自家设备云厂商:多家neocloud高管表示,如果集群中有非NVIDIA的网络设备,或云提供AMD GPU/TPU,NVIDIA就会报复,包括不给予早期分配或不再支持潜在的IPO/VC融资。
- 福特AI检测缺陷遇瓶颈,召回350名专家补漏:福特汽车的AI自动化缺陷检测遇到硬限制:汽车制造中存在大量边缘案例,微小设计、材料、供应商和装配变化相互作用,导致基于规则的系统与训练模型容易遗漏故障。福特因此召回350名经验丰富的工程师,利用他们多年积累的隐性工程知识,在零件到达工厂前审查设计,同时帮助改进AI系统的训练数据。