资讯时间线
所有 AI 资讯按时间排列
6月24日周三
2 条我们的技术报告已发布。 深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report
Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启"环境"行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。
6月23日周二
15 条Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。
Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。
IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月-2026年2月)和 WebArena(2025年2月-9月)基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式,代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数,通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用,涵盖电影推荐、IBM Cloud 架构顾问等场景,每个应用仅需一个 FastAPI 文件。
网易有道推出"子曰 4.0"TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-TDNN 说话人编码器、Flow Matching 框架。已全量开源(Apache 协议),提供 54GB 资源包供本地部署。
友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。
2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、删除闲置账户。
京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。
火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及"一声多角"能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。
字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。
Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。
Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM-5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。
伊利诺伊州Holiday Hills警察局长于2026年6月18日被捕,被控两项渎职重罪。检方指控他利用Flock车牌读取系统及州警察数据库,跟踪6名认识的人,其中3人为前女友,并对其中一人的前男友车牌查询140次(86次脱岗),持续18个月。全美至少18起类似案例:佐治亚州Braselton警察局长、爱达荷州Jerome县警长(700余次查询其妻车牌)等均因此辞职或被捕。Flock首席法务官Dan Haley承认,滥用该系统"最常见情况"就是跟踪前女友。Flock称系统只跟踪车辆,但案例表明车辆是手段,人是目标。
Oak 是开源版本控制系统,专为 AI 智能体(Claude Code、Codex、Cursor)设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型,可选 SQLite 和 git 后端。以分支-会话为基本工作单元,用分支描述替代逐次提交,通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0,支持 macOS(Apple Silicon)、Linux(x86_64)及 Windows,可通过 curl 或 cargo 安装,Apache-2.0 开源。
Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点,74% 计划两年内部署智能体 AI,仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态--托管网关(如 OpenRouter、Portkey)、自托管网关(如 LiteLLM)和直接 API--默认治理能力不同,直接 API 缺乏统一控制面,造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据,而电子表格不能。
Google DeepMind 宣布向独立电影制片厂 A24 投资 7500 万美元(据《华尔街日报》),双方将合作开发电影制作 AI 工具。A24 出品过《万事俱备》《后室》等影片。Google DeepMind CEO Demis Hassabis 称,希望通过与艺术家直接合作,打造支持创意表达的 AI 功能。此举是好莱坞最新一次科技公司与电影 AI 联手,此前 Netflix 已收购 Ben Affleck 的 AI 工具公司 Interpositive,亚马逊 MGM 工作室也在去年设立了影视 AI 部门。
6月21日周日
3 条美国NSA局长称,Mythos在数小时内攻破了其几乎所有机密系统。此前Mythos已在5天内破解MacOS。而顶级漏洞团队Google Project Zero完成同等攻击需6个月,单个MacOS零日漏洞价值约200万美元。苹果原假设全球仅10-20个团队具备此能力,Mythos将使该数字增至数千。全球约20亿活跃苹果设备中,Mac用户多为记者、高管、政府官员等高价值目标,苹果曾是"最安全"的选择。
美团近期上线tabbit国际版应用,免费集成多家顶级AI模型的最新旗舰版,包括GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash,以及国内Kimi-2.6、GLM-5.1、MiniMax-M3。用户无需单独订阅即可使用这些模型。需注意:只有国际版包含海外模型,国内版仅提供国内模型。该应用旨在抢占AI入口,目前处于免费推广阶段。
腾讯元宝推出父亲节主题活动,用户可选择爸爸年轻时照片与自己的照片,输入提示词(如"帮我生成一张和爸爸的合影,将图2的我融合到图1爸爸的照片中,我想穿越回__年前,和他一起_____;保留爸爸照片的背景、动作及五官;人物姿态自然协调,整体光线与色调保持一致"),元宝即可生成合影。活动旨在让用户"回到过去"看到爸爸的青春模样。