每日AI快讯热闻

AI快讯 2026-05-25

5月25·周一

面壁智能联合清华开源端侧大模型 BitCPM-CANN

面壁智能联合清华大学及 OpenBMB 开源社区开源中国首个完全基于华为昇腾国产算力平台端到端训练的 1.58-bit 三值大模型 BitCPM-CANN，包含 0.5B 至 8B 四个尺寸。模型采用量化感知训练路线，推理阶段释放约 6 倍显存红利，模型能力保留率达 90%–97.2%，为端侧 AI 落地与国产 NPU 生态提供关键基础设施。来源：面壁智能

商汤办公小浣熊推出桌面智能体

商汤办公小浣熊桌面智能体正式发布，定位从建议者进化为执行者的AI办公伙伴。产品具备六大核心能力：支持20+格式本地文件直读、浏览器自动化、Ctrl+K全局快捷唤起、飞书等办公协同、本地记忆越用越懂用户、定时任务自动执行。来源：商汤科技SenseTime

腾讯全面开放 ima copilot

腾讯ima copilot宣布全面开放，用户无需排队即可使用。工具具备持续进化记忆与全场景感知能力，可读取、总结并调用知识库内容，支持接入各大模型API KEY及自定义扩展技能。同时，ima知识号新增发布Skill功能，知识广场从”内容平台”升级为”能力平台”，首批上线微信读书、腾讯招聘等官方Skill。来源：ima.copilot

DeepSeek-V4-Pro API永久降价为原定价的 1/4

DeepSeek官方宣布 DeepSeek-V4-Pro 模型API永久降价，5月31日结束2.5折优惠活动后，正式调整为原定价的1/4。降价后，缓存命中输入0.025元/百万Tokens，缓存未命中输入3元/百万Tokens，输出6元/百万Tokens。这意味着原本的限时2.5折优惠将永久保持，大幅降低开发者使用成本。来源：IT之家

智谱清言上线 AgentMore Skills 广场

AgentMore Skills广场正式上线。广场整合「推荐」官方严选、「Skillhub」7.4 万+免费技能及「开源社区」三大模块，支持全局搜索与一键零 Token 安装。用户可为 Agent 快速装备微信读书、美团优惠券等大厂独家技能包，实现从通用聊天到行业专家的秒级升级，支持随时卸载管理。来源：智谱清言

5月22·周五

智谱推出GLM-5.1高速版API，GLM-5.1-highspeed

智谱开放平台发布GLM-5.1高速版API GLM-5.1-highspeed，模型输出速度达400 tokens/s，刷新全球大模型API速度上限。GLM-5.1-highspeed由智谱与TileRT团队联合推出，首次在国产大模型中实现旗舰级能力与极致低延迟兼得。适用AI编程、实时交互、实时语音等对延迟要求极高的场景，现已面向部分企业客户开放。来源：智谱开放平台

美团开源数字人视频模型 LongCat-Video-Avatar 1.5

美团LongCat团队正式开源LongCat-Video-Avatar 1.5数字人视频模型，从开源SOTA迈向商业级应用。模型升级Whisper-large音频编码器，构建高质量多场景数据体系，引入逐帧级GRPO偏好对齐，在唇形同步、物理合理性、长视频稳定性及多人互动上全面跃升。模型采用DMD蒸馏实现8步生成，效率提升约15倍。来源：龙猫LongCat

网易有道开源多模态大模型 Confucius4

网易有道AI团队开源多模态推理模型Confucius4，基于Qwen3.5-27B架构推出，专为高级数学推理设计。模型采用迭代SFT+RL训练与精细化CoT优化，在Math-Hard-500等基准达同等规模SOTA性能，推理链长度降低43.2%。Confucius4针对中文用户定向优化，支持图文混合输入，兼容Qwen生态。来源：AI工具集

阿里生产级 AI 数字员工平台 QoderWake 开启全球公测

QoderWake开启全球公测，首发Mac版，5分钟可配置数字员工上岗。开放后端、前端、测试、产品等6个内置岗位，支持自定义角色。工具具备长期记忆与进化能力，可通过IM、Webhook等方式接活，自动输出交付摘要。内置四维权限中心保障安全，支持MCP接入企业系统，7×24小时自主协作。来源：Qoder

5月21·周四

智谱推出下一代大模型推理网络架构 ZCube

智谱联合驭驯网络与清华大学推出ZCube组网架构，针对PD分离推理拥塞难题，取消Spine层，采用扁平化拓扑与单/多轨混合接入。GLM-5.1 coding实测显示，ZCube使交换机及光模块成本降33%，GPU推理吞吐提升15%，首Token时延TTFT P99降40.6%，为下一代超大规模推理集群提供高效底座。来源：智谱

阿里 D20 全球设计院长峰会正式开票，堆友携手参会

阿里D20全球设计院长峰会2026正式开票，堆友再度携手参会。本届以”设计新生”为主题，主论坛聚焦大模型、Agent、AIGC及空间智能，分论坛涵盖阿里云”Vibe Designing”、淘天AI设计Agent、千问AI硬件UX等前沿方向，并首发AI设计实战工作坊与AI设计展。来源：堆友

火山引擎Agent Plan、Coding Plan上新，新增DeepSeek V4

火山引擎方舟 Coding Plan 与 Agent Plan 同步接入 DeepSeek V4 系列模型，两种套餐包中均可使用 DeepSeek V4 Pro 和 V4 Flash。Coding Plan 面向开发者编程场景，Agent Plan 聚合 DeepSeek V4、豆包 Seed 系列等多模态模型及联网搜索等 Harness 能力，通过订阅制能大幅降低调用成本。来源：火山引擎

腾讯混元开源 Hy-MT2 翻译模型和Hy 翻译小程序

腾讯混元开源新一代翻译大模型 Hy-MT2，提供 1.8B、7B、30B-A3B 三个尺寸，支持 33 种语言互译及 5 种民汉/方言。其中 7B 和 30B-A3B 在多项评测中达到开源模型最佳效果。同时推出腾讯 Hy 翻译小程序，支持语音输入、自定义翻译风格及离线翻译，iOS 与安卓 APP 即将上架。来源：腾讯混元

腾达Marvis正式上线，无需邀请码

腾讯操作系统级AI助手腾讯Marvis（马维斯）正式上线，官网开放Windows、Mac及安卓端下载，无需邀请码即可体验。产品由应用宝团队推出，内置6名24小时在线AI Agent，支持读取本地文件、操作电脑软件与手机App，具备系统级文件MCP服务。来源：IT之家

5月20·周三

谷歌I/O开发者大会推出AI全家桶

谷歌I/O 2026大会重磅发布：全新旗舰模型Gemini 3.5 Flash速度达竞品4倍；全能模型Gemini Omni Flash亮相，支持自然语言对话改视频；谷歌搜索迎来25年来最大升级，AI Mode月活突破10亿；联合三星及Gentle Monster、Warby Parker推出AI眼镜；Antigravity 2.0开发平台、个人智能体Gemini Spark等同步登场，谷歌正式迈入智能体驱动的Gemini时代来源：智东西

阿里千问推出新一代旗舰模型 Qwen3.7-Max

阿里通义千问推出旗舰模型 Qwen3.7-Max，定位面向智能体时代的全能基座。模型在编程、办公自动化与长周期自主执行方面表现突出，曾在 35 小时、超 1000 次工具调用的内核优化任务中实现 10 倍加速。基准测试显示，模型在 SWE-Pro、MCP-Atlas 等多项智能体评测中领先同行。来源：千问大模型

阿里通义推出实时同声传译模型 Qwen3.5-LiveTranslate

阿里通义千问推出实时同传模型 Qwen3.5-LiveTranslate，支持 60 种语言音频输入与文本输出、29 种语言音频输出，端到端字均延迟低至 2.8 秒。模型基于 Qwen3.5-Omni 架构，具备实时音色克隆能力，可保留说话人原声特征，内置 1000 个热词的行业术语翻译优化。来源：通义实验室

阿里云推出全新MaaS模型服务平台「千问云」

阿里云在2026阿里云峰会上发布为AI Agent而生的全新产品千问云，集成Qwen、DeepSeek、Kimi等150余款主流模型API。平台将模型服务全面Skill和CLI化，Agent一句指令可自动完成模型选型、调用与任务执行，无需人工编写集成代码。来源：阿里云开发者

智象未来推出旗舰级图像生成模型 HiDream-O1-Image-Pro

智象未来开源 HiDream-O1-Image-Pro，基于UiT原生全模态架构，将图像像素、文本与任务条件统一映射至共享token空间，抛弃传统VAE与分离编码器。在GenEval、DPG等基准刷新SOTA，Artificial Analysis竞技场排名第8，超越FLUX.2[Dev]等开源模型。来源：HiDream智象未来

微信读书官方推出 AI 助手扩展能力「微信读书Skill」

微信读书官方推出微信读书Skill，用户通过API Key绑定账号后，AI可调用个人阅读数据，实现查书架、搜书、统计阅读习惯、整理笔记及个性化推荐等六大功能。微信读书Skill支持部署至WorkBuddy等AI助手，安装后可用自然语言查询阅读记录，可批量导出划线笔记至Obsidian和Notion，让个人阅读数据真正被AI激活。来源：APPSO

5月19·周二

Lucius 完成数百万美元天使轮融资

Lucius 完成数百万美元天使轮融资，由明势创投领投，蓝狮资本担任独家财务顾问。Lucius 聚焦企业组织记忆缺失痛点，通过 AI Teammate 记录问题判断非仅存储答案，已服务 30 余家客户。典型案例 Dubbing AI 接入后社区自解决率从 29% 跃升至 88%。来源：Z Potentials

Cursor 上线自研 Agentic 编程模型 Composer 2.5

马斯克在X平台邀请用户测试Cursor最新版本模型Composer 2.5，模型部分调用Colossus 2训练而成。Cursor官方表示，模型基于月之暗面Kimi K2.5训练，重点提升长任务稳定性与复杂指令遵循能力。技术上采用基于文本反馈的定向强化学习，合成训练规模扩大至前代25倍，使用分片Muon与双网格HSDP优化训练效率。来源：IT之家

腾讯内测操作系统层个人 AI 助手腾讯Marvis

腾讯内测操作系统级 AI 助手腾讯Marvis，由应用宝团队开发，可在用户电脑本地部署 6 个 AI 智能体协同工作。产品支持自然语言指令完成文件管理、系统设置调整、跨模态内容检索及多任务自动化执行，采用云端效率与本地隐私双模式运行，敏感操作设 L2 级硬垂询确认来源：腾讯科技

5月18·周一

开源AI智能体OpenHuman连续霸榜GitHub Trending第一

OpenHuman连续霸榜GitHub Trending第一，获9k+ Star。OpenHuman无需用户调教，可一键连接118+服务（Gmail、GitHub等），每20分钟自动同步数据并构建卡帕西式本地记忆树，同时兼容Obsidian。工具内置TokenJuice技术能降低80% Token消耗，支持虚拟形象参会及后台自主执行。来源：量子位

xAI推出首款终端原生 AI 编程智能体Grok Build

xAI推出首款 AI 编程智能体Grok Build，对标Claude Code，支持并行Subagents、兼容现有工作流与MCP，具备计划模式与终端内图像视频生成能力，目前面向SuperGrok Heavy订阅用户开放。与此同时，xAI正经历动荡，马斯克将xAI并入SpaceX并更换logo。来源：量子位

LibTV 推出专业级 AI 视频协作工作台「LibTV团队版」

LibTV团队版正式上线，定位为AI视频专业级协作工作台。LibTV团队版提供专属项目空间、多人实时画布协作、统一资产库、分级权限管理、共享积分池及成员资产自动交接六大功能，面向AI视频工作室、短剧承制方、品牌市场部及企业内容团队。来源：哩布哩布AI

腾讯推出AI应用生成平台「吐司」

腾讯推出探索型vibe coding产品吐司，定位应用生成及灵感共创平台，用户无需代码基础，自然语言描述可让AI完成从功能拆解到App打包的全流程。产品支持创造应用、社交分享、灵感广场复刻创作及AI应用搜索，构建”想法→应用→分发→共创”闭环。来源：AI工具集

腾讯AI设计工具 Ardot 正式全面公测

腾讯AI设计工具Ardot正式全面公测，面向产设研团队开放。Ardot支持文/图生成UI设计稿、局部修改及批量图标，通过MCP协议实现设计稿一键转代码，兼容CodeBuddy、Cursor等IDE。产品具备多人协作、权限管理与开发者模式，深度兼容Figma且性能更优。来源：腾讯设计Ardot

5月15·周五

OpenAI Codex登陆ChatGPT手机App，所有用户都能用

OpenAI 宣布 Codex 正式登陆 ChatGPT 手机 App，iOS 与 Android 双端同步开启预览，免费用户也能使用。用户可随时随地在手机上审批代码、查看线程动态、批准命令或启动新项目，Codex 在本地或远程环境中持续运行，状态实时同步至移动端。OpenAI 同步推出远程 SSH 连接、程序化访问令牌、Hooks 及 HIPAA 合规支持，进一步扩展团队自动化与安全管理能力。来源：机器之心

月之暗面推出Kimi WebBridge，让 AI 帮你操作浏览器

月之暗面推出 Kimi WebBridge 浏览器插件，面向 Kimi Code、Claude Code、Cursor、Codex 等本地 AI Agent，让 AI 携带用户登录状态与 Cookie 直接操作浏览器，实现点击、滑动、输入、填表、跨站信息整合等自动化任务。用户只需在 Chrome/Edge 安装扩展并运行一条命令安装本地守护程序即可使用。来源：月之暗面 Kimi

阿里推出Qoder 1.0，从AI IDE升级为智能体自主开发工作台

阿里推出 Qoder 1.0，从 AI IDE 升级为智能体自主开发工作台。新版本推出 Quest 独立视窗，支持跨项目多任务并行；整合记忆、Repo Wiki 与知识卡片为团队级知识引擎，引入 Experts 专家团及自定义 Agent 团队。目前 Windows、macOS 和 Linux 全平台已开放下载。来源：阿里云

阿里云推出企业级AI建站平台万小智2.0

阿里云发布企业级 AI 建站平台万小智 2.0，启用全新升级品牌 LOGO 与虚拟人形象。新版本从单纯生成页面扩展为建站全链路覆盖：支持行业模板、参考网站一键搭建及专业需求文档生成；原生集成域名注册、ICP 备案、SSL 证书与一键部署，实现合规上线；配备可视化管理后台、智能问答与创意中心，交付可持续运营的线上阵地。来源：阿里云万网

墨刀AI上线AI生成App功能

墨刀AI正式上线AI生成App功能，用户一句话描述需求，AI会主动反问对齐产品定位、视觉风格等细节，智能选定Ant Design、Shadcn UI等主流设计系统，快速生成基于React/HTML代码的高保真App应用。生成的设计稿可一键切换查看前端代码，直接交付开发。来源：墨刀

5月14·周四

小米具身智能团队开源自动驾驶大模型 Xiaomi OneVL

小米具身智能团队开源Xiaomi OneVL一步式潜空间语言视觉推理框架。模型在业内率先实现 VLA、世界模型与潜空间推理的统一，兼具强悍推理能力与高速响应，精度超越显式 CoT，速度对齐潜空间 CoT 方案。在 ROADWork、Impromptu、Alpamayo-R1 等多项基准上达到 SOTA，提供语言与视觉双维度可解释性。来源：IT之家

Runway推出AI视频创作智能体Runway Agent

Runway正式推出Runway Agent，对话式AI视频创作智能体。用户仅需描述需求，Agent在单轮对话中完成从概念构思、故事分镜到视觉方向的全流程规划，自动生成包含多场景、配音、对白及配乐的高分辨率成品视频。来源：Runway

豆包输入法推出macOS版本

字节跳动旗下豆包输入法macOS版本正式上线，苹果电脑用户可通过语音实现”用嘴打字”。macOS版本基于豆包App同款语音模型，支持任意输入框实时语音转文字，边说边出字且无时长限制。功能上支持多种方言及中英混说，可智能修正语气词、语病和口误，能记住用户个性化改词习惯等。来源：豆包

5月13·周三

谷歌推出 Gemini 电脑 Googlebook，把 AI 塞进光标

谷歌在安卓Show大会上推出首款为Gemini量身打造的Googlebook笔记本，搭载智能光标并支持跨设备体验。同时发布安卓版Gemini Intelligence，支持跨App自动执行多步骤任务、Chrome集成Gemini插件、Rambler语音转文字及自定义桌面组件。谷歌还与苹果联手新增端到端加密RCS，预告下周I/O大会将抢先预览智能眼镜。来源：智东西

MiniMax 推出 MiniMax Agent 升级版 Mavis

MiniMax推出MiniMax Agent升级版Mavis，上线Agent Teams功能，支持多角色Agent并行协作，通过Owner、Worker、Verifier架构解决单Agent停摆、漂移等痛点；同时合并TokenPlan与Agent Plan，一份订阅打通CLI、API、Agent全链路，覆盖M2.7及音视频模型，Credits额度灵活共享。来源：MiniMax 稀宇科技

林俊旸创业，新公司估值约20亿美金

前阿里千问大模型技术负责人林俊旸已正式创业，聚焦世界模型与具身大脑。他已招募来自字节、腾讯及海外背景的核心成员，以约20亿美元估值启动融资，接触红杉中国、高榕创投等机构。此前，林俊旸因阿里云计划拆分Qwen团队离职，具身智能也是其在阿里未竟之业。来源：智能涌现

Claude Code 推出 Agent View，一个界面管理所有 AI 会话

Anthropic为Claude Code推出Agent View研究预览版，支持开发者在一个终端界面内同时调度、监控多个并行AI会话，无需多开窗口。用户可实时查看各任务状态，随时介入回复或切换会话且不丢进度。功能支持后台持续运行，将Claude Code从单线程对话工具升级为多任务”指挥中心”，适用所有付费计划。来源：AI工具集

5月12·周二

OpenAI推出AI网络防御工具Daybreak，斥资40亿美元成立新公司

OpenAI宣布成立OpenAI Deployment Company，获超40亿美元初始投资并收购英国AI咨询公司Tomoro，将150名前沿部署工程师嵌入企业，帮助客户将AI部署到销售、法务等核心业务流程，从模型提供商转型为AI经济部署层。同时推出AI网络安全工具Daybreak，整合最强模型、Codex及安全合作伙伴，自动化漏洞发现与修复，加速网络防御并持续保障软件安全。来源：机器之心

办公小浣熊桌面版 2.0 升级发布

商汤办公小浣熊桌面版2.0升级发布，从”桌面入口”转型为”执行助手”，新增六大能力：直接读取本地20+格式文件、一句话操控浏览器、⌘K全局快捷唤起、连接飞书/企微/钉钉、本地跨会话记忆、定时自动执行任务。现Mac端已开启首批内测招募，限时免费使用，Windows端预计5月中下旬上线。来源：商汤小浣熊

OpenBMB开源端侧多模态大模型MiniCPM-V 4.6

OpenBMB开源 MiniCPM-V 4.6 端侧多模态大模型，LLM 参数量仅 1.3B，模型总体积约 1.6GB，最低 6GB 内存即可流畅运行。模型基于 llama.cpp 框架，完整支持 iOS、Android、HarmonyOS NEXT 三大平台纯本地离线部署，具备图像理解、OCR、视频理解等多模态能力。来源：AI工具集

码上飞全新升级！不仅做APP，还能帮你做生意

码上飞宣布全新升级，进化为”用AI帮你做生意”的一站式平台。用户用中文可一句话生成微信小程序、App及网站。新版本为每个应用自动配备专属AI员工，支持内容创作、客户回复、数据分析等运营。同时自动生成管理后台集中管理订单、商品与经营数据，助力个人及小团队零门槛跑通业务。来源：码上飞-CodeFlying

阿里千问与淘宝全面打通

千问APP与淘宝全面打通，用户更新至6.9.1版本后，可在千问内直接完成商品挑选、对比及下单。依托AI能力，千问支持复杂条件精准筛选、模糊需求智能理解、场景化商品组合推荐，能识别”智商税”理性劝退，实现从搜索到购买的全链路AI购物体验。来源：千问APP

5月11·周一

Uncharted Dynamics 获数百万美元融资

具身智能底层基础设施公司 Uncharted Dynamics 完成数百万美元种子轮融资，由险峰长青领投。公司聚焦高精度多体动力学求解器研发，为具身智能提供物理层面的”真值地基”，解决现有仿真系统在刚柔耦合、柔性接触等复杂交互中物理失真、导致模型难以迁移至现实的问题。来源：Z Finance

中国移动推出MoMA大模型聚合平台与MobileClaw智能体框架

2026移动云大会在苏州召开，中国移动围绕”算力新动能、智能新空间”为主题，设8大分论坛及8000㎡展区，吸引超10万人次观展。中国移动发布三大首创：桌面级AI办公智能体MobileClaw、大模型聚合平台MoMA、支持电话交互的移动AI云电脑，和AI-eSIM卡及万亿级Token服务体验包，布局吉瓦级AI数据园区。来源：中国移动

火山引擎推出Agent套餐包「Agent Plan」

火山引擎正式推出Agent套餐包Agent Plan，首次将多模态模型与Harness工具深度整合。套餐聚合字节跳动自研的Doubao-Seed、Seedance、Seedream系列及GLM-5.1、Kimi-K2.6等主流模型，内置联网搜索、embedding等工具，适配Claude Code、OpenClaw等平台。来源：火山引擎

谷歌云智能体开源官方命令行工具agents-cli

谷歌云智能体开源官方命令行工具agents-cli，专为简化企业级 AI Agent 从开发到部署的全生命周期设计。工具集成 Gemini CLI、Claude Code、Codex、Cursor 等主流编程 Agent，内置 Workflow、Scaffold、Eval、Deploy 等7个技能包，支持本地模拟评估、自动化部署至 Cloud Run/GKE，提供人工模式随时接管流程。来源：AI工具集

QClaw上线文件空间功能，QClaw×腾讯文档× ima全面互通

腾讯QClaw正式上线「文件空间」功能，一次授权可打通本地文件、腾讯文档与ima知识库。用户可直接在QClaw内调用腾讯文档和ima资料让AI处理，生成内容后一键保存为腾讯文档并生成协作链接，或沉淀回ima知识库。实现从资料调取、AI加工到团队协作的全流程闭环。来源：腾讯云

5月9·周六

阶跃星辰推出实时语音大模型StepAudio 2.5 Realtime

阶跃星辰正式推出新一代实时语音大模型StepAudio 2.5 Realtime，模型具备三大核心能力：顶级副语言能力，可精准感知语调、语速、停顿等情绪细节；千万人设自定义，支持从性格到口癖的精细调节，打造专属AI角色；对话双商领跑，在情商与智商上双重进阶。来源：阶跃星辰

百度推出旗舰大语言模型文心 5.1

百度文心 5.1正式上线，总参数压缩至文心 5.0 的约 1/3、激活参数约 1/2，预训练成本仅为业界同规模模型的 6%。模型在 Arena 搜索榜以 1223 分位列全球第四、国内第一，Agent 能力超越 DeepSeek-V4-Pro，AIME26 数学竞赛得分 99.6 仅次于 Gemini-3.1 Pro。来源：百度文心

蚂蚁百灵推出万亿级旗舰思考模型Ring-2.6-1T

蚂蚁百灵正式推出Ring-2.6-1T，模型采用万亿级参数规模，在推理、编程、多模态理解等能力上实现显著提升。百灵团队通过创新的训练架构优化，在保证模型性能的同时有效降低推理成本。Ring-2.6-1T 已面向开发者和企业用户开放 API 调用，支持文本、图像、代码等多种任务场景，进一步丰富国内大模型生态的选择。来源：百灵大模型心

通义灵码推出RepoWiki功能，一键生成结构化知识文档

通义灵码推出RepoWiki功能，支持为代码库自动生成覆盖模块关系、接口定义与实现逻辑的结构化知识文档，解决 AI 编程工具碎片化理解代码的痛点。RepoWiki支持全量生成、增量更新与 Git 目录同步，Wiki 文件可随代码提交实现团队共享。Repo Wiki 目前处于 Beta 阶段，面向企业标准版与专属版用户开放免费体验，来源：灵码Lingma

OpenAI推出网络安全专用模型GPT-5.5-Cyber

OpenAI 宣布推出GPT-5.5-Cyber限量预览版，优先向经过审核的网络防御者开放。模型基于 Trusted Access for Cyber（TAC）框架，在 GPT-5.5 基础上降低安全相关任务的拒绝率，支持漏洞验证、恶意软件分析等防御工作流，同时保留对恶意活动的防护。来源：OpenAI

5月8·周五

OpenAI 推出三款实时语音模型

OpenAI推出三款实时语音模型：GPT-Realtime-2具备GPT-5级推理与工具调用能力；GPT-Realtime-Translate支持70多种语言实时互译，每分钟成本仅约0.25元，较人类同传降低百倍；GPT-Realtime-Whisper实现低延迟语音转录。三模型均通过Realtime API开放，端到端处理保留语调情感。来源：openAI

商汤推出轻量化多模态智能体模型SenseNova 6.7 Flash-Lit

商汤推出新一代轻量化多模态智能体模型SenseNova 6.7 Flash-Lite，采用原生多模态架构实现”看、想、做”一体化，Token 消耗较纯文本智能体直降 60%，在多项权威智能体基准测试中获同级别 SOTA。同时同步推出 SenseNova Token Plan 限时免费，支持每 5 小时 1500 次调用。来源：商汤科技SenseTime

美团推出 AI 原生共生社区「觅游」

美团推出 AI 原生社区觅游并开启公测。产品定位为面向大模型与 Agent 的共生社区，首创养虾模式，用户饲养的 AI Agent 虾可协助寻找赚钱机会、结识伙伴。目前平台已入驻超 3000 个 Agent、汇聚 4 万余项 Skill。来源：AI工具集

360旗下AI办公平台推出AI PPT工具JJT

360集团旗下360 AI办公平台推出 AI PPT 工具 JJT，支持一句话生成、文档/大纲转 PPT、长内容总结汇报等创作模式，兼容 PDF、DOC、PPTX 等十余种格式上传。工具智能编辑能力涵盖一键换风格、精准配图、电影级转场、数据转图表及 AI 撰写演讲稿，支持 PPTX、HTML、PDF 多格式导出。来源：AI工具集

共绩科技完成近亿元Pre-A轮融资

共绩科技宣布完成近亿元Pre-A轮融资，由春华创投、彼岸时代联合领投。公司独创”电网式算力调度网络”，整合全球闲时、异构算力资源，通过AI算法实现供需动态匹配，让算力像电力一样按需取用、按量计费。平台已服务超5000家团队及企业，帮助客户降低算力成本超50%，典型客户包括LiblibAI、Remy等。来源：共绩算力suanli.cn

OpenAI推出Codex Chrome扩展插件

OpenAI 正式推出Codex Chrome扩展插件，支持 Codex 直接操作用户已登录的 Chrome 浏览器，包括读取打开标签页、页面内容及已登录网站信息，支持导航、点击、输入和截图等交互操作。用户可随时停止任务并在设置中管理访问权限，与新网站交互前需经确认。来源：AI工具集

5月7·周四

Anthropic与SpaceX达成合作扩容算力

Anthropic 在 Code with Claude 开发者大会连放数招：Claude Code 调用限额翻倍至 10 小时并取消高峰削减，Claude Opus API 速率限制大幅放宽；托管智能体新增多智能体编排、目标结果与自主推演三大能力；Claude Code 更新远程控制、无闪烁渲染等十余项功能，同时与 SpaceX 达成算力合作。来源：智东西

月之暗面 Kimi 完成新一轮约20亿美元融资

月之暗面（Kimi）完成约20亿美元D轮融资，投后估值突破200亿美元，创中国大模型最大单笔融资纪录。本轮由美团龙珠领投，中国移动等参投，累计融资超44亿美元居国内大模型创业公司之首。公司4月年度经常性收入超2亿美元，并发布开源旗舰模型Kimi K2.6。来源：智东西

大基金领投DeepSeek，估值接近450亿

据《金融时报》报道，国家集成电路产业投资基金（大基金）正洽谈领投 DeepSeek，本轮估值接近 450 亿美元（约 3067 亿元），较半月前 200 亿美元翻倍。创始人梁文锋或亲自跟投，腾讯、阿里亦在洽谈参投。大基金此前从未投资 AI 大模型公司，DeepSeek 为首家。来源：智东西

字节跳动推出统一多模态模型Mamoda2.5

字节跳动开源全球首个25B级统一多模态模型Mamoda2.5，基于Qwen3-VL-8B架构，总参数250亿每次仅激活约3亿。模型实现了文生图、文生视频、视频编辑等全任务SOTA，推理速度比阿里Wan2.2快12倍、比美团LongCat Video快18倍，视频编辑延迟仅9.2秒。模型在多项视频编辑基准测试中排名第一，性能接近闭源Sora和Kling。来源：AI工具集

无问芯穹再获超7亿融资

无问芯穹宣布再获超7亿元融资，由杭州高新金投集团和惠远资本联合领投，持续稳居中国AI原生基础设施公司融资规模之首。公司首发”AI生产力公式”，定位Token经济枢纽，其Agentic MaaS平台日均Token调用量较去年底增长超20倍。来源：无问芯穹

OpenAI开放超大规模AI训练网络协议MRC

OpenAI 联合 AMD、博通、英特尔、微软、英伟达五大巨头推出多路径可靠连接（MRC）协议，通过 OCP 向全行业开源。MRC 基于 RoCE 扩展，采用多平面网络设计与自适应数据包喷淋技术，将数据包分散至数百条路径并行传输，避免网络拥塞与热点，使故障恢复从秒级缩短至微秒级。来源：量子位

像素绽放PixelBloom 完成C轮融资

像素绽放PixelBloom完成C轮融资，由国科投资与商汤国香资本联合领投。公司从AI视觉表达平台全面跃迁为”AI办公解决方案Agent”，推出全球首个营销方案Agent”小方同学”，实现从”生成内容”到”交付结果”的质变。C端产品AiPPT已覆盖3000万用户，B端深度嵌入联想、华为等硬件生态及中信证券、安利中国等头部企业。来源：像素绽放PixelBloom

硅基流动跻身中国 MaaS 市场第一梯队

据IDC报告，2025年中国企业级MaaS市场规模达1944万亿Tokens，同比增长16倍。硅基流动作为唯一创业公司跻身公有云MaaS前四，与火山引擎、阿里云、百度智能云同处第一梯队，验证”第三类MaaS”模式价值。来源：硅基流动

5月6·周三

OpenAI推出ChatGPT新一代默认模型GPT-5.5 Instant

OpenAI 正式推出GPT-5.5 Instant ，取代 GPT-5.3 Instant 成为 ChatGPT 默认模型。模型主打更准确、更简洁、更懂你：医疗/法律/金融领域幻觉率下降 52.5%，数学竞赛得分大幅提升；回复更简短自然，减少格式堆砌。Plus/Pro 用户可调用历史对话和文件实现个性化回答，所有消费者版本将新增「记忆来源」功能供用户查看与管理。来源：APPSO

美国开发者开源DeepSeek版Claude Code，DeepSeek-TUI

美国开发者 Hunter Bown 推出的DeepSeek-TUI 近日在 GitHub 爆火，获 2.3k Star，被誉为”DeepSeek 版 Claude Code”。工具用 Rust 编写、支持MIT 开源，是专为 DeepSeek V4 优化的终端编程 Agent，支持文件操作、Shell 执行、Git 管理、MCP 接入等功能。来源：量子位

豆包测试增值付费服务，保留免费基础版

字节跳动旗下AI助手豆包推出付费订阅服务，分为标准版68元/月、加强版200元/月、专业版500元/月三档，同时保留免费基础版供日常使用。目前付费功能仍在测试阶段。据量子位智库数据，4月豆包APP日活突破1.4亿，环比增长21%，月下载量约5000万，稳居国内AI助手市场首位，断层领先千问、元宝等竞品。来源：量子位

ChatGPT上线广告主平台

OpenAI 宣布推出ChatGPT广告主平台，推出更灵活的购买方式。广告主现可通过电通、WPP 等代理商及 Adobe、Criteo 等技术伙伴购买广告，也可用美国地区测试中的自助 Ads Manager 直接投放。同时ChatGPT广告新增 CPC 竞价模式，上线转化 API 与像素追踪等测量工具。来源：OpenAI

讯飞智文推出Vision Agent模式，重构 AI PPT 生产流程

讯飞智文Vision Agent模式，重构AI在PPT生产链条中的角色。Vision Agent模式通过意图洞察、大纲构建、内容精炼与五步设计引擎，实现从被动生成到主动协同的转变，解决模板化、配图脱节等痛点。系统可联网搜索资料、自主推演页数结构、生成可编辑内容卡片，最终输出专业排版。来源：讯飞开放平台

5月3·周日

xAI 推出最新旗舰推理模型Grok 4.3

xAI 推出 Grok 4.3 模型，定位为务实过渡版本。模型 API 价格降低 40%-60%，输出速度达 196 Tokens/s，支持 100 万 Token 长上下文，在代理任务和办公辅助能力上提升明显，更擅长生成文档、表格和演示文稿。模型在 Intelligence Index落后于 GPT-5.5和 Claude Opus 4.7，复杂推理、事实核查稳定性不足，且幻觉率有所上升。来源：新智元

OpenAI Codex 推出宠物模式

OpenAI编程工具Codex推出宠物模式，用户可在桌面养一只「赛博桌宠」。输入 /pet 可唤醒电子宠物，支持实时显示 Codex 工作状态（运行中/等待输入/可复核）及进度提示，无需打开应用可查看工作进展。用户可通过 hatch-pet 技能自定义专属宠物形象。来源：IT之家

百度智能云推出AI短剧与漫剧创作平台Hogee

百度智能云推出一站式 AI 短剧创作平台Hogee，用户上传剧本或输入灵感后，AI 可自动生成角色、场景与分镜视频，覆盖从文本到成片的完整链路。平台支持 .txt/.docx/.pdf 等五种格式剧本上传，内置 OpenClaw 数字员工矩阵，提供社媒运营、营销素材、数据分析等能力。来源：AI工具集

DeepSeek 公布多模态模型技术报告

DeepSeek 在 GitHub 发布多模态大模型并公开技术报告，提出「基于视觉原语的思考」框架，将点、边界框等空间标记提升为推理「基本思维单元」，使模型具备精确空间指代与推演能力，突破传统链式思维在复杂空间参照任务中的瓶颈。模型架构紧凑、视觉标记效率高，在计数与空间推理基准测试中可与 GPT-5.4、Claude-Sonnet-4.6 等前沿模型匹敌。来源：IT之家

阿里通义开源大模型可解释性工具套件Qwen-Scope

阿里通义开源大模型可解释性工具套件Qwen-Scope，工具基于稀疏自编码器（SAE）技术，覆盖 Qwen3 及 Qwen3.5 系列共 7 个模型。Qwen-Scope可在推理阶段定向控制输出结果，用少量种子数据完成数据分类与长尾样本合成，支持定位异常特征优化语言混用和重复生成问题。来源：千问大模型

美国防部与7家AI公司签署机密系统部署协议

美国国防部发布声明，已与 SpaceX、OpenAI、谷歌、英伟达、Reflection、微软和亚马逊云（AWS）7 家领先 AI 公司达成协议，加速美军转型为「人工智能主导」的作战力量，增强其在所有战争领域的决策优势。标志着美军正式将顶尖民用 AI 技术深度纳入国防体系，推动 AI 在军事指挥、情报分析与作战决策中的规模化应用。来源：财联社

4月30·周四

阿里推出数字员工QoderWake和Qoder移动端两款Agent产品

阿里正式推出数字员工平台QoderWake及Qoder移动端。QoderWake采用Harness-First架构，具备多维度自进化能力，可将经验沉淀到记忆、技能等五个维度，解决通用Agent”做完即忘”问题。目前已上线”数字程序员”，在阿里内部实现全流程无人值守的根因分析与代码修复，将单条问题分析耗时从30分钟缩短至2分钟。来源：阿里云

蚂蚁百灵开源万亿级综合旗舰模型Ling-2.6-1T

百灵大模型Ling-2.6-1T正式开源面向复杂任务的万亿级综合旗舰模型。模型依托 MLA 与 Linear Attention 混合架构，以极低 Token 消耗实现高智效比，综合智能与 GPT-5.4（Non-Reasoning）同档。在 AIME26、SWE-bench Verified、BFCL-V4 等多个执行类基准上达到开源 SOTA，具备强 Agent 执行、代码生成与长上下文理解能力。来源：百灵大模型

腾讯混元开源手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit

腾讯混元开源手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit，将支持33种语言、1056个翻译方向的翻译大模型极致压缩至 440MB，无需联网可在手机本地运行。模型基于1.8B参数的Hy-MT1.5打造，采用Sherry稀疏量化技术（ACL 2026录用），翻译质量超越谷歌翻译等主流系统。来源：腾讯混元

宇树发布双臂人形机器人 ¥2.69万元起

宇树科技发布双臂人形机器人，起售价 2.69万元。产品具备15-31个总自由度，支持固定底座与移动底盘两种部署方式，配备高性能电机、减速器及传感器，搭载视觉双目模组与语音交互系统，头部算力达10TOPS。产品面向多场景落地，支持全栈开放的底层二次开发，定位为超快速部署的高性能双臂机器人解决方案。来源：Unitree宇树

4月29·周三

商汤开源日日新系列原生理解生成统一模型SenseNova U1

商汤正式开源日日新SenseNova U1系列原生理解生成统一模型。模型基于自研NEO-unify架构，摒弃传统拼接式设计，在单一架构内统一多模态理解、推理与生成。本次开源轻量版SenseNova U1 Lite，包含8B稠密网络与A3B MoE网络两个规格。在图像理解、生成编辑及视觉推理等多项基准测试中，达到同量级开源模型SOTA水平。来源：商汤科技SenseTime

阶跃星辰推出新一代图像生成编辑模型 Step Image Edit 2

阶跃星辰正式推出新一代图像生成编辑模型 Step Image Edit 2。模型仅3.5B参数，在实际表现中超越12B-20B级开源图像编辑大模型，单次生图只需0.5-2秒，在KRIS-Bench榜单轻量级图像编辑模型综合排名第一。模型支持图像生成与编辑、中英文渲染、局部编辑、视觉推理、风格迁移等功能，覆盖IP创作、海报设计、人像美颜等场景。来源：阶跃星辰

科大讯飞推出MoE架构大语言模型星火X2-Flash

科大讯飞星火X2-Flash正式推出并开放API。模型采用MoE架构，总参数30B，支持256K超长上下文，基于华为昇腾910B国产算力集群训练。在智能体与代码能力上大幅提升，经实测效果接近万亿级参数模型，Token消耗成本不到主流大模型的三分之一。模型已接入AstronClaw、Loomy等平台，兼容OpenClaw等主流Agent框架。来源：讯飞开放平台

蚂蚁百灵开源高效Instruct模型Ling-2.6-flash

蚂蚁集团旗下百灵大模型宣布 Ling-2.6-flash 正式开源，同步提供 BF16、FP8、INT4 等多精度版本，模型已上线 Hugging Face 与 ModelScope。模型总参数 104B、激活参数 7.4B，两周前曾以 Elephant Alpha 匿名身份登陆 OpenRouter，迅速获得开发者社区与行业用户的广泛关注。来源：百灵大模型

DeepSeek识图模式开启灰度测试

DeepSeek多模态”识图模式”已开启灰度测试，部分用户可在首页看到新入口。上传图片后，DeepSeek能像人一样理解画面中的物体与场景。实测显示，识图模式可准确判断动物品种、通过建筑与文字线索识别杭州灵隐寺给出精确坐标，还能识破视觉陷阱图片。来源：智东西

英国AI初创公司Ineffable，完成11亿美元种子轮融资

前谷歌DeepMind首席科学家、AlphaGo核心研发者David Silver创立的英国AI公司Ineffable完成11亿美元种子轮融资，估值达51亿美元，本轮融资由红杉资本与光速创投领投，英伟达、谷歌等参投，创欧洲史上最大种子轮纪录。公司致力于打造无需人类数据、通过自主实践探索知识的”超级学习系统”。来源：智东西

4月28·周二

微软 GitHub Copilot 宣布转向按量计费

GitHub Copilot宣布6月1日起转向按量计费，以AI Credits替代固定额度，按Token消耗计费。基础订阅价不变：Pro每月10美元、Pro+每月39美元，均含等值Credits，代码补全不消耗额度。企业版支持共享额度池，Business和Enterprise客户6至8月可获额外促销额度。年度用户维持原计费至期满。来源：IT之家

小红书首次公布「AI治理主张」

小红书首次公布「AI治理主张」，明确三大原则：欢迎创作者使用AI作为创意放大器；鼓励对AI生成内容主动标识，未标注者平台将统一添加标识；严守真实底线，坚决反对AI造假与侵权。平台将持续建设AI内容识别治理能力，同时上线AI笔记贴条提示的申诉通道，保障创作者权益，守护社区真实、公平、温暖的底色。来源：小红书

OpenAI 和微软联合宣布云合作独家限制正式解除

微软与OpenAI修订合作协议，解除云合作独家限制，OpenAI产品仍优先在Azure发布，且可通过任何云提供商向客户提供服务。知识产权授权从独家变为非独家，延至2032年。微软不再向OpenAI支付分成，OpenAI向微软的分成延续至2030年但设总额上限，与技术进展脱钩。微软同时获得独立追求AGI的权利。来源：APPSO

百度文库网盘联合推出通用智能体GenFlow4.0

百度AI DAY推出通用智能体GenFlow4.0，目前通用智能体GenFlow的月活用户已经突破1亿。新版本全面升级Office Agent，一句话即可生成PPT、处理Excel数据、撰写Word长文档；记忆中心支持自主规划与个性化记忆。同时深度兼容OpenClaw，实现手机电脑无缝协作与Skills跨平台迁移。来源：百度

阿里通义推出全新强化学习框架EAPO

阿里通义实验室推出全新强化学习框架EAPO（Evidence-Augmented Policy Optimization），引入”证据奖励”机制，将监督从答案下沉到证据提取过程，解决大模型长文本推理中”搜对却答错”的幻觉问题。框架基于Qwen3-30B的模型在多个权威长文本基准测试中表现优异，反超120B参数的GPT-OSS和Claude-Sonnet-4等大模型。来源：通义实验室

阿里QoderWork推出专家套件功能

阿里 QoderWork 正式上线「专家套件」功能，首批发布覆盖金融、法律、营销、财税、咨询、产品六大领域的 10 个预制套件，将专业知识、工作流程与数据连接器打包集成至 AI，用户无需编写 Skill 可一键调用、开箱即用。同时支持企业与用户自定义封装专属套件，实现业务配置与使用分离。来源：阿里云

4月27·周一

LibTV 全网首发上线HappyHorse 1.0视频模型

LibTV 全网首发新一代视频模型 HappyHorse 1.0，支持文生视频、图生视频及参考图生成三种模式，可输出 15 秒 1080P 多镜头叙事视频。模型具备自然语言视频编辑、电影级画面质感、智能分镜编排、音画同步生成及多风格还原能力，在人物动作自然度、微表情刻画和对话真实感方面显著提升。来源：哩布哩布AI

堆友第一时间上线HappyHorse 1.0视频模型

阿里巴巴旗下堆友平台上线 HappyHorse 1.0 视频模型，限时折扣低至 12 堆豆/秒，5 秒视频不到 1 元。用户登录官网点击「视频生成」入口即可体验，模型支持 3D 动画广告、无人机运镜、多人实景互动及氛围感镜头等场景，面向设计师、AI 爱好者等群体提供高性价比的视频创作能力。来源：堆友

DeepSeek API输入缓存降价90%

DeepSeek官方宣布全系API服务输入缓存命中价格降至原有价格的1/10。DeepSeek-V4-Pro缓存命中输入降至0.025元，DeepSeek-V4-Flash降至0.02元。Pro模型在5月5日前可叠加2.5折限时优惠。本次大幅降价为降低开发者调用成本，提升长上下文场景下的API使用性价比。来源：IT之家

小米开源 VLA 大模型 Xiaomi-Robotics-0 后训练全流程

小米机器人事业部开源 Xiaomi-Robotics-0 真机后训练全流程。基于预训练基座，用20小时任务数据可完成耳机收纳等高精度操作。团队通过异步推理、动作前缀及自适应加权、Λ型掩码、随机遮蔽三重策略，破解模型”偷懒效应”，实现动作连贯与视觉灵敏的平衡。来源：小米技术

灵光App推出体验世界模型功能

灵光App上线「体验世界模型」功能，首次将世界模型能力引入手机端。用户只需上传一张图片，选择「生成图中世界」或输入探索指令，可一键生成可交互的3D虚拟世界。进入场景后，可通过摇杆控制移动用第一人称视角自由漫步，像玩游戏一样沉浸式探索。来源：灵光App

星动纪元完成超2亿美元新一轮融资

具身智能企业星动纪元完成超2亿美元新一轮融资，由顺丰集团领投，红杉中国、IDG资本、中金资本等联合注资，多家产业方共同参与。星动纪元实现了具身行业首个PMF，已携手中国邮政、顺丰等落地10余个物流中心，部分场景作业效率超人类85%，将于2026年Q2开启千台级机器人批量交付。来源：星动纪元

阶跃星辰与腾讯云达成战略合作

阶跃星辰与腾讯云达成战略合作，双方将整合阶跃星辰端到端语音大模型与多模态理解技术，结合腾讯云基础设施及内容生态优势，共同加速大模型上车进程。合作聚焦智能座舱场景，打造免唤醒、连续对话、情绪识别的主动式AI交互体验，联动腾讯音乐、视频、地图等服务，实现车内服务闭环。来源：阶跃星辰

芒果传媒与爱诗科技达成战略合作

芒果传媒与爱诗科技签署战略合作协议，合作将以芒果全景工作站为载体，将爱诗科技AI视频大模型能力系统性接入芒果内容生态，推动AI技术在音视频创制、AI影游、IP开发等核心业务场景落地。双方将围绕内容生产、互动娱乐及内容全球化三大方向展开深度合作，探索AI视频在短剧、动画、综艺视觉及实时互动内容中的产业化应用。来源：爱诗科技 AIsphere

4月24·周五

DeepSeek推出DeepSeek-V4 预览版

DeepSeek全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源，包含deepseek-v4-pro 和 deepseek-v4-flash两个版本，均支持 1M 超长上下文。V4-Pro 在 Agent 编码、世界知识与推理性能上比肩顶级闭源模型；V4-Flash 用更低成本提供接近的推理能力。模型采用全新注意力机制与 DSA 稀疏注意力，大幅降低长上下文计算与显存开销。来源：DeepSeek

OpenAI 推出最新旗舰大模型GPT-5.5

OpenAI推出新一代旗舰模型GPT-5.5，定位”面向实际工作与智能体的新型智能”。模型与英伟达GB200/GB300 NVL72系统联合设计，在编程、知识工作及科学研究领域全面超越前代与Claude Opus 4.7。GPT-5.5打破”更强必更慢”定律，速度与GPT-5.4持平且token消耗更少。来源：量子位

讯飞Loomy全面开放，开启“外挂”办公模式

讯飞旗下AI办公助手Loomy宣布全面开放，无需邀请码可注册使用。Loomy已完成超5000个真实任务闭环，覆盖金融、电商、教育等20余个行业，新用户留存率达70%。本次升级推出三大核心能力：集成飞书、企微、钉钉CLI实现自然语言操控IM工具；PPT引导式创建，通过选择题生成专业演示文稿；支持多任务并行处理，提升办公效率。来源：讯飞开放平台

阶跃星辰推出新一代自动语音识别模型StepAudio 2.5 ASR

阶跃星辰推出新一代自动语音识别模型StepAudio 2.5 ASR。模型率先将大语言模型推理加速技术引入语音识别领域，基于ASR+MTP-5架构，实现推理速度提升400%、时延降低60%、峰值达500 tokens/s，成本直降80%。在多项中英文主流评测基准上达到SOTA水平，模型复用32K上下文窗口，单次可完整转写30分钟长音频。来源：阶跃星辰

阿里云推出企业级智能体构建平台JVS Crew

阿里云推出企业级智能体构建平台JVS Crew，以”被集成”为设计理念，帮助企业快速在现有App或SaaS中嵌入生产级AI Agent能力。平台补齐OpenClaw在企业级场景的短板，通过身份、内容、执行三道安全墙实现自主可控，提供全托管跨会话记忆、端到端可观测Trace及四级预算成本管控。来源：阿里云JVS Crew

4月23·周四

OpenAI 推出团队协作智能体Workspace Agents

OpenAI宣布在ChatGPT中推出Workspace Agents，支持团队创建协作智能体处理复杂任务和长周期工作流。Workspace Agents由Codex提供底层支持，具备文件处理、代码运行、工具调用和记忆存储能力，可7×24小时云端运行。系统支持Slack集成与定时调度。目前支持ChatGPT Business、Enterprise、Edu和Teachers计划。来源：IT之家

阿里通义开源稠密多模态模型Qwen3.6-27B

阿里通义千问团队开源Qwen3.6-27B，拥有270亿参数的稠密多模态模型。模型支持多模态思考与非思考模式，在智能体编程能力上实现旗舰级突破，于SWE-bench、Terminal-Bench等主要编程基准全面超越前代开源旗舰Qwen3.5-397B-A17B。作为稠密架构，模型无需MoE路由可部署，更便于广泛落地。来源：千问大模型

字节跳动推出新一代 3D 生成大模型Seed3D 2.0

字节跳动推出新一代3D生成大模型Seed3D 2.0，在几何与纹理两项核心指标上均达SOTA。模型引入Coarse-to-Fine两阶段DiT策略，解耦整体结构与精细细节，采用统一PBR生成架构结合MoE与VLM先验，大幅提升材质真实感。Seed3D 2.0拓展了部件级拆分、关节化建模及场景组合等下游能力，推动3D生成迈向”生产可用”。来源：字节跳动Seed

腾讯混元开源快慢思考融合的混合专家模型Hy3 preview

腾讯混元团队推出Hy3 preview大模型，是团队从预训练、强化学习到基础设施全面推倒重建后的首个成果。模型采用快慢思考融合的MoE架构，拥有295B总参数、21B激活参数及256K长上下文，是混元迄今最智能的模型。Hy3 preview在FrontierScience-Olympiad、IMOAnswerBench等高难度推理榜单表现突出，Agent与代码能力大幅提升，可一次性生成完整微信小程序。来源：腾讯

OpenAI开源隐私过滤模型OpenAI Privacy Filter

OpenAI开源OpenAI Privacy Filter模型，用于检测和编辑文本中的个人身份信息（PII）。模型总参数15亿，支持128K上下文，可在本地运行。模型基于双向token分类架构，能识别姓名、地址、邮箱、电话、账号、密码等8类隐私信息，在PII-Masking-300k基准上达96% F1分数。来源：AI工具集

阶跃星辰和千里科技达成全面战略合作

阶跃星辰与千里科技宣布达成全面战略合作，双方将共建「原生智驾基座模型」，从底层训练让AI直接理解复杂物理世界，突破物理AI能力边界。阶跃已在Agent基础大模型和全模态技术上深度布局，推出开源旗舰基座模型Step 3.5 Flash，在语音推理、自动驾驶评测等榜单取得领先。来源：阶跃星辰

Anthropic估值万亿美元

据《科创板日报》，AI初创公司Anthropic在Forge Global等未上市股权交易平台的估值飙升至约1万亿美元，超越OpenAI的8800亿美元。因买家竞相抢购Anthropic日益减少的二级市场股票，推动公司估值快速攀升。来源：财联社

4月22·周三

OpenAI正式推出图像生成模型ChatGPT Images 2.0

OpenAI正式推出ChatGPT Images 2.0（GPT-Image-2），是其首个具备思考能力的图像生成模型。模型在准确性、时效性、一致性和视觉连贯性上表现突出，仅凭简单提示词可生成以假乱真的App截图、TikTok视频界面、商品广告及论文海报等复杂图像，中文文字渲染能力显著提升。来源：量子位

马斯克600亿美元收购Cursor

马斯克旗下商业航天巨头SpaceX官宣与AI编程独角兽Cursor达成深度合作，计划今年晚些时候以600亿美元收购，如果最终不执行收购，可为合作支付100亿美元。双方将结合Cursor的领先产品与SpaceX百万H100等效算力的Colossus超算，共建世界最强编程AI。来源：智东西

AI互动内容社区Loopit完成1亿美元融资

AI互动内容社区Loopit母公司涌跃智能完成新一轮5000万美元融资，由全球头部手游厂商Garena领投，蓝驰创投等机构跟投，年内累计融资近1亿美元。Loopit由前百川智能联合创始人陈炜鹏创立，上线两月即登上Google Play全球总榜第8、娱乐榜第1，获马斯克点赞。来源：蓝驰创投

代号为 Elephant Alpha 的匿名模型正式揭晓：Ling-2.6-flash

蚂蚁百灵大模型团队推出Ling-2.6-flash，总参数 104B、激活参数 7.4B，采用 MLA+Lightning Linear 混合注意力与稀疏 MoE 架构。模型在4 卡 H20 环境下推理速度达 340 tokens/s，评测 Token 消耗仅同类约 1/10，在 BFCL-V4、SWE-bench Verified 等 Agent 基准达 SOTA。来源：百灵大模型

商汤绝影推出端侧多模态智能体基座大模型Sage

商汤绝影推出端侧多模态智能体基座大模型Sage，采用MoE架构（32B总参数/3B激活），为行业首款车端复杂智能体基座模型。在PinchBench评测中任务完成率达94%，超越Claude-Opus-4.6、GPT-5.4等全球一线云侧大模型。Sage已在英伟达Orin X平台实现部署，将于北京车展推出Sage Box，推动智能座舱向超级智能体进化。来源：绝影智能SenseAuto

4月21·周二

月之暗面开源Kimi K2.6，全面精进代码和 Agent 集群能力

月之暗面开源Kimi K2.6模型，具备行业领先的代码、长程任务执行与Agent集群能力。模型在Humanity’s Last Exam、SWE-Bench Pro等多项基准测试中成绩持平或优于GPT-5.4、Claude Opus 4.6等闭源模型。K2.6可连续编码13小时、修改超4000行代码，Agent集群支持300个子Agent并行完成4000个协作步骤，支持长达5天的持续自主运行。来源：月之暗面 Kimi

腾讯 QClaw 海外版正式开启内测

腾讯 QClaw 海外版正式开启内测，现已开放美国、加拿大、新加坡等多个国家和地区。产品主打零门槛、免部署、下载即用，支持通过 WhatsApp 或 Telegram 远程操控电脑完成报税、健身规划、社媒运营等任务。QClaw 海外版 99% 的代码由 QClaw 自主编写，用时 5 天。来源：腾讯

阿里通义一站式自动优化引擎 AgentScope Tune 正式升级

阿里通义实验室宣布专为 Agentic AI 打造一站式自动优化引擎 AgentScope Tuner 正式升级。产品提供 Prompt 调优、模型选择、强化微调三大能力，覆盖从研发初期轻量优化到后期深度调优的全周期需求。核心亮点包括 Agent 原生闭环、统一 API 设计范式、零代码改造成本。来源：通义实验室

4月20·周一

Anthropic推出AI原生视觉设计协作平台Claude Design

Anthropic推出AI原生视觉设计平台Claude Design，由Claude Opus 4.7驱动，直接挑战Adobe、Figma等传统设计软件。产品具备三大核心能力：自动提取品牌设计系统、支持文档/截图/代码库等多模态输入、设计稿一键生成可运行代码。消息发布后，Adobe、Figma、Wix等设计软件巨头股价集体闪崩。来源：量子位

阿里通义推出下一代旗舰模型Qwen3.6-Max-Preview

阿里通义千问推出下一代旗舰模型的早期预览版 Qwen3.6-Max-Preview。相比前代，模型在智能体编程、世界知识和指令遵循方面显著提升，斩获六项编程基准最高分。用户可通过 Qwen Studio 在线体验，或经阿里云百炼 API 调用，兼容 OpenAI 与 Anthropic 协议。来源：千问大模型

阿里通义推出端到端语音识别大模型Fun-ASR1.5

阿里推出端到端语音识别大模型Fun-ASR 1.5，单模型覆盖30种语言，支持自动语种切换与跨语言混说。模型覆盖中文七大方言体系，字错误率较上版下降56.2%，新增古诗词专项识别准确率达97%。Fun-ASR 1.5采用MoE架构，支持智能标点预测与数字、日期等文本归一化，现已上线阿里云百炼及魔搭社区。来源：千问大模型

4月17·周五

智谱AutoClaw上线自进化机制与Skill商店

智谱AI旗下AutoClaw（澳龙）正式上线自进化机制与Skill商店。自进化功能可自动识别用户纠正、偏好及失败教训，经审批后固化为永久记忆，实现Agent越用越懂用户。平台同步推出GLM Office Skills五件套，基于GLM-5.1支持PPT、Word等细分场景设计、智能自检与格式互转，可一键生成配套办公材料。来源：智谱

Anthropic 推出最新旗舰大模型 Claude Opus 4.7

Anthropic正式推出Claude Opus 4.7，定位为当前最强可广泛使用的大模型。核心升级聚焦复杂任务执行、高清视觉理解和长链路工作流稳定性。视觉能力实现质的飞跃，在XBOW测试中从54.5%跃升至98.5%接近满分；编程能力达SWE-bench 80.5%；百万Token长上下文BFS测试从41.2%提升至58.6%。来源：新智元

阿里通义开源Qwen3.6-35B-A3B，智能体编程“小钢炮”

阿里通义千问团队开源Qwen3.6-35B-A3B稀疏MoE模型，总参数350亿但激活仅30亿，专为智能体编程优化，性能大幅超越前代同时可媲美更大稠密模型。模型支持多模态推理、思考与非思考双模式，在代码生成、工具调用等基准测试中表现突出。来源：千问大模型

4月16·周四

全球首个云端沙箱 Hermes：MaxHermes 正式上线

MiniMax正式推出全球首个云端沙箱Hermes——MaxHermes，基于Hermes Agent构建的云端自我进化AI助手。产品核心创新为学习闭环机制：每完成复杂任务自动提炼可复用的Skills能持续自我迭代，配备持久化记忆与多子代理并行能力。产品零门槛部署，已打通飞书、钉钉、企业微信等IM渠道，支持Token Plan抵扣消耗。来源：MiniMax 稀宇科技

腾讯混元3D世界模型2.0发布：无缝对接游戏工作流

腾讯混元3D世界模型2.0（HY-World 2.0）正式发布并开源。模型支持文字、图片、视频等多模态输入，可一键生成、重建和模拟完整3D世界，支持导出Mesh/3DGS/点云等可编辑资产，无缝对接Unity/UE游戏引擎。相比1.0版本，2.0采用WorldMirror 2.0架构，画面精细度与真实感大幅提升，支持角色模式自由探索与物理碰撞。来源：腾讯混元

阿里推出可实时构建和交互的开放式世界模型产品 HappyOyster

阿里巴巴ATH创新事业部推出开放式世界模型产品HappyOyster，现已正式启动内测。产品支持实时构建与交互，提供”Directing”实时导演和”Wandering”世界漫游两种玩法，用户可在无限生成的视频流中创作或在延展空间中自由探索。目前官网已开放申请，用户可加入Waitlist获取首批内测资格。来源：HappyOyster

阶跃星辰推出新一代语音生成模型 StepAudio 2.5 TTS

阶跃星辰正式推出新一代语音生成模型StepAudio 2.5 TTS，具备全局语境控制、文中语境控制和零样本复刻三大核心能力。用户可通过自然语言精准调控语音情绪基调、语气节奏、停顿重音等细节，实现从”复现声音”到”创造表达”的跨越。模型支持任意音色零样本复刻，无需重新训练即可生成高品质语音。来源：阶跃星辰

智象未来宣布完成超5亿元新一轮融资

多模态生成式AI公司智象未来（HiDream.ai）宣布完成超5亿元新一轮融资，资金将用于原生全模态世界模型研发、企业智能体产品及全球市场拓展。公司开源模型HiDream-I1登顶Artificial Analysis榜单，开源下载量超200万次。目前产品覆盖3000万专业用户及4万多家企业客户，已形成商业营销、影视创作、社媒内容三大场景闭环。来源：讯飞创投

网易有道推出 AI 知识库工具”有道宝库”

网易有道正式推出首个AI知识库产品“有道宝库”。产品定位为”外接超级知识库”，支持文档存储、智能问答及一键生成PPT、播客脚本、研究报告等内容。核心场景包括：30分钟掌握陌生领域知识并生成20页PPT；5分钟自动梳理全年项目文档生成年度总结；上传名人传记可模拟”名人董事会”提供决策建议能生成播客。来源：网易有道

4月15·周三

百度文心开源文生图模型 ERNIE-Image

百度文心正式开源文生图模型 ERNIE-Image，仅8B参数达到开源SOTA水平，在文字渲染、复杂指令遵循等能力上媲美Nano Banana等商业闭源模型。模型24GB显存即可运行，支持中英日韩多语言精准字形生成，已上线ComfyUI并推出GGUF量化方案，相关权重与推理代码已在Hugging Face开源。来源：百度文心

阿里推出AI开发工具秒悟Meoo

阿里ATH事业群推出首款AI开发工具Meoo（秒悟）。产品集成千问、Kimi、GLM、MiniMax四大顶尖模型，内置阿里云数据库、存储等核心服务。用户无需编程基础，通过自然语言描述需求，最快1分钟可自动生成完整前后端代码，支持在阿里云一键部署上线。来源：阿里云

李飞飞旗下World Labs开源3D高斯溅射渲染引擎 Spark 2.0

李飞飞旗下World Labs开源3D高斯溅射渲染引擎Spark 2.0，支持通过WebGL2将超1亿splats的3D世界流式传输至桌面、手机及VR设备。引擎基于Three.js构建，采用连续型LoD高斯溅射树、渐进式流式加载和虚拟内存技术，实现超大规模场景在网页端的实时渲染，解决传统引擎仅支持单对象、缺乏动态动画及设备兼容性差等痛点。来源：量子位

Meta与芯片巨头博通宣布合作投入超1GW算力定制AI芯片

Meta宣布与芯片巨头博通签署五年长约（至2029年），初始投入超1GW算力用于定制AI芯片，扎克伯格宣称目标是”为数十亿人提供个人超级智能”。Meta计划两年内推出四代自研MTIA芯片（300/400/450/500），成立超级智能实验室，由Scale AI创始人Alexandr Wang担任首席AI官。来源：新智元

面壁智能推出专业级文档智能体工作台 Lantay

面壁智能推出专业级文档智能体工作台Lantay，现已进入公测阶段。产品借鉴Cursor设计理念，通过Vibedocing交互范式实现人机协同创作，采用导航区、工作区、对话区三合一布局。平台支持16种格式文件处理，单次可批量整合200个材料，单文件上限100MB。Lantay主要面向法律、金融、出版等高严谨行业的重度文档工作者。来源：面壁智能

4月14·周二

Seedance 2.0全面开放API服务

火山引擎正式上线 Seedance 2.0 API 服务，面向企业和个人开放视频生成能力。模型支持文、图、音、视频四模态输入，具备多模态内容参考与编辑能力，并建立肖像版权安全标准。目前已应用于影视文娱（如贾樟柯导演短片、春晚）、漫短剧、广告营销、AI工具、具身智能、自动驾驶等行业，助力创作效率提升。来源：火山引擎

MiniMax Agent 更新，重新设计 Agent 操作电脑的方式

MiniMax Agent 桌面端推出两项更新：Pocket 功能（Beta版）支持接入飞书、微信等主流 IM，用户可在聊天中直接指挥电脑执行任务并回传结果；Computer Use 功能让 Agent 可像人一样看屏幕、操作鼠标键盘，直接操控本地软件和系统设置。来源：MiniMax 稀宇科技

4月13·周一

MiniMax开源新一代自我进化AI模型 MiniMax M2.7

MiniMax正式开源MiniMax M2.7，成为首个由AI深度参与自我迭代的模型，支持构建复杂Agent Harness及Agent Teams等能力，在软件工程与办公场景表现优异。开源首日与华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA及Together AI、Fireworks等国内外芯片与推理平台完成适配。来源：MiniMax 稀宇科技

MiniMax推出全新AI音乐生成模型 MiniMax Music 2.6

MiniMax推出Music 2.6音乐生成模型，新增Cover功能可基于现有歌曲改编风格与编曲，同时优化国风乐器时序演进、中低频表现及人声自然度。模型首包延迟降至20秒内，支持BPM、调性、段落结构等精准指令控制。同步开源三款Music Skill供Agent调用。来源：MiniMax 稀宇科技

米哈游蔡浩宇AI公司推出首个AI视频模型LPM 1.0

米哈游创始人蔡浩宇的AI公司Anuttacon推出首个视频模型LPM 1.0。模型拥有170亿参数，支持实时生成能说话、唱歌、倾听并表达情绪的AI角色视频，可保持长时间身份一致性生成（支持22-48分钟视频）。技术上采用扩散Transformer架构与因果式流生成器，解决表现力、实时性与长视频一致性难题。来源：量子位

4月10·周五

阿里通义开源全模态知识库 RAG 框架 VimRAG

阿里通义实验室推出 VimRAG 框架，用动态有向无环图（DAG）替代线性上下文拼接，通过分支试错机制、视觉能量分配策略及图引导优化（GGPO），实现跨文本、图像、视频的精准检索与关联推理。实验显示，模型在Qwen3-VL-8B模型上准确率达50.1%，显著优于传统方案。来源：通义实验室

即梦推出 AI 原生动态叙事创作工具 Octo

即梦AI正式推出智能创作助手 Octo 小章鱼，以”Vibe Create”为核心理念，支持无流程束缚、无场景限定的自由创作体验。产品现已上线即梦官网开放内测申请，助力用户打破繁琐流程束缚，让创作回归纯粹自由的对话体验，随时随地轻松落地灵感。来源：AI工具集

4月9·周四

Meta 推出原生多模态大模型 Muse Spark

Meta超级智能实验室（MSL）推出首个模型 Muse Spark ，在Artificial Analysis跑分从Llama 4的18分跃升至52分，仅次于GPT-5.4和Gemini 3.1 Pro，推动Meta股价暴涨近10%。模型为原生多模态推理架构，具备视觉思维链、多Agent编排及”沉思模式”，在CharXiv视觉理解和HealthBench健康问答领域表现突出。来源：新智元

萌友智能 ropet 完成轮超千万美元融资

AI 陪伴机器人公司萌友智能 ropet 完成 A 轮超千万美元融资，由北京市人工智能产业投资基金、峰瑞资本等投资。ropet 桌面 AI 宠物售价约 2000 元，累计出货近 2 万台，90 天留存率达 80-90%，核心用户日均互动超 2 小时。产品主打”生物性”体验，通过性格养成、轻互动建立情感连接。来源：极客公园

字节跳动推出原生全双工语音大模型 Seeduplex

字节跳动Seed团队推出全双工语音大模型 Seeduplex，已在豆包App全量上线。模型基于”边听边说”框架，实现听说同步，具备精准抗干扰和动态判停能力，误回复率和抢话比例分别降低50%和40%，判停延迟减少250ms。评测显示模型对话流畅度提升12%，用户满意度提升8.34%，标志着全双工语音技术首次实现规模化落地。来源：字节跳动Seed

Claude推出企业级托管Agent服务 Claude Managed Agents

Claude推出企业级托管Agent服务 Claude Managed Agents，能帮助开发者快速构建和部署云托管Agent。产品提供生产级基础设施，包括安全沙箱、长时运行会话、多Agent协调和权限管理。Notion、Rakuten、Asana等企业已采用，实现10倍开发速度提升。产品按使用量计费，现已开放公测。来源：量子位

MiniMax 推出 MMX-CLI：为 Agent 设计的全模态命令行工具

MiniMax推出面向AI Agent的命令行工具 MMX-CLI ，支持在Claude Code、OpenClaw等环境原生调用其编程、视频生成、语音合成、音乐创作等全模态模型，无需适配接口或编写MCP Server。工具针对Agent优化，提供输出隔离、语义化状态码、异步任务控制等功能，可独立跑通”资料搜集-文案生成-语音合成-视频制作”完整自动化工作流，来源：MiniMax 稀宇科技

腾讯推出国内首个浏览器“龙虾” QBotClaw

腾讯上线国内首个浏览器AI Agent”龙虾” QBotClaw ，集成于QQ浏览器，零门槛免下载即可使用。QBotClaw支持一句话指令完成搜资料、写文案、监控热点、购物比价、整理桌面等复杂任务，可通过微信Clawbot远程操控电脑。QBotClaw具备浏览器上下文”记忆”与高精度网页识别能力，首期上线Mac版，Windows版即将推出。来源：QQ浏览器

4月8·周三

智谱开源新一代旗舰模型 GLM-5.1

智谱开源旗舰模型 GLM-5.1 ，为全球最强开源模型，可独立持续工作超8小时，自主完成复杂工程任务。模型代码能力在SWE-Bench Pro等基准测试中位列全球第三、国产第一，超越GPT-5.4与Claude Opus 4.6。实测可8小时构建完整Linux桌面系统、优化向量数据库性能近7倍、24小时迭代优化ML负载实现3.6倍加速。来源：智谱

爱诗科技推出全球首个影视行业大模型 PixVerse C1

爱诗科技推出首个影视行业大模型PixVerse C1，支持文生、图生、参考生、首尾帧生成及智能分镜，最高支持15秒1080P视频。模型具备多宫格分镜一键成片、复杂场景多角色精准调度、角色跨镜头一致性保持等能力，在打斗场面、特效渲染等工业级视效上实现突破。来源：爱诗科技 AIsphere

Anthropic推出最强模型 Claude Mythos，性能碾压 Opus 4.6

Anthropic推出最强模型Claude Mythos预览版，性能碾压Opus 4.6。模型能发现数千个高危漏洞，攻击能力超绝大多数黑客。模型因安全风险过高，暂不向公众开放，仅通过”Project Glasswing”向Amazon、Apple、Google等巨头及40多家基础设施企业开放，用于防御性安全加固。来源：量子位

4月7·周二

Karpathy推出自运行个人知识库 LLM Wiki

前OpenAI科学家Andrej Karpathy推出 LLM Wiki 知识库构建方案，引发社区热议。LLM Wiki提出在Agent时代只需分享”想法文件”，由Claude、Codex等Agent自动构建个人知识库。系统分原始数据、Wiki、Schema三层，通过数据摄取、查询、质量检查形成闭环，支持知识持续积累与自我增强，适用于研究、阅读、企业知识管理等场景。来源：机器之心

面壁智能完成新一轮数亿元融资

面壁智能完成新一轮数亿元人民币融资，由深创投与汇川产投联合领投，获评2026年中国独角兽企业。公司专注端侧大模型，践行”密度法则”，MiniCPM系列下载量突破2400万，已在长安马自达、吉利银河等汽车及智能手机、智能家居领域规模化落地。来源：面壁智能

OpenBMB开源语音合成模型 VoxCPM2

OpenBMB开源2B参数语音合成模型 VoxCPM2，采用无分词器扩散自回归架构，支持30种语言及中文方言，输出48kHz录音室级音质。模型首创Voice Design功能，可通过文字描述凭空创造声音；支持可控声音克隆与终极克隆模式。模型训练数据达236万小时，实时率低至0.13，采用Apache-2.0协议可商用。来源：AI工具集

字节跳动推出扣子2.5，开启全新 Agent World

字节跳动旗下扣子2.5正式上线，推出”Agent World”生态。新版本为 AI Agent 配备独立云电脑与云手机，支持 7×24 小时后台自主运行任务；集成视频创作、编程 CLI 及法律金融等行业专家技能；引入长期记忆系统，实现跨平台个性化协作。来源：扣子Coze

微软推出全球最精准转录 AI 模型 MAI-Transcribe-1

微软推出AI转录模型 MAI-Transcribe-1，在FLEURS基准测试中以3.9%字错误率宣称全球最精准，支持25种主要语言，在11种核心语言上登顶，性能超越Whisper-large-v3和Gemini 3.1 Flash。模型批量转录速度达Azure Fast服务2.5倍，定价每小时0.36美元，已在Microsoft Foundry平台开放使用，暂不支持实时转录和说话人分离功能。来源：IT之家

4月3·周五

谷歌推出 Gemma 4：同等规模下性能最强的开放模型

Google 推出 Gemma 4 系列开放模型，被称为”同等规模下性能最强”。模型包含 E2B、E4B、26B MoE 和 31B Dense 四个版本，专为高级推理和智能体工作流设计。31B 和 26B 模型在 Arena AI 排行榜上分别位列全球开放模型第3和第6位。全系支持多模态、长上下文及140多种语言，采用 Apache 2.0 许可开源。来源：谷歌开发者

Xiaomi MiMo Token Plan 全球发布

小米推出 Xiaomi MiMo Token Plan 订阅方案，采用统一Credit点数计费，取消5小时token使用限额。Token Plan提供Lite（¥39/月）、Standard（¥99/月）、Pro（¥329/月）、Max（¥659/月）四档套餐。方案适配Claude Code、OpenClaw等主流AI开发工具，用户可按需选择不同档位。来源：Xiaomi MiMo

OiiOii开放注册，史诗级更新+满血Seedance2.0

AI视频平台OiiOii正式开放注册，接入满血Seedance 2.0模型，无需排队可生成高质量视频。本次更新新增多宫格分镜预览，告别”抽卡”式创作；推出自由画布模式，支持模型直接选择；上线场景资产与设计师功能，配合人物资产确保画面一致性。同时新增”真人”画风等热门风格，全面提升创作体验与效率。来源：OiiOii AI

阿里通义推出AI视频生成模型 Wan2.7-Video

阿里通义实验室推出视频生成大模型Wan2.7-Video，支持全模态输入与”指令P视频”式编辑，可精准增删改视频元素、修改台词动作及机位。Wan2.7-Video支持最多5个主体特征一致性控制、故事板分镜、创意复刻与剧情续写。模型以”戏核”为驱动，实现智能剧情设计、40+种表情演绎及专业运镜。来源：通义实验室

4月2·周四

智谱推出GLM-5V-Turbo：多模态Coding基座模型

智谱推出GLM-5V-Turbo多模态Coding基座模型。模型原生融合视觉与文本能力，支持从设计稿、截图直接生成可运行代码，上下文窗口达200k。模型在多模态Coding、GUI Agent等基准测试中表现领先，深度适配Claude Code与AutoClaw等Agent框架，让AI Agent具备”视觉”能力。来源：智谱

阿里通义推出Qwen3.6-Plus：编码智能体能力全面跃升

通义实验室推出Qwen3.6-Plus模型，支持通过阿里云百炼 API 开放调用。模型聚焦编码智能体能力跃升，在代码生成、修复及终端自动化等场景表现更稳定，默认支持 100 万上下文窗口，多模态感知与推理能力同步增强。模型在国内同尺寸模型中编码智能体能力领先，前端开发、复杂文档理解等任务表现突出。来源：通义实验室

OpenClaw推出中国官方镜像站ClawHub镜像站

OpenClaw官方推出ClawHub镜像站，解决国内访问技能市场缓慢问题。镜像站由字节跳动BytePlus和火山引擎赞助基础设施，提供完整中文界面与数据同步，持续收录社区高质量Skill。用户可通过cn.clawhub-mirror.com直接访问，在OpenClaw中无缝调用各类Agent技能。来源：AI工具集

B 站推出 AI 视频创作工具updream

B站自研AI创作工具updream正式开启内测，面向UP主提供轻量化、智能化创作体验。产品采用定向邀请制，创作者需邀请码获得使用权限。updream具备三大核心能力：灵感生成与内容构思、智能剪辑与高效制作、个性化技能库与项目管理。来源：AI工具集

4月1·周三

OpenAI获1220亿美元史上最大单笔融资纪录

OpenAI完成史上最大单轮融资1220亿美元，投后估值达8520亿美元，由亚马逊、英伟达、软银等领投。同时因日均成本高达100万美元且用户留存低迷，OpenAI关闭了视频生成产品Sora。标志着公司战略从惊艳Demo转向务实商业化，聚焦文本模型、代码生成和企业服务等稳定现金流业务，为IPO铺路，意图成为AI基础设施层。来源：APPSO

通义实验室推出AI图像生成与编辑模型Wan2.7-Image

通义实验室推出AI图像生成与编辑模型Wan2.7-Image ，主打”人更真、字更稳、色更准”。模型支持深度自定义虚拟形象，避免”AI标准脸”；支持4000超长字符及多语言、表格、公式稳定生成，解决乱码痛点；新增”色彩控制调色盘”，可通过Hex色值精确控制品牌色，确保设计符合VI规范。来源：通义实验室

美团 LongCat 团队推出语音合成模型LongCat-AudioDiT

美团LongCat团队推出LongCat-AudioDiT语音合成模型，实现零样本音色克隆SOTA性能。模型直接在波形潜空间进行扩散生成，摒弃传统梅尔频谱中间表示，避免信息损失。LongCat-AudioDiT提出双重约束对齐(DCA)和自适应投影引导(APG)两项关键技术，修复训练-推理不匹配问题并缓解过饱和。来源：龙猫LongCat

PixVerse推出三项更新：快应用、团队版与CLI工具

爱诗科技闪电发布周 Day 2 PixVerse 推出三项更新：快应用、团队版与CLI工具。快应用首批上线”广告大师”，支持商品图一键生成广告视频；团队版支持2-100人协作，提供共享积分池、四级权限及独立空间；CLI工具让开发者通过命令行调用视频生成能力，接入自动化工作流与AI Agent，推动AI视频创作向完整系统升级。来源：爱诗科技 AIsphere

昆仑万维推出AI短剧创作平台「天工短剧工作台」

昆仑万维推出「天工短剧工作台」，基于多智能体协同，融合Seedance、SkyReels、可灵、Vidu四大视频模型。平台提供传统分镜与智能分镜两种模式，支持资产提取、角色多视图推理、一键成片，实现”输入剧本→直达成片”的工业化流程，解决AI短剧创作周期长、成本高、一致性差等痛点。来源：昆仑万维集团

3月31·周二

爱诗科技推出AI视频模型PixVerse V6

爱诗科技”拍我AI闪电发布周”首日推出PixVerse V6。新版本在人物真实感、复杂运动、物理模拟与声画协同等方面全面升级，生成时长最长可达15秒。PixVerse V6重点优化人物皮肤纹理与情绪表达，增强高速运动场景稳定性与物理属性模拟，支持镜头间运动惯性与光影连贯性，降低创作门槛，可通过简短提示词生成复杂特效。来源：爱诗科技 AIsphere

「Kimi 开放平台」官网域名更新了

Kimi开放平台官网域名更新，即日起用户可通过 platform.kimi.com 访问Kimi开放平台，使用Kimi API创建应用。用户可像之前一样正常登录和使用，无需额外操作。来源：Kimi开放平台

腾讯WorkBuddy小程序上线，支持”云端+本机”双模式运行

腾讯 WorkBuddy 微信小程序正式上线，支持”云端+本机”双模式运行。用户可通过手机语音、拍照、传文件等方式派活，AI 在云端沙箱或本地电脑远程执行，生成文档、PPT、视频等产物可一键下载转发。小程序内置 GLM-5.0、Kimi-K2.5 等多模型，支持灵活切换和定时任务，实现”手机遥控，电脑/云端干活”的移动办公体验。来源：腾讯云

企业微信官方开源命令行工具wecom-cli

腾讯宣布企业微信CLI项目wecom-cli开源上架GitHub，开放消息、日程、文档、智能表、会议、待办、通讯录七大核心能力，支持Claude Code、QClaw等主流AI Agent调用。开发者可快速开发办公场景AI应用，实现消息收发、文档编辑、会议预定、待办管理等功能。来源：IT之家

3月30·周一

昆仑万维推出”天工AIGC全家桶”三大核心模型

昆仑万维在2026中关村论坛发布”天工AIGC全家桶”三大核心模型：Matrix-Game 3.0游戏世界模型、SkyReels V4视频模型、Mureka V9音乐模型，均跻身世界第一梯队。同时发布”3+1″战略，以4个SOTA大模型为底座，支撑DramaWave短剧、Mureka音乐、猫森学园游戏三大AI原生平台及Skywork超级智能体操作系统。来源：昆仑万维集团

阿里通义推出全模态大模型Qwen3.5-Omni

阿里通义推出Qwen3.5-Omni全模态大模型，在215项音频及音视频任务中取得SOTA，全面超越Gemini-3.1-Pro。模型采用Thinker-Talker分工架构与Hybrid-MoE技术，原生支持文本、图像、音频及音视频输入，具备细粒度音视频Caption生成能力。新增语义打断、音色克隆、语音控制等实时交互功能，支持256K超长上下文、113种语言识别及10小时音频处理。来源：通义实验室

中国移动推出移动云 MobileClaw 开启公测

中国移动移动云开启桌面级AI办公智能体移动云 MobileClaw公测（3月24日至4月24日）。产品深度兼容OpenClaw生态，依托万卡智算集群打造，主打”本地优先、隐私至上”，核心数据本地存储，对话不上云，适配Windows和Mac系统，支持写代码、做报表、管邮件等全场景办公功能。来源：AI工具集

智谱GLM-5.1已面向所有Coding Plan用户开放

智谱宣布GLM-5.1模型已向所有Coding Plan用户（Lite/Pro/Max三档）开放。模型定位代码生成与编程辅助，覆盖从个人开发者到企业团队的多元需求。全面开放标志着智谱在AI编程助手领域的进一步布局，将与GitHub Copilot、Cursor等工具展开竞争。来源：智谱

3月27·周五

谷歌推出Gemini 3.1 Flash Live实时语音模型

谷歌推出Gemini 3.1 Flash Live模型，是其最高质量的实时语音模型，已在Gemini App、Search Live及Google AI Studio开放。模型核心升级包括：语音可直接驱动应用开发（vibe coding），上下文窗口扩大2倍，支持200+国家多语言实时交互。在ComplexFuncBench音频测试中函数调用准确率达90.8%，显著优于前代。来源：智东西

商汤科技推出商汤输入法AudioClaw和SenseAudio AI语音开放平台

商汤科技于3月27-29日亮相上海全球开发者先锋大会，推出商汤输入法AudioClaw及SenseAudio AI语音开放平台。AudioClaw集成语音输入、AI会议助理、知识库等功能，支持微信接入和语音交互。SenseAudio提供70+精品音色及ASR、TTS、文生图/视频等能力。来源：商汤科技SenseTime

Suno推出 AI 音乐生成模型Suno V5.5

Suno推出Suno V5.5Suno推出Suno V5.5，模型首次引入”个性化资产”体系，推动AI音乐从生成工具迈向创作平台。新增 Voices 声音定制、Custom Models 自定义模型和 My Taste 个性化推荐三大功能。同时优化工作流，支持音轨分离、部分替换等编辑功能，音质与情感表达显著提升。来源：AI工具集

字节跳动 Seedance 2.0 正式出海，面向全球多地推出

字节跳动旗下剪映（CapCut）宣布推出CapCut Video Studio，集成Dreamina Seedance 2.0音视频模型正式出海。产品无需时间轴即可在无限画布上完成从构思到导出的全流程视频创作，支持最长15秒视频和6种宽高比，已覆盖非洲、南美、中东和东南亚地区。来源：IT之家

3月26·周四

谷歌推出AI音乐生成模型 Lyria 3 Pro

谷歌推出旗下先进AI音乐生成模型Lyria 3 Pro，较前代在生成结构和长度上大幅提升。模型可精准处理前奏、主歌、副歌、桥段等编曲要素，支持生成最长约3分钟的完整音轨。模型不会直接模仿特定艺术家风格，训练数据仅使用合法授权内容，且所有生成音频均嵌有SynthID数字水印。来源：IT之家

美团龙猫团队开源多模态大模型LongCat-Next

美团龙猫团队推出LongCat-Next多模态模型，核心创新为LoZA稀疏注意力机制。模型支持1M超长上下文，通过智能筛查将50%低重要模块替换为流式稀疏注意力，实现128K解码速度提升10倍、算力节省30%。模型包含Flash-Exp和Flash-Lite两个版本，在长文本任务表现超越Qwen-3。来源：龙猫LongCat

3月25·周三

OpenAI宣布关停Sora，战略转向企业级生产力工具

OpenAI宣布关停Sora视频生成平台，包括App、API及ChatGPT视频功能。关停根本原因是OpenAI为筹备IPO进行的战略收缩，将算力转向下一代模型”Spud”及企业级生产力工具。同时OpenAI刚与迪士尼达成三年IP授权协议并获10亿美元投资意向，现已终止合作。来源：APPSO

阿里在海外推出”企业级龙虾”Accio Work

阿里在海外上线企业级Agent产品Accio Work ，定位”企业版龙虾”。用户只需提出想法，内置的AI Agent团队可7×24小时自动完成选品、采购、建站、运营等全流程，30分钟生成可运营的海外网店。产品支持单个Agent对话或Agent Team群聊模式，可自定义角色与技能，关键操作需用户授权保障安全。来源：量子位

JVS Claw全面开放，无需邀请码快乐养虾

阿里云JVS Claw全面开放公测，用户无需邀请码可访问使用。新版本新增语音输入、5GB专属文件空间、一键修复、Skill开关等功能，支持定时任务管理和Clawbot一键升级。新用户可享7天免费体验，付费版”匠心版”首月低至39元，用户无需购买Mac mini硬件或承担API费用可使用云端OpenClaw服务。来源：阿里云

MiniMax Office Skills：开源一套生产级办公文档引擎

MiniMax宣布开源一套生产级Office文档引擎MiniMax Office Skills，包含Word、Excel、PDF、PPT四大组件，采用MIT协议。方案能解决AI生成文档”能用但不好用”的痛点，确保公式、格式、数据透视表等高级功能完整保留。技术选型上，Word采用.NET OpenXML SDK非python-docx，Excel直接操作XML非openpyxl，换取更高保真度。来源：MiniMax 稀宇科技

3月24·周二

阿里达摩院祭出开源架构CPU王炸：玄铁C950

阿里达摩院推出新一代旗舰RISC-V CPU IP——玄铁C950，SPECint2006基准测试突破70分，成为全球最强RISC-V CPU。产品首次实现RISC-V CPU原生流畅跑通千亿参数大模型（Qwen3、DeepSeek V3），集成4K超宽Vector引擎和Matrix引擎，单核算力达8TFLOPS。来源：智东西

阿里通义推出PrismAudio：声画同频，音效随行

阿里通义实验室推出视频生成音频框架 PrismAudio，专注环境音/音效合成。模型首创将强化学习与思维链结合，通过”分解式思维链”让模型先分析视频内容、时序、音质、空间位置再生成音频，引入四位”老师”（语义、时序、美学、空间）分别打分优化。来源：通义实验室

智象未来推出首个多模态应用“龙虾”产品——HiDreamClaw

智象未来推出首个图片视频原生AI Agent产品HiDreamClaw，已接入旗下创意平台vivago web端面向海外用户开放。产品基于自研超百亿参数HiDream-I1多模态大模型，内置AIGC Skill，支持图片、视频、文字等多模态创作，集成Nano Banana、Veo、Sora等SOTA模型。来源：HiDream智象未来

Meta收编 AI 智能体公司 Dreamer

Meta收购AI创业公司Dreamer及团队，公司由前小米全球副总裁雨果·巴拉等人创立，能帮助用户创建AI智能体。Dreamer团队将加入Meta超级智能实验室，负责AI智能体研发。目前协议条款未披露，但投资方将获得高于投资额的回报，Dreamer保留独立法人实体地位，Meta获得非排他性技术许可。来源：IT之家

3月23·周一

MiniMax Token Plan：全球首个支持全模态模型的订阅计划

MiniMax推出全球首个支持全模态模型的订阅计划Token Plan，在原Coding Plan基础上新增视频、语音、音乐、图像等多模态模型调用能力，一个Key可满足代码编写、内容创作、视频生成等需求。同时推出语音/视频资源包可节省20%成本。来源：MiniMax 稀宇科技

美团开源LongCat-Flash-Prover数学证明模型

美团开源LongCat-Flash-Prover 大模型，采用 5677 亿参数 MoE 架构，专注解决复杂数学证明问题。模型引入混合专家迭代框架，整合 Lean4 与 AST 多阶段严格验证，有效消除幻觉。在 MiniF2F-Test 上取得 97.1% 成绩，PutnamBench 解决 41.5% 问题，两项测试均刷新 SOTA 水平。来源：AI工具集

腾讯推出AI设计工具Ardot，即将开启公测

腾讯推出自研AI设计工具Ardot，能帮助设计师从”做图的”回归”设计师”角色。Ardot旨在成为”最懂设计师的小助手”，承担重复性工作，如自动整理图层、智能调整细节，让设计师专注于创意与洞察，实现灵感更快落地。来源：腾讯设计Ardot

百度推出首个国产企业级满血版OpenClaw「DuMate」

百度智能云DuMate（中文名：搭子）正式上线，成为国内首个企业级满血版OpenClaw产品。产品用自然语言为交互入口，支持Word、Excel、PPT等办公软件的原生操作，具备文件智能管理、多源数据分析、办公操作自动化三大核心功能。DuMate内置百度搜索等Skills全家桶能力，支持灵活扩展。来源：百度

微信推出官方龙虾插件微信ClawBot

微信正式推出微信ClawBot插件，支持接入 OpenClaw（龙虾）。用户通过「我-设置-插件」获取安装指令，扫码可将龙虾连接至微信，实现聊天式远程操控。目前插件逐步放量中，需更新至微信最新版本。同时，腾讯云 Lighthouse（含企业版 Claw Pro）、自研 WorkBuddy、本地 QClaw 等也已支持微信通道。来源：腾讯

智谱推出成长型 AI 生命体GLM-Claw

智谱推出GLM-Claw智能体，支持打造一群”懂你的AI虾兵”协助处理各类事务。产品定位为个性化AI助手团队，可协同完成复杂任务，提升用户工作与生活效率。通过多智能体协作机制，实现从单一对话向多任务处理的升级。来源：智谱清言

3月20·周五

Cursor推出AI编程模型Composer 2

Cursor正式推出Composer 2，已在Cursor中上线。模型具备前沿级编码能力，定价为每百万输入token 2.50美元，在智能与成本之间实现最优平衡。在CursorBench测试中，Composer 2性能显著优于前代及竞品；在Terminal-Bench 2.0基准测试中得分61.7%，超越Opus 4.6（58.0%）和Composer 1.5（47.9%）。来源：Cursor

阿里推出Qwen3.5-Max-Preview最新一代旗舰模型预览版

阿里通义千问推出Qwen3.5-Max-Preview 预览版，模型在代码、数学、多语言理解等能力上实现显著提升。作为Qwen3.5系列旗舰模型，采用混合专家（MoE）架构，总参数量达235B，激活参数22B，在保持高效推理的同时实现性能突破。模型支持长达256K tokens的上下文窗口，擅长复杂推理和长文本处理。来源：千问大模型

商汤大装置×大晓机器人×广西产业技术研究院达成三方战略合作

商汤大装置、大晓机器人与广西产业技术研究院达成三方战略合作，共同赋能广西具身智能产业升级。三方将协同构建”算力—数据—模型—场景”四位一体产业闭环，依托”广西—东盟具身智能中试训练场”，打造专属算力调度平台、具身高质量数据集和规模化机器人应用场景，助力广西打造面向东盟的具身智能产业创新高地。来源：商汤科技SenseTime

腾讯QClaw全面开放，无需邀请码下载就能用

腾讯QClaw AI助手正式开启全量公测，无需邀请码即可下载使用。新版本打通微信、企业微信、QQ、飞书、钉钉五大IM平台，率先实现企业微信自动回复消息功能，可总结聊天内容、写文档、订日程等。新增「像素工作室」可视化界面，用像素风格展示AI工作状态；推出可视化定时任务功能，支持周期性任务管理与一键执行。来源：腾讯云

Vidu AI推出ViduClaw「V龙」智能体

生数科技旗下AI视频平台Vidu正式推出ViduClaw「V龙」智能体。产品定位为可商用的一站式AI视频Agent解决方案，支持”一键成片”功能——用户仅需上传一张产品图加一句话描述，或一个参考视频加一张图加一句话，可自动生成15-30秒完整广告片，涵盖分镜脚本、场景拆解、画面与配音同步输出。来源：Vidu AI

3月19·周四

小米推出三款面向面向 Agent 时代的大模型

小米连发三款面向Agent时代的大模型：MiMo-V2-Pro 旗舰基座模型，1T参数/42B激活，1M上下文；MiMo-V2-Omni 全模态Agent基座，融合文本/视觉/语音，支持GUI操作与工具调用；MiMo-V2-TTS 语音合成模型，支持多粒度情感控制、方言与歌声。三者分别以”Healer Alpha”和”Hunter Alpha”代号在OpenRouter匿名测试。来源：小米技术

阶跃星辰推出桌面端AI Agent「StepClaw」

阶跃星辰推出基于OpenClaw深度优化的桌面端AI Agent「StepClaw」，支持Windows和Mac双端，无需服务器和命令行可一键部署。产品接入拥有5000+创作者的「水产市场」生态，提供Skill、插件、触发器等应用资源，支持Agent自主进化、个性化换肤、经验沉淀分享等功能。数据本地存储保障安全，内置安全审查技术拦截恶意代码。来源：阶跃星辰

面壁智能推出开源智能体框架EdgeClaw

面壁智能联合清华大学、OpenBMB社区开源EdgeClaw框架，和开箱即用的智能硬件EdgeClaw Box——专为OPC（一人公司）及数据敏感企业打造。产品通过S1/S2/S3三级隐私路由机制，实现数据本地化处理、自动脱敏上云、断网运行等功能，集成MiniCPM端侧模型，支持零Token消耗处理简单任务。来源：面壁智能

3月18·周三

OpenAI推出GPT-5.4 mini和GPT-5.4 nano，实力逼近满血版

OpenAI最新推出GPT-5.4 mini与GPT-5.4 nano两款轻量级模型，GPT-5.4 mini在SWE-Bench Pro编码基准测试中取得54.4%成绩，比满血版GPT-5.4低3.3个百分点，运行速度较上一代提升2倍，同时支持40万token超长上下文，输入价格仅0.75美元/百万token，输出价格为满血版的三分之一。GPT-5.4 nano定位超轻量任务，价格仅为满血版1/12。来源：新智元

MiniMax推出MiniMax M2.7，开启模型的自我进化

MiniMax推出MiniMax M2.7模型，首次实现模型深度参与自我迭代。模型可构建复杂Agent Harness，通过Agent Teams、复杂Skills等能力完成高度复杂的生产力任务。在软件工程领域，M2.7在SWE-Pro基准测试中得分56.22%接近Opus水平，在VIBE-Pro端到端项目交付中达55.6%。在专业办公领域，GDPval-AA的ELO得分1495为开源最高。来源：MiniMax 稀宇科技

LiblibAI推出专业AI视频创作平台LibTV

LiblibAI推出首个同时面向人类创作者与AI Agent的专业视频创作平台LibTV，平台提供无限画布式工作流，支持剧本解析、分镜管理、角色三视图、多机位生成等20余种专业AI能力，集成豆包、可灵、Kimi等顶级模型。Agent可通过Skill接口调用LibTV，实现一句话生成5分钟短剧、音乐转MV、视频风格复刻等自动化创作。来源：哩布哩布AI

Midjourney推出Midjourney V8模型

Midjourney于3月17日正式推出Midjourney V8 Alpha测试版，带来革命性升级：模型生成速度提升约5倍，提示理解能力显著增强，文本渲染质量大幅改善，图像细节与连贯性全面提升。新增原生2K高清模式和增强连贯性模式，完美兼容V7个性化配置。官方建议采用长提示配合高风格化参数以发挥最佳效果。来源：AI工具集

Skywork正式推出云端AI原生助理SkyClaw

昆仑万维旗下Skywork正式推出云端AI原生助理SkyClaw，发布首批六大官方Skills，涵盖Skywork PPT、Document、Excel、Design、Search及Mureka Music Maker，用户可通过GitHub或Clawhub平台调用。SkyClaw基于开源架构OpenClaw深度重构，支持24/7云端持续运行，本地离线也能自动完成任务。来源：昆仑万维集团

百度推出“龙虾”全家桶，手机、电脑、家里都能用

百度AI DAY推出”龙虾”全家桶，全面布局OpenClaw生态。核心产品包括：桌面AI智能体DuMate、手机龙虾应用RedClaw、小度”家用小龙虾”、云端虾DuClaw及安全虾。百度搜索Skill在OpenClaw官方商店下载量超4.5万次，位居全球第一。来源：百度

3月17·周二

科大讯飞正式发布桌面级AI智能助理Loomy

讯飞开放平台推出基于AstronClaw的桌面级智能助理Loomy，产品主打本地办公场景，支持文件整理、数据分析、内容创作等任务，最快1分钟完成部署。Loomy采用”目录级隔离”安全机制，仅访问授权目录，并支持QQ、飞书、钉钉等IM工具远程操控。产品兼容OpenClaw技能体系及MCP协议，支持DeepSeek、MiniMax等主流模型切换。来源：讯飞开放平台

商汤办公小浣熊「技能模板」功能开启内测

商汤办公小浣熊正式推出技能模板内测功能，帮助用户避免重复数据分析工作。用户可创建、保存和复用自定义技能模板，提升办公效率。功能支持将常用分析流程标准化，实现一键调用。目前内测申请已开放，用户可前往官网体验。来源：商汤小浣熊

全球首个企业级Agent平台“悟空”来了

阿里巴巴正式推出全球首个企业级AI原生工作平台”悟空“。平台定位为独立应用，同时内置钉钉，支持连接企业钉钉账号及安全访问权限。悟空主打企业级安全，AI Agent自动继承企业权限规则，所有操作在安全沙箱中运行。来源：阿里巴巴

英伟达推出NemoClaw，全新Rubin算力狂飙35倍

英伟达GTC 2026大会推出”龙虾”NemoClaw——英伟达版OpenClaw，通过安全沙箱和本地模型部署，让企业安全使用AI Agent。老黄豪言2027年芯片营收剑指1万亿美元，宣称OpenClaw将成为”个人AI的操作系统”，开启GaaS新时代。来源：新智元

Manus桌面端推出My Computer功能，支持Mac 和Win系统

Manus桌面端正式推出”My Computer”可支持直接操作用户本地电脑。My Computer功能支持AI从云端沙箱进入本地环境，可读取编辑本地文件、启动应用程序、执行终端命令，实现文件自动整理、本地开发、利用闲置算力等场景。安全方面，每个终端命令都需用户明确批准。目前已支持macOS和Windows系统。来源：AI工具集

全球首个自进化个人AI ：MuleRun正式推出

全球首个自进化个人AI产品MuleRun（骡子快跑）正式发布。产品主打”0门槛”使用，无需部署安装，打开网页即可操作。MuleRun具备7×24小时云端持续运行能力，用户离线也能自动执行任务。产品核心特性包括自主进化、主动触达以及群体智慧共享，开放Agent网络生态，优质Agent可一键复用。来源：量子位

3月16·周一

智谱推出GLM-5-Turbo：龙虾增强的基座模型

智谱发布GLM-5-Turbo龙虾增强基座模型，专为OpenClaw Agent场景深度优化。模型在工具调用、指令遵循、定时任务及长链路执行等核心能力上显著增强，在自研ZClawBench评测中获国产模型第一。阿里、字节、美团等互联网大厂内测评价其”精准稳定、长任务不掉链子”。来源：智谱

清华开源 OpenMAIC，国内首个L4级AI课堂

清华大学研究团队开源国内首个L4级AI课堂平台OpenMAIC，平台通过多智能体协作，将PDF、论文等资料自动生成互动式课堂，配备AI老师、助教及虚拟学生角色，实现语音讲解、实时互动、白板标注等功能。教师上传材料，系统可自动解析生成课件、测验及PBL网页，大幅降低备课成本。来源：机器之心

通义推出Fun-CineForge，首个影视级配音多模态大模型

通义实验室开源首个支持影视级配音的多模态模型Fun-CineForge，配套开放高质量数据集构建方法CineDub。模型基于CosyVoice3底层能力，创新引入”时间模态”，融合视觉、文本、音频、时间四种模态，实现口型同步、情绪表达、音色一致和时间对齐四大功能，支持独白、旁白、双人及多人对话场景。来源：通义实验室

阿里云旗下AI Agent产品JVS Claw正式推出移动端App

阿里云旗下AI Agent产品JVS Claw正式推出移动端App，基于开源OpenClaw架构打造，主打”开箱即用、云端隔离”。用户可通过手机App直接”遥控”专属云电脑（6核/12GB Linux环境），让Clawbot自动完成网页编写、数据查询、定时任务等复杂操作，无需接入飞书或QQ等第三方工具。来源：智东西

3月13·周五

InternVL-U重磅开源，4B参数实现理解、推理、生成、编辑一体化

上海人工智能实验室联合多所高校开源多模态一体化模型InternVL-U，仅4B参数即实现理解、推理、生成、编辑四大能力统一。模型采用”统一语境建模+模态专用模块化+解耦视觉表征”架构，在文本渲染、科学推理等复杂场景中性能超越14B级模型，已全面开源并提供完整推理代码与评测工具。来源：书生Intern

大晓机器人开源实时生成世界模型 Kairos 3.0-4B

大晓机器人开源具身原生世界模型Kairos 3.0-4B，以”多模态理解—生成—预测”一体化架构实现物理级深度理解与长时动态交互。模型仅4B参数，推理速度较Cosmos 2.5提升72倍，是行业首个在THOR端侧平台达成1:1.5实时生成的具身世界模型，可直接驱动机器人本体完成作业。来源：大晓机器人

3月12·周四

安全养虾发布！讯飞AstronClaw全面开放

科大讯飞AstronClaw全面开放，基于OpenClaw打造云端AI助手，支持一键部署、沙箱隔离运行保障数据安全。产品接入企业微信、钉钉、飞书等主流IM，内置120+官方Skills并支持调用ClawHub生态10,000+技能，覆盖办公、营销、金融等场景。集成星火X2、Kimi-K2.5、GLM-5等多款旗舰大模型。来源：讯飞开放平台

爱诗科技完成C轮融资，鼎晖领投，全面开启“可玩现实”新纪元

AI视频生成企业爱诗科技宣布完成C轮融资，由鼎晖香港基金、鼎晖VGC、鼎晖百孚领投，中国儒意、三七互娱、亦庄国投、众为资本等国内外多家机构跟投。本轮资金将用于视频基础模型迭代、实时世界模型研发及全球化团队建设。其PixVerse V5.6模型在Artificial Analysis榜单中位列图生视频与文生视频全球第二，全球首发实时世界模型PixVerse R1，用户规模已突破1亿。来源：爱诗科技AIsphere

阶跃AI推出StepClaw一键部署OpenClaw，5 万个免费体验名额

阶跃星辰推出基于OpenClaw打造的云端AI助手”StepClaw“，用户可在阶跃AI APP一键部署，无需自备服务器。产品搭载Step 3.5 Flash模型，提供双核CPU、4GB内存及40GB存储，支持7×24小时云端运行和长期记忆能力。来源：阶跃星辰

安全免配置，威努特WinClaw正式发布

威努特正式发布安全龙虾产品WinClaw，针对OpenClaw存在的安全风险（CNNVD通报82个漏洞，含12个超危漏洞）及配置复杂等问题，构建五层安全防护体系：身份认证双向鉴权、安装审查拦截14类危险模式、消息拦截41条安全规则、执行约束敏感操作二次确认、监控审计本地日志追溯。来源：威努特安全网络

英伟达最强开源权重 AI 模型：Nemotron 3 Super 登场

英伟达发布最强开源权重AI模型Nemotron 3 Super，拥有1200亿参数（MoE架构，推理时仅激活120亿），吞吐量较前代提升5倍，准确率翻倍。模型配备100万Token超长上下文窗口，专为多智能体系统设计，可解决”上下文爆炸”和”推理税”问题。采用Mamba-Transformer混合架构，引入”潜在MoE”新技术，支持多Token预测。来源：IT之家

百度智能云发布全球首款手机龙虾应用：红手指Operator

百度智能云发布全球首款手机龙虾应用”红手指Operator“，已上线安卓市场。应用结合OpenClaw与自研移动端AI Agent能力，用户通过聊天即可指挥手机完成打车、外卖订餐等跨App交互操作，实现”一句话搞定复杂任务”。应用具备深度语义理解、高效执行和精准方案产出能力，可完成信息搜集、定时推送、自动下载等流程。来源：百度

光轮智能完成10亿元融资，全球首个具身数据独角兽诞生

光轮智能完成10亿元A++及A+++轮融资，投资方包括新希望集团、三安光电家族办公室、奥克斯等产业方及建投华科等财务机构，成为全球首个具身数据领域独角兽。公司构建世界-行为-评测三层架构，提供物理仿真、规模化数据生产与模型评测服务，已服务英伟达、谷歌、Figure AI、字节、智元等头部客户，在仿真合成数据、仿真评测、人类视频数据三项能力上实现全球交付冠军。来源：光轮智能

3月11·周三

人类社交网络巨头Meta收购了AI社交网络Moltbook

Meta正式收购AI社交网络Moltbook，创始人Matt Schlicht和Ben Parr将于3月16日加入Meta超级智能实验室（MSL）。Moltbook上线一个多月即吸引19.4万个AI智能体和超200万帖子，曾因”AI自发建立宗教”等话题引发热议，后被揭穿多为人类伪装。Meta看中其智能体验证身份与互联的系统机制，为构建”智能体身份注册表”铺路，以应对AI从聊天工具向自主实体演进的趋势。来源：机器之心

百度智能云发布DuClaw零部署服务！零门槛开启自由“养虾”资

百度智能云发布零部署OpenClaw服务DuClaw，用户无需选择镜像、部署服务器或配置API Key即可即开即用。DuClaw内置百度搜索、百科、学术搜索等百度优势Skills，并支持DeepSeek、Kimi-K2.5等多款主流大模型灵活切换。目前网页端已上线，后续将接入企业微信、钉钉、飞书等应用。来源：百度

谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布

谷歌发布首个原生多模态嵌入模型Gemini Embedding 2，支持将文本、图像、视频、音频和文档映射到同一嵌入空间，可识别100种语言的语义意图。模型单次请求可处理最多6张图片、120秒视频、6页PDF及直接音频输入，适用于RAG、语义搜索、情感分析和数据聚类等场景。来源：IT之家

AI语音教练平台BoldVoice完成2100万美元A轮融资

AI语音教练平台BoldVoice完成2100万美元A轮融资，由Matrix领投。该公司仅7名员工，下载量突破500万，服务150多个国家，ARR超1000万美元。本轮融资将用于全球扩张及AI新功能开发。来源：AI工具集

新加坡MetaComp获数千万美元Pre-A+轮融资

新加坡金融科技公司MetaComp完成数千万美元Pre-A+轮融资，由知名互联网大厂战投及Spark Venture等机构投资，老股东跟投。公司2025年已实现净利润转正，即时流动资金超1亿美元，月支付交易流水超10亿美元，财富在管规模超5亿美元。来源：暗涌Waves

Dify 完成 3000 万美元融资，红杉领投

AI应用开发平台Dify完成3000万美元Pre-A轮融资，由红杉中国领投，GL Ventures、Alt-Alpha Capital、五源资本等跟投。本轮融资将用于提升Agent可靠性、企业级运营管控能力、降低构建门槛及建设开源生态。Dify是一个开源的Agentic Workflow构建平台，提供可视化构建器和生产级工程基础设施，帮助团队快速构建、部署和运维AI工作流。来源：Dify

3月10·周二

智谱发布AutoClaw（澳龙）：国内首个一键安装本地版OpenClaw

智谱正式上线 AutoClaw（中文名”澳龙”），成为国内首个支持一键安装的本地版OpenClaw工具。产品预置50+热门Skills，支持macOS和Windows双平台，1分钟即可完成部署，一键接入飞书等即时通讯工具。AutoClaw内置智谱专为Agent场景优化的Pony-Alpha-2模型（内测中），集成AutoGLM Browser-Use浏览器操作能力，可稳定执行多步骤、跨页面的复杂任务。来源：智谱

腾讯云推出SkillHub，专为中国用户优化的AI技能社区

腾讯云推出SkillHub，专为中国用户优化的OpenClaw AI Skills社区。依托国内高速镜像，解决官方ClawHub下载慢、中文搜索不友好、社区交流不便三大痛点，实现Skill秒速安装。平台提供精选Top 50榜单、8大分类中文搜索及安全审计，收录1.3万个Skills，支持一键复制安装命令，并计划打造开放中文开发者社区。来源：AI工具集

火山引擎推出ArkClaw：开箱即用的云上SaaS版OpenClaw

火山引擎正式上线ArkClaw，为用户提供零配置、开箱即用的云端OpenClaw服务，打开网页即可使用7×24小时在线AI助手。产品深度协同Doubao-Seed-2.0系列模型，支持飞书等主流IM工具，内置Skills安全扫描和网盘长效存储。来源：火山引擎

腾讯推出QClaw：一键安装，直接打通微信

腾讯电脑管家推出QClaw，基于OpenClaw打造的本地AI助手，支持Mac和Windows双端，内置Kimi-2.5等模型。核心亮点是零配置直接关联微信，用户可通过微信远程操控电脑完成任务，如处理文档、社媒运营、GitHub项目开发等。数据全部本地存储保障隐私，依托5000+Skills生态，具备持续记忆能力。来源：APPSO

阿里版OpenClaw更名”JVS Claw”，并开启内测

阿里云旗下AI Agent产品”无影JVS”正式更名为”JVS Claw“，目前已推出独立APP和网页版，处于邀请码内测阶段。产品以可定制的Clawbot为核心，搭配6核/12GB独立云端ClawSpace环境，支持实时查看AI操作链路。内置浏览器自动化、Office文档处理等预制技能，用户可通过”技能查找”安装ClawHub新技能，或用自然语言创建自定义技能。来源：AI工具集

3月9·周一

腾讯WorkBuddy正式上线：免部署版”小龙虾”AI智能体来了

腾讯旗下全场景AI智能体WorkBuddy正式上线，被称为腾讯版”小龙虾”（OpenClaw）。产品完全兼容OpenClaw技能，但无需复杂部署，下载安装后即可使用，1分钟完成企业微信配置。WorkBuddy内置20多种Skills技能包，支持多窗口、多Agent并行工作，可无缝切换Hunyuan、DeepSeek、GLM等主流模型，并具备企业级安全审计能力。来源：腾讯云

OpenClaw 3.8版本发布：12+安全漏洞修复+三大新功能

OpenClaw团队连夜推出2026.3.8版本。本次更新新增ACP来源识别、openclaw备份机制及Telegram假冒清除三大功能，修复12个以上安全漏洞。同时带来GPT-5.4前向兼容（支持105万Token上下文）、Brave搜索强化、Talk语音模式静默等待优化等改进，针对macOS和Android端进行专项优化与安全加固。来源：机器之心

扣子Coze推出AI Agent中文社区InStreet，全面开放内测

扣子Coze宣布AI Agent中文社区 InStreet 全面开放内测，定位为”OpenClaw养虾第一站”。该社区仅允许Agent发帖互动，人类用户可围观学习。InStreet 提供Skill技能分享、积分排行榜、虚拟炒股竞技场等功能，已积累超1.1万条评论和1.6万点赞。来源：扣子Coze

小红书开源FireRed-Image-Edit v1.1：OOTD元素融合，人像一致性大幅提升

小红书Super Intelligence团队发布图像编辑模型FireRed-Image-Edit 1.1版本，距离1.0发布不到一个月。新版本在ID一致性编辑、多元素融合（支持10余种元素智能组合）、人像美妆（数十种风格）、字体风格参考及老照片修复等方面显著增强。来源：小红书技术REDtech

3月6·周五

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控

OpenAI正式发布GPT-5.4，首次在单一模型中融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文五大能力。模型在GDPval知识工作测试中得分83%，在SWE-Bench Pro编程测试中达57.7%，并在OSWorld计算机操作测试中取得75%成绩，均为业界领先。来源：量子位

阿里开源HiClaw： Team 版 OpenClaw，5分钟完成本地安装

阿里云开源HiClaw，作为OpenClaw的”Team版”升级方案，引入Manager Agent架构实现多Agent协作管理。HiClaw通过AI Gateway集中管理API凭证，解决原生OpenClaw的安全风险；Worker Agent运行在独立容器中，技能与记忆完全隔离。系统内置Matrix服务器和Element客户端，支持移动端随时指挥，无需配置飞书/钉钉机器人。来源：阿里云开发者

VAST完成5000万美元A轮融资，加速构建世界模型与UGC互动内容平台

通用人工智能公司VAST宣布完成5000万美元A轮融资，由阿里、恒旭资本联合领投，元禾璞华、百度风投等跟投，老股东春华创投超额加注。VAST旗下Tripo Studio平台已聚集超650万创作者，累计生成近1亿个3D模型。本轮资金将重点投入世界模型研发与UGC互动内容平台建设。来源：VAST AI

微软开源 Phi-4-Reasoning-Vision-15B 视觉推理模型

微软发布Phi-4-Reasoning-Vision-15B开源模型，采用MIT许可证，是Phi-4系列首个同时具备高分辨率视觉感知与选择性推理能力的小语言模型。模型可根据任务需求在”推理模式”与”非推理模式”间自动切换，数学推理时启用多步思考链，简单OCR任务则直接输出以降低延迟。来源：IT之家

3月5·周四

MiniMax Music 2.5+：解锁你的专属“天空之城”

MiniMax发布Music 2.5+版本，新增纯音乐创作能力。模型支持古典管弦、极简主义、现代电子、氛围音等多元风格，可生成从零乐器自然声到多轨器乐编排的完整作品，适用于冥想、助眠、广告、游戏配乐及影视配乐场景。来源：MiniMax稀宇科技

Perplexity与CoreWeave达成多年战略合作，聚焦AI推理基础设施

AI云服务企业CoreWeave与AI搜索公司Perplexity达成多年期战略合作。Perplexity将利用CoreWeave的云算力资源（包括英伟达GB200 NVL机架系统）运行其AI推理工作负载，CoreWeave则将在内部全面部署Perplexity Enterprise Max订阅。此次合作为Perplexity提供高性能、可靠的AI云平台支持，加速其AI工具和智能体的规模化发展。来源：IT之家

3月4·周三

Flowith 完成千万美元种子轮和种子+轮融资

AI创作平台Flowith宣布完成千万美元种子轮及种子+轮融资，种子轮由祥峰投资等机构参与，种子+轮由红杉中国种子基金、江远投资联合领投。Flowith致力于打造Agentic AI时代的”行动派”操作系统，已推出多线程画布交互、云端无限Agent及首款本地化AI全链路创作助手FlowithOS。来源：Z Potentials

谷歌 Gemini 3.1 Flash-Lite 登场，首字响应提速 2.5 倍

谷歌发布轻量级AI模型Gemini 3.1 Flash-Lite，称其为Gemini 3系列中速度最快、最具成本效益的模型。模型首字响应速度较2.5 Flash提升2.5倍，整体输出速度提升45%，定价为每百万输入Tokens 0.25美元、输出1.50美元。模型在Arena.ai获1432分Elo得分，GPQA Diamond测试达86.9%，多项指标超越前代。来源：IT之家

阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源！

阶跃星辰宣布Step 3.5 Flash预训练/中训练/训练框架全部开源，包括Base权重、Midtrain权重及Steptron训练框架。该模型是阶跃迄今能力最强的开源基础模型，具备强大推理与Agent智能，专为Agent而生。来源：阶跃星辰

OpenAI深夜发新模型GPT-5.3 Instant！幻觉率暴降27%

OpenAI正式发布GPT-5.3 Instant模型，针对用户反馈的”过于保守、爱说教”问题进行优化。新模型回答更直击重点，减少冗长限制性说明和拒答行为，幻觉率在联网模式下降低26.8%，非联网模式降低19.7%。来源：智东西

QoderWork 重磅更新 | 正式发布支持 Windows 版

QoderWork正式发布Windows版本，同时推出三大升级：支持标准和旗舰两档模型分级选择，满足不同任务需求；新增预制沙盒环境，在隔离虚拟环境中执行任务，提升稳定性与成功率；上线Skills技能广场，集成文档协作、效率工具、设计UI等主流技能一键安装。来源：Qoder

3月3·周二

阿里千问开源四款 Qwen3.5 小尺寸模型

阿里千问宣布开源4款Qwen3.5小尺寸模型：Qwen3.5-0.8B/2B/4B/9B。该系列采用原生多模态训练和最新架构，覆盖从端侧到服务器的轻量级AI需求。其中0.8B/2B适合移动设备和IoT边缘部署；4B定位为轻量级Agent基座；9B性能媲美gpt-oss-120B。来源：通义实验室

小红书发布并开源端到端文档识别模型：FireRed-OCR

小红书团队发布并开源端到端文档识别模型FireRed-OCR，基于Qwen3-VL架构，首创”三阶段渐进优化”策略与”几何+语义”数据工厂，解决通用VLM处理复杂文档时的”结构性幻觉”问题。模型在权威评测OmniDocBench v1.5中取得端到端方案SOTA，综合评分92.9%领先Gemini-3.0 Pro等模型。来源：小红书技术REDtech

阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布

通义实验室发布两款语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD，首创FreeStyle指令控制范式，用户可通过自然语言描述语气、情绪、场景等细节，无需依赖固定标签。Fun-CosyVoice3.5支持多语种复刻与精细化表达控制，新增泰语、印尼语等4个小语种，生僻字读错率降至5.3%；Fun-AudioGen-VD则实现端到端声音设计，可生成角色化音色并模拟环境声学效果。来源：通义实验室

3月2·周一

美团光年之外AI浏览器Tabbit正式发布，开启智能浏览新体验

Tabbit AI浏览器正式发布，主打”工作交给Tabbit，时间留给自己”理念。产品通过智能代理模式（Agent）实现跨系统数据流转、日常事务托管、深度调研及数据聚合等自动化操作；支持”妙招”快捷指令沉淀工作流，以及无代码脚本定制网页功能。来源：Tabbit浏览器

松延动力宣布完成B轮融资，累计近10亿元，宁德时代领投

人形机器人企业松延动力宣布完成B轮融资，累计规模近10亿元，由宁德时代系晨道资本领投，国科投资、京国盛基金、九合创投等跟投。这是公司第9轮融资，标志着人形机器人行业从技术验证迈向商业化闭环。本轮融资将加速家庭消费场景落地与产业链整合。来源：NOETIX松延动力

再次刷新具身智能单轮融资金额，银河通用拿下 25 亿融资

具身智能公司银河通用宣布完成25亿元新一轮融资，由国家人工智能产业基金（大基金三期）、中国石化、中信投资控股、中国银行、上汽集团等多家国资及产业资本领投，刷新行业单轮融资纪录。本轮国资密集入局，标志着具身智能融资进入”重装时代”。来源：极客公园

2月28·周六

OpenAI获得1100亿美元融资

OpenAI获得新一轮高达1100亿美元的融资，投资方包括亚马逊、英伟达和软银，投资额分别为500亿、300亿和300亿美元。此轮融资前，公司的估值已达到7300亿美元。OpenAI还与亚马逊建立了战略伙伴关系，并同英伟达就下一代推理计算技术达成了协议。该轮融资预计还将吸引更多金融投资者参与。来源：第一财经

阿里通义 CoPaw 开源！爆改你的专属智能搭档

AgentScope团队宣布其个人智能助理产品CoPaw正式开源，采用Apache 2.0许可协议，支持免费商用。此次开源版本聚焦易用性、本地部署、记忆管理与可扩展性四大方向进行全面升级，核心在于降低使用门槛并打开能力上限。CoPaw现支持通过自定义供应商、Ollama、llama.cpp、MLX等多种方式接入本地或自建模型，实现全链路数据本地化。来源：通义实验室

面壁智能开年获数亿元融资，中国电信领投

面壁智能在2026年农历新年（马年）后完成数亿元融资，由中国电信领投，中信金石、中信私募跟投。中国电信将发挥云网端优势，与面壁智能在“高效大模型”领域的算法落地经验结合，深化业务协同。本轮融资标志着面壁智能正式开启与国家级信息基础设施方的战略合作。来源：面壁智能

Lemon AI获数千万Pre-A轮融资，天际资本独家投资

天际资本近日独家投资了Lemon AI数千万人民币Pre-A轮融资。该公司为企业提供“全栈开源+本地化部署”的AI安全落地方案，企业可在自有Docker环境中调用主流开源大模型，数据不出本地，以解决金融、医疗等行业的数据安全顾虑。来源：钛媒体

2月27·周五

谷歌推出 Nano Banana 2 图像 AI 模型：支持 4K 分辨率输出

Google 旗下 DeepMind 正式发布新一代图像生成模型 Nano Banana 2（Gemini 3.1 Flash Image）。模型在图像质量与生成速度上取得平衡，核心在于利用 Gemini 的知识库与实时网络搜索，大幅提升了对复杂中文提示、空间比例、真实世界常识（如地标、古诗词意境）及多对象一致性的理解能力。来源：APPSO

Skywork AI 正式发布多模态视频基础模型 SkyReels V4

Skywork AI发布全新多模态视频基础模型SkyReels V4。模型采用创新的双流多模态扩散Transformer（MMDiT）架构，是全球首个能同时处理多模态输入、联合生成视频与音频、并统一完成视频生成、修复、编辑三大任务的模型。支持文本、图像、视频、音频、掩码等丰富输入，可输出1080p分辨率、32FPS、长达15秒的高质量音视频同步内容。来源：昆仑万维集团

华为云码道（CodeArts）代码智能体公测版正式发布

华为云在线上发布会上正式发布了华为云码道（CodeArts）代码智能体的公测版。是一个集成代码大模型、IDE与自主开发模式的AI编码解决方案。覆盖代码生成、单元测试、研发知识问答、规范驱动开发等场景，支持IDE、VS Code等多种开发环境。来源：华为云

2月26·周四

MiniMax Agent升级，推出Expert 2.0和MaxClaw两大核心产品

MiniMax发布Agent功能升级，推出Expert 2.0和MaxClaw两大核心产品。Expert 2.0允许用户用自然语言描述创建细分领域的专家Agent，已覆盖技术开发、商业金融等领域，累计创建超1.6万专家。MaxClaw是基于OpenClaw构建的云端AI助手，开箱即用，无需手动部署，为订阅会员提供50G云储存，打通了飞书、钉钉等多个IM渠道。来源：MiniMax稀宇科技

Perplexity Computer 上线：多模型协同自动完成工作流

Perplexity 推出全新聊天界面“Perplexity Computer”，将多种具备自主执行能力的AI模型整合为一套系统。系统基于浏览器运行，可调用来自不同厂商的模型，自主完成包括网络搜索、文档生成、数据处理等在内的完整工作流程。来源：IT之家

自变量机器人宣布已完成数亿元新融资

自变量机器人宣布完成数亿元新融资，由上汽金控、中金上汽基金等领投，老股东跟投。公司成立于2023年，聚焦自研通用具身智能大模型WALL-A，推出了量子一号、量子二号两款机器人本体，其中量子二号拥有高自由度灵巧手。本轮融资将用于深化产业协同，推动具身智能在汽车等场景的落地。来源：智东西

2月25·周三

AI 音乐创作平台 ProducerAI 正式加入Google Labs

谷歌实验室宣布，生成式AI音乐创作平台ProducerAI正式推出。平台深度融合了Gemini、Lyria 3、Veo等大模型，为音乐人提供从作词、编曲到混音的全链路支持。用户通过简单文字指令即可生成不同流派的歌曲，进行后期处理。平台为所有音频输出嵌入了SynthID隐形水印。来源：IT之家

2月24·周二

全球首个面向AI智能体的进化协作平台——EvoMap

全球首个面向AI智能体的进化协作平台EvoMap。通过独创的基因进化协议（GEP），将智能体在任务中积累的成功策略封装为标准化的“基因胶囊”，通过去中心化网络实现全球共享、验证与继承，解决AI智能体生态中“经验孤岛”的痛点。来源：AI工具集

千寻智能完成近20亿融资，引领具身基模进化与商业化落地

千寻智能近日完成近20亿元人民币融资，资本方覆盖顶级、产业、国有及战投机构，阵容强大。其开源模型Spirit v1.5在性能上超越了Pi0.5，凭借独特的“数据金字塔”训练理念和低成本数据采集技术，构筑了核心竞争壁垒。来源：千寻智能Spirit AI

10 亿美元融资！李飞飞「世界模型」公司估值 50 亿美元

李飞飞创立的World Labs近期完成10亿美元巨额融资，公司估值飙升至50亿美元。投资者包括Autodesk、英伟达、AMD、a16z等顶级巨头。公司今年1月推出了“World API”，为企业提供大型世界模型的API接入，并与Autodesk等公司展开B2B合作，探索商业化路径。来源：极客公园

智平方又完成5轮B轮系列融资，融资规模超10亿，估值超百亿

智平方宣布完成B轮融资，规模超10亿元人民币，估值超过百亿，一年内累计完成12轮融资，成为融资最快的具身智能企业。本轮融资方阵容强大，百度、中国中车等产业与资本巨头集体加注。来源：智平方科技

Anthropic 推出安全工具 Claude Code Security

Anthropic推出“Claude Code Security”AI代码安全扫描工具，以研究预览版形式向企业及团队用户开放。工具基于其旗舰模型Claude Opus 4.6，采用模拟人类安全研究员的推理方式，能追踪数据流、发现业务逻辑缺陷和访问控制绕过等传统静态分析难以捕捉的复杂漏洞。来源：AI工具集

谷歌正式发布新一代旗舰模型Gemini 3.1 Pro

谷歌正式发布其新一代旗舰模型Gemini 3.1 Pro，在12项基准测试中超越Claude Opus 4.6、GPT-5.2等主流模型，尤其是在衡量推理能力的ARC-AGI-2测试中获得77.1%的高分。模型在复杂任务处理上进步显著，社区实测可生成WebOS操作系统、交互式3D沙盒，能创作生动的SVG动画。来源：智东西

Google DeepMind推出最新AI音乐生成模型：Lyria 3

Google DeepMind推出了新一代AI音乐生成模型Lyria 3，已集成至Gemini应用。用户无需自行创作歌词，仅需通过文字描述、上传照片或视频，可一键生成包含自动作词、作曲、人声演唱的30秒高质量音乐片段。模型支持对节奏、情绪、人声进行精细调控，会自动为歌曲生成配套封面。来源：AI工具集

2月18·周三

Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6

Anthropic发布了Claude Sonnet 4.6模型。新模型在编程、Agent规划和计算机使用等办公场景性能显著提升，在多项基准测试中其智能水平接近甚至超越了自家的旗舰模型Opus 4.6。拥有100万token的上下文窗口，能以一次调用重构整个代码库。其价格与上一代持平，但性价比较高，已在claude.ai平台和亚马逊云AWS上线。来源：智东西

2月16·周一

通义千问团队正式发布新一代模型Qwen3.5

通义千问团队正式发布新一代模型Qwen3.5系列。旗舰模型Qwen3.5-397B-A17B是一款原生多模态模型，采用创新的混合注意力与稀疏MoE架构，在推理效率上相比前代模型有数倍提升。模型在指令遵循、通用智能体、视觉语言、空间智能与视频理解等多个维度的前沿基准测试中，与GPT-5.2、Claude 4.5、Gemini 3 Pro等顶尖模型同台竞技，展现出了全面且领先的综合性能。来源：千问大模型

2月14·周六

豆包大模型2.0正式发布

字节跳动今日宣布豆包大模型正式进入2.0阶段，发布Seed2.0，包含Pro、Lite、Mini和Code四个版本。新版本围绕现实复杂任务进行系统性优化，在推理、多模态理解和复杂指令执行能力上显著提升。豆包2.0 Pro在多项顶尖学术与推理基准测试中表现优异，综合能力达到或超越GPT 5.2与Gemini 3 Pro等顶尖模型。来源：字节跳动

阿里云通义 CoPaw 发布：对标 OpenClaw

AgentScope团队正式发布个人智能体“CoPaw”，定位为“协同个人智能体工作台”，成为用户可本地部署的专属智能搭档。相较于其前身OpenClaw，CoPaw聚焦于极简安装与统一体验，既支持用户本地电脑（macOS/Windows/Linux）通过简单命令快速部署，也支持在“魔搭创空间”一键云端部署。来源：通义实验室

“思考”更深，生成更准｜Seedream 5.0 Lite 发布

字节跳动发布新一代多模态AI模型Seedream 5.0 Lite。该版本不追求更高分辨率，而是大幅强化模型的“思考”与“推理”能力，包括视觉推理、信息可视化、风格迁移和精准图片编辑等。核心亮点是首次引入实时检索增强能力，可结合网络实时信息进行创作。来源：字节跳动Seed

灵心巧手宣布完成近15亿元B轮融资

灵心巧手宣布完成了近15亿元人民币的B轮融资，由道得投资、盛世投资领投。这是该公司在2025年以来的第6轮融资。其核心产品是Linker Hand系列灵巧手，覆盖多种技术路线，其中Linker Hand O6为全球最轻灵巧手。来源：智东西

2月13·周五

MiniMax M2.5 发布：1美金/小时，真实世界工作王者

MiniMax正式发布M2.5模型，其在编程、搜索工具调用、办公等高阶生产力场景性能达到或刷新行业SOTA水平。模型显著提升了任务拆解能力和推理效率，在编程基准SWE-Bench Verified上完成任务的速度比上一代M2.1快37%。来源：MiniMax稀宇科技

Anthropic 宣布完成高达 300 亿美元的 G 轮融资

AI公司Anthropic（即Claude的研发公司）宣布完成高达300亿美元的G轮融资，投后估值达3800亿美元，创造了AI公司单轮股权融资的新纪录。本轮融资由新加坡主权基金GIC和Coatue领投，多家顶级资本参与。来源：APPSO

谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级

谷歌发布了Gemini 3 Deep Think模型的重大升级。新版模型在多项顶尖基准测试中刷新纪录，尤其在竞技编程平台Codeforces获得3455分的Elo评级，在全球排名第八，仅有7位顶尖程序员能在比赛中胜过它。模型在ARC-AGI-2推理基准、“人类的最后考试”（不使用工具）、物理及化学奥林匹克笔试等多个学术竞赛中取得了金牌级别的领先成绩。来源：机器之心

OpenAI 发布 GPT-5.3-Codex-Spark ：专为实时编程而生

OpenAI联合Cerebras推出主打实时编程的新模型GPT-5.3-Codex-Spark。模型针对高速软件开发场景优化，能以超过每秒1000个token的速度进行推理，实现近乎即时的编码反馈，以解决AI长时间自主编程时开发者等待过长、掌控感降低的问题。来源：IT之家

2月12·周四

智谱最新旗舰模型 GLM-5 开源：编程、智能体能力取得开源 SOTA

智谱AI开源GLM-5大模型，其参数规模扩展至744B（激活40B），预训练数据达28.5T，在Coding与Agent能力上实现开源SOTA，综合表现逼近Claude Opus 4.5。该模型在SWE-bench、Terminal Bench等编程基准中领先开源模型，能端到端完成复杂系统工程与长程Agent任务，支持自动售货机经营模拟等资源规划场景。来源：智谱

Z Code推出ADE智能体开发环境，实现“对话即编程”新范式

智谱AI正式发布Z Code全新版本，首次定义ADE（智能体开发环境），通过图形化界面将复杂CLI交互转化为多智能体协作平台。环境支持可视化配置管理、跨设备远程开发及多任务并行处理，内置实时预览浏览器与会话级版本管理功能，可灵活调度Claude Code等主流工具链。来源：Z Code

LongCat 发布原生「深度研究」智能体

美团旗下LongCat正式上线“深度研究”智能体功能，依托美团本地生活真实交易数据与行业洞察，为用户生成个性化吃喝玩乐攻略。智能体具备长程任务规划与多工具调用能力，支持400轮交互与256K上下文处理，在BrowseComp、MCP-Atlas等权威评测中达到开源模型SOTA水平。来源：龙猫LongCat

2月11·周三

讯飞星火X2大模型正式发布，API同步上线

科大讯飞发布基于全国产算力训练的星火X2大模型，其通用能力全面升级，在数学、推理、语言理解等核心指标上对标国际顶尖模型，130+多语言能力持续领先。星火X2采用293B MoE稀疏架构与多项工程优化，推理性能较X1.5提升50%，并实现单台国产昇腾服务器部署。来源：讯飞开放平台

国产AI互动应用Loopit获马斯克公开点赞

国产AI应用Loopit引发海外社交媒体热议。产品由百川智能联合创始人陈炜鹏团队开发，主打“AI互动内容生成”，用户通过文字描述即可自动生成可点击、可滑动、可参与的交互内容，并能对他人作品进行“魔改”二次创作。来源：AI工具集

阿里达摩院开源具身智能大脑基础模型 RynnBrain

阿里达摩院开源业界首个具身大脑基础模型RynnBrain，具备时空记忆与物理空间推理能力。模型系列参数规模从2B到30B，采用MoE架构实现高效推理，仅激活3B参数即超越72B模型性能。在20项具身基准测试中全面领先英伟达、谷歌等顶尖模型，攻克了机器人“转身即忘”的物理世界认知难题。来源：量子位

2月10·周二

字节又一新模型：Seedream 5.0上线！

字节跳动图像生成模型Seedream 5.0正式上线，在剪映、CapCut、小云雀等平台开放限时免费体验。新模型支持2K/4K分辨率输出，重点提升提示词理解准确性、细节纹理渲染和智能推理能力，并新增联网搜索功能。来源：智东西

千问最新图像基座模型Qwen-Image-2.0，正式发布！

阿里巴巴发布新一代图像生成及编辑模型Qwen-Image-2.0，支持1K token长文本输入和2K高分辨率输出。模型首次将图像生成与编辑功能统一，在AI Arena评测中以1029分位列全球图像生成第三名，图像编辑得分1034。突出优势在于优秀的中文文字渲染能力和复杂指令理解，可生成专业PPT、多格漫画等高质量图片。来源：阿里云

首个产业级2Bit量化新突破，腾讯混元推出0.3B端侧模型HY-1.8B-2Bit

腾讯混元推出产业级2Bit端侧模型HY-1.8B-2Bit，等效参数量仅0.3B，内存占用600MB，比常用手机应用更小。模型通过2比特量化感知训练实现，在保持原模型全思考能力的同时，生成速度提升2-3倍，可在手机、智能家居等边缘设备无压力部署。来源：腾讯混元

大晓机器人完成天使轮融资

大晓机器人近日完成天使轮融资，由蚂蚁集团领投，启明创投、金景资本等多家机构跟投。融资将用于推进”以人为中心”的ACE具身全栈研发范式，加速环境式数据采集和开悟世界模型3.0的研发。来源：商汤科技SenseTime

2月9·周一

字节跳动推出新一代AI视频生成模型Seedance 2.0

字节跳动推出新一代AI视频生成模型Seedance 2.0，支持多模态参考生成，可同时上传图片、视频、音频等最多12个参考文件，精准复刻运镜逻辑与动作细节。该模型突破在于融合AI生成与后期编辑，用户可直接修改不满意部分，显著降低废片率。来源：AI工具集

Skywork推出SkyBot——最适合小白用户的OpenClaw工具

天工Skywork推出SkyBot，号称全球最适合小白用户的OpenClaw工具。该产品将火爆的AI代理OpenClaw进行云端化改造，用户无需配置硬件或命令行，点击即可领取7×24小时云端AI助理。来源：昆仑万维集团

智谱清言APP正式上线「学习搭子」随时随地，马上学

智谱清言APP正式上线”学习搭子”功能，支持用户随时随地利用碎片化时间进行学习。该功能网页端上线两周内已创建超1.2万个学习项目，现移动端全面开放，无需邀请码即可体验。来源：智谱清言

腾讯推出全场景职场 AI 智能体桌面工作台WorkBuddy

腾讯推出全场景AI办公助手WorkBuddy，正式开放内测申请。产品定位为桌面智能工作台，支持自然语言交互，能听懂指令后自主操作本地文件，实现PPT生成、数据整理、知识库构建等复杂任务。与聊天机器人不同，WorkBuddy强调“执行能力”，可像真实同事一样交付成果。来源：腾讯云代码助手

2月6·周五

OpenAI发布新一代编程模型：GPT-5.3-Codex

OpenAI推出新一代编程模型GPT-5.3-Codex，宣称为全球最强智能体编程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0测试中取得SOTA成绩，编程得分较Claude Opus 4.6高11.9%。具备调试、部署及办公软件操作能力，速度提升25%，能参与自身开发优化。来源：智东西

Anthropic发布新一代AI模型Claude Opus 4.6

Anthropic发布新一代AI模型Claude Opus 4.6，具备100万token上下文窗口和自适应思考能力。在编程、金融分析、办公软件操作等领域表现卓越：16个AI代理两周内写出可编译Linux的C编译器，自主发现500多个零日漏洞，在GDPval-AA评测中超越GPT-5.2。来源：量子位

AI营销平台PallasAI 完成数千万元融资

AI营销平台PallasAI完成数千万元融资，由有赞独家投资。公司推出行业首款标准化GEO AI Agent产品，通过可见性评分、营销图谱和Agent内容协作三大功能，帮助中小企业量化品牌在AI生态中的曝光度。来源：Founder Park

生数科技宣布完成超过6亿元人民币A+轮融资

北京生数科技宣布完成超6亿元A+轮融资，创下国内视频生成领域单笔融资新纪录。公司由清华大学背景团队创立，其Vidu Q3视频生成模型在专业影视制作场景中表现突出，位列全球第二，客户覆盖索尼、腾讯、字节跳动等企业。来源：智东西

2月5·周四

可灵AI正式迈入3.0时代！

可灵AI正式升级至3.0版本，推出可灵3.0模型系列。实现多模态输入输出一体化，重新定义AI视频工作流。视频3.0模型在叙事与控制方面深度进化，新增智能分镜功能，可自动调度景别与机位，视频3.0 Omni进一步提升了主体相似度与复杂指令响应能力，图片3.0 Omni新增深度叙事与组图批量创作功能。来源：可灵AI

面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5

面壁智能开源新一代全模态模型MiniCPM-o 4.5，模型具备”边看、边听、主动说”的全双工交互能力，让人机交互从回合制升级为即时自由对话。通过9B参数实现全模态SOTA性能，在视觉理解、文档解析、语音生成等方面表现优异，支持实时感知与主动响应。来源：面壁智能

上海AI实验室开源科学多模态大模型Intern-S1-Pro

上海AI实验室开源了万亿参数科学多模态大模型Intern-S1-Pro。模型采用MoE架构，总参数1万亿，激活参数220亿。基于“通专融合”SAGE技术，具备奥赛级数理推理能力，可精准解析多模态科学内容，覆盖化学、材料、生命、地球、物理等学科。来源：AI工具集

Mistral AI 推出新一代语音转文本模型Voxtral Transcribe 2

Mistral AI 推出的新一代语音转文本模型Voxtral Transcribe 2，包含两个版本。Voxtral Mini 支持 13 种语言的高精度转录，具备说话人分离、词级时间戳和上下文偏置功能，适合批量转录。Voxtral Realtime 专为实时场景设计，延迟低至 200 毫秒以下，适合语音助手等交互应用。来源：AI工具集

2月4·周三

通义千问 Qwen3-Coder-Next 开源：小而强！

通义开源Qwen3-Coder-Next编程智能体模型，采用80B总参数的MoE架构，每次推理仅激活3B参数，显著降低算力需求。在SWE-Bench Verified基准上取得超70%的问题解决率，性能接近更大规模的稠密模型。来源：通义大模型

昆仑天工面向全球发布“Skywork桌面版”

昆仑天工全球发布“Skywork桌面版”AI应用，支持Windows系统本地化运行，无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件，实现多任务并行与内容生成。用户可选择Claude或Gemini模型，并自动调用百余项内置技能。来源：昆仑万维集团

2月3·周二

智谱GLM-OCR发布：性能SOTA，搞定复杂文档

智谱AI正式发布并开源专业级OCR模型GLM-OCR，以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶，在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化，支持PDF和图像批量处理，吞吐量达1.86页/秒。来源：智谱

元气AI Bot正式上线：国产AI助手实现电脑自动化操控

猎豹公司推出首款国产Clawbot工具“元气AI Bot”，支持在普通Windows电脑本地部署，用户可通过手机飞书或钉钉远程控制，用自然语言指令让AI自动操作电脑，如打开软件、查看邮件、浏览网页等。工具集成系统清理、AI写作、PPT生成等办公辅助功能，推出多款个性化AI伙伴角色。来源：AI工具集

马斯克宣布SpaceX完成对xAI的收购，估值达1.25万亿美元

马斯克正式宣布SpaceX完成对xAI的收购，合并后公司估值达1.25万亿美元，每股发行价526.59美元。马斯克在内部信中表示，此次整合将打造”地球上最具雄心的垂直创新引擎”，涵盖AI、火箭技术、太空互联网等多领域。合并后，SpaceX将推进在太空部署数据中心的计划，利用太空太阳能资源降低AI算力成本。来源：量子位

马斯克旗下 xAI 发布 Grok Imagine 1.0

马斯克旗下的人工智能公司xAI正式发布Grok Imagine 1.0版本，是该AI视频生成工具的重大升级。新版本支持生成10秒时长、720p分辨率的视频，显著提升了音频质量，实现了音画同步与情感化配音功能。来源：AI工具集

2月2·周一

阶跃星辰 Step 3.5 Flash 上线！更快更强更稳的 Agent 大脑，开源！

阶跃星辰发布新一代开源基座模型 Step 3.5 Flash，专为 Agent 场景设计。模型采用稀疏 MoE 架构，具备 1960 亿参数，每个 token 仅激活约 110 亿参数，支持 256K 上下文长度。核心优势包括推理速度最高达 350 TPS，在 Agent 任务和数学推理上媲美闭源模型，并通过 MTP-3 技术实现单次预测 3 个 token，显著提升效率。来源：阶跃星辰

Qoder首个定制模型 Qwen-Coder-Qoder

Qoder智能编程平台上线首个定制模型Qwen-Coder-Qoder，5个月内完成”模型-智能体-产品”全形态布局。该模型基于Qwen-Coder基座，针对Qoder的Agent框架进行深度优化，在真实软件工程评测集上任务解决率超过Cursor Composer-1，Windows系统终端命令准确率领先50%。来源：Qoder

「跨赴科技」再获数千万融资，产业方加持领跑AI开发新范式

跨赴科技近日完成数千万元Pre-A+轮融资，由哈勃投资和正扬投资领投，老股东奇绩创坛跟投，距上一轮融资仅四个月。核心产品“CodeFlying码上飞”年度经常性收入已突破1000万元，海外业务快速增长。来源：KuaFuAI

Vidu Q3 全球震撼来袭，为「剧」而生！

Vidu Q3 全球震撼来袭，作为全球首个支持16秒音视频直出的AI视频生成模型，专为漫剧、短剧、影视剧创作设计。模型实现声画同步高清直出，支持多镜头自由切换、多语言对话与文字渲染，具备电影级视听张力，让AI视频进入”一键成片”时代。来源：Vidu AI

1月30·周五

宇树开源 UnifoLM-VLA-0 大模型，助力通用人形机器人操作

宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构，通过340小时真机数据训练，融合2D/3D空间感知与动力学预测能力，突破传统VLM在物理交互中的局限。来源：IT之家

商汤开源SenseNova-MARS：突破多模态搜索推理天花板

商汤科技开源多模态自主推理模型SenseNova-MARS（8B/32B双版本），模型在MMSearch、HR-MMSearch等核心基准测试中以69.74分综合得分超越Gemini-3-Pro（69.06分）与GPT-5.2（67.64分），成为首个支持动态视觉推理与图文搜索深度融合的开源Agentic VLM。来源：商汤科技SenseTime

Qwen3-ASR开源：够稳定，能流式，多语言！

阿里云千问团队开源Qwen3-ASR系列语音识别模型，包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别，覆盖中文22种地方口音及多国英语变体，在嘈杂环境、歌唱场景下均表现稳定。来源：千问Qwen

OpenAI宣布2月13日下线GPT-4o等旧模型

OpenAI宣布将于2月13日从ChatGPT平台下线GPT-4o、GPT-4.1系列等旧模型。此举引发用户强烈反响，部分用户称GPT-4o的“温暖对话风格”具有不可替代的情感价值，尤其满足创意交流与情绪陪伴需求。OpenAI表示将集中资源优化主流模型，并在GPT-5.2中改进个性与创造力。API服务暂不受影响。来源：APPSO

苹果20亿美元收购以色列AI公司Q.ai

苹果公司以近20亿美元收购以色列AI初创企业Q.ai，为其自2014年收购Beats以来规模第二大的交易。Q.ai核心技术为通过分析面部微表情与肌肉运动识别“无声语音”，用户无需发声即可通过唇动输入指令。该技术有望集成至AirPods、iPhone及计划于2026年推出的AI眼镜中，实现私密、无干扰的交互体验。来源：极客公园

1月29·周四

昆仑万维开源视频生成模型SkyReels-V3，重塑创作流程

昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3，模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性（0.6698）和视觉质量（0.8119）指标上超越Vidu、Kling等主流模型；视频延长支持镜头切换与叙事扩展；虚拟形象模块可实现音画同步的长视频生成。来源：昆仑万维集团

MiniMax Music 2.5: 格莱美级创作，不再需要录音棚

MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5，突破性实现14种段落结构（如前奏、副歌、桥段）的标签化精准控制，支持创作者像专业编曲人一样设计整曲情绪曲线。来源：MiniMax稀宇科技

昆仑天工Mureka V8重磅发布：定义AI音乐新品类

昆仑万维旗下昆仑天工正式发布Mureka V8音乐大模型，宣布“AI音乐是一种新的音乐品类”。模型基于MusiCoT技术体系，在旋律完整性、人声表现力、编曲层次及混音质感上实现突破，生成效果达到可直接发布水准。来源：昆仑万维集团

1月28·周三

OpenAI发布免费科研协作工具Prism

OpenAI推出基于GPT-5.2的免费科研协作平台Prism，解决科研工具碎片化问题。平台集成云端LaTeX编辑器，支持无限协作者实时共同撰写论文，AI可基于全文语境辅助完成从摘要到致谢的全流程工作，包括公式生成、文献管理、图表优化及语法校对。来源：新智元

MiniMax发布MiniMax M2-her角色扮演模型

MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构，模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系，从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力，在百轮长对话测试中综合表现领先。来源：MiniMax稀宇科技

阿里通义开源Z-Image基座模型

阿里通义开源发布6B参数的非蒸馏基座模型Z-Image，专注于解决AI绘画风格单一、人像同质化等痛点。模型支持从写实到动漫的多元风格生成，通过原生架构优化，显著提升对LoRA、ControlNet等微调方法的兼容性。来源：通义大模型

1月27·周二

Kimi 发布并开源 K2.5 模型，带来全新视觉理解、代码和 Agent 集群能力

月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解（图像/视频）等多项基准测试中达到开源SOTA水平，支持多模态输入及四种工作模式。创新性引入“Agent集群”能力，可自主创建多达100个分身并行处理复杂任务，效率提升最高4.5倍。来源：月之暗面Kimi

Vidu Q2 参考生Pro全球上线「万物可参考」

Vidu正式推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro。模型突破性支持六大参考类型（特效、表情、纹理、动作、人物、场景），用户可通过视频或图片输入，一键复刻特效、迁移演技、替换背景，实现精细化增删改编辑。来源：Vidu AI

DeepSeek又探索新架构了，开源DeepSeek-OCR 2

DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2，采用DeepEncoder V2架构，将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token，使AI能像人类一样按逻辑顺序理解复杂文档（如表格、多栏排版），在OmniDocBench评测中以91.09%的综合得分刷新纪录，阅读顺序识别误差降低33%。来源：机器之心

千问最强模型Qwen3-Max-Thinking正式发布

阿里正式发布其规模最大、能力最强的推理模型Qwen3-Max-Thinking。模型总参数量超万亿，预训练数据达36T Tokens，在多项国际专业基准测试中刷新纪录。其创新性地采用了测试时扩展机制，在提升推理性能的同时更加经济。来源：阿里云

英伟达20亿美元加码CoreWeave，冲刺5GW算力

英伟达宣布追加投资20亿美元给云服务商CoreWeave，持股比例升至超11%，成为其第二大股东。双方将深化合作，目标在2030年前建成超5GW的AI算力项目。值得注意的是，英伟达首次独立向CoreWeave供应Vera CPU芯片，可能预示其将进入数据中心CPU市场，与英特尔、AMD竞争。来源：钛媒体

GitHub开源项目Clawdbot意外带火Mac mini

开源项目Clawdbot在GitHub爆火，Star数两天内从五千飙升至两万。项目支持自部署AI助手，通过网关连接聊天软件（如WhatsApp、Telegram）与多款AI模型（Claude、GPT等），并集成日历管理、邮件处理、自动化任务等技能，实现真正的“对话式”个人助理。来源：APPSO

1月26·周一

腾讯混元发布混元图像3.0图生图模型，上线元宝：一句话就能p图

腾讯混元团队发布混元图像3.0图生图模型，模型总参数量80B，采用混合专家架构，支持图片编辑、多图融合等多样化视觉创作功能。用户可通过自然语言指令实现增删改、风格变换、老照片修复等操作，模型能智能理解图像内容并生成详细编辑步骤。来源：腾讯混元

38岁清华姚班天才挂帅！上海大模型独角兽阶跃星辰融资超50亿

上海AI大模型独角兽阶跃星辰完成超50亿元B+轮融资，刷新国内大模型赛道单笔融资纪录。旷视科技创始人、38岁清华姚班校友印奇正式出任公司董事长，将与CEO姜大昕共同领导公司。融资将用于基础模型研发与AI+终端战略落地，重点攻坚基座模型、全模态融合和视觉语言动作（VLA）三大方向。来源：智东西

商汤科技AI Agent“咔皮记账”核心功能永久免费啦！

商汤科技宣布AI记账产品“咔皮记账”核心功能将永久免费开放。产品依托“日日新”大模型的多模态理解能力，用户可通过拍照、语音等方式实现自动记账，目前已成为国内AI记账类产品第一名，累计用户超500万。此次免费范围涵盖自动记账、共享账本、预算规划、多账户管理等30项核心功能，彻底取消使用门槛。来源：商汤科技SenseTime

1月23·周五

清言学习搭子已上线！火速申请体验名额

智谱AI正式推出“AI学习搭子”AI学习助手，现已开放首批用户体验申请。产品通过三大功能重塑学习体验：智能摘要可将数百页文档转化为知识地图实现“把书读薄”；可视化交互卡片与AI助教答疑让学习过程生动有趣；知识点精准出题与“学-练-测”闭环助力深度掌握。来源：智谱清言

Qwen3-TTS全家桶开源上线！

通义千问团队正式开源Qwen3-TTS系列语音生成模型，包含1.7B和0.6B两种参数规模，全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构，实现高效语音压缩与高保真还原，首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言，支持自然语言指令精确控制音色、情感及韵律。来源：千问Qwen

vLLM团队官宣创业：融资1.5亿美元，清华特奖游凯超成为联创

大模型推理开源框架vLLM的创建团队正式宣布成立创业公司Inferact，并在种子轮融资1.5亿美元，公司估值达8亿美元。本轮融资由a16z和光速创投领投，红杉资本等机构跟投，成为有史以来规模最大的种子轮融资之一。来源：机器之心

1月22·周四

百度发布文心大模型 5.0 正式版：2.4 万亿参数，具备全模态理解与生成能力

百度正式发布文心大模型5.0版本，模型参数量达2.4万亿，采用原生全模态统一建模技术，具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示，在40余项权威基准评测中，其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。来源：百度文心

腾讯CodeBuddy Code 2.0 重磅升级！

腾讯CodeBuddy Code 2.0版本正式发布，核心升级包括开放SDK集成能力，通过Plan模式与ACP协议实现Agent能力标准化输出，支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态，支持Plugin插件市场与自定义Subagents智能体，集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能，支持GLM-4.7等多模型切换。来源：腾讯云代码助手CodeBuddy

8B端侧写作智能体AgentCPM-Report开源！

清华大学、中国人民大学、面壁智能与OpenBMB社区联合发布本地化深度调研智能体 AgentCPM-Report。模型仅8B参数，通过40轮深度检索与100轮思维链推演，在DeepResearch Bench等三大评测中综合表现超越部分顶级闭源系统，尤其在洞察性指标排名第一。来源：面壁智能

1月21·周三

10B击败200B！阶跃星辰开源视觉语言SOTA：Step3-VL-10B

阶跃星辰（StepFun）开源10B参数多模态模型Step3-VL-10B，在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平，其创新的并行协调推理机制（PaCoRe）显著提升复杂任务处理能力。来源：阶跃星辰

MiniMax推出Agent 2.0，升级为进阶型桌面智能协作伙伴

MiniMax发布第二代智能体产品MiniMax Agent 2.0，推出“AI原生工作台”新范式。平台包含桌面端应用，支持Windows和Mac系统，可深度打通本地文件与环境，实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统，通过封装行业SOP与私有知识，将专业能力从通用70分提升至95分以上。来源：机器之心

1月20·周二

GLM-4.7-Flash开源、免费

智谱AI正式开源并发布GLM-4.7-Flash模型，模型采用混合思考架构，总参数量30B，激活参数量仅3B，为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ²-Bench等主流基准测试中表现优异，超越同尺寸开源模型达到SOTA水平。来源：智谱

欢迎报名 Kimi 新模型 API 内测计划

月之暗面（Moonshot AI）正式启动Kimi新模型API内测计划，面向已完成企业认证的开放平台用户开放申请。平台将根据开发者使用场景与新模型能力的匹配度筛选首批测试用户，通过审核后将由官方团队电话联系。与开发者共同探索下一代模型的应用潜力。来源：Kimi开放平台

马斯克开源 X 平台推荐算法

马斯克宣布正式开源X平台（原Twitter）核心推荐算法代码x-Algorithm，成为首个将流量分发逻辑完全透明化的主流社交平台。新版算法采用与xAI的Grok模型相同的Transformer架构，实现”零人工特征工程”，完全依赖模型自主学习用户交互历史来预测内容相关性。来源：APPSSO

「自然选择」融资3000万美元，阿里、蚂蚁布局AI陪伴

AI陪伴公司「自然选择」完成超3000万美元融资，投资方包括阿里巴巴、蚂蚁集团、启明创投等机构。公司推出的《EVE》产品重新定义了AI陪伴的五个维度：主动发起关怀、双商兼具的”活人感”、SOTA级长时记忆、高沉浸感设计以及破次元生活服务介入。来源：暗涌Waves

Kimi开启新一轮融资！估值直冲48亿美元

月之暗面在距上轮融资仅数周后启动新一轮融资，投前估值逼近48亿美元，较上月43亿美元估值溢价5亿美元。本轮融资获机构疯狂抢购，主因智谱与MiniMax港股上市表现强劲后，投资人加速布局中国AI头部标的。公司目前持有超100亿人民币现金储备，创始人杨植麟表示不急于IPO，将聚焦下一代K3推理模型研发与算力扩容。来源：Z Finance

1月19·周一

扣子 2.0，让 Agent 更进一步

字节跳动旗下AI智能体平台“扣子”正式发布2.0版本，推出四大核心功能升级。Agent Skills技能系统支持用户为AI安装行业专业能力包；Agent Plan支持设定长期目标后由AI自主规划执行；Agent Office提供深度职场场景理解与洞察；Agent Coding实现云端一站式开发。来源：扣子Coze

安克与飞书联合发布AI录音豆

安克与飞书联合发布AI录音豆，产品单体仅重10克，采用豆型轻巧设计，可夹于衣领、袖口等位置实现无感佩戴。内置的AI能力由飞书提供，支持多语言转写翻译、会议纪要自动生成，能将录音内容智能分析为鱼骨图等可视化图表，自动同步至飞书多维表格。来源：Anker安克

AI视频领军企业爱诗科技与中国儒意达成战略合作

AI视频生成企业爱诗科技与港股上市公司中国儒意达成战略合作，并获得1420万美元战略投资。双方将共同探索AI技术在影视制作、流媒体平台南瓜电影及游戏业务中的创新应用，重点开发影视视觉设计、视效制作、宣传素材智能生成等环节。爱诗科技将获得中国儒意优质版权内容授权，合作研发多模态智能体技术。来源：爱诗科技AIsphere

光轮智能联手World Labs破解评测规模化难题

光轮智能与World Labs合作破解具身智能规模化评测难题，通过”数字表亲”仿真方案替代传统高成本数字孪生技术。该方案基于轻量真实世界采集数据，利用3D高斯泼溅技术快速生成可物理交互的仿真环境，将环境创建时间压缩至分钟级。来源：光轮智能

1月16·周五

国产芯片全程训练，GLM-Image登顶Hugging Face Trending

智谱AI与华为联合研发的多模态模型GLM-Image在开源后24小时内登顶Hugging Face Trending榜单首位，成为首个完全依托国产昇腾芯片完成全流程训练的SOTA模型。模型采用创新的”自回归+扩散解码器”混合架构，在复杂视觉文本生成和长文本渲染任务中表现优异，尤其擅长汉字生成。来源：智谱

美团 LongCat-Flash-Thinking-2601 发布，工具调用能力登顶开源 SOTA！

美团LongCat团队发布并开源智能体模型LongCat-Flash-Thinking-2601，在智能体工具调用、搜索等核心评测中达到开源SOTA水平。模型创新引入”重思考”模式，支持8个并行推理路径协同工作，在复杂随机任务中性能超越Claude。来源：龙猫LongCat

谷歌最强 AI 开放翻译模型：TranslateGemma 登场

谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma，提供4B、12B和27B三种参数规模。系列支持55种核心语言及多模态图像翻译，其中12B版本翻译质量超越参数量更大的基线模型，4B模型性能与12B基线相当，可在手机端流畅运行。来源：IT之家

混元3D Studio 1.2全面开放公测！支持笔刷交互、八视图输入

腾讯混元3D Studio 1.2版本今日全面开放公测，无需申请即可体验。该版本核心升级包括PartGen 1.5组件生成模型，拆分精度提升至1536³分辨率，并首次支持笔刷交互，用户可通过笔刷进行细粒度组件拆分控制。来源：腾讯混元

1月15·周四

千问App上线AI购物，真正能帮你办事的AI来了！

千问App正式上线400多项AI办事功能，标志着从”聊天对话”迈入”AI办事时代”。应用深度接入淘宝、支付宝、高德、飞猪等阿里生态业务，在全球首次实现AI点外卖、购物、订机票酒店等实用功能，用户可在对话界面内完成支付无需跳转。上线的”任务助理”支持多步骤复杂任务规划，新增学习辅助功能。来源：阿里巴巴

阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首

阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测Artificial Analysis Speech Reasoning中以96.4%准确率登顶全球第一，超越Grok、Gemini等主流模型。是全球首个开源原生语音推理模型，具备深度语音推理和实时响应能力，可端到端理解音频内容并进行复杂逻辑推理。来源：阶跃星辰

OpenAI签下近700亿AI芯片巨单！

OpenAI与美国AI芯片公司Cerebras签署价值近100亿美元（约697亿元人民币）的超级订单，将部署750兆瓦的Cerebras晶圆级系统，打造全球最大高速AI推理平台。合作将于2026年起分阶段实施，2028年前完成，Cerebras芯片推理速度达GPU系统的15倍。来源：智东西

1月14·周三

智谱联合华为开源首个国产芯片训练的多模态SOTA模型GLM-Image

智谱AI与华为联合开源新一代图像生成模型GLM-Image，是首个在国产昇腾Atlas 800T A2芯片上完成全流程训练的SOTA多模态模型。模型采用创新的“自回归+扩散解码器”混合架构，在复杂视觉文字生成（CVTG-2K）和长文本渲染（LongText-Bench）榜单中取得开源模型最优成绩，尤其擅长汉字生成任务。来源：智谱

全球首个通用实时世界模型 PixVerse R1

PixVerse正式发布全球首个通用实时世界模型PixVerse R1，开创视频内容从”录好再播”到”因你而生”的新范式。模型支持无限流生成、多模态交互与即时响应，最高支持1080P分辨率。来源：爱诗科技 AIsphere

Genspark 官宣 ARR 突破 1 亿美元

Genspark 通过 LinkedIn 宣布，其产品上线仅 9 个月，年度经常性收入（ARR）已突破 1 亿美元，跻身全球增长最快的 AI 公司行列。同时，Genspark 预告 Genspark AI Workspace 2.0 将在两周内发布。来源：LinkedIn

商汤「办公小浣熊」APP上线！

商汤科技正式上线「办公小浣熊APP」iOS移动版应用。APP主打移动办公场景下的AI生产力工具，支持用户通过手机进行复杂表格数据分析、语音输入快速记录，并实现电脑与手机间的任务无缝接力。来源：商汤科技SenseTime

MiniMax 开源新评测集：定义Coding Agent 的生产级标准

MiniMax开源新一代Coding Agent评测集OctoCodingBench，首次将评估重点从”结果正确”转向”过程规范遵循”。评测集通过Check-level准确率和Instance-level成功率两项指标，系统评估AI编程助手在遵循命名规范、安全规则、团队协作规范等过程约束的能力。来源：MiniMax稀宇科技

快手宣布可灵 12 月收入超 2000 万美元

快手科技宣布其视频生成大模型可灵AI在2025年12月单月收入突破2000万美元，年化收入运行率达2.4亿美元。产品在上线第10个月实现ARR破1亿美元后，于第19个月再次实现跨越式增长。2025年12月，可灵AI通过”全能灵感周”集中发布了可灵视频O1、可灵图片O1等多款新模型，在视频编辑、一致性保持等方面实现技术突破。来源：快手科技

一年融2.2亿，DeepWisdom终于发布了第一款产品Atoms

AI编程平台DeepWisdom正式发布核心产品Atoms，平台基于多智能体架构，让用户”用一句话启动一家创业公司”。只需输入想法，平台可调用产品经理、工程师等AI智能体，完成从市场调研、全栈开发到部署上线的完整产品闭环。公司在2025年完成累计2.2亿元人民币融资。来源：暗涌Waves

1月13·周二

Anthropic 发布 Cowork：面向所有人版本的 Claude Code 助手

Anthropic发布Claude Cowork，是其智能体编码工具Claude Code面向包括非开发者在内的所有用户的衍生版本。工具允许用户授权Claude访问电脑指定文件夹，使其能在其中读取、编辑和创建文件。来源：AI工具集

百川开源全球最强医疗大模型Baichuan-M3

百川智能开源全球最强医疗大模型Baichuan-M3，在权威评测HealthBench中以65.1分综合成绩位列全球第一，首次在医疗领域全面超越GPT-5.2。模型幻觉率低至3.5%，为全球最低，首次具备原生“端到端”严肃问诊能力，其问诊表现超越真人医生平均水平。来源：百川智能

1月12·周一

自变量获字节、红杉等10亿元投资，构建物理世界的基础模型

具身智能机器人公司“自变量”近期完成10亿元A++轮融资，投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业，凸显市场对其技术领先性的高度认可。来源：自变量机器人

千寻智能开源具身智能基础模型Spirit v1.5

国产具身智能模型千寻Spirit v1.5在权威真机评测基准RoboChallenge上以总分66.09、成功率50.33%的成绩超越美国公司Physical Intelligence的Pi0.5模型，登顶全球榜首。是该榜单自上线以来首个击败基准模型的国产模型，也是首个成功率突破50%的具身智能模型。来源：量子位

Humanify 获数千万元首轮融资打造 AI OS

AI初创公司Humanify（人格智能）近日宣布完成数千万元种子轮融资，由五源资本领投，奇绩创坛跟投。公司成立于2024年，专注于开发具备“类人认知与自主意识”的下一代AI模型与原生操作系统。本轮资金将主要用于模型和操作系统研发、扩大团队，加速智能在真实场景的落地。来源：Z Potentials

谷歌联合零售巨头推出通用商务协议 UCP

谷歌联合Shopify、沃尔玛、Target等零售巨头推出全新开放标准——通用商务协议（UCP），为AI智能体购物场景建立全流程标准化框架。协议支持智能体参与从商品发现到售后支持的全部环节，通过标准化实现不同系统间的协同运作，并可兼容谷歌此前发布的智能体支付、互联等协议。来源：IT之家

1月9·周五

MiniMax 港股挂牌，历史上IPO规模最大的AI大模型公司诞生

全球化AI大模型公司MiniMax（股票代码：0100.HK）在香港联交所主板正式挂牌上市。开盘后股价一度大涨超50%，截至发稿涨幅达63%，报269港元，市值约831亿港元。此次IPO以每股165港元定价上限发行，募集资金总额约55.4亿港元，其公开发售部分获得1837倍超额认购，市场反响热烈。来源：财联社

ChatDev 2.0：零代码构建多智能体，快速开发一切

清华大学、上海交通大学、OpenBMB与面壁智能联合团队正式开源多智能体框架ChatDev 2.0。新版实现了从“代码驱动”到“零代码可视化交互”的飞跃，用户通过简单“拖拽+配置”即可在无限画布上构建复杂多智能体系统。来源：面壁智能

多模态检索新标杆，Qwen3-VL-Embedding&Reranker开源！

通义千问团队正式开源多模态检索模型Qwen3-VL-Embedding与Qwen3-VL-Reranker。该系列模型基于Qwen3-VL构建，专为图文、视频等混合内容的理解与检索设计，能在统一框架内处理文本、图像、视觉文档及视频等多种模态输入。来源：通义大模型

1月8·周四

智谱上市了，全球大模型第一股，股票代码“02513”

北京智谱华章技术股份有限公司（简称“智谱”）正式在香港交易所挂牌上市，股票代码为“02513”，成为全球“大模型第一股”。公司以“智能是且仅是我们唯一的产品”为核心，致力于通用人工智能（AGI）的研发与探索。此次上市标志着其在发展历程中迈出关键一步。来源：智谱

ChatExcel一年完成3轮融资，构建全模态数据链路平台

北大系AI公司元空智能（ChatExcel）连续完成Pre-A轮与A轮数千万融资，由考拉基金与合鼎共资本投资，全年共完成三轮融资。2026年，公司正重点推进全球化布局，海外版本已上线，致力于成为国际领先的数据智能服务商。来源：元空AIExcel

OpenAI 推出 ChatGPT Health 模式，为健康设立专属空间

OpenAI正式推出专注于健康领域的“ChatGPT Health”模式。是ChatGPT为用户提供了一个独立的对话空间，更系统、安全地讨论健康问题。核心特性包括将健康对话与普通聊天记录隔离以保护隐私，允许AI在获得许可后参考用户其他场景的信息以提供连贯建议。来源：IT之家

1月7·周三

xAI完成200亿美元E轮融资，英伟达再次出手

马斯克旗下xAI公司完成200亿美元E轮融资，超额完成原定目标。投资方包括英伟达、思科等知名机构及中东资本。数据显示，Grok月活跃用户已达6亿，Grok 5正在训练中。公司拥有超100万个H100 GPU等效算力，Grok 4在强化学习方面取得突破。来源：智东西

LMArena完成1.5亿美元Series A融资

AI初创公司LMArena完成1.5亿美元A轮融资，投后估值达17亿美元。核心产品为“模型竞技场”平台，通过众包方式让用户比较不同AI模型的性能，月活用户超500万，每月产生6000万次对话。本轮融资由Felicis和UC Investments领投。来源：Z Potentials

智元发布首个大语言模型驱动的开源仿真平台：Genie Sim 3.0

智元机器人在CES上发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0。平台基于NVIDIA Isaac Sim构建，融合三维重建与视觉生成技术，可实现数字孪生级高保真仿真环境。首创的自然语言驱动场景生成技术，可将万级场景的生成时间缩短至分钟级。来源：AI工具集

1月6·周二

英伟达发布重磅AI计算平台Vera Rubin

英伟达CEO黄仁勋发布了重磅AI计算平台Vera Rubin，打破五年未发消费级显卡的惯例。平台包含6款全新芯片，其中Rubin GPU推理算力达50 PFLOPS，是Blackwell的5倍。Vera Rubin NVL72系统性能全面提升，训练10万亿参数模型所需系统数量仅为前代1/4，成本降至1/10。来源：APPSO

亚马逊上线 Alexa网页版，加速补齐网页端能力

亚马逊正式推出Alexa+网页版，重新启用Alexa.com域名，允许用户通过浏览器直接与AI助手对话。标志着Alexa从智能音箱设备扩展到网页端，与ChatGPT、Google Gemini等AI聊天机器人展开正面竞争。来源：AI工具集

开源异构算力调度平台「密瓜智能」获数千万元投资

异构算力调度平台「密瓜智能」近日完成数千万元天使轮融资，由复星创富领投。核心产品为CNCF开源项目HAMi，专注于解决GPU等异构算力资源利用率低下的行业痛点。HAMi支持NVIDIA、华为昇腾等9种以上芯片的细粒度切分与统一调度，可实现显存超卖和动态资源分配。来源：36氪

智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资

国内AR智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资，由中国移动链长基金与中信金石共同领投，中国联通旗下基金参与。是国内运营商首次以战略投资者身份进入智能眼镜赛道，交割后中国移动持股7.92%。来源：智东西

1月5·周一

智元机器人与MiniMax达成合作，全模态AI加速落地机器人应用

智元机器人与MiniMax（上海稀宇科技）正式达成合作，MiniMax将为智元机器人提供文本到语音全流程AI技术支持。此次合作将基于智元机器人的产品特性，量身打造专属人设体系以优化语音交互体验，并通过定制化提示词策略实现千人千面的个性化音色合成。来源：36氪

腾讯「AI应用及线上工具小程序成长计划」发布：混元大模型token免费用

微信小程序正式推出「AI应用及线上工具小程序成长计划」，为开发者提供为期一年的免费资源支持。计划核心福利包括免费使用腾讯混元大模型的Token，涵盖旗舰文生文及文生图等多模态模型能力，并配套云开发、数据分析、广告变现及流量激励。申请条件要求小程序类目为文娱、工具、社交等虚拟行业类目，个人或企业主体均可参与。来源：腾讯混元

Looki完成超2000万美元A轮融资

AI硬件公司Looki完成超2000万美元A轮融资，由蚂蚁集团领投，美团龙珠、华登国际等跟投。Looki的核心产品是一款名为Looki L1的多模态AI穿戴设备，重30克，可通过视觉和音频信号实现智能生活记录和个性化交互。来源：AI工具集

AI助手ima支持PPT生成

AI助手ima正式推出PPT生成功能，用户现可通过任务模式一键制作演示文稿。功能支持上传附件或调用知识库资料，自动将文字内容转化为包含数据图表、图标配图和重点突出的专业PPT。用户可自定义风格主题，如简洁商务风、深色科技风等。来源：ima.copilot

1月4·周日

DeepSeek 发布新论文：提出全新 mHC 架构

DeepSeek发布新论文提出全新mHC（流形约束超连接）架构，解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其性能增益。框架通过将残差连接空间投影到特定流形来恢复恒等映射属性，并结合基础设施优化提升效率。来源：AI工具集

ListenHub完成200万美元融资，ARR 300万美元进军北美

AI内容生成平台ListenHub的母公司MarsWave已完成200万美元天使+轮融资，由天际资本领投，小米联合创始人王川跟投。公司年经常性收入（ARR）已突破300万美元并实现月度盈亏平衡。此次融资将主要用于进军北美市场，并已任命具有百度、MiniMax等背景的新COO负责全球增长。来源：36氪

TRAE 中国版 SOLO 已全量免费开放！

中国版TRAE SOLO模式现已向全部用户免费开放。AI编程助手支持项目迭代、问题修复与架构重构等复杂开发任务，具备智能任务规划和自主编排智能体能力。用户可免费使用内置的豆包、GLM、MiniMax、Kimi等多款模型，产品将自动基于模型效果和速度配置最佳上下文窗口。来源：TRAE.ai

12月31·周三

Kimi 完成 5 亿美元新融资

中国大模型公司月之暗面（Kimi）近期完成5亿美元C轮融资，由IDG资本领投1.5亿美元，阿里巴巴、腾讯及王慧文等老股东超额认购，投后估值达43亿美元。创始人杨植麟内部信透露，公司现金储备已超100亿元人民币，因此“可以不着急IPO”。本轮融资将用于加速K3大模型的研发和扩增算力。来源：晚点LatePost

Vidu Agent全球正式上线，商业广告一键成片

Vidu推出AI视频创作工具Vidu Agent，支持20多种语言和200多种音色，覆盖商业广告、产品TVC、剧情片等多种创作场景，能一键生成高质量视频。其分镜编辑功能让创作者可以轻松调整镜头顺序、时长和转场效果，实时预览修改后的视频。来源：Vidu AI

软银完成对OpenAI承诺的225亿美元额外投资

软银向OpenAI的400亿美元（约合人民币2799亿元）巨额投资已全部到账，使其持股比例达到约11%。这笔史上最大额AI投资的前提是OpenAI需在年底前完成重组并转为营利组织，否则投资将大幅缩减。为筹集资金，软银已清仓其持有的英伟达股份。投资将部分用于支持OpenAI、甲骨文和软银联合建设的AI基础设施“星际之门”。来源：智东西

MiniMax今起招股，1月9日敲钟代码00100

中国AI公司MiniMax正式启动港股上市进程，预计于2026年1月9日挂牌，股票代码00100。此次IPO发行估值超461亿港元，拟募资超6亿美元。公司获得阿里巴巴、阿布扎比投资局等14家基石投资者支持。来源：量子位

12月30·周二

Meta 数十亿美元收购 Manus，肖弘将出任 Meta 副总裁

Meta宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司，这是Meta历史上第三大收购。收购后蝴蝶效应将保持独立运营，其创始人肖弘出任Meta副总裁。此次收购被视为扎克伯格推进“超级智能”愿景的关键一步，也标志着中国新一代创业者登上全球科技舞台。来源：晚点LatePost

“全球大模型第一股”来了！智谱今起招股，发行市值达511亿港元

“全球大模型第一股”即将登陆港股。智谱（股票代码：2513）今日启动港股招股，预计2026年1月8日上市。本次IPO将发行3741.95万股H股（香港发售187.1万股，国际发售3554.85万股），发行价每股116.20港元，本次IPO募资总额约43亿港元，公司估值超511亿港元，招股期至2026年1月5日结束。来源：AI工具集

腾讯混元开源翻译模型Tencent-HY-MT1.5版本，端侧可部署

腾讯混元开源翻译模型Tencent-HY-MT1.5系列版本，包含1.8B和7B两个模型，支持33种语种互译及5种民汉/方言。1.8B模型专为端侧部署优化，仅需1GB内存即可流畅运行，在翻译质量上超越多数商用API，平均响应时间仅0.18秒。7B模型为WMT25比赛冠军升级版，准确率显著提升。来源：腾讯混元

12月29·周一

Z.ai新突破：GLM-4.7登顶Artificial Analysis全球开源榜首

智谱AI宣布GLM-4.7模型在全球权威评测平台Artificial Analysis Intelligence Index中取得突破性成绩，以68分的综合得分荣登全球开源模型与国产模型双料榜首，并位列全球总榜第六。该榜单重点评估模型的知识、推理、代码及智能体等核心能力，被业界视为衡量大模型综合实力的重要风向标。来源：智谱

MAI-UI 开源：通用 GUI 智能体基座登顶 SOTA

通义实验室开源通用GUI智能体基座MAI-UI，登顶多项SOTA。模型原生集成用户交互、MCP工具调用与端云协同三大能力，能主动澄清模糊指令，并优先调用结构化工具跳过冗长UI操作，显著提升任务成功率。来源：通义大模型

京东AI购抢先实测，一句话搞定吃喝穿用

京东上线AI原生应用“京东AI购”，目前处于App Store内测阶段。应用以对话为主要交互方式，用户通过自然语言即可完成外卖点单、商品导购等操作。核心功能包括“灵感空间”预设指令卡片、AI试穿及智能比价等，由京东自研言犀大模型驱动。来源：智东西

九章云极宣布完成新一轮战略融资

人工智能基础设施提供商九章云极宣布完成新一轮战略融资，由北京信息产业发展投资基金与北京市人工智能产业投资基金联合领投。本轮融资将重点用于AI加速计算技术研发和普惠智算云平台建设，以巩固其技术优势并推动企业级AI应用普及。来源：机器之心

腾讯元宝“任务”功能上线：一句话安排时间，到点就提醒

腾讯元宝AI助手正式上线“任务”功能，用户只需将时间安排或计划用一句话告知元宝，即可获得准时提醒服务。功能支持提前测试、手动管理和自定义提醒，需更新至最新版本使用。来源：IT之家

MiniMax正式开源了MiniMax M2.1多语言编程模型

MiniMax公司宣布将MiniMax M2.1模型正式开源，已在Hugging Face和GitHub平台发布。模型专为真实世界复杂任务设计，在多语言编程、全栈开发、Web与App开发以及Agent能力方面表现卓越。同时推出跨年促销活动，Coding Plan首月价格低至9.9元，活动持续至2026年1月15日。来源：MiniMax稀宇科技

12月26·周五

智谱推出轻量级AI IDE编程工具：Zcode

智谱推出AI编程工具Zcode，深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查，具备对话变更自动保存、代码回滚、可视化Git界面等功能，针对前端开发集成内置浏览器和元素选择器，助力开发者高效协作，无缝融入现有工作流。来源：AI工具集

Qwen Code 重磅更新：让 AI 编程跳出命令行

通义千问Qwen Code发布v0.5.0版本，实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件，开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力，便于构建Web或移动应用。来源：通义千问Qwen

Skywork Sheets 2.0重磅上线：一键解锁高效办公新体验

Skywork Sheets 2.0版本近日正式上线，核心突破在于实现了“表格与报告的深度融合”。用户仅需输入数据，AI即可自动完成整理分析、生成可视化图表并撰写完整报告，实现“输入数据，输出成果”的闭环。来源：昆仑万维集团

小红书开源 InstanceAssemble：让 AI 精准还原复杂图像排版

小红书与复旦大学联合推出布局控制生成方案InstanceAssemble，通过创新“实例组装注意力”机制，实现了从简单布局到密集复杂场景的精准图像生成。技术能根据用户指定的物体位置和内容描述，在对应位置高精度生成图像，解决了布局对齐不准的行业难题。来源：IT之家

曦诺未来宣布完成超亿元天使轮融资，宁德时代和小米投了

杭州灵巧手企业曦诺未来今日宣布完成超亿元天使轮融资，由宁德时代旗下溥泉资本领投，小米战投等跟投。该公司成立数月即研发出全球首款全自研高自由度腱绳驱动灵巧手Xynova Flex 1，拥有25个自由度，自重仅380克，负载超30公斤。来源：智东西

12月25·周四

阿里最强“PS模型”开源：Qwen-Image-Edit-2511

阿里开源图像编辑模型Qwen-Image-Edit-2511，显著提升人物一致性与风格稳定性，集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然，但几何推理与精细镜头控制仍有不足。来源：智东西

生数科技联合清华发布 TurboDiffusion提速200倍

生数科技联合清华大学开源视频生成加速框架TurboDiffusion，最高可实现200倍推理加速，推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术，在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级，几乎不影响生成质量。来源：生数科技

12月24·周三

字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5

字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构，能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中，模型以35/42的成绩达到金牌分数线；在Putnam竞赛历史题集上解决率达88%，刷新多项SOTA记录。来源：字节跳动Seed

上海与商汤发布规划资源 AI 基础大模型

全国首个规划资源领域AI大模型“云宇星空”（专业版）近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发，具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力，参数量达6000亿。来源：商汤科技SenseTime

云深处科技已正式启动上市辅导

杭州云深处科技股份有限公司已启动上市辅导，辅导机构为中信建投证券。公司成立于2017年，专注于四足及人形机器人研发，创始人朱秋国为浙江大学副教授，目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资，并于11月初完成股改。来源：智东西

12月23·周二

GLM-4.7上线并开源：更强的编码

智谱AI正式上线并开源新一代大模型GLM-4.7，该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中，编程能力达到开源模型领先水平，在SWE-bench Verified中获得73.8%的SOTA分数，工具调用任务τ²-Bench得分87.4分，超越Claude Sonnet 4.5。来源：智谱

MiniMax M2.1：多语言编程SOTA，为真实世界复杂任务而生

MiniMax发布新一代大模型MiniMax M2.1，该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力，在SWE-bench Verified基准测试中获得74分，超越Claude Sonnet 4.5。其创新的VIBE基准测试显示，M2.1在全栈应用构建能力上接近顶级闭源模型水平。来源：MiniMax稀宇科技

阿里发布新一代端到端语音交互模型：Fun-Audio-Chat

阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat，模型采用创新的端到端序列到序列架构，实现从语音输入直接生成语音输出，无需传统ASR+LLM+TTS多模块拼接，显著降低延迟。在OpenAudioBench、MMAU等多个权威评测中，模型在同尺寸模型中排名第一，综合性能超越GLM4-Voice、Kimi-Audio等主流产品。来源：通义大模型

面壁智能完成数亿元融资，加码投入领跑端侧 AI

面壁智能近日宣布完成数亿元融资，投资方包括京国瑞、国科投资、中金保时捷基金等多家机构。本轮融资将主要用于加大端侧高效大模型的研发投入，加速端侧AI的商业化进程。来源：面壁智能

钉钉发布全球首个为 AI 打造的工作智能操作系统 Agent OS

钉钉发布AI工作操作系统“Agent OS”，重构企业工作方式。系统作为全球首个为AI打造的工作智能操作系统，可统一调度和管理各类AI智能体。核心组件包括交互界面“钉钉ONE”、通用智能体“悟空”及企业级AI硬件“DingTalk Real”。来源：APPSO

12月22·周一

MiniMax 通过港交所聆讯，有望成为“AGI 全球第一股”

MiniMax通过港交所聆讯并披露招股书，冲刺IPO。MiniMax成立于2022年初，若成功上市，将是全球从成立到IPO最快的AI公司。2024年，MiniMax收入同比增长782%至3050万美元，净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。来源：第一财经

智谱冲刺港股“大模型第一股”，估值244亿

智谱通过港交所聆讯，冲刺港股“大模型第一股”。智谱成立于2019年6月，是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型，支持本地化和云端部署。2025年11月，智谱日均token消耗量达4.2万亿，已为约8000万台设备提供支持。来源：智东西

英伟达新模型NitroGen能打遍几乎所有游戏

英伟达开源通用游戏AI模型NitroGen，模型能通过观看游戏画面直接生成手柄操作信号，支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练，采用为机器人设计的GR00T架构，具备强大的跨游戏泛化能力。来源：机器之心

12月19·周五

扣子编程，开启免费公开测试

在火山引擎Force大会上，扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台，推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求，即可自动生成智能体、工作流及跨端应用。来源：扣子Coze

OpenAI最强代码模型GPT-5.2-Codex上线

OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex，模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能，在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库，支持复杂重构与迁移任务。来源：机器之心

VTP：MiniMax海螺视频团队，首次开源！

MiniMax视频团队开源视觉生成模型关键组件VTP，首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法，将latent易学性与通用表征学习建立关联，显著提升下游生成系统性能。来源：MiniMax稀宇科技

苹果开源 SHARP 模型，1 秒内 AI 让照片变 3D“活”起来

苹果公司宣布开源其新型AI模型SHARP，能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比，处理速度提升了三个数量级，实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术，通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。来源：IT之家

12月18·周四

Google 发布了高速、低成本模型 Gemini 3 Flash

谷歌正式发布高速、低成本模型Gemini 3 Flash，模型在多项基准测试中表现优异，其性能已超越前代Gemini 2.5 Pro，在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力，响应速度提升3倍，同时显著降低了成本。来源：机器之心

美团 LongCat-Video-Avatar 发布，实现开源SOTA级拟真表现

美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar，模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能，通过创新的跨片段隐空间拼接技术，有效解决了长视频生成中的画质退化问题，可稳定生成5分钟高质量视频。来源：龙猫LongCat

通用Agent模型Seed1.8正式发布

字节跳动正式发布通用Agent模型Seed1.8，模型集成了搜索、代码生成与图形界面交互等多元能力，支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异，其在GUI Agent任务上的OSWorld得分达61.9，搜索任务BrowseComp-en得分67.6，均处于行业领先水平。来源：字节跳动Seed

更大更强！限时免费！阶跃星辰 GUI Agent 全面升级

阶跃星辰宣布其GUI Agent模型Step-GUI全面升级，新版模型支持200多个任务场景，具备更长推理步骤、更强语义理解与泛化能力。模型可在手机、PC、汽车等多端使用，并实现最短10分钟快速部署。公司开放了API供免费使用，并公开发布了技术报告与GUI-MCP协议。来源：阶跃星辰

Meta 发布 SAM Audio，多模态音频分离新突破

Meta发布首个统一多模态音频分离模型SAM Audio，支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术，用户可点击视频中物体分离对应音频，或输入”狗吠”等文本指令过滤噪音。来源：IT之家

估值达465亿！明星AI编程独角兽Lovable再拿新融资

瑞典AI编程初创公司Lovable近日完成新一轮融资，估值飙升至66亿美元，较半年前暴涨超三倍，成为欧洲最具价值初创公司之一。本轮融资吸引了Accel等知名风投参与，标志着AI编程工具赛道竞争加剧。来源：智东西

爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航

爱诗科技与阿里云签署全面合作协议，双方将在AI视频生成领域建立深度协同。阿里云将为爱诗科技提供全栈AI支持，涵盖基础设施及大模型服务，助力其自研视频生成模型PixVerse的全球化部署。来源：爱诗科技AIsphere

12月17·周三

即梦网页版全面升级，打造一站式AI片场

即梦AI网页版全面升级，打造一站式”AI片场”。核心更新包括：上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型，支持音视频联合生成及方言口型匹配；智能多帧2.0实现”视频+视频”拼接与片段精细化编辑，支持最长20个素材的一镜到底；图片4.1与4.5模型分别强化平面设计能力与人像美观度。来源：即梦AI

OpenAI 最强 AI 生图模型GPT Image 1.5登场

OpenAI发布全新旗舰图像生成模型GPT Image 1.5，模型在提示词遵循、细节保留和文本渲染方面实现重大突破，能精准生成或编辑图像并保持原图光线、构图等核心特征。来源：IT之家

小米正式发布并开源新模型 MiMo-V2-Flash

小米正式发布开源大模型MiMo-V2-Flash，模型采用MoE架构，总参数3090亿，活跃参数150亿。在多项基准测试中表现优异，其编程能力尤为突出，在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新，实现了150 tokens/秒的高推理速度及极低的推理成本。来源：APPSO

腾讯混元世界模型1.5发布，国内首个开放实时体验

腾讯正式发布混元世界模型1.5（WorldPlay），是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界，能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力，离开后返回场景保持一致。来源：腾讯混元

Seedance 1.5 pro 音视频创作模型正式发布

字节跳动发布新一代音视频创作模型 Seedance 1.5 pro，实现音视频联合生成。模型支持从文本到音视频的合成及图像引导生成，在精准音画同步、多语言与方言口型匹配、电影级运镜控制及动态叙事表现上取得突破。来源：字节跳动Seed

12月16·周二

LiblibAI 上线「Wan 2.6」视频模型，中国版 SORA2 来了！

LiblibAI平台全球首发通义万相Wan 2.6视频生成模型，支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频，实现完整叙事生成，无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色，支持单/双人表演及多人对话场景的声画同步。来源：哩布哩布AI

商汤小浣熊3.0来了，AI办公智能体一键生成高质量PPT

商汤科技发布AI办公智能体“小浣熊3.0”，实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力，支持图表、图片等全元素编辑，可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析，能深度理解复杂任务。来源：商汤科技SenseTime

Wan2.6正式发布！上线国内首个角色扮演功能

阿里巴巴发布通义万相2.6多模态模型，是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成，可直出15秒高清视频。角色扮演功能允许用户上传参考视频，AI能复刻角色外观与音色，生成单人或多人表演内容。在图像生成方面，模型提升了艺术风格融合与细节刻画能力，支持图文混排、多图融合等商用级创作。来源：通义万相Wan

英伟达发布 Nemotron 3 开源 AI 模型系列，吞吐量达上一代 4 倍

英伟达发布Nemotron 3开源AI模型系列，包含Nano、Super和Ultra三种规格。其中Nano版本（300亿参数）已上线，其采用混合专家架构，宣称吞吐量达上一代4倍，推理token生成减少60%，具备100万token上下文窗口。该系列专为多智能体系统设计，旨在解决通信开销和推理成本等挑战。来源：IT之家

通义百聆语音双子星，同步开源！

阿里云通义百聆开源语音双子星模型Fun-CosyVoice3与Fun-ASR。Fun-CosyVoice3支持仅3秒音频即可实现跨9种语言、18种方言的音色克隆与情感控制，首包延迟降低50%，中英混说错误率下降56.4%。Fun-ASR在嘈杂环境下识别准确率达93%，支持31种语言混说及方言识别，将流式识别首字延迟降至160毫秒。来源：通义大模型

12月15·周一

商汤Seko2.0重磅发布，合作短剧登顶抖音AI短剧榜No.1

商汤科技发布Seko 2.0多剧集生成智能体，作为行业首个创编一体AI工具，专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题，SekoTalk实现业内首个2人以上精准对口型功能，可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架，在消费级显卡上5秒即可生成5秒视频，完成国产芯片适配。来源：商汤科技SenseTime

蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”

蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”，同时上线“健康小目标”功能。应用可提供健康咨询、图片解读（报告、病例、处方、药盒均支持）、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。来源：IT之家

Google Gemini TTS升级：支持24种语言，语音更拟真

谷歌Gemini TTS模型，发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型，提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制，能根据上下文调整语速，如在兴奋时加快、强调时放慢，还能在多语言对话中保持一致的角色声音，使对话更真实。来源：AI工具集

12月12·周五

GPT-5.2 正式发布！让打工人每周少干 10 小时

OpenAI正式发布GPT-5.2模型，推出Instant、Thinking、Pro三个版本，分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出，在GDPval知识工作任务评估中首次达到或超越人类专家水平，软件工程能力（SWE-Bench Pro）创下55.6%的新纪录。其幻觉率降低约30%，长文本处理准确率接近完美。来源：APPSO

智谱多模态开源周收官：四项视频生成核心技术开源

智谱AI在多模态开源周收官之际，宣布开源四项视频生成核心技术：SCAIL影视级角色动画框架实现复杂姿态控制；RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒；Kaleido多主体生成框架在开源模型中达到SOTA水平；SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。来源：智谱

谷歌重磅开源！深度研究Agent拿下SOTA

谷歌开源深度研究Agent Gemini Deep Research，在DeepSearchQA基准测试中达到46.4%的SOTA水平，性能与GPT-5 Pro相当，而成本仅为后者的十分之一。该Agent基于Gemini 3 Pro模型，具备多步搜索和复杂信息整合能力，可自动生成深度研究报告。来源：智东西

迪士尼官宣 10 亿美元投资 OpenAI，允许 Sora 生成米老鼠等角色视频

迪士尼公司与OpenAI达成为期三年的战略合作协议，将向OpenAI投资10亿美元并获得股权。根据协议，OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权，包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频，部分精选内容还将在Disney+平台播出。来源：IT之家

12月11·周四

智谱开源 GLM-TTS ：基于多奖励强化学习的可控发音语音合成

智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式，支持仅3秒音色复刻与多方言克隆。字符错误率（CER）在强化学习优化后达0.89%，在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制（Phoneme-in）以及自研2D-Vocos声码器，显著提升了情感表达与发音准确性。来源：智谱

面壁智能 VoxCPM 1.5 开源，语音生成能力再升级

VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz，显著提升了音色克隆的细节丰富度。生成效率实现翻倍，仅需6.25个token即可生成1秒音频。同时，新增LoRA和全量微调脚本以支持深度定制，优化了模型稳定性，减少音频伪影。来源：面壁智能

阿里发布 Qwen3-Omni-Flash 全模态大模型

阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出，显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃，用户可精细设定如“甜妹”、“御姐”等特定人设风格。来源：IT之家

Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能

OpenAI宣布ChatGPT正式接入Adobe系列专业软件，包括Photoshop、Acrobat和Adobe Express。用户现可在ChatGPT内直接调用这些工具，通过自然语言指令完成图像编辑、PDF处理等专业任务。整合后，ChatGPT会根据用户指令动态生成相应的操作界面，例如在调整图像亮度时自动呈现曝光、阴影等专业调节选项。来源：IT之家

12月10·周三

GLM-ASR开源，智谱AI输入法发布

智谱AI发布并开源GLM-ASR系列语音识别模型，同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512，后者在保证高精度的同时实现了更强的隐私保护与低延迟。来源：智谱

Mistral AI开源新一代编程模型：Devstral 2

Mistral开源代码大模型Devstral 2系列，包含123B和24B两个版本，均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分，性能达开源头部水平，同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端，支持扫描项目结构、调用命令、自动生成代码变更等操作。来源：AI工具集

生成式AI媒体平台Fal再获1.4亿美元注资

生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资，英伟达风投Nventures等机构跟投，公司估值达45亿美元，较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务，客户包括Adobe、Shopify等企业。来源：AI工具集

12月9·周二

AutoGLM开源：每台手机，都可以成为AI手机

智谱AI宣布开源AutoGLM项目，让AI真正学会”使用手机”。项目经过32个月研发，构建了完整的Phone Use能力框架，使AI能通过视觉理解手机界面并完成点击、滑动等操作，实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全，系统主要在云端虚拟手机环境中运行。来源：智谱

蚂蚁集团通用 AI 助手灵光上线网页版

蚂蚁集团正式推出全模态通用AI助手灵光网页版，用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势，实现了与移动端的数据与创作同步。用户可在电脑上描述需求，快速生成、编辑并管理对话和闪应用，并在手机端继续使用和分享。来源：IT之家

12月8·周一

智谱正式上线并开源 GLM-4.6V 系列多模态大模型

智谱AI正式上线并开源GLM-4.6V系列多模态大模型，包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具，可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容，在代码前端复刻等方面能力提升。来源：AI工具集

美团发布 LongCat-Image 图像生成模型，编辑能力登顶开源SOTA

美团发布并开源LongCat-Image图像生成模型，以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括：采用同源架构与渐进学习，在图像编辑可控性上达到开源SOTA；通过课程学习与字符级编码，显著提升中文文字生成的覆盖度与精准度；结合数据筛选与对抗训练，增强图像真实感。来源：龙猫LongCat

混元2.0上线：推理能力与效率业界领先

腾讯发布混元大模型最新版混元2.0，包含Think与Instruct两个版本。模型采用混合专家架构，总参数406B，支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异，综合能力位居国内第一梯队。通过优化训练策略，模型在保持高准确率的同时显著降低思维链长度，推理效率领先。来源：腾讯混元

AI法律科技公司Harvey又获新融资（F轮），估值560亿！

美国AI法律科技公司Harvey宣布完成1.6亿美元F轮融资，估值达80亿美元。公司由前谷歌DeepMind研究员和顶级律所律师于2022年创立，专注于“AI+法律”领域，法律AI平台包含AI助理、文档库等功能，已与美国百强律所中的50家合作。Harvey已获7轮融资，总融资额超9.6亿美元，OpenAI创业基金、谷歌风投等多次参与投资。来源：智东西

12月5·周五

听得清，看得懂！豆包语音识别模型2.0来了

火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构，通过PPO强化学习实现深度上下文推理，关键词召回率提升20%。新增多模态视觉识别能力，可结合图像内容精准分辨易混淆词（如“滑鸡”与“滑稽”），支持日语、韩语、德语等13种语言的精准识别。来源：火山引擎

可灵数字人 2.0 功能正式上线！不止会说，更会演！

可灵全量上线数字人2.0版本，实现三大核心升级：表演力全面进化，支持精准的体态、手势与表情控制；口型与手部细节显著优化，增强真实感；单次生成视频时长延长至5分钟，覆盖科普、广告等长内容场景。来源：可灵AI

谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think

谷歌面向Gemini Ultra订阅用户（月费249.99美元）正式公测Gemini 3 Deep Think模式。模式采用并行推理技术，调用更多计算资源，在复杂数学、科学及逻辑问题中表现突破：在Humanity’s Last Exam测试中取得41%高分，GPQA Diamond测试达93.8%。来源：IT之家

AI视频生成产品 Pollo AI 获 1400 万美元融资

AI视频生成平台Pollo AI近日完成1400万美元首轮融资，由高成资本领投，真格基金跟投。其创始人朱陈彪（阿彪）无大厂背景，凭借SEO经验推动产品早期增长，7个月月活超400万。目前平台注册用户超2000万，已实现盈亏平衡。来源：晚点科技

Google推出Workspace Studio，赋能企业全员构建AI智能体

Google正式发布Workspace Studio，是基于Gemini 3多模态能力的新一代自动化工具。用户无需编码即可快速设计、管理并共享AI智能体，实现从简单任务到复杂流程的自动化。来源：AI工具集

12月4·周四

LiblibAI 上线 Seedream 4.5，一致性保持/多图参考能力全面升级！

国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本，新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级，尤其擅长处理中文海报、营销物料等本土化内容，支持最多10+参考图融合。来源：哩布哩布AI

小红书收购“点点”

小红书全资收购上海生动诗章科技有限公司，正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力，提升内容电商竞争力。收购后，小红书将加速AI战略落地，应对字节跳动、阿里等巨头竞争，优化用户行为路径，巩固内容生态。来源：36氪

可灵 2.6 全量上线！听见画面，看见声音

可灵2.6全量上线，是其首个“音画同出”模型，能单次生成同时产出画面、自然语音、匹配音效及环境氛围。模型支持文生音画与图生音画两种创作路径，适配单人独白、旁白解说、多人对白、音乐表演及创意场景等多种应用。来源：可灵AI

豆包图像创作模型Seedream 4.5发布：聚焦商业生产力场景

火山引擎发布豆包图像创作模型Seedream 4.5并开启公测。模型在主体一致性、指令遵循、空间逻辑及美学表现上显著提升，重点强化多图组合生成、海报排版与Logo设计能力，可精准满足广告营销、电商运营、影视制作等商业场景需求。来源：火山引擎

12月3·周三

Mistral AI发布Mistral 3系列模型，全线回归Apache 2.0

Mistral AI发布新一代Mistral 3系列模型，全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型，以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练，具备图像理解能力，在LMArena开源模型中排名第二。来源：机器之心

Anthropic收购热门JavaScript工具链公司Bun

Anthropic宣布收购热门JavaScript工具链公司Bun，交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用，并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具，以提升性能与分发效率。Bun将保持开源并继续独立发展。来源：InfoQ

亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新

在AWS re:Invent大会上，亚马逊云科技发布十大AI更新：推出自研AI芯片Trainium4（性能提升6倍）及Trainium3服务器；第二代大模型Amazon Nova 2系列（Lite、Pro、Sonic、Omni）性能超越多款主流模型；Bedrock平台新增18款开源模型，包括阿里、Kimi等中国模型；推出AgentCore开发工具和四大智能体（如自主编程、安全运维），强化企业级AI应用。来源：智东西

商汤发布 NEO 架构，重新定义多模态模型效能边界

商汤科技联合南洋理工大学发布全球首个原生多模态架构NEO，突破传统”视觉编码器+投影器+语言模型”的拼凑范式。架构通过原生图块嵌入、三维旋转位置编码和原生多头注意力三大创新，实现视觉与语言的深层融合。来源：商汤科技SenseTime

12月2·周二

LiblibAI 上线「可灵O1」全能视频模型，速来体验

LiblibAI全球首发「可灵O1」统一多模态视频模型，是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性，可通过自然语言指令智能编辑视频，具备视频参考生成能力。来源：哩布哩布AI

Runway发布的最新视频生成AI模型Gen-4.5，代号”David”

Runway正式发布Gen-4.5视频生成模型，该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准，ELO评分达1247分，超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感，支持多种控制模式。来源：机器之心

英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子

英伟达发布推理版视觉-语言-行动模型Alpamayo-R1，为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限，通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。来源：机器之心

PixVerse V5.5 来了！「导演级」音画同步一键生成

PixVerse发布PixVerse V5.5视频生成模型，实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能，可一键生成5秒、8秒或10秒的多镜头叙事单元，自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音，使角色口型、动作与音频完美契合。来源：爱诗科技AIsphere

12月1·周一

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

DeepSeek正式发布DeepSeek-V3.2版本，包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率，达到GPT-5水平；Speciale版在IMO、ICPC等国际竞赛中斩获金牌，推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合，在Agent评测中达到开源模型最高水平。来源：DeepSeek

字节视频模型Vidi2超越Gemini 3 Pro！理解能力爆表

字节跳动发布新一代视频理解模型Vidi2，在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容，直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案，实现从原始素材到成片的AI自动化剪辑。来源：量子位

阶跃开源4B Agent模型GELab-Zero，跑通所有安卓设备

阶跃星辰开源GELab-Zero，推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩，能流畅执行复杂与模糊指令。项目同步开源了完整的推理工程基建，支持一键部署、多设备任务分发，解决移动端Agent规模化落地的工程难题。来源：量子位

11月28·周五

DeepSeek强势回归，开源IMO金牌级数学模型DeepSeek-Math-V2

DeepSeek开源新一代数学模型DeepSeek-Math-V2，实现IMO金牌级推理能力。模型突破性引入自我验证机制，通过“生成器-验证器-元验证”三重架构，使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分，Putnam 2024测试接近满分。来源：机器之心

昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型

昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型，推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系，在编曲结构、语义映射及声场音质方面实现显著提升，支持10种语言生成及自定义歌手功能。来源：昆仑万维集团

混元3D Studio升级，可直出艺术家级3D资产

腾讯混元3D Studio升级至1.1版本，集成全新美术级3D生成模型PolyGen 1.5，实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力，可直接生成布线规整的专业级3D资产，在布线质量、结构完整度等关键指标上超越现有SOTA方法。来源：腾讯混元

11月27·周四

阿里开源高效图像生成模型Z-Image，参数规模6B

阿里开源高效图像生成模型Z-Image，参数规模为6B。模型采用单流DiT架构，通过统一处理文本与视觉语义token提升参数效率。发布三个版本：Z-Image-Turbo为轻量蒸馏版，支持8步快速生成，擅长写实生成与双语文字渲染；Z-Image-Base为基础模型，供社区微调定制；Z-Image-Edit专攻图像编辑，支持基于自然语言指令的创意编辑。来源：AI工具集

字节跳动发布视觉空间重建模型：Depth Anything 3

字节跳动Seed团队开源视觉空间重建模型Depth Anything 3，突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法，将相机姿态估计、几何重建等任务集成于简洁框架，在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。来源：字节跳动Seed

清华AI黑马斩获新融资，无问芯穹已完成近5亿元A+轮融资

清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资，成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势，加速智能体在数字与物理世界的规模化普惠应用。来源：智东西

11月26·周三

黑森林重磅开源FLUX.2，图像生成模型的新里程碑

Black Forest Labs发布开源图像生成与编辑模型FLUX.2，支持文生图、多图参考和图像编辑，具备更丰富的细节、清晰纹理和稳定光线。分为四个版本：FLUX.2 [pro]（媲美顶级闭源模型）、FLUX.2 [flex]（可调节参数）、FLUX.2 [dev]（开源32B权重模型）和FLUX.2 [klein]（即将推出的轻量化模型）。来源：AI工具集

LiblibAI 上线「基础算法F.2」！支持多图参考和图像编辑！

国内AI创作平台LiblibAI（哩布哩布）正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级，显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。来源：哩布哩布AI

腾讯混元3D创作引擎国际站，上线！

腾讯混元3D创作引擎正式推出国际站，其API同步在腾讯云国际站上线，面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能，用户通过文字、图片或草图即可分钟级生成高质量3D模型。来源：腾讯混元

TRAE SOLO 登陆中国版，免费使用！

AI编程平台TRAE中国版正式推出SOLO模式并免费开放。模式内置智能体SOLO Coder，支持先制定开发计划再执行的协作流程，能调度多智能体处理复杂任务。采用全新三栏布局，实现多任务并行开发，内置代码变更对比工具与上下文管理功能。来源：TRAE.ai

11月25·周二

Anthropic发布新一代大模型Claude Opus 4.5

Anthropic发布新一代大模型Claude Opus 4.5，在编程能力上实现重大突破，成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型，并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力，以及创新的”effort”参数控制系统，可在保证性能的同时大幅降低token消耗。来源：APPSO

混元OCR模型宣布开源，参数仅1B，多项核心能力SOTA

腾讯混元开源轻量级OCR模型HunyuanOCR，参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构，采用端到端设计，在复杂文档解析基准OmniDocBench中获得94.1分，超越Gemini 3 Pro等主流模型。来源：腾讯混元

挑战英伟达：首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

AMD携手IBM和AI初创公司Zyphra，历时1年多，成功使用AMD硬件训练出首个大型混合专家（MoE）基础模型ZAYA1。模型完全基于AMD硬件生态系统构建，训练过程在IBM云上进行，使用AMD Instinct MI300X GPU等技术。训练集群由128个节点组成，总计1024块GPU，性能超750 PFLOPs。来源：IT之家

OpenAI 为ChatGPT推出免费AI购物研究工具

OpenAI为ChatGPT推出全新“购物研究”功能，替代传统电商平台与内容社区的消费决策流程。功能基于GPT-5 mini模型优化，通过交互式提问理解用户偏好，结合记忆功能生成个性化购买指南，并直接提供商品链接与可视化对比界面。来源：APPSO

微软推出全新的开源小型语言模型 Fara-7B

微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B，由70亿参数构成，支持Win11端侧运行，性能领先同级。模型通过视觉解析网页截图，执行点击、输入等操作，无需依赖额外可访问性树或多个大模型协作。微软构建全新合成数据生成流程模拟网页任务，Fara-7B基于Qwen2.5-VL-7B底座，支持128k上下文。来源：IT之家

11月24·周一

Meta 推出 WorldGen：一句话即可生成可交互 3D 世界

Meta 推出 WorldGen 系统，仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术，输出几何严谨、视觉丰富的三维场景，适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景，风格与结构高度一致。来源：IT之家

阿里千问启用全新域名，提供更多 Qwen3 系列模型

阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com，进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问，与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。来源：IT之家

AI2推出的开源大型语言模型系列：Olmo 3

Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列，包括 Olmo 3-Base（7B 和 32B 参数）、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本，分别擅长编程、阅读理解、数学解题、复杂推理、多轮对话和强化学习等任务。来源：AI工具集

11月21·周五

谷歌Nano Banana Pro上线，深度结合Gemini 3

谷歌发布专业级图像生成模型Nano Banana Pro，深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出，可融合多达14张参考图像并保持5个人物一致性，具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎，能生成高准确性信息图表。来源：机器之心

腾讯混元发布全新视频生成模型：HunyuanVideo 1.5

腾讯混元开源视频生成模型HunyuanVideo 1.5，参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构，支持中英文文生视频与图生视频，具备强指令理解能力，可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出，经超分可提升至1080p，并在14G显存消费级显卡即可流畅运行，大幅降低使用门槛。来源：腾讯混元

小米具身大模型 MiMo-Embodied 发布并全面开源

小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务，实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越，全面超越现有开源及专用模型。来源：IT之家

蚂蚁集团领投，RockFlow完成数千万美元新一轮融资

新加坡AI金融科技公司RockFlow完成数千万美元融资，由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”，能通过自然语言理解用户投资意图，自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用，推动复杂金融服务向普惠化、个性化发展。来源：RockFlow

11月20·周四

Meta推出基于SAM系列的3D重建模型SAM 3D

Meta发布SAM 3D与SAM 3模型，实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型，通过创新数据引擎生成近百万张图像的3D标注数据，在多项基准测试中超越现有方法。来源：机器之心

AI音乐创作平台Suno完成2.5亿美元C轮融资

AI音乐平台Suno完成2.5亿美元C轮融资，估值达24.5亿美元，较去年增长近五倍。本轮由Menlo Ventures领投，英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲，最新v5版本显著提升人声自然度与指令执行准确率。来源：智东西

64亿！AI视频黑马Luma AI获新融资，要建2GW智算集群

AI视频创企Luma AI完成9亿美元C轮融资，估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投，资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。来源：智东西

OpenAI 发布最强编程模型 GPT-5.1-Codex-Max

OpenAI发布GPT-5.1-Codex-Max编程模型，取代GPT-5.1-Codex，成为Codex集成界面上默认模型。模型在多个编程基准测试中超越谷歌Gemini 3 Pro，如SWE-Bench Verified测试中准确率77.9%，领先对方1.7个百分点。其引入“压缩”机制，可连续工作超24小时，token效率提升约30%。来源：IT之家

星动纪元获近10亿元A+轮融资！吉利资本领投，总订单额破5亿

人形机器人公司星动纪元完成近10亿元A+轮融资，由吉利资本领投。公司总订单额突破5亿元，物流领域最大单笔订单近5000万元，海外业务占比达50%。本轮融资将加速技术迭代与商业化落地。来源：星动纪元

11月19·周三

Gemini 3正式发布：谷歌推出最强AI模型

谷歌正式发布新一代多模态大模型Gemini 3，在多项基准测试中表现卓越，以1501 Elo得分位列LMArena竞技场第一。模型具备原生多模态理解、高级推理及Agent编程能力，支持100万token上下文窗口，在学术推理、数学、代码开发等任务上显著领先前代及竞品。来源：智东西

AiPPT Agent版上线，AI「深度研究」功能开启内测

AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程，通过“理解-反思-追问”循环，自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。来源：AIPPT

Anthropic获微软英伟达千亿投资！估值飙到2.5万亿

Anthropic获微软、英伟达千亿投资，微软投资50亿美元，英伟达投资100亿美元，合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力，并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure，成为全球三大云平台均可用的前沿模型。来源：智东西

11月18·周二

马斯克Grok 4.1低调发布！通用能力碾压其他一切模型

马斯克旗下xAI公司发布的最新AI对话模型Grok 4.1，主打情感智能与实用性能的突破。模型在LMArena排行榜以1483分登顶，比第二名高出31分，并首创”思考模式”与”即时模式”双轨设计——即使不启动深度推理，基础版本仍能超越其他模型的完整配置。来源：机器之心

蚂蚁集团推出全模态通用AI助手“灵光”APP

蚂蚁集团正式上线全模态通用AI助手灵光APP，以结构化思维生成逻辑清晰、可视化的内容，如动态3D模型、可交互地图等，让知识呈现更生动；用户通过自然语言描述，30秒内即可生成个性化AI应用，搭载AGI相机技术，通过实时视频流解析物理世界，支持文生图/视频、图生图/视频创作，能对物体、场景进行识别与知识讲解。来源：APPSO

谷歌推出 AI 天气预报模型 WeatherNext 2

谷歌DeepMind发布的最新AI天气预报模型WeatherNext 2，运算速度比前代快8倍，能生成1小时分辨率的精准预测。模型通过功能生成网络（FGN）技术，在1分钟内即可完成传统超算需数小时的全球15天天气模拟，可输出数百种可能的天气情景。来源：IT之家

11月17·周一

千问APP正式上线：全球首款开源AI助手挑战ChatGPT

阿里巴巴正式推出千问APP，基于Qwen最强模型打造，全面对标ChatGPT。APP依托Qwen开源生态，全球下载量超6亿次，支持119种语言，具备智能调度多应用、多模态交互等能力，成为全球用户的AI生产力工具。来源：AI工具集

陈天桥盛大团队，推出最强开源记忆系统EverMemOS

陈天桥领导的盛大团队推出的开源长期记忆操作系统EverMemOS，专为AI智能体设计，解决大语言模型因固定上下文窗口导致的记忆断裂问题。该系统基于人类大脑记忆机制，采用四层架构（代理层、记忆层、索引层、接口层），在LoCoMo和LongMemEval-S评测中以92.3%和82%的高分超越行业标杆。来源：机器之心

DPAI Arena：首个开源AI编程基准测试平台发布

JetBrains联合Linux基金会推出DPAI Arena，是全球首个开源、多语言、多框架的AI编程智能体基准测试平台。客观衡量AI工具在真实软件开发任务中的效率提升，填补行业空白，支持补丁修复、代码审查等多样化工作流的可复现评估。来源：AI工具集

字节发布首个实时完成复杂任务的3D开放世界通用AI智能体Lumine

字节跳动Seed团队发布Lumine，是首个能在3D开放世界中实时完成小时级复杂任务的通用AI智能体。基于视觉语言模型，通过端到端架构统一感知、推理与行动，仅靠屏幕图像和键盘鼠标操作，无需游戏内部API。来源：量子位

11月14·周五

登顶！GLM-4.6获LMArena代码榜全球并列第一

全球权威 AI 评测平台 LMArena 更新 Code Arena (编程与代码生成) 专项榜单，智谱 GLM-4.6 与 Anthropic Claude、OpenAI GPT-5 等顶尖模型一同位列全球榜首。来源：智谱

Dexmal原力灵机融资近10亿元，阿里巴巴、蔚来资本分别领投

具身智能公司Dexmal原力灵机宣布完成数亿元A+轮融资，阿里巴巴为独家投资方。此前其A轮融资由蔚来资本领投，两轮融资金额近10亿元。资金将用于智能机器人软硬件技术研发与落地。Dexmal专注于具身智能技术研发，自主研发的多模态具身智能大模型MMLA可实现跨场景智能泛化。来源：Dexmal原力灵机

AI编程神器Cursor（母公司Anysphere）完成23亿美元D轮融资

AI编程神器Cursor（母公司Anysphere）完成23亿美元D轮融资，投后估值达293亿美元，成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投，英伟达、谷歌等跟投。过去一年，Anysphere估值增长超10倍，年化收入突破10亿美元。来源：智东西

ChatGPT 群聊功能上线部分地区：人机共同决策讨论

OpenAI宣布在韩国、新西兰等部分地区试点ChatGPT群聊功能。功能基于GPT-5.1模型，支持用户与ChatGPT共同协作，可邀请亲友或同事进入共享空间，用于策划方案、决策讨论或头脑风暴。来源：IT之家

AI PPT神器 Gamma 完成6800万美元B轮融资

美国生成式AI创企Gamma完成6800万美元B轮融资，估值达21亿美元。Gamma创立于2020年，是一个生成式AI设计平台，可快速创建演示文稿、文档和社交媒体帖子，支持22种AI图像模型和60多种语言。来源：智东西

11月13·周四

OpenAI 正式发布 GPT-5.1系列双版本，ChatGPT 情商大涨

OpenAI发布的AI升级版本GPT-5.1，重点优化了对话体验而非单纯性能指标。新版本包含Instant和Thinking两大模型，前者更注重人性化交流（如自适应思考、八种风格预设），后者强化专业推理能力（简化术语表达）。相比前代，GPT-5.1在情感互动、指令理解上显著改善。来源：APPSO

百度发布文心大模型 5.0：参数规模超 2.4 万亿，原生全模态

百度在世界大会上正式发布文心大模型5.0。模型参数量达2.4万亿，采用原生全模态统一建模技术，支持文本、图像、音频、视频等多模态输入输出，在多模态理解、创意写作、指令遵循等方面表现突出，综合能力达全球领先水平。来源：IT之家

全新升级、全面开放的 TRAE SOLO 正式版，限时免费

字节旗下TRAE团队正式发布TRAE SOLO正式版。版本定位为“响应式编程智能体”，支持复杂项目开发，新增内置智能体SOLO CODER与SOLO BUILDER，具备上下文压缩、多任务并行、可视化工具调用等功能，可高效应对从0到1的项目搭建及从1到100的迭代优化，现面向全球用户开放，限时免费体验。来源：机器之心

李飞飞宣布正式开放首款商用世界模型产品 Marble

“AI教母”李飞飞创立的World Labs公司正式推出首款商用多模态世界模型产品Marble，用户可通过文本、图像、视频或3D布局生成高保真、可编辑的3D虚拟世界，支持导出为高斯溅射、网格或视频格式。来源：APPSO

11月12·周三

腾讯开源百亿参数模型KaLM-Embedding，登顶MTEB多语言榜单全球第一

腾讯微信团队推出的KaLM-Embedding-Gemma3-12B-2511模型，在MTEB多语言通用Embedding模型权威评测中综合成绩位列全球第一。模型参数量达120亿，支持3840至64等多种向量维度，具备卓越的跨语言语义理解与检索能力，在多语言语义对齐、数据质量优化及训练策略创新方面表现突出，为多语言应用场景提供了强大的语义基础支持。来源：腾讯开源

OiiOii：全球首个动画创作Agent系统上线

OiiOii是革命性的动画创作工具，作为全球首个动画创作Agent系统，内置艺术总监、编剧、分镜师等7大智能体，用户只需输入创意或上传参考图，即可一键生成剧本、分镜、角色设计及完整动画短片，支持161种风格，涵盖剧情短片、MV、漫画转视频等多种场景，大幅降低动画创作门槛，现处于内测阶段，限时免费使用。来源：AI工具集

华为投资物理AI：“极佳视界”完成新一轮亿元级 A1 轮融资

极佳视界完成亿元级A1轮融资，由华为哈勃和华控基金联合投资，这是其在两个月内完成的第三轮融资。极佳视界的技术解决了物理AI领域数据稀缺和仿真误差等问题，其CEO预测“物理世界ChatGPT时刻”将在2-3年内到来。来源：量子位

主打“Database-First”的全栈AI应用构建平台——ZOER.AI

Chat2DB 团队创始人姬朋飞及其团队正式发布主打“Database-First”（数据库优先）的全栈应用构建平台 ZOER.AI ，专注于解决传统 AI 编程工具在后端能力上的短板，通过智能设计数据库结构、自动生成安全的后端逻辑和前端界面，实现从数据层到底层服务的全流程自动化。来源：AI工具集

Lovart推出“元素拆分”功能革新AI设计编辑体验

AI设计平台Lovart正式上线“Edit Elements 元素拆分”功能，用户上传成品海报后，AI可自动拆解为文字、主体、背景等独立可编辑图层，支持修改文本、替换元素及实时预览来源：AI工具集

11月11·周二

字节发布Doubao-Seed-Code编程模型

字节跳动正式推出Doubao-Seed-Code，专为复杂编程任务优化。模型支持256k长上下文，兼容Anthropic API与主流IDE，性能仅次于Claude Sonnet 4.5，综合使用成本降低62.7%，并登顶SWE-Bench Verified榜单。来源：火山引擎

月之暗面开源Kosong框架降低AI AAgent开发门槛

月之暗面（Moonshot AI）开源全新AI代理开发框架Kosong，以“简化复杂性、释放创造力”为核心理念，为下一代智能体应用提供轻量且高可扩展的底层支持。框架通过统一LLM抽象层，封装标准化组件并搭载异步工具编排引擎，有效解决工具碎片化、接口不兼容等开发痛点。来源：AI工具集

商汤日日新开源模型实现空间智能性能突破，多项评测领先 GPT-5

商汤日日新在空间智能领域实现重要突破，正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上，SenseNova-SI 不仅大幅度领先同量级开源多模态大模型，还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶尖闭源模型的表现。来源：商汤科技SenseTime

Meta发布Omnilingual ASR：覆盖1600+语言的语音识别系统

Meta AI团队推出Omnilingual ASR，是全球首个支持超1600种语言的自动语音识别系统，其中500种语言首次获得AI语音识别支持。系统通过大规模预训练模型和上下文学习技术，仅需少量音频-文本样本即可扩展新语言，字符错误率低于10%的语言占比达78%。来源：AI工具集

百度AI眼镜开售！2199元，今天定明天到手

百度旗下小度AI眼镜Pro正式开售，售价2299元，是继阿里巴巴夸克AI眼镜S1后，国内第二家正式开售AI眼镜的互联网大厂，小度AI眼镜Pro是一款AI拍摄眼镜，与小米AI眼镜类型相同，并非当下更为“完全体”版本的AI+AR眼镜，融合多模态AI大模型，产品功能包括拍照、听歌识曲、智能匹配歌单、AI翻译、AI识物、AI备忘、AI录音等。来源：智东西

11月10·周一

堆友「全能画布」来了！是天花板级的AI设计智能体

堆友AI反应堆正式上线AI创作全能画布，堆友用户可免费体验。堆友AI集成文生图、图生图、智能滤镜、矢量编辑、字体设计、高清放大、智能抠图、局部重绘等功能，提供一站式AI设计解决方案，实现从灵感到交付的全流程自动化。来源：堆友

全球第二、国内第一！最强百度的文心5.0 Preview

百度文心5.0 Preview在LMArena全球文本竞技场排名中以1432分并列第二、国内第一，与OpenAI GPT‑4.5、Anthropic Claude等顶尖模型实力相当。实测显示其在创意写作、长文本理解及复杂指令遵循方面表现卓越，生成内容兼具诗意与逻辑严谨性。来源：机器之心

OpenAI 推出 GPT-5-Codex-Mini：“经济高效型”AI 编程模型

OpenAI推出GPT-5-Codex-Mini，是GPT-5-Codex的“经济高效型”版本。开发者可获得约4倍的使用额度。在SWE-bench Verified测试中，GPT-5-Codex-Mini得分71.3%。版本适用于轻量级工程任务或接近速率上限的情况。来源：IT之家

11月7·周五

阶跃星辰开源首个 LLM 级音频编辑大模型Step-Audio-EditX

阶跃星辰团队开发的首个开源大语言模型驱动的音频编辑工具Step-Audio-EditX，专注于通过迭代方式控制音频的情感、说话风格和副语言特征。核心技术采用大规模合成数据训练，无需依赖嵌入式先验或辅助模块，能实现零样本文本转语音功能。来源：AI工具集

美团推出出AI IDE编程工具：CatPaw

美团发布AI编程工具CatPaw，支持Python、Java等主流语言，具备实时代码补全、问答生码、预览调试及项目级分析功能，目前兼容macOS，Windows版将上线。新用户注册获500次免费对话额度，旨在提升开发效率。来源：AI工具集

AI大牛刘威视频创业公司Video Rebirth，完成5000万美元融资

AI视频初创公司Video Rebirth宣布完成5000万美元种子轮融资，投资方包括启明创投、韩国游戏公司Actoz Soft等。公司由前腾讯杰出科学家刘威创立，致力于打造“视频原生的世界模型”，计划于12月发布1.0版本产品，目标是为专业创作者提供高保真、高可控性的视频生成平台，挑战现有市场格局。来源：机器之心

11月6·周四

即梦无限画布上线，创作更自由

即梦AI上线无限画布，提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布，轻松处理复杂项目；通过对话即创作，一句话生成灵感；一个项目可开启多个会话并行创作；支持图片和视频等多类型素材混合创作，实现一体化完成。来源：AI工具集

月之暗面Kimi发布思考模型：Kimi-k2 Thinking

月之暗面公司最新发布的具备通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking，支持多轮工具调用和256k上下文长度。模型通过新增的reasoning_content字段展示思考过程，能自主规划任务并调用外部工具完成复杂操作，例如自动拆解指令、分析数据并生成报告。来源：AI工具集

美团 LongCat 团队发布全模态一站式评测基准UNO-Bench

美团 LongCat 团队推出全模态大模型评测基准UNO-Bench，精准衡量模型在图像、音频、视频和文本等单模态与全模态任务上的表现。基准通过高质量、多样化的数据构建，首次验证全模态大模型的“组合定律”，揭示单模态与全模态能力的复杂关系。来源：龙猫LongCat

科大讯飞星火 X1.5 深度推理大模型发布

科大讯飞在2025全球1024开发者节上发布讯飞星火X1.5深度推理大模型。模型基于全国产算力，攻克MoE模型全链路训练效率，端到端性能达国际竞品93%以上。其语言理解、文本生成等能力对标国际主流大模型，数学能力国际领先，多语言能力支持130多种语言，性能达GPT-5的95%以上。来源：IT之家

11月5·周三

360发布：FG-CLIP2登顶全球最强图文跨模态模型

360 推出的 FG-CLIP2 模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta，成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解，精准识别细节，如毛发、斑点、色彩等，具备强大的中英文细粒度理解能力。来源：机器之心

银河通用发布环视导航基座大模型 NavFoM

银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型 NavFoM。支持全场景、多任务、跨本体，可适配多种机器人形态，如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略，实现时空理解与高效算力利用，基于庞大训练数据体系，其在多个国际基准上达 SOTA 水平，可直接部署于真实机器人，无需任务微调。来源：银河通用机器人

AI医疗独角兽Hippocratic AI完成8亿融资，估值250亿

美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资，估值达35亿美元，较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下CapitalG等参投，资金将用于并购、产品开发和拓展国际业务等。来源：智东西

软银与 OpenAI 宣布成立合资公司，明年推出企业级 AI 解决方案

软银集团与OpenAI宣布成立合资公司“SB OAI Japan”，计划于2026年推出企业级AI解决方案“Crystal Intelligence”。该方案将结合OpenAI技术与定制化服务，助力日本企业提升生产力和管理效率。软银将率先部署该技术，积累经验后向其他企业推广。来源：IT之家

11月4·周二

AI视频创作平台SkyReels正式焕新上线

昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆，聚合全球顶尖AI多模态模型，提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新，新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力，让专业创作更简单。来源：昆仑万维集团

OpenAI与亚马逊达成380亿美元算力合作

OpenAI与亚马逊宣布达成合作，OpenAI将在未来7年向亚马逊采购价值380亿美元（约合人民币2704.6亿元）的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器，预计明年年底前部署完毕。来源：智东西

零一万物联合开源中国推出OAK平台“Open AgentKit”

零一万物与开源中国联合发布“Open AgentKit平台”（OAK），打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型，提供一站式解决方案，助力开发者实现“Agent开发自由”。平台四大核心模块，包括OAK Framework、Builder、Runtime和Studio，将逐步推出并邀请社区共建。来源：零一万物 01AI

11月3·周一

LongCat-Flash-Omni 正式发布并开源：开启全模态实时交互时代

美团 LongCat 团队正式发布并开源 LongCat-Flash-Omni 模型。模型基于 LongCat-Flash 系列架构，集成多模态感知与语音重建模块，总参数达 5600 亿，激活参数 270 亿，实现低延迟实时音视频交互。来源：龙猫LongCat

阿里通义千问Qwen3-Max上线深度思考模式

阿里 Qwen 团队宣布 Qwen3-Max Thinking 在 Qwen Chat 上线。模型是万亿参数的 MoE 模型，曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式，免费体验。来源：AI工具集

10月31·周五

MiniMax Music 2.0：让音乐创作属于每一个人

MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃，能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格，可精准控制人声音色，实现一声千变。在旋律创作上，可生成结构完整、抓耳的歌曲，能独立控制多种乐器，编曲层次丰富。音质全面升级，带来沉浸式听觉体验。来源：MiniMax稀宇科技

美团LongCat团队发布WOWService：打造卓越智能交互体验

美团LongCat团队发布WOWService大模型交互系统技术报告，针对本地生活服务领域大模型落地的“三重困境”，提出四大核心技术框架。系统融合多智能体协同、强化学习等技术，通过人机协同标注等方式降低成本，已在美团智能客服等数十个业务场景落地。来源：龙猫LongCat

月之暗面全新的注意力架构Kimi Linear横空出世

月之暗面推出全新注意力架构Kimi Linear，有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention（KDA），通过精细化门控机制和硬件高效算法，实现性能与效率大幅提升。来源：AI工具集

OpenAI发布找Bug智能体Aardvark：全自动读代码找漏洞写修复

OpenAI 发布了由 GPT-5 驱动的Agent——Aardvark，能自动在大规模代码库中发现并修复安全漏洞。Aardvark 可识别 92% 的已知与人工注入漏洞，还能定位复杂条件下的问题。通过监控代码提交、分析、验证漏洞并生成修复建议，与 OpenAI Codex 深度集成，为漏洞生成修复补丁。来源：量子位

智源悟界·Emu3.5：开启多模态世界大模型新纪元

北京智源人工智能研究院发布“悟界·Emu3.5”，开启多模态世界大模型新纪元。Emu3.5是340亿参数的稠密自回归Transformer模型，将图像、文本和视频等多模态数据统一建模，实现从“下一Token预测”到“下一状态预测”的能力跃迁。来源：智源研究院

10月30·周四

MiniMax Speech 2.6：最强 Voice Agent 来袭

MiniMax Speech 2.6发布，全面升级Voice Agent场景。模型端到端延迟低于250毫秒，支持多种语言的网址、邮箱等非标准文本格式直接转换，提供Fluent LoRA功能，即使原始素材不完美，也能生成流利自然的语音。来源：MiniMax稀宇科技

Cursor 2.0来了！多agent并行，自研模型30秒跑完多数任务

AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计，速度达同等模型4倍，每秒输出超200个token，智能水平超开源编程模型。新版本界面以Agent为核心，支持并行运行最多8个Agent，可并行处理任务并择优选择。新增原生浏览器工具，实现代码修改“指哪儿改哪儿”，代码审查功能升级，聚合修改细节。来源：智东西

Adobe推出最强图像生成模型Firefly Image 5！原生400万像素

Adobe发布其最先进的图像生成与编辑模型Firefly Image 5，支持400万像素原生输出，具备文本指令编辑、分层图像编辑等功能，还新增视频和音频生成工具。Adobe还为Photoshop、Premiere Pro和Lightroom等应用推出全新生成式AI工具，并支持更多第三方模型。来源：智东西

智谱清言全新推出「研究模式」

智谱清言推出全新「研究模式」，帮助用户高效深入地开展研究。模式可围绕问题全网搜索并整合分析，自动生成结构化、可引用的研究报告，适用于学术研究、商业洞察、生活决策和热点追踪等多种场景。来源：智谱清言

英国AI视频生成独角兽Synthesia完成2亿美元融资

英国AI视频生成独角兽Synthesia完成2亿美元（约14亿元人民币）融资，估值达40亿美元（约284亿元人民币），由谷歌风投领投，英伟达可能参与。Synthesia成立于2017年，专注于为企业生成虚拟形象视频，用于营销、培训等，已有6万家企业使用其平台，覆盖约70%的全球财富100强企业。来源：智东西

10月29·周三

Flowith发布 Agent 操作系统 FlowithOS，超越 OpenAI Altas

Flowith正式发布FlowithOS，为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题，如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器，为AI Agent提供思考与行动的环境。附：FlowithOS邀请码来源：AI工具集

混元推出国内首个交互式AI播客，听播客可以“举手”提问了

腾讯混元推出国内首个交互式AI播客，用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力，结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色，支持快速创作播客内容。来源：腾讯混元

GitHub 推出 Agent HQ，目标统一管理所有智能体

GitHub推出Agent HQ平台，统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心，可协调多智能体任务分配与管理，支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。来源：AI工具集

OpenAI股改完成，非营利主体更名

OpenAI完成资本结构重组，上市道路铺平。非营利主体更名为OpenAI Foundation，掌控营利实体26%股份，目前估值约1300亿美元。员工和投资者持有47%股份，微软持有32.5%股份。OpenAI还同意购买2500万美元微软Azure云服务，微软股价一度上涨3.5%。来源：量子位

Google Labs推出一款AI营销工具：Pomelli

Google Labs推出AI营销工具Pomelli，帮助中小型企业快速创建符合品牌气质的社交媒体活动。用户只需提供公司网站，Pomelli会自动提取品牌信息，建立“商业DNA”，并生成活动创意和视觉素材。用户可编辑调整后直接使用。来源：AI工具集

10月28·周二

ChatDB直接对话数据库！ChatExcel全新升级

ChatExcel推出全新升级版ChatDB，用户无需SQL基础和复杂BI工具，仅通过对话即可连接数据库，快速处理百万数据并生成可视化报告。登录chatexcel.com，进入工作台即可使用ChatDB模块，连接数据库后，可一键提取、分析数据，并生成数据看板。来源：元空AIExcel

Mistral AI 推出企业级 AI 应用开发平台AI Studio

法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio，帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能，支持混合、本地和 VPC 部署，满足企业对 AI 应用的安全、合规和隐私要求。来源：AI工具集

MiniMax Hailuo 2.3 视频复杂表现新高度

MiniMax发布视频模型Hailuo 2.3，升级动态表现力，肢体动作、风格化、微表情效果显著提升，运动指令响应优化。支持多种画风，真人面部表演更自然，物体运动响应出色。性能提升的同时保持原价格，新增Hailuo 2.3 Fast模型，降低成本。来源：MiniMax稀宇科技

xAI推出开源知识库Grokipedia，收录超88.5万篇文章

埃隆·马斯克旗下的xAI团队推出Grokipedia，AI驱动的百科全书正式上线测试版。平台收录超88.5万篇文章，主打“无偏见”特性，通过Grok AI模型自动审核内容真实性，部分条目源自维基百科但标注为“改编内容”。来源：AI工具集

10月27·周一

豆包视频生成模型1.0 pro fast正式发布：提速3倍，价格直降72%

火山引擎发布豆包视频生成模型1.0 Pro Fast（Doubao – Seedance – 1.0 – pro – fast），模型在火山引擎的Seedance 1.0 Pro模型基础上，生成速度提升约3倍，价格直降72%。其生成720P的5秒视频仅需10秒，生成5秒1080P视频成本仅1.03元。来源：火山引擎

Skywork AI 的网页复刻（Web Clone）功能正式上线

昆仑万维集团旗下的Skywork AI推出网页复刻功能，用户仅需提供网页链接、上传文件或输入文字描述，AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级，实现结构级复构，而非简单复制外观。来源：昆仑万维集团

谷歌 Gemini 获得新技能：一个提示词、一份文件就能生成 PPT

谷歌Gemini的免费互动工作区Canvas推出新功能，可基于一个提示词或上传的文件（文档、电子表格、研究论文等）生成PPT幻灯片，并自动配上主题和相关图片。用户能将生成的幻灯片直接导出到Google Slides进行编辑、优化或团队协作。来源：IT之家

LongCat-Video 视频生成模型正式发布，探索世界模型的第一步

美团开源了 LongCat-Video 的通用视频生成模型，参数量达 13.6B。模型能实现文生视频、图生视频以及视频续写等功能，能在几分钟内生成 720p、30fps 的长视频，画面连贯、人物稳定、物理逻辑合理。来源：龙猫LongCat

月之暗面开源 Agentic Coding 工具：Kimi CLI

月之暗面科技有限公司推出开源 Agentic Coding 工具 Kimi CLI 技术预览版，采用 Shell-like UI，支持 ACP 协议。可在 GitHub 交流反馈。来源：月之暗面Kimi

MiniMax发布最新大语言模型MiniMax M2

MiniMax公司发布最新大语言模型MiniMax M2。目前基于M2的agent免费使用，支持开发代码、研究、制作PPT等多种功能，还可接入日常编程工具。从测试数据来看，其coding能力接近Claude 4.5 Sonnet，工具使用流畅。用户可通过设置MiniMax-M2-Preview使用该模型来源：AI工具集

10月24·周五

OpenAI收购Sky，面向Mac的自然语言交互界面

OpenAI收购了SAI公司，该公司开发了Sky——一款面向Mac的自然语言交互界面。OpenAI将把Sky技术整合进ChatGPT，并吸纳SAI约12人的团队。SAI的三位联合创始人均出身苹果，其CEO和CTO曾创立被苹果收购的Workflow，演化为如今的Shortcuts技术。此次收购不仅是看中Sky的技术，更是为ChatGPT入局操作系统铺路。来源：量子位

支付宝推出多模态AI应用“灵光”

支付宝推出多模态AI应用“灵光”，已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容，实现拍摄即问、实时理解与回答，强调认知层理解，具备强场景分析与多模态推理能力。来源：AI工具集

蚂蚁集团投的灵巧手公司，又融了数亿元

灵心巧手宣布完成数亿元A轮融资，由京国瑞管理公司和博佳资本领投，老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。来源：智东西

谷歌官方学习平台 Google Skills 来了，免费还实用

谷歌推出AI技能学习平台Google Skills，整合Google Cloud、DeepMind等团队资源，提供近3000门课程、实验室及认证，覆盖AI基础、生成式AI、数据分析等领域。平台面向全职场人群，零门槛接入，每月免费提供35个学习点数用于实操实验。来源：AI工具集

豆包编程升级，新增创作模式，让创意轻松实现

豆包编程完成重大升级，让零基础用户也能轻松开发网站和应用。此次升级引入多模态输入功能，支持文字、图片、文件、画板等多种输入形式，AI可自动理解并补全逻辑。新增Agent多工具协作系统，自动联网搜索素材、配图、检查代码，确保生成内容的准确性和可用性。来源：豆包

10月23·周四

LiblibAI融资1.3亿美金，红杉CMC领投

LiblibAI近期完成1.3亿美元B轮融资，由红杉中国、CMC资本及大厂战投联合领投，是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本，从模型社区进化为AI创作Studio。来源：暗涌Waves

Seed3D 1.0 发布，一张图生成高精度 3D 模型，纹理生成能力 SOTA

字节跳动Seed团队推出3D生成大模型Seed3D 1.0，可从单张图像生成高精度3D模型，兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构，通过大规模数据训练，具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力，在几何与纹理生成方面表现优异。来源：字节跳动Seed

百川发布最强循证增强大模型 M2 Plus，打造“医生版 ChatGPT”

百川发布了循证增强医疗大模型Baichuan-M2 Plus，并升级应用百小应及开放API。模型首创六源循证推理范式，构建从原始研究到真实世界的完整知识体系，通过循证检索与推理，显著降低医疗幻觉率，其幻觉率较DeepSeek低约3倍，优于美国医疗产品OpenEvidence，可信度比肩资深临床医生水准。来源：百川大模型

10月22·周三

OpenAI首款ChatGPT Atlas浏览器发布！免费下载使用

OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造，整合了ChatGPT对话能力，每个标签页都能直接聊天。具备浏览器上下文助手能力，可直接在浏览页面提问；内置记忆功能，记录用户浏览关键内容；“Cursor Chat”功能可选中文本进行编辑润色；Agent模式能完成网页操作，如填写表单、预订等。来源：量子位

混元世界模型1.1开源：支持多视图及视频输入，单卡部署，秒级生成

腾讯发布并开源了混元世界模型1.1（HunyuanWorld-Mirror）。模型新增支持多视图及视频输入，可在单张显卡上部署，秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限，首次实现了多模态先验注入和多任务统一输出的端到端3D重建，支持点云、深度图、相机参数等多种3D几何预测，性能大幅领先现有方法。来源：腾讯混元

AipexBase，中国首个AI原生后端基础设施正式开源！

北京跨赴科技（KuaFuAI）正式开源中国首个AI原生后端即服务（Backend-as-a-Service）平台AipexBase。让开发者“不写后端，也能拥有完整后端”，所有后端能力如数据存储、鉴权等均被自动封装，开发者可通过前端SDK或MCP协议一键调用。AipexBase原生兼容MCP，统一上下文与数据层，支持码上飞、Cursor等AI产品接入，深度适配中国开发生态，兼容飞书、钉钉、微信等生态接入。来源：CodeFlying码上飞

2B、32B！更适合开发者体质的Qwen3-VL来啦

Qwen3-VL家族新增2B与32B两个密集模型尺寸，从轻量级到甜品级，覆盖视觉语言理解场景。两种版本可选：Instruct适合对话与工具调用，Thinking强化长链推理与复杂视觉理解。Qwen3-VL-32B在多个领域表现优于GPT-5 mini等，仅用32B参数匹敌235B模型。Qwen3-VL-2B小体量但表现惊人，可在极限端侧设备上运行。来源：通义千问Qwen

Anthropic 公司推出Claude 桌面版

Claude桌面版正式发布，支持Mac和Windows系统。版本有四项核心功能：全局快捷键（Mac双击Option唤醒）、分享工作（截图、窗口分享、拖拽文件）、语音输入（按Caps Lock说话）和连接工具（可调用代码编辑器、本地文件、数据库）。来源：AI工具集

灵巧手公司星际光年完成Pre-A轮融资

深圳星际光年科技有限公司发布新品五指灵巧手Pantheon 22，并完成Pre-A轮融资。本轮融资由赛纳资本、普华资本领投，柯熙创投跟投，深渡资本担任财务顾问。资金将主要用于灵巧操作底层技术攻关、灵巧手操作系统（小脑模型）研发及核心团队扩张。来源：智能涌现

10月21·周二

Vidu Q2 参考生视频全球上线，高一致性，速度更快，价格更优惠

Vidu Q2 参考生视频全球上线，本次升级聚焦于高一致性，速度更快，价格更优惠三大核心，满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线，用户可以在Vidu网页端，或各大应用商店搜索Vidu AI APP，体验最新功能。来源：Vidu AI

Anthropic正式上线网页版Claude Code

Anthropic发布Claude Code 网页版，用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。来源：AI工具集

CodeBuddy IDE 1.0 正式版焕新发布！支持Web Fetch、自定义指令

CodeBuddy IDE 1.0 正式版发布，国际版全面支持 GPT-5-Codex，新增自定义指令、Web Fetch 实时获取网络信息等功能，MCP 市场正式开放，支持完整 DiffView 功能。来源：腾讯云代码助手CodeBuddy

5000元不限席位，Cherry Studio 企业版击穿底价，让每家公司都用上专属AI

Cherry Studio 企业 Express 版正式发布，以 5000 元买断价、不限员工席位，为企业提供一站式 AI 落地解决方案。该版本内置顶级闭源与开源模型，无需申请 API Key，解决网络问题，简化计费流程，支持私有化和云应用部署。来源：Cherry Studio-千慧科技

智谱推出GLM Coding Plan企业版：以最强Agentic Coding赋能千行百业

智谱发布 GLM Coding Plan 企业版，基于 GLM-4.6 模型，为企业提供全面智能编程解决方案。产品在国际 API 平台 OpenRouter 趋势榜中名列第一，融合多模态理解、联网搜索及智能编排能力，提供从代码生成到全链条开发协同的一站式服务。企业版具备高用量、低成本、高性能和高安全性，无缝适配 10 余款主流编程工具，支持灵活成员管理和使用数据分析。来源：智谱

美团发布面向复杂问题的大模型智能体评测基准——VitaBench

美团 LongCat 团队发布 VitaBench，是面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行三大生活场景为载体，构建了包含 66 个工具的交互式评测环境。VitaBench 从深度推理、工具使用与用户交互三大维度量化任务复杂性，通过真实用户模拟器和原子化评估准则实现细粒度评估。来源：量子位

10月20·周一

DeepSeek 再开源：发布 3B MoE OCR 模型DeepSeek-OCR

DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B，采用混合专家架构，视觉token数量减少20倍，压缩比达20倍，20个节点每天可处理3300万页数据。在Fox benchmark测试中，各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力，可在多轮对话中实现10倍压缩效率。来源：AI工具集

宇树发布180cm仿生人形机器人！会跳芭蕾能打功夫

宇树发布第四款人形机器人H2，高180cm，重70kg。相比前代H1，H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节，分布在双臂、双腿和躯干，能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征，外观和运动姿态更接近人类。来源：APPSO

全球榜首！百度最新开源模型PaddleOCR-VL

百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B，轻量高效，能精准识别文本、手写汉字、表格等多种复杂元素，支持109种语言。来源：百度AI

10月17·周五

李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世

斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行，输入2D图像后，能生成不同视角下的新2D图像，实现3D一致性和持久性。RTFM基于大规模视频数据训练，无需显式构建3D表示，而是通过端到端学习模拟3D几何、反射等特征。来源：机器之心

美团开源 LongCat-Audio-Codec，高效语音编解码器助力实时交互落地

美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型（Speech LLM）设计，通过语义与声学双Token并行提取机制，兼顾语音的语义和声学特征，解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互，满足车载语音助手、实时翻译等场景的需求。来源：龙猫LongCat

一键开发完整 Web 应用：Manus 1.5 正式发布，速度提升近四倍

Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升，任务平均完成时间缩短至不足4分钟，速度提升近四倍。Manus 1.5提供两种模型：Manus-1.5适用于高复杂度任务，Manus-1.5-Lite则针对成本效率优化。新版本具备全栈Web应用开发功能，用户可通过对话完成从开发到部署的全过程。来源：IT之家

爱诗科技完成B+轮1亿元融资，ARR突破4000万美金

AI视频企业爱诗科技宣布完成1亿元人民币B+轮融资，由复星锐正、同创伟业、顺禧基金等共同投资。爱诗科技旗下产品PixVerse与拍我AI服务于C端大众与专业创作者，用户规模已突破一亿，ARR超过4000万美元，MAU超过1600万。来源：爱诗科技AIsphere

10月16·周四

谷歌推出新款视频生成模型 Veo 3.1

谷歌发布AI视频生成模型Veo 3.1，带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上，提升提示词遵循度，增强视听质量。其驱动的AI电影创作工具Flow更新，支持原生音频生成，用户可将静态图像转视频、整合多图像元素、延展视频时长等，实现更精细的视频编辑与颗粒化控制。来源：机器之心

讯飞星火升级的「深度研究」全新上线

讯飞星火“深度研究”功能全新升级，实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代，深度理解用户意图，提升内容质量；支持输出高质量图片，新增HTML网页导出与一键转PPT功能；结合外部搜索信源和本地文档，实现个性化思考。来源：讯飞开放平台

通义千问正式推出 Qwen Chat Memory 功能

Qwen Chat Memory正式上线，赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话，使交流更具延续性。让Qwen在对话中主动关联过往互动，更好地理解用户需求，为用户提供更个性化的服务。来源：通义千问Qwen

豆包发布四款大模型：能理解情感、调节音调风格、准确读出公式

火山引擎全新发布和升级了四款豆包大模型，包括豆包大模型1.6升级版、豆包大模型1.6 lite、豆包语音合成模型2.0和豆包声音复刻模型2.0。豆包大模型1.6升级版原生支持四种思考长度，是国内首个原生支持“分档调节思考长度”的模型，可平衡效果、时延和成本。豆包大模型1.6 lite更轻量、推理速度更快、性价比更高。来源：火山引擎

Anthropic 发布了 Claude Haiku 4.5，速度翻倍价格大砍

Anthropic发布了Claude Haiku 4.5模型。模型在保持高性能的同时，速度翻倍且价格大幅降低。在SWE-bench Verified测试集中，Haiku 4.5取得了73%的成绩，与Claude Sonnet 4和OpenAI的GPT-5处于同一水平线，在某些任务上甚至超过Sonnet 4。来源：APPSO

阿里Qoder产品家族再增一员，Qoder CLI 将智能拓展到终端

阿里推出全新AI编程工具Qoder CLI，专为命令行环境打造的AI Coding Agent。集成顶尖编程模型，设计轻量级Agent框架，具备强大代码生成与理解能力，同时降低内存消耗和命令响应时间，提升开发效率。Qoder CLI无需复杂初始化，安装即用，支持文件编辑、命令运行等功能，并可通过MCP扩展或自定义开发工具。来源：Qoder

智元精灵 G2 新一代工业级交互式具身作业机器人发布

智元机器人发布新一代工业级交互式具身作业机器人——智元精灵G2。机器人以工业标准打造，搭载NVIDIA Jetson Thor芯片，配备高精度力控双臂和19自由度的灵巧手，具备3D触觉感知和5自由度腰腿搭配全向底盘。支持多人连续语音对话与知识库问答，采用双电池热插拔换电技术，配备360环视鱼眼和前后双激光雷达，可主动避障。来源：IT之家

10月15·周三

仅4B！阿里千问最强视觉模型新开源

阿里通义千问团队推出Qwen3-VL系列4B与8B版本，提供Instruct和Thinking版本。新版本资源门槛低，核心能力不减配，在多模态性能上表现优异，多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型，甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。来源：智东西

谷歌 NotebookLM 视频概览支持 Nano Banana

NotebookLM视频概览功能发布更新升级，新增了六种由 Nano Banana 提供配图支持的视觉风格：Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制，效果提升明细。目前仅支持 Pro 用户。来源：AI工具集

10月14·周二

Karpathy最新开源项目“nanochat”爆火，一夜近5k star

前特斯拉AI总监Karpathy推出开源项目“nanochat”，仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时，星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本，就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。来源：AI工具集

蚂蚁正式发布万亿思考模型Ring-1T，发布即开源

百灵团队正式发布万亿思考模型Ring-1T，宣布开源。模型基于Ling 2.0架构，具备1T总参数和50B激活参数，支持最高128K上下文窗口。通过大规模可验证奖励强化学习（RLVR）训练，Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异，达到开源领先水平。来源：百灵大模型

微软推出的首款自研图像生成模型MAI-Image-1

微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1，模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI，MAI-Image-1为创作者提供真正的价值，避免重复或泛泛的输出。专注于生成逼真的图像，如光影效果和风景，并在速度和质量上表现出色。来源：AI工具集

OpenAI再出手！与博通双方达成AI芯片合作

OpenAI与定制ASIC厂商博通宣布合作，共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统，并于2029年年底完成。受此消息影响，博通盘中股价涨超10%。来源：第一财经

腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding

腾讯优图实验室开源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企业级应用，可胜任文本检索、意图理解等六大任务，在中文文本嵌入评测基准CMTEB上以77.46分登顶。采用“LLM基础预训练→弱监督对齐→协同-判别式微调”的三阶段训练，结合创新微调框架与精细化数据工程，解决了多任务学习难题。来源：腾讯开源

10月13·周一

多模态模型社区全新升级，LiblibAI 2.0正式上线

LiblibAI 2.0正式上线，是中国最大的多模态模型社区的全新升级。自2023年起步，LiblibAI已汇聚2000万创作者，在新版本中，从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器，可同时完成视频与图像生成；兼容开源与闭源模型，整合全球最大图片风格开源模型库，支持AI工作流批量化处理。来源：LiblibAI

工业AI智能体公司「设序科技」获数千万元Pre B轮融资

工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资，投资方为涌铧投资和广发信德。过去一年，公司已连续完成三轮融资，累计金额超亿元。设序科技成立于2020年，旗下产品“闪设”是一款工业智能生成式设计软件，可快速生成3D设计方案和2D工程图纸，已应用于汽车、3C、能源等领域，客户包括比亚迪、本田等。来源：36氪

未来智能完成亿元级A轮融资，蚂蚁集团领投

中国AI硬件公司未来智能完成亿元级A轮融资，由蚂蚁集团领投，启明创投超额跟投。是其今年第三次融资，累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广，以及加大对AI Agent等前沿技术的投入。来源：智东西

10月10·周五

吴恩达官宣新课《Agentic AI》，手把手教你构建AI智能体

吴恩达宣布推出新课程《Agentic AI》，教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性，帮助学员高效改进智能体工作流。来源：AI工具集

Sand.AI 团队推出的 AI 视频生成平台Gaga，国产的 Sora2

国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发，专注于对话场景的视频生成，用户上传一张照片和一段台词，3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比，Gaga专精于胸部以上的对话演绎，成本不到Sora2的1/20。来源：AI工具集

Figure AI 发布最新人形机器人——Figure 03

Figure AI发布第三代人形机器人Figure 03，号称全球最强大。机器人配备全新传感系统和手部结构，搭载自研“视觉 – 语言 – 动作”AI系统Helix，能思考而非仅执行指令。以家庭场景优先，采用柔性材质、无线充电等，零部件制造成本降低90%，目标是帮用户做家务。来源：APPSO

镜识科技获数千万元融资，做出全球首款双形态家庭机器人

镜识科技完成数千万元A轮融资，由常春藤资本独家投资。公司成立于2024年，专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。来源：36氪

谷歌加入CUA战场，发布Gemini 2.5 Computer Use模型

谷歌DeepMind发布Gemini 2.5 Computer Use模型，可让AI直接控制浏览器，执行点击、滚动、输入等操作。模型基于Gemini 2.5，与OpenAI的CUA类似，通过视觉理解和推理能力帮助用户完成任务。在基准测试中，其性能达到SOTA水平，速度优于其他模型。来源：机器之心

10月9·周四

快手推出AI原生IDE工具：CodeFlicker，对标Cursor

快手正在开发一款名为“CodeFlicker”的集成开发环境工具，支持AI问答、代码自动补全、基于Agent的AI编程等功能，可帮助程序员自动化完成开发任务，实现端到端开发。工具提供Jam模式和Duet模式等交互模式，能将复杂任务拆解为清晰可追踪的待办步骤，还通过MCP灵活集成不同数据源、工具和服务，拓宽应用场景边界。来源：AI工具集

蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T

百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数，基于Ling 2.0架构，每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练，支持最高128K上下文窗口，通过“中训练+后训练”的演进式思维链（Evo-CoT）极大提升模型高效推理能力，在多项复杂推理基准中取得SOTA表现。来源：百灵大模型

OpenAI 与流媒体音乐平台 Spotify 达成合作

OpenAI与流媒体音乐平台Spotify达成合作，用户可在ChatGPT网页版或移动端中提到Spotify后登录账号，获取个性化音乐和播客推荐。ChatGPT会根据对话内容调用Spotify控件，推荐歌曲、艺人、专辑等，点击后自动打开Spotify应用。来源：IT之家

首个全自动AI科学家诞生！西湖大学最新成果：DeepScientist系统

西湖大学自然语言处理实验室发布DeepScientist系统，是首个具有完整科研能力的AI科学家。能在无人工干预下，主动识别研究局限、提出新构想、编写代码、执行实验、撰写论文。在AI文本检测任务中，DeepScientist两周完成人类三年的科研进展，取得7.9%的AUROC提升，超越人类SOTA方案。来源：量子位

滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」

滴滴上线AI图寻产品「在哪儿问问」，目前仅支持微信小程序。该产品具有地点查找、相似地点推荐及相关产品推荐功能。用户上传照片，AI可识别大致位置并提供相应服务。来源：AI工具集

Anthropic 发布 AI Agent 上下文工程指南

Anthropic发布AI Agent上下文工程指南，强调上下文工程的重要性。上下文工程是提示词工程的自然演进，关注在LLM推理过程中策划和维护最优token集合。指南指出，LLM的注意力资源有限，上下文应被视为有限资源，需精心设计。来源：AI工具集

Thinking Machines Lab推出首款产品「Tinker」

Thinking Machines Lab推出首款产品「Tinker」，是一个专为语言模型微调而生的API。允许开发者通过简单的Python代码进行模型微调，无需担心底层架构的复杂性。Tinker支持从小到大的各类开放权重模型，包括大型专家混合架构，并集成了基于LoRA的微调方法。来源：AI工具集

谷歌新世界模型Dreamer 4纯靠「想象」训练

谷歌DeepMind发布Dreamer 4，一种可扩展的智能体，通过在快速且准确的世界模型中进行想象训练来解决控制任务。它是首个仅从离线数据集在《我的世界》中获得钻石的智能体。Dreamer 4利用shortcut forcing目标和高效Transformer架构，准确学习复杂交互，实现实时人机交互和高效想象训练。来源：机器之心

Opera Neon 正式发布：首款 AI Agent 浏览器

昆仑万维集团正式发布Opera Neon浏览器。Opera Neon是Opera浏览器家族的新成员，也是首款AI Agent浏览器，采用付费订阅制，专为大量使用AI的用户设计。具备“任务”功能，可创建独立工作空间，支持AI辅助操作；“卡片”功能可让用户自定义指令，提高效率；“Neon Do”功能可主动执行任务，如购物、预订等；“制作”功能则支持用户创作内容并分享。来源：昆仑万维集团

豆包大模型1.6-vision正式发布！

火山引擎发布豆包大模型1.6-vision。大模型具有多模态能力，可处理文本、图像、视频等多种数据。豆包大模型1.6-vision在多个领域有广泛的应用前景，如智能客服、内容创作、图像识别等。来源：火山引擎

10月7·周二

OpenAI开发者大会重磅发布：AgentKit、Codex正式版、Sora 2 API

OpenAI开发者大会发布多项重要产品：包括AgentKit智能体开发工具（含可视化构建器、连接器注册表和ChatKit）、Codex正式版（集成Slack并提升十倍日活）、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。来源：机器之心

AI智库