每日AI快讯热闻

AI快讯 2025-12-18
0

每日AI快讯

AI智库每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI智库官方社群,获取最新一手信息!

AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息!

1月13·周二

Anthropic 发布 Cowork:面向所有人版本的 Claude Code 助手

Anthropic发布Claude Cowork,是其智能体编码工具Claude Code面向包括非开发者在内的所有用户的衍生版本。工具允许用户授权Claude访问电脑指定文件夹,使其能在其中读取、编辑和创建文件。来源:AI工具集

1月12·周一

自变量获字节、红杉等10亿元投资,构建物理世界的基础模型

具身智能机器人公司“自变量”近期完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业,凸显市场对其技术领先性的高度认可。来源:自变量机器人

千寻智能开源具身智能基础模型Spirit v1.5

国产具身智能模型千寻Spirit v1.5在权威真机评测基准RoboChallenge上以总分66.09、成功率50.33%的成绩超越美国公司Physical Intelligence的Pi0.5模型,登顶全球榜首。是该榜单自上线以来首个击败基准模型的国产模型,也是首个成功率突破50%的具身智能模型。来源:量子位

Humanify 获数千万元首轮融资打造 AI OS

AI初创公司Humanify(人格智能)近日宣布完成数千万元种子轮融资,由五源资本领投,奇绩创坛跟投。公司成立于2024年,专注于开发具备“类人认知与自主意识”的下一代AI模型与原生操作系统。本轮资金将主要用于模型和操作系统研发、扩大团队,加速智能在真实场景的落地。来源:Z Potentials

谷歌联合零售巨头推出通用商务协议 UCP

谷歌联合Shopify、沃尔玛、Target等零售巨头推出全新开放标准——通用商务协议(UCP),为AI智能体购物场景建立全流程标准化框架。协议支持智能体参与从商品发现到售后支持的全部环节,通过标准化实现不同系统间的协同运作,并可兼容谷歌此前发布的智能体支付、互联等协议。来源:IT之家

1月9·周五

MiniMax 港股挂牌,历史上IPO规模最大的AI大模型公司诞生

全球化AI大模型公司MiniMax(股票代码:0100.HK)在香港联交所主板正式挂牌上市。开盘后股价一度大涨超50%,截至发稿涨幅达63%,报269港元,市值约831亿港元。此次IPO以每股165港元定价上限发行,募集资金总额约55.4亿港元,其公开发售部分获得1837倍超额认购,市场反响热烈。来源:财联社

ChatDev 2.0:零代码构建多智能体,快速开发一切

清华大学、上海交通大学、OpenBMB与面壁智能联合团队正式开源多智能体框架ChatDev 2.0。新版实现了从“代码驱动”到“零代码可视化交互”的飞跃,用户通过简单“拖拽+配置”即可在无限画布上构建复杂多智能体系统。来源:面壁智能

多模态检索新标杆,Qwen3-VL-Embedding&Reranker开源!

通义千问团队正式开源多模态检索模型Qwen3-VL-Embedding与Qwen3-VL-Reranker。该系列模型基于Qwen3-VL构建,专为图文、视频等混合内容的理解与检索设计,能在统一框架内处理文本、图像、视觉文档及视频等多种模态输入。来源:通义大模型

1月8·周四

智谱上市了,全球大模型第一股,股票代码“02513”

北京智谱华章技术股份有限公司(简称“智谱”)正式在香港交易所挂牌上市,股票代码为“02513”,成为全球“大模型第一股”。公司以“智能是且仅是我们唯一的产品”为核心,致力于通用人工智能(AGI)的研发与探索。此次上市标志着其在发展历程中迈出关键一步。来源:智谱

ChatExcel一年完成3轮融资,构建全模态数据链路平台

北大系AI公司元空智能(ChatExcel)连续完成Pre-A轮与A轮数千万融资,由考拉基金与合鼎共资本投资,全年共完成三轮融资。2026年,公司正重点推进全球化布局,海外版本已上线,致力于成为国际领先的数据智能服务商。来源:元空AIExcel

OpenAI 推出 ChatGPT Health 模式,为健康设立专属空间

OpenAI正式推出专注于健康领域的“ChatGPT Health”模式。是ChatGPT为用户提供了一个独立的对话空间,更系统、安全地讨论健康问题。核心特性包括将健康对话与普通聊天记录隔离以保护隐私,允许AI在获得许可后参考用户其他场景的信息以提供连贯建议。来源:IT之家

1月7·周三

xAI完成200亿美元E轮融资,英伟达再次出手

马斯克旗下xAI公司完成200亿美元E轮融资,超额完成原定目标。投资方包括英伟达、思科等知名机构及中东资本。数据显示,Grok月活跃用户已达6亿,Grok 5正在训练中。公司拥有超100万个H100 GPU等效算力,Grok 4在强化学习方面取得突破。来源:智东西

LMArena完成1.5亿美元Series A融资

AI初创公司LMArena完成1.5亿美元A轮融资,投后估值达17亿美元。核心产品为“模型竞技场”平台,通过众包方式让用户比较不同AI模型的性能,月活用户超500万,每月产生6000万次对话。本轮融资由Felicis和UC Investments领投。来源:Z Potentials

智元发布首个大语言模型驱动的开源仿真平台:Genie Sim 3.0

智元机器人在CES上发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0。平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真仿真环境。首创的自然语言驱动场景生成技术,可将万级场景的生成时间缩短至分钟级。来源:AI工具集

1月6·周二

英伟达发布重磅AI计算平台Vera Rubin

英伟达CEO黄仁勋发布了重磅AI计算平台Vera Rubin,打破五年未发消费级显卡的惯例。平台包含6款全新芯片,其中Rubin GPU推理算力达50 PFLOPS,是Blackwell的5倍。Vera Rubin NVL72系统性能全面提升,训练10万亿参数模型所需系统数量仅为前代1/4,成本降至1/10。来源:APPSO

亚马逊上线 Alexa网页版,加速补齐网页端能力

亚马逊正式推出Alexa+网页版,重新启用Alexa.com域名,允许用户通过浏览器直接与AI助手对话。标志着Alexa从智能音箱设备扩展到网页端,与ChatGPT、Google Gemini等AI聊天机器人展开正面竞争。来源:AI工具集

开源异构算力调度平台「密瓜智能」获数千万元投资

异构算力调度平台「密瓜智能」近日完成数千万元天使轮融资,由复星创富领投。核心产品为CNCF开源项目HAMi,专注于解决GPU等异构算力资源利用率低下的行业痛点。HAMi支持NVIDIA、华为昇腾等9种以上芯片的细粒度切分与统一调度,可实现显存超卖和动态资源分配。来源:36氪

智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资

国内AR智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资,由中国移动链长基金与中信金石共同领投,中国联通旗下基金参与。是国内运营商首次以战略投资者身份进入智能眼镜赛道,交割后中国移动持股7.92%。来源:智东西

1月5·周一

智元机器人与MiniMax达成合作,全模态AI加速落地机器人应用

智元机器人与MiniMax(上海稀宇科技)正式达成合作,MiniMax将为智元机器人提供文本到语音全流程AI技术支持。此次合作将基于智元机器人的产品特性,量身打造专属人设体系以优化语音交互体验,并通过定制化提示词策略实现千人千面的个性化音色合成。来源:36氪

腾讯「AI应用及线上工具小程序成长计划」发布:混元大模型token免费用

微信小程序正式推出「AI应用及线上工具小程序成长计划」,为开发者提供为期一年的免费资源支持。计划核心福利包括免费使用腾讯混元大模型的Token,涵盖旗舰文生文及文生图等多模态模型能力,并配套云开发、数据分析、广告变现及流量激励。申请条件要求小程序类目为文娱、工具、社交等虚拟行业类目,个人或企业主体均可参与。来源:腾讯混元

Looki完成超2000万美元A轮融资

AI硬件公司Looki完成超2000万美元A轮融资,由蚂蚁集团领投,美团龙珠、华登国际等跟投。Looki的核心产品是一款名为Looki L1的多模态AI穿戴设备,重30克,可通过视觉和音频信号实现智能生活记录和个性化交互。来源:AI工具集

AI助手ima支持PPT生成

AI助手ima正式推出PPT生成功能,用户现可通过任务模式一键制作演示文稿。功能支持上传附件或调用知识库资料,自动将文字内容转化为包含数据图表、图标配图和重点突出的专业PPT。用户可自定义风格主题,如简洁商务风、深色科技风等。来源:ima.copilot

1月4·周日

DeepSeek 发布新论文:提出全新 mHC 架构

DeepSeek发布新论文提出全新mHC(流形约束超连接)架构,解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其性能增益。框架通过将残差连接空间投影到特定流形来恢复恒等映射属性,并结合基础设施优化提升效率。来源:AI工具集

ListenHub完成200万美元融资,ARR 300万美元进军北美

AI内容生成平台ListenHub的母公司MarsWave已完成200万美元天使+轮融资,由天际资本领投,小米联合创始人王川跟投。公司年经常性收入(ARR)已突破300万美元并实现月度盈亏平衡。此次融资将主要用于进军北美市场,并已任命具有百度、MiniMax等背景的新COO负责全球增长。来源:36氪

TRAE 中国版 SOLO 已全量免费开放!

中国版TRAE SOLO模式现已向全部用户免费开放。AI编程助手支持项目迭代、问题修复与架构重构等复杂开发任务,具备智能任务规划和自主编排智能体能力。用户可免费使用内置的豆包、GLM、MiniMax、Kimi等多款模型,产品将自动基于模型效果和速度配置最佳上下文窗口。来源:TRAE.ai

12月31·周三

Kimi 完成 5 亿美元新融资

中国大模型公司月之暗面(Kimi)近期完成5亿美元C轮融资,由IDG资本领投1.5亿美元,阿里巴巴、腾讯及王慧文等老股东超额认购,投后估值达43亿美元。创始人杨植麟内部信透露,公司现金储备已超100亿元人民币,因此“可以不着急IPO”。本轮融资将用于加速K3大模型的研发和扩增算力。来源:晚点LatePost

Vidu Agent全球正式上线,商业广告一键成片

Vidu推出AI视频创作工具Vidu Agent,支持20多种语言和200多种音色,覆盖商业广告、产品TVC、剧情片等多种创作场景,能一键生成高质量视频。其分镜编辑功能让创作者可以轻松调整镜头顺序、时长和转场效果,实时预览修改后的视频。来源:Vidu AI

软银完成对OpenAI承诺的225亿美元额外投资

软银向OpenAI的400亿美元(约合人民币2799亿元)巨额投资已全部到账,使其持股比例达到约11%。这笔史上最大额AI投资的前提是OpenAI需在年底前完成重组并转为营利组织,否则投资将大幅缩减。为筹集资金,软银已清仓其持有的英伟达股份。投资将部分用于支持OpenAI、甲骨文和软银联合建设的AI基础设施“星际之门”。来源:智东西

MiniMax今起招股,1月9日敲钟代码00100

中国AI公司MiniMax正式启动港股上市进程,预计于2026年1月9日挂牌,股票代码00100。此次IPO发行估值超461亿港元,拟募资超6亿美元。公司获得阿里巴巴、阿布扎比投资局等14家基石投资者支持。来源:量子位

12月30·周二

Meta 数十亿美元收购 Manus,肖弘将出任 Meta 副总裁

Meta宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司,这是Meta历史上第三大收购。收购后蝴蝶效应将保持独立运营,其创始人肖弘出任Meta副总裁。此次收购被视为扎克伯格推进“超级智能”愿景的关键一步,也标志着中国新一代创业者登上全球科技舞台。来源:晚点LatePost

“全球大模型第一股”来了!智谱今起招股,发行市值达511亿港元

“全球大模型第一股”即将登陆港股。智谱(股票代码:2513)今日启动港股招股,预计2026年1月8日上市。本次IPO将发行3741.95万股H股(香港发售187.1万股,国际发售3554.85万股),发行价每股116.20港元,本次IPO募资总额约43亿港元,公司估值超511亿港元,招股期至2026年1月5日结束。来源:AI工具集

腾讯混元开源翻译模型Tencent-HY-MT1.5版本,端侧可部署

腾讯混元开源翻译模型Tencent-HY-MT1.5系列版本,包含1.8B和7B两个模型,支持33种语种互译及5种民汉/方言。1.8B模型专为端侧部署优化,仅需1GB内存即可流畅运行,在翻译质量上超越多数商用API,平均响应时间仅0.18秒。7B模型为WMT25比赛冠军升级版,准确率显著提升。来源:腾讯混元

12月29·周一

Z.ai新突破:GLM-4.7登顶Artificial Analysis全球开源榜首

智谱AI宣布GLM-4.7模型在全球权威评测平台Artificial Analysis Intelligence Index中取得突破性成绩,以68分的综合得分荣登全球开源模型与国产模型双料榜首,并位列全球总榜第六。该榜单重点评估模型的知识、推理、代码及智能体等核心能力,被业界视为衡量大模型综合实力的重要风向标。来源:智谱

MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA

通义实验室开源通用GUI智能体基座MAI-UI,登顶多项SOTA。模型原生集成用户交互、MCP工具调用与端云协同三大能力,能主动澄清模糊指令,并优先调用结构化工具跳过冗长UI操作,显著提升任务成功率。来源:通义大模型

京东AI购抢先实测,一句话搞定吃喝穿用

京东上线AI原生应用“京东AI购”,目前处于App Store内测阶段。应用以对话为主要交互方式,用户通过自然语言即可完成外卖点单、商品导购等操作。核心功能包括“灵感空间”预设指令卡片、AI试穿及智能比价等,由京东自研言犀大模型驱动。来源:智东西

九章云极宣布完成新一轮战略融资

人工智能基础设施提供商九章云极宣布完成新一轮战略融资,由北京信息产业发展投资基金与北京市人工智能产业投资基金联合领投。本轮融资将重点用于AI加速计算技术研发和普惠智算云平台建设,以巩固其技术优势并推动企业级AI应用普及。来源:机器之心

腾讯元宝“任务”功能上线:一句话安排时间,到点就提醒

腾讯元宝AI助手正式上线“任务”功能,用户只需将时间安排或计划用一句话告知元宝,即可获得准时提醒服务。功能支持提前测试、手动管理和自定义提醒,需更新至最新版本使用。来源:IT之家

MiniMax正式开源了MiniMax M2.1多语言编程模型

MiniMax公司宣布将MiniMax M2.1模型正式开源,已在Hugging Face和GitHub平台发布。模型专为真实世界复杂任务设计,在多语言编程、全栈开发、Web与App开发以及Agent能力方面表现卓越。同时推出跨年促销活动,Coding Plan首月价格低至9.9元,活动持续至2026年1月15日。来源:MiniMax稀宇科技

12月26·周五

智谱推出轻量级AI IDE编程工具:Zcode

智谱推出AI编程工具Zcode,深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查,具备对话变更自动保存、代码回滚、可视化Git界面等功能,针对前端开发集成内置浏览器和元素选择器,助力开发者高效协作,无缝融入现有工作流。来源:AI工具集

Qwen Code 重磅更新:让 AI 编程跳出命令行

通义千问Qwen Code发布v0.5.0版本,实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件,开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力,便于构建Web或移动应用。来源:通义千问Qwen

Skywork Sheets 2.0重磅上线:一键解锁高效办公新体验

Skywork Sheets 2.0版本近日正式上线,核心突破在于实现了“表格与报告的深度融合”。用户仅需输入数据,AI即可自动完成整理分析、生成可视化图表并撰写完整报告,实现“输入数据,输出成果”的闭环。来源:昆仑万维集团

小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版

小红书与复旦大学联合推出布局控制生成方案InstanceAssemble,通过创新“实例组装注意力”机制,实现了从简单布局到密集复杂场景的精准图像生成。技术能根据用户指定的物体位置和内容描述,在对应位置高精度生成图像,解决了布局对齐不准的行业难题。来源:IT之家

曦诺未来宣布完成超亿元天使轮融资,宁德时代和小米投了

杭州灵巧手企业曦诺未来今日宣布完成超亿元天使轮融资,由宁德时代旗下溥泉资本领投,小米战投等跟投。该公司成立数月即研发出全球首款全自研高自由度腱绳驱动灵巧手Xynova Flex 1,拥有25个自由度,自重仅380克,负载超30公斤。来源:智东西

12月25·周四

阿里最强“PS模型”开源:Qwen-Image-Edit-2511

阿里开源图像编辑模型Qwen-Image-Edit-2511,显著提升人物一致性与风格稳定性,集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然,但几何推理与精细镜头控制仍有不足。来源:智东西

生数科技联合清华发布 TurboDiffusion提速200倍

生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。来源:生数科技

12月24·周三

字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5

字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数线;在Putnam竞赛历史题集上解决率达88%,刷新多项SOTA记录。来源:字节跳动Seed

上海与商汤发布规划资源 AI 基础大模型

全国首个规划资源领域AI大模型“云宇星空”(专业版)近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发,具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力,参数量达6000亿。来源:商汤科技SenseTime

云深处科技已正式启动上市辅导

杭州云深处科技股份有限公司已启动上市辅导,辅导机构为中信建投证券。公司成立于2017年,专注于四足及人形机器人研发,创始人朱秋国为浙江大学副教授,目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资,并于11月初完成股改。来源:智东西

12月23·周二

GLM-4.7上线并开源:更强的编码

智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。来源:智谱

MiniMax M2.1:多语言编程SOTA,为真实世界复杂任务而生

MiniMax发布新一代大模型MiniMax M2.1,该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力,在SWE-bench Verified基准测试中获得74分,超越Claude Sonnet 4.5。其创新的VIBE基准测试显示,M2.1在全栈应用构建能力上接近顶级闭源模型水平。来源:MiniMax稀宇科技

阿里发布新一代端到端语音交互模型:Fun-Audio-Chat

阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat,模型采用创新的端到端序列到序列架构,实现从语音输入直接生成语音输出,无需传统ASR+LLM+TTS多模块拼接,显著降低延迟。在OpenAudioBench、MMAU等多个权威评测中,模型在同尺寸模型中排名第一,综合性能超越GLM4-Voice、Kimi-Audio等主流产品。来源:通义大模型

面壁智能完成数亿元融资,加码投入领跑端侧 AI

面壁智能近日宣布完成数亿元融资,投资方包括京国瑞、国科投资、中金保时捷基金等多家机构。本轮融资将主要用于加大端侧高效大模型的研发投入,加速端侧AI的商业化进程。来源:面壁智能

钉钉发布全球首个为 AI 打造的工作智能操作系统 Agent OS

钉钉发布AI工作操作系统“Agent OS”,重构企业工作方式。系统作为全球首个为AI打造的工作智能操作系统,可统一调度和管理各类AI智能体。核心组件包括交互界面“钉钉ONE”、通用智能体“悟空”及企业级AI硬件“DingTalk Real”。来源:APPSO

12月22·周一

MiniMax 通过港交所聆讯,有望成为“AGI 全球第一股”

MiniMax通过港交所聆讯并披露招股书,冲刺IPO。MiniMax成立于2022年初,若成功上市,将是全球从成立到IPO最快的AI公司。2024年,MiniMax收入同比增长782%至3050万美元,净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。来源:第一财经

智谱冲刺港股“大模型第一股”,估值244亿

智谱通过港交所聆讯,冲刺港股“大模型第一股”。智谱成立于2019年6月,是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型,支持本地化和云端部署。2025年11月,智谱日均token消耗量达4.2万亿,已为约8000万台设备提供支持。来源:智东西

英伟达新模型NitroGen能打遍几乎所有游戏

英伟达开源通用游戏AI模型NitroGen,模型能通过观看游戏画面直接生成手柄操作信号,支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练,采用为机器人设计的GR00T架构,具备强大的跨游戏泛化能力。来源:机器之心

12月19·周五

扣子编程,开启免费公开测试

在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。来源:扣子Coze

OpenAI最强代码模型GPT-5.2-Codex上线

OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。来源:机器之心

VTP:MiniMax海螺视频团队,首次开源!

MiniMax视频团队开源视觉生成模型关键组件VTP,首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法,将latent易学性与通用表征学习建立关联,显著提升下游生成系统性能。来源:MiniMax稀宇科技

苹果开源 SHARP 模型,1 秒内 AI 让照片变 3D“活”起来

苹果公司宣布开源其新型AI模型SHARP,能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比,处理速度提升了三个数量级,实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术,通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。来源:IT之家

12月18·周四

Google 发布了高速、低成本模型 Gemini 3 Flash

谷歌正式发布高速、低成本模型Gemini 3 Flash,模型在多项基准测试中表现优异,其性能已超越前代Gemini 2.5 Pro,在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力,响应速度提升3倍,同时显著降低了成本。来源:机器之心

美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现

美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能,通过创新的跨片段隐空间拼接技术,有效解决了长视频生成中的画质退化问题,可稳定生成5分钟高质量视频。来源:龙猫LongCat

通用Agent模型Seed1.8正式发布

字节跳动正式发布通用Agent模型Seed1.8,模型集成了搜索、代码生成与图形界面交互等多元能力,支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异,其在GUI Agent任务上的OSWorld得分达61.9,搜索任务BrowseComp-en得分67.6,均处于行业领先水平。来源:字节跳动Seed

更大更强!限时免费!阶跃星辰 GUI Agent 全面升级

阶跃星辰宣布其GUI Agent模型Step-GUI全面升级,新版模型支持200多个任务场景,具备更长推理步骤、更强语义理解与泛化能力。模型可在手机、PC、汽车等多端使用,并实现最短10分钟快速部署。公司开放了API供免费使用,并公开发布了技术报告与GUI-MCP协议。来源:阶跃星辰

Meta 发布 SAM Audio,多模态音频分离新突破

Meta发布首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术,用户可点击视频中物体分离对应音频,或输入”狗吠”等文本指令过滤噪音。来源:IT之家

估值达465亿!明星AI编程独角兽Lovable再拿新融资

瑞典AI编程初创公司Lovable近日完成新一轮融资,估值飙升至66亿美元,较半年前暴涨超三倍,成为欧洲最具价值初创公司之一。本轮融资吸引了Accel等知名风投参与,标志着AI编程工具赛道竞争加剧。来源:智东西

爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航

爱诗科技与阿里云签署全面合作协议,双方将在AI视频生成领域建立深度协同。阿里云将为爱诗科技提供全栈AI支持,涵盖基础设施及大模型服务,助力其自研视频生成模型PixVerse的全球化部署。来源:爱诗科技AIsphere

12月17·周三

即梦网页版全面升级,打造一站式AI片场

即梦AI网页版全面升级,打造一站式”AI片场”。核心更新包括:上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型,支持音视频联合生成及方言口型匹配;智能多帧2.0实现”视频+视频”拼接与片段精细化编辑,支持最长20个素材的一镜到底;图片4.1与4.5模型分别强化平面设计能力与人像美观度。来源:即梦AI

OpenAI 最强 AI 生图模型GPT Image 1.5登场

OpenAI发布全新旗舰图像生成模型GPT Image 1.5,模型在提示词遵循、细节保留和文本渲染方面实现重大突破,能精准生成或编辑图像并保持原图光线、构图等核心特征。来源:IT之家

小米正式发布并开源新模型 MiMo-V2-Flash

小米正式发布开源大模型MiMo-V2-Flash,模型采用MoE架构,总参数3090亿,活跃参数150亿。在多项基准测试中表现优异,其编程能力尤为突出,在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新,实现了150 tokens/秒的高推理速度及极低的推理成本。来源:APPSO

腾讯混元世界模型1.5发布,国内首个开放实时体验

腾讯正式发布混元世界模型1.5(WorldPlay),是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界,能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力,离开后返回场景保持一致。来源:腾讯混元

Seedance 1.5 pro 音视频创作模型正式发布

字节跳动发布新一代音视频创作模型 Seedance 1.5 pro,实现音视频联合生成。模型支持从文本到音视频的合成及图像引导生成,在精准音画同步、多语言与方言口型匹配、电影级运镜控制及动态叙事表现上取得突破。来源:字节跳动Seed

12月16·周二

LiblibAI 上线「Wan 2.6」视频模型,中国版 SORA2 来了!

LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频,实现完整叙事生成,无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色,支持单/双人表演及多人对话场景的声画同步。来源:哩布哩布AI

商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT

商汤科技发布AI办公智能体“小浣熊3.0”,实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力,支持图表、图片等全元素编辑,可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析,能深度理解复杂任务。来源:商汤科技SenseTime

Wan2.6正式发布!上线国内首个角色扮演功能

阿里巴巴发布通义万相2.6多模态模型,是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。角色扮演功能允许用户上传参考视频,AI能复刻角色外观与音色,生成单人或多人表演内容。在图像生成方面,模型提升了艺术风格融合与细节刻画能力,支持图文混排、多图融合等商用级创作。来源:通义万相Wan

英伟达发布 Nemotron 3 开源 AI 模型系列,吞吐量达上一代 4 倍

英伟达发布Nemotron 3开源AI模型系列,包含Nano、Super和Ultra三种规格。其中Nano版本(300亿参数)已上线,其采用混合专家架构,宣称吞吐量达上一代4倍,推理token生成减少60%,具备100万token上下文窗口。该系列专为多智能体系统设计,旨在解决通信开销和推理成本等挑战。来源:IT之家

通义百聆语音双子星,同步开源!

阿里云通义百聆开源语音双子星模型Fun-CosyVoice3与Fun-ASR。Fun-CosyVoice3支持仅3秒音频即可实现跨9种语言、18种方言的音色克隆与情感控制,首包延迟降低50%,中英混说错误率下降56.4%。Fun-ASR在嘈杂环境下识别准确率达93%,支持31种语言混说及方言识别,将流式识别首字延迟降至160毫秒。来源:通义大模型

12月15·周一

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤科技发布Seko 2.0多剧集生成智能体,作为行业首个创编一体AI工具,专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题,SekoTalk实现业内首个2人以上精准对口型功能,可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架,在消费级显卡上5秒即可生成5秒视频,完成国产芯片适配。来源:商汤科技SenseTime

蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”

蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”,同时上线“健康小目标”功能。应用可提供健康咨询、图片解读(报告、病例、处方、药盒均支持)、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。来源:IT之家

Google Gemini TTS升级:支持24种语言,语音更拟真

谷歌Gemini TTS模型,发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型,提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制,能根据上下文调整语速,如在兴奋时加快、强调时放慢,还能在多语言对话中保持一致的角色声音,使对话更真实。来源:AI工具集

12月12·周五

GPT-5.2 正式发布!让打工人每周少干 10 小时

OpenAI正式发布GPT-5.2模型,推出Instant、Thinking、Pro三个版本,分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录。其幻觉率降低约30%,长文本处理准确率接近完美。来源:APPSO

智谱多模态开源周收官:四项视频生成核心技术开源

智谱AI在多模态开源周收官之际,宣布开源四项视频生成核心技术:SCAIL影视级角色动画框架实现复杂姿态控制;RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒;Kaleido多主体生成框架在开源模型中达到SOTA水平;SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。来源:智谱

谷歌重磅开源!深度研究Agent拿下SOTA

谷歌开源深度研究Agent Gemini Deep Research,在DeepSearchQA基准测试中达到46.4%的SOTA水平,性能与GPT-5 Pro相当,而成本仅为后者的十分之一。该Agent基于Gemini 3 Pro模型,具备多步搜索和复杂信息整合能力,可自动生成深度研究报告。来源:智东西

迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频

迪士尼公司与OpenAI达成为期三年的战略合作协议,将向OpenAI投资10亿美元并获得股权。根据协议,OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权,包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频,部分精选内容还将在Disney+平台播出。来源:IT之家

12月11·周四

智谱开源 GLM-TTS :基于多奖励强化学习的可控发音语音合成

智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。来源:智谱

面壁智能 VoxCPM 1.5 开源,语音生成能力再升级

VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。来源:面壁智能

阿里发布 Qwen3-Omni-Flash 全模态大模型

阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出,显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃,用户可精细设定如“甜妹”、“御姐”等特定人设风格。来源:IT之家

Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能

OpenAI宣布ChatGPT正式接入Adobe系列专业软件,包括Photoshop、Acrobat和Adobe Express。用户现可在ChatGPT内直接调用这些工具,通过自然语言指令完成图像编辑、PDF处理等专业任务。整合后,ChatGPT会根据用户指令动态生成相应的操作界面,例如在调整图像亮度时自动呈现曝光、阴影等专业调节选项。来源:IT之家

12月10·周三

GLM-ASR开源,智谱AI输入法发布

智谱AI发布并开源GLM-ASR系列语音识别模型,同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512,后者在保证高精度的同时实现了更强的隐私保护与低延迟。来源:智谱

Mistral AI开源新一代编程模型:Devstral 2

Mistral开源代码大模型Devstral 2系列,包含123B和24B两个版本,均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分,性能达开源头部水平,同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端,支持扫描项目结构、调用命令、自动生成代码变更等操作。来源:AI工具集

生成式AI媒体平台Fal再获1.4亿美元注资

生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资,英伟达风投Nventures等机构跟投,公司估值达45亿美元,较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务,客户包括Adobe、Shopify等企业。来源:AI工具集

12月9·周二

AutoGLM开源:每台手机,都可以成为AI手机

智谱AI宣布开源AutoGLM项目,让AI真正学会”使用手机”。项目经过32个月研发,构建了完整的Phone Use能力框架,使AI能通过视觉理解手机界面并完成点击、滑动等操作,实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全,系统主要在云端虚拟手机环境中运行。来源:智谱

蚂蚁集团通用 AI 助手灵光上线网页版

蚂蚁集团正式推出全模态通用AI助手灵光网页版,用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势,实现了与移动端的数据与创作同步。用户可在电脑上描述需求,快速生成、编辑并管理对话和闪应用,并在手机端继续使用和分享。来源:IT之家

12月8·周一

智谱正式上线并开源 GLM-4.6V 系列多模态大模型

智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。来源:AI工具集

美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA

美团发布并开源LongCat-Image图像生成模型,以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括:采用同源架构与渐进学习,在图像编辑可控性上达到开源SOTA;通过课程学习与字符级编码,显著提升中文文字生成的覆盖度与精准度;结合数据筛选与对抗训练,增强图像真实感。来源:龙猫LongCat

混元2.0上线:推理能力与效率业界领先

腾讯发布混元大模型最新版混元2.0,包含Think与Instruct两个版本。模型采用混合专家架构,总参数406B,支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异,综合能力位居国内第一梯队。通过优化训练策略,模型在保持高准确率的同时显著降低思维链长度,推理效率领先。来源:腾讯混元

AI法律科技公司Harvey又获新融资(F轮),估值560亿!

美国AI法律科技公司Harvey宣布完成1.6亿美元F轮融资,估值达80亿美元。公司由前谷歌DeepMind研究员和顶级律所律师于2022年创立,专注于“AI+法律”领域,法律AI平台包含AI助理、文档库等功能,已与美国百强律所中的50家合作。Harvey已获7轮融资,总融资额超9.6亿美元,OpenAI创业基金、谷歌风投等多次参与投资。来源:智东西

12月5·周五

听得清,看得懂!豆包语音识别模型2.0来了

火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。来源:火山引擎

可灵数字人 2.0 功能正式上线!不止会说,更会演!

可灵全量上线数字人2.0版本,实现三大核心升级:表演力全面进化,支持精准的体态、手势与表情控制;口型与手部细节显著优化,增强真实感;单次生成视频时长延长至5分钟,覆盖科普、广告等长内容场景。来源:可灵AI

谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think

谷歌面向Gemini Ultra订阅用户(月费249.99美元)正式公测Gemini 3 Deep Think模式。模式采用并行推理技术,调用更多计算资源,在复杂数学、科学及逻辑问题中表现突破:在Humanity’s Last Exam测试中取得41%高分,GPQA Diamond测试达93.8%。来源:IT之家

AI视频生成产品 Pollo AI 获 1400 万美元融资

AI视频生成平台Pollo AI近日完成1400万美元首轮融资,由高成资本领投,真格基金跟投。其创始人朱陈彪(阿彪)无大厂背景,凭借SEO经验推动产品早期增长,7个月月活超400万。目前平台注册用户超2000万,已实现盈亏平衡。来源:晚点科技

Google推出Workspace Studio,赋能企业全员构建AI智能体

Google正式发布Workspace Studio,是基于Gemini 3多模态能力的新一代自动化工具。用户无需编码即可快速设计、管理并共享AI智能体,实现从简单任务到复杂流程的自动化。来源:AI工具集

12月4·周四

LiblibAI 上线 Seedream 4.5,一致性保持/多图参考能力全面升级!

国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本,新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级,尤其擅长处理中文海报、营销物料等本土化内容,支持最多10+参考图融合。来源:哩布哩布AI

小红书收购“点点”

小红书全资收购上海生动诗章科技有限公司,正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力,提升内容电商竞争力。收购后,小红书将加速AI战略落地,应对字节跳动、阿里等巨头竞争,优化用户行为路径,巩固内容生态。来源:36氪

可灵 2.6 全量上线!听见画面,看见声音

可灵2.6全量上线,是其首个“音画同出”模型,能单次生成同时产出画面、自然语音、匹配音效及环境氛围。模型支持文生音画与图生音画两种创作路径,适配单人独白、旁白解说、多人对白、音乐表演及创意场景等多种应用。来源:可灵AI

豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景

火山引擎发布豆包图像创作模型Seedream 4.5并开启公测。模型在主体一致性、指令遵循、空间逻辑及美学表现上显著提升,重点强化多图组合生成、海报排版与Logo设计能力,可精准满足广告营销、电商运营、影视制作等商业场景需求。来源:火山引擎

12月3·周三

Mistral AI发布Mistral 3系列模型,全线回归Apache 2.0

Mistral AI发布新一代Mistral 3系列模型,全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型,以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练,具备图像理解能力,在LMArena开源模型中排名第二。来源:机器之心

Anthropic收购热门JavaScript工具链公司Bun

Anthropic宣布收购热门JavaScript工具链公司Bun,交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用,并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具,以提升性能与分发效率。Bun将保持开源并继续独立发展。来源:InfoQ

亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新

在AWS re:Invent大会上,亚马逊云科技发布十大AI更新:推出自研AI芯片Trainium4(性能提升6倍)及Trainium3服务器;第二代大模型Amazon Nova 2系列(Lite、Pro、Sonic、Omni)性能超越多款主流模型;Bedrock平台新增18款开源模型,包括阿里、Kimi等中国模型;推出AgentCore开发工具和四大智能体(如自主编程、安全运维),强化企业级AI应用。来源:智东西

商汤发布 NEO 架构,重新定义多模态模型效能边界

商汤科技联合南洋理工大学发布全球首个原生多模态架构NEO,突破传统”视觉编码器+投影器+语言模型”的拼凑范式。架构通过原生图块嵌入、三维旋转位置编码和原生多头注意力三大创新,实现视觉与语言的深层融合。来源:商汤科技SenseTime

12月2·周二

LiblibAI 上线「可灵O1」全能视频模型,速来体验

LiblibAI全球首发「可灵O1」统一多模态视频模型,是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性,可通过自然语言指令智能编辑视频,具备视频参考生成能力。来源:哩布哩布AI

Runway发布的最新视频生成AI模型Gen-4.5,代号”David”

Runway正式发布Gen-4.5视频生成模型,该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准,ELO评分达1247分,超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感,支持多种控制模式。来源:机器之心

英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子

英伟达发布推理版视觉-语言-行动模型Alpamayo-R1,为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限,通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。来源:机器之心

PixVerse V5.5 来了!「导演级」音画同步一键生成

PixVerse发布PixVerse V5.5视频生成模型,实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能,可一键生成5秒、8秒或10秒的多镜头叙事单元,自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音,使角色口型、动作与音频完美契合。来源:爱诗科技AIsphere

12月1·周一

DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

DeepSeek正式发布DeepSeek-V3.2版本,包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率,达到GPT-5水平;Speciale版在IMO、ICPC等国际竞赛中斩获金牌,推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。来源:DeepSeek

字节视频模型Vidi2超越Gemini 3 Pro!理解能力爆表

字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。来源:量子位

阶跃开源4B Agent模型GELab-Zero,跑通所有安卓设备

阶跃星辰开源GELab-Zero,推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩,能流畅执行复杂与模糊指令。项目同步开源了完整的推理工程基建,支持一键部署、多设备任务分发,解决移动端Agent规模化落地的工程难题。来源:量子位

11月28·周五

DeepSeek强势回归,开源IMO金牌级数学模型DeepSeek-Math-V2

DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。来源:机器之心

昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型

昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。来源:昆仑万维集团

混元3D Studio升级,可直出艺术家级3D资产

腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越现有SOTA方法。来源:腾讯混元

11月27·周四

阿里开源高效图像生成模型Z-Image,参数规模6B

阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。来源:AI工具集

字节跳动发布视觉空间重建模型:Depth Anything 3

字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。来源:字节跳动Seed

清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资

清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能体在数字与物理世界的规模化普惠应用。来源:智东西

11月26·周三

黑森林重磅开源FLUX.2,图像生成模型的新里程碑

Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。来源:AI工具集

LiblibAI 上线「基础算法F.2」!支持多图参考和图像编辑!

国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。来源:哩布哩布AI

腾讯混元3D创作引擎国际站,上线!

腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。来源:腾讯混元

TRAE SOLO 登陆中国版,免费使用!

AI编程平台TRAE中国版正式推出SOLO模式并免费开放。模式内置智能体SOLO Coder,支持先制定开发计划再执行的协作流程,能调度多智能体处理复杂任务。采用全新三栏布局,实现多任务并行开发,内置代码变更对比工具与上下文管理功能。来源:TRAE.ai

11月25·周二

Anthropic发布新一代大模型Claude Opus 4.5

Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。来源:APPSO

混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA

腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。来源:腾讯混元

挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场

AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在IBM云上进行,使用AMD Instinct MI300X GPU等技术。训练集群由128个节点组成,总计1024块GPU,性能超750 PFLOPs。来源:IT之家

OpenAI 为ChatGPT推出免费AI购物研究工具

OpenAI为ChatGPT推出全新“购物研究”功能,替代传统电商平台与内容社区的消费决策流程。功能基于GPT-5 mini模型优化,通过交互式提问理解用户偏好,结合记忆功能生成个性化购买指南,并直接提供商品链接与可视化对比界面。来源:APPSO

微软推出全新的开源小型语言模型 Fara-7B

微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B,由70亿参数构成,支持Win11端侧运行,性能领先同级。模型通过视觉解析网页截图,执行点击、输入等操作,无需依赖额外可访问性树或多个大模型协作。微软构建全新合成数据生成流程模拟网页任务,Fara-7B基于Qwen2.5-VL-7B底座,支持128k上下文。来源:IT之家

11月24·周一

Meta 推出 WorldGen:一句话即可生成可交互 3D 世界

Meta 推出 WorldGen 系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。来源:IT之家

阿里千问启用全新域名,提供更多 Qwen3 系列模型

阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。来源:IT之家

AI2推出的开源大型语言模型系列:Olmo 3

Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读理解、数学解题、复杂推理、多轮对话和强化学习等任务。来源:AI工具集

11月21·周五

谷歌Nano Banana Pro上线,深度结合Gemini 3

谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。来源:机器之心

腾讯混元发布全新视频生成模型:HunyuanVideo 1.5

腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。来源:腾讯混元

小米具身大模型 MiMo-Embodied 发布并全面开源

小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越,全面超越现有开源及专用模型。来源:IT之家

蚂蚁集团领投,RockFlow完成数千万美元新一轮融资

新加坡AI金融科技公司RockFlow完成数千万美元融资,由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”,能通过自然语言理解用户投资意图,自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用,推动复杂金融服务向普惠化、个性化发展。来源:RockFlow

11月20·周四

Meta推出基于SAM系列的3D重建模型SAM 3D

Meta发布SAM 3D与SAM 3模型,实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型,通过创新数据引擎生成近百万张图像的3D标注数据,在多项基准测试中超越现有方法。来源:机器之心

AI音乐创作平台Suno完成2.5亿美元C轮融资

AI音乐平台Suno完成2.5亿美元C轮融资,估值达24.5亿美元,较去年增长近五倍。本轮由Menlo Ventures领投,英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲,最新v5版本显著提升人声自然度与指令执行准确率。来源:智东西

64亿!AI视频黑马Luma AI获新融资,要建2GW智算集群

AI视频创企Luma AI完成9亿美元C轮融资,估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投,资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。来源:智东西

OpenAI 发布最强编程模型 GPT-5.1-Codex-Max

OpenAI发布GPT-5.1-Codex-Max编程模型,取代GPT-5.1-Codex,成为Codex集成界面上默认模型。模型在多个编程基准测试中超越谷歌Gemini 3 Pro,如SWE-Bench Verified测试中准确率77.9%,领先对方1.7个百分点。其引入“压缩”机制,可连续工作超24小时,token效率提升约30%。来源:IT之家

星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿

人形机器人公司星动纪元完成近10亿元A+轮融资,由吉利资本领投。公司总订单额突破5亿元,物流领域最大单笔订单近5000万元,海外业务占比达50%。本轮融资将加速技术迭代与商业化落地。来源:星动纪元

11月19·周三

Gemini 3正式发布:谷歌推出最强AI模型

谷歌正式发布新一代多模态大模型Gemini 3,在多项基准测试中表现卓越,以1501 Elo得分位列LMArena竞技场第一。模型具备原生多模态理解、高级推理及Agent编程能力,支持100万token上下文窗口,在学术推理、数学、代码开发等任务上显著领先前代及竞品。来源:智东西

AiPPT Agent版上线,AI「深度研究」功能开启内测

AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程,通过“理解-反思-追问”循环,自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。来源:AIPPT

Anthropic获微软英伟达千亿投资!估值飙到2.5万亿

Anthropic获微软、英伟达千亿投资,微软投资50亿美元,英伟达投资100亿美元,合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力,并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure,成为全球三大云平台均可用的前沿模型。来源:智东西

11月18·周二

马斯克Grok 4.1低调发布!通用能力碾压其他一切模型

马斯克旗下xAI公司发布的最新AI对话模型Grok 4.1,主打情感智能与实用性能的突破。模型在LMArena排行榜以1483分登顶,比第二名高出31分,并首创”思考模式”与”即时模式”双轨设计——即使不启动深度推理,基础版本仍能超越其他模型的完整配置。来源:机器之心

蚂蚁集团推出全模态通用AI助手“灵光”APP

蚂蚁集团正式上线全模态通用AI助手灵光APP,以结构化思维生成逻辑清晰、可视化的内容,如动态3D模型、可交互地图等,让知识呈现更生动;用户通过自然语言描述,30秒内即可生成个性化AI应用,搭载AGI相机技术,通过实时视频流解析物理世界,支持文生图/视频、图生图/视频创作,能对物体、场景进行识别与知识讲解。来源:APPSO

谷歌推出 AI 天气预报模型 WeatherNext 2

谷歌DeepMind发布的最新AI天气预报模型WeatherNext 2,运算速度比前代快8倍,能生成1小时分辨率的精准预测。模型通过功能生成网络(FGN)技术,在1分钟内即可完成传统超算需数小时的全球15天天气模拟,可输出数百种可能的天气情景。来源:IT之家

11月17·周一

千问APP正式上线:全球首款开源AI助手挑战ChatGPT

阿里巴巴正式推出千问APP,基于Qwen最强模型打造,全面对标ChatGPT。APP依托Qwen开源生态,全球下载量超6亿次,支持119种语言,具备智能调度多应用、多模态交互等能力,成为全球用户的AI生产力工具。来源:AI工具集

陈天桥盛大团队,推出最强开源记忆系统EverMemOS

陈天桥领导的盛大团队推出的开源长期记忆操作系统EverMemOS,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。该系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层、接口层),在LoCoMo和LongMemEval-S评测中以92.3%和82%的高分超越行业标杆。来源:机器之心

DPAI Arena:首个开源AI编程基准测试平台发布

JetBrains联合Linux基金会推出DPAI Arena,是全球首个开源、多语言、多框架的AI编程智能体基准测试平台。客观衡量AI工具在真实软件开发任务中的效率提升,填补行业空白,支持补丁修复、代码审查等多样化工作流的可复现评估。来源:AI工具集

字节发布首个实时完成复杂任务的3D开放世界通用AI智能体Lumine

字节跳动Seed团队发布Lumine,是首个能在3D开放世界中实时完成小时级复杂任务的通用AI智能体。基于视觉语言模型,通过端到端架构统一感知、推理与行动,仅靠屏幕图像和键盘鼠标操作,无需游戏内部API。来源:量子位

11月14·周五

登顶!GLM-4.6获LMArena代码榜全球并列第一

全球权威 AI 评测平台 LMArena 更新 Code Arena (编程与代码生成) 专项榜单,智谱 GLM-4.6 与 Anthropic Claude、OpenAI GPT-5 等顶尖模型一同位列全球榜首。来源:智谱

Dexmal原力灵机融资近10亿元,阿里巴巴、蔚来资本分别领投

具身智能公司Dexmal原力灵机宣布完成数亿元A+轮融资,阿里巴巴为独家投资方。此前其A轮融资由蔚来资本领投,两轮融资金额近10亿元。资金将用于智能机器人软硬件技术研发与落地。Dexmal专注于具身智能技术研发,自主研发的多模态具身智能大模型MMLA可实现跨场景智能泛化。来源:Dexmal原力灵机

AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资

AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资,投后估值达293亿美元,成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投,英伟达、谷歌等跟投。过去一年,Anysphere估值增长超10倍,年化收入突破10亿美元。来源:智东西

ChatGPT 群聊功能上线部分地区:人机共同决策讨论

OpenAI宣布在韩国、新西兰等部分地区试点ChatGPT群聊功能。功能基于GPT-5.1模型,支持用户与ChatGPT共同协作,可邀请亲友或同事进入共享空间,用于策划方案、决策讨论或头脑风暴。来源:IT之家

AI PPT神器 Gamma 完成6800万美元B轮融资

美国生成式AI创企Gamma完成6800万美元B轮融资,估值达21亿美元。Gamma创立于2020年,是一个生成式AI设计平台,可快速创建演示文稿、文档和社交媒体帖子,支持22种AI图像模型和60多种语言。来源:智东西

11月13·周四

OpenAI 正式发布 GPT-5.1系列双版本,ChatGPT 情商大涨

OpenAI发布的AI升级版本GPT-5.1,重点优化了对话体验而非单纯性能指标。新版本包含Instant和Thinking两大模型,前者更注重人性化交流(如自适应思考、八种风格预设),后者强化专业推理能力(简化术语表达)。相比前代,GPT-5.1在情感互动、指令理解上显著改善。来源:APPSO

百度发布文心大模型 5.0:参数规模超 2.4 万亿,原生全模态

百度在世界大会上正式发布文心大模型5.0。模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多模态输入输出,在多模态理解、创意写作、指令遵循等方面表现突出,综合能力达全球领先水平。来源:IT之家

全新升级、全面开放的 TRAE SOLO 正式版,限时免费

字节旗下TRAE团队正式发布TRAE SOLO正式版。版本定位为“响应式编程智能体”,支持复杂项目开发,新增内置智能体SOLO CODER与SOLO BUILDER,具备上下文压缩、多任务并行、可视化工具调用等功能,可高效应对从0到1的项目搭建及从1到100的迭代优化,现面向全球用户开放,限时免费体验。来源:机器之心

李飞飞宣布正式开放首款商用世界模型产品 Marble

“AI教母”李飞飞创立的World Labs公司正式推出首款商用多模态世界模型产品Marble,用户可通过文本、图像、视频或3D布局生成高保真、可编辑的3D虚拟世界,支持导出为高斯溅射、网格或视频格式。来源:APPSO

11月12·周三

腾讯开源百亿参数模型KaLM-Embedding,登顶MTEB多语言榜单全球第一

腾讯微信团队推出的KaLM-Embedding-Gemma3-12B-2511模型,在MTEB多语言通用Embedding模型权威评测中综合成绩位列全球第一。模型参数量达120亿,支持3840至64等多种向量维度,具备卓越的跨语言语义理解与检索能力,在多语言语义对齐、数据质量优化及训练策略创新方面表现突出,为多语言应用场景提供了强大的语义基础支持。来源:腾讯开源

OiiOii:全球首个动画创作Agent系统上线

OiiOii是革命性的动画创作工具,作为全球首个动画创作Agent系统,内置艺术总监、编剧、分镜师等7大智能体,用户只需输入创意或上传参考图,即可一键生成剧本、分镜、角色设计及完整动画短片,支持161种风格,涵盖剧情短片、MV、漫画转视频等多种场景,大幅降低动画创作门槛,现处于内测阶段,限时免费使用。来源:AI工具集

华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资

极佳视界完成亿元级A1轮融资,由华为哈勃和华控基金联合投资,这是其在两个月内完成的第三轮融资。极佳视界的技术解决了物理AI领域数据稀缺和仿真误差等问题,其CEO预测“物理世界ChatGPT时刻”将在2-3年内到来。来源:量子位

主打“Database-First”的全栈AI应用构建平台——ZOER.AI

Chat2DB 团队创始人姬朋飞及其团队正式发布主打“Database-First”(数据库优先)的全栈应用构建平台 ZOER.AI ,专注于解决传统 AI 编程工具在后端能力上的短板,通过智能设计数据库结构、自动生成安全的后端逻辑和前端界面,实现从数据层到底层服务的全流程自动化。来源:AI工具集

Lovart推出“元素拆分”功能 革新AI设计编辑体验

AI设计平台Lovart正式上线“Edit Elements 元素拆分”功能,用户上传成品海报后,AI可自动拆解为文字、主体、背景等独立可编辑图层,支持修改文本、替换元素及实时预览来源:AI工具集

11月11·周二

字节发布Doubao-Seed-Code编程模型

字节跳动正式推出Doubao-Seed-Code,专为复杂编程任务优化。模型支持256k长上下文,兼容Anthropic API与主流IDE,性能仅次于Claude Sonnet 4.5,综合使用成本降低62.7%,并登顶SWE-Bench Verified榜单。来源:火山引擎

月之暗面开源Kosong框架 降低AI AAgent开发门槛

月之暗面(Moonshot AI)开源全新AI代理开发框架Kosong,以“简化复杂性、释放创造力”为核心理念,为下一代智能体应用提供轻量且高可扩展的底层支持。框架通过统一LLM抽象层,封装标准化组件并搭载异步工具编排引擎,有效解决工具碎片化、接口不兼容等开发痛点。来源:AI工具集

商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5

商汤日日新在空间智能领域实现重要突破,正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶尖闭源模型的表现。来源:商汤科技SenseTime

Meta发布Omnilingual ASR:覆盖1600+语言的语音识别系统

Meta AI团队推出Omnilingual ASR,是全球首个支持超1600种语言的自动语音识别系统,其中500种语言首次获得AI语音识别支持。系统通过大规模预训练模型和上下文学习技术,仅需少量音频-文本样本即可扩展新语言,字符错误率低于10%的语言占比达78%。来源:AI工具集

百度AI眼镜开售!2199元,今天定明天到手

百度旗下小度AI眼镜Pro正式开售,售价2299元,是继阿里巴巴夸克AI眼镜S1后,国内第二家正式开售AI眼镜的互联网大厂,小度AI眼镜Pro是一款AI拍摄眼镜,与小米AI眼镜类型相同,并非当下更为“完全体”版本的AI+AR眼镜,融合多模态AI大模型,产品功能包括拍照、听歌识曲、智能匹配歌单、AI翻译、AI识物、AI备忘、AI录音等。来源:智东西

11月10·周一

堆友「全能画布」来了!是天花板级的AI设计智能体

堆友AI反应堆正式上线AI创作全能画布,堆友用户可免费体验。堆友AI集成文生图、图生图、智能滤镜、矢量编辑、字体设计、高清放大、智能抠图、局部重绘等功能,提供一站式AI设计解决方案,实现从灵感到交付的全流程自动化。来源:堆友

全球第二、国内第一!最强百度的文心5.0 Preview

百度文心5.0 Preview在LMArena全球文本竞技场排名中以1432分并列第二、国内第一,与OpenAI GPT‑4.5、Anthropic Claude等顶尖模型实力相当。实测显示其在创意写作、长文本理解及复杂指令遵循方面表现卓越,生成内容兼具诗意与逻辑严谨性。来源:机器之心

OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型

OpenAI推出GPT-5-Codex-Mini,是GPT-5-Codex的“经济高效型”版本。开发者可获得约4倍的使用额度。在SWE-bench Verified测试中,GPT-5-Codex-Mini得分71.3%。版本适用于轻量级工程任务或接近速率上限的情况。来源:IT之家

11月7·周五

阶跃星辰开源首个 LLM 级音频编辑大模型Step-Audio-EditX

阶跃星辰团队开发的首个开源大语言模型驱动的音频编辑工具Step-Audio-EditX,专注于通过迭代方式控制音频的情感、说话风格和副语言特征。核心技术采用大规模合成数据训练,无需依赖嵌入式先验或辅助模块,能实现零样本文本转语音功能。来源:AI工具集

美团推出出AI IDE编程工具:CatPaw

美团发布AI编程工具CatPaw,支持Python、Java等主流语言,具备实时代码补全、问答生码、预览调试及项目级分析功能,目前兼容macOS,Windows版将上线。新用户注册获500次免费对话额度,旨在提升开发效率。来源:AI工具集

AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资

AI视频初创公司Video Rebirth宣布完成5000万美元种子轮融资,投资方包括启明创投、韩国游戏公司Actoz Soft等。公司由前腾讯杰出科学家刘威创立,致力于打造“视频原生的世界模型”,计划于12月发布1.0版本产品,目标是为专业创作者提供高保真、高可控性的视频生成平台,挑战现有市场格局。来源:机器之心

11月6·周四

即梦无限画布上线,创作更自由

即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。来源:AI工具集

月之暗面Kimi发布思考模型:Kimi-k2 Thinking

月之暗面公司最新发布的具备通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking,支持多轮工具调用和256k上下文长度。模型通过新增的reasoning_content字段展示思考过程,能自主规划任务并调用外部工具完成复杂操作,例如自动拆解指令、分析数据并生成报告。来源:AI工具集

美团 LongCat 团队发布全模态一站式评测基准UNO-Bench

美团 LongCat 团队推出全模态大模型评测基准UNO-Bench,精准衡量模型在图像、音频、视频和文本等单模态与全模态任务上的表现。基准通过高质量、多样化的数据构建,首次验证全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。来源:龙猫LongCat

科大讯飞星火 X1.5 深度推理大模型发布

科大讯飞在2025全球1024开发者节上发布讯飞星火X1.5深度推理大模型。模型基于全国产算力,攻克MoE模型全链路训练效率,端到端性能达国际竞品93%以上。其语言理解、文本生成等能力对标国际主流大模型,数学能力国际领先,多语言能力支持130多种语言,性能达GPT-5的95%以上。来源:IT之家

11月5·周三

360发布:FG-CLIP2登顶全球最强图文跨模态模型

360 推出的 FG-CLIP2 模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta,成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解,精准识别细节,如毛发、斑点、色彩等,具备强大的中英文细粒度理解能力。来源:机器之心

银河通用发布环视导航基座大模型 NavFoM

银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型 NavFoM。支持全场景、多任务、跨本体,可适配多种机器人形态,如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略,实现时空理解与高效算力利用,基于庞大训练数据体系,其在多个国际基准上达 SOTA 水平,可直接部署于真实机器人,无需任务微调。来源:银河通用机器人

AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿

美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资,估值达35亿美元,较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下CapitalG等参投,资金将用于并购、产品开发和拓展国际业务等。来源:智东西

软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案

软银集团与OpenAI宣布成立合资公司“SB OAI Japan”,计划于2026年推出企业级AI解决方案“Crystal Intelligence”。该方案将结合OpenAI技术与定制化服务,助力日本企业提升生产力和管理效率。软银将率先部署该技术,积累经验后向其他企业推广。来源:IT之家

11月4·周二

AI视频创作平台SkyReels正式焕新上线

昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆,聚合全球顶尖AI多模态模型,提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新,新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力,让专业创作更简单。来源:昆仑万维集团

OpenAI与亚马逊达成380亿美元算力合作

OpenAI与亚马逊宣布达成合作,OpenAI将在未来7年向亚马逊采购价值380亿美元(约合人民币2704.6亿元)的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器,预计明年年底前部署完毕。来源:智东西

零一万物联合开源中国推出OAK平台“Open AgentKit”

零一万物与开源中国联合发布“Open AgentKit平台”(OAK),打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型,提供一站式解决方案,助力开发者实现“Agent开发自由”。平台四大核心模块,包括OAK Framework、Builder、Runtime和Studio,将逐步推出并邀请社区共建。来源:零一万物 01AI

11月3·周一

LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代

美团 LongCat 团队正式发布并开源 LongCat-Flash-Omni 模型。模型基于 LongCat-Flash 系列架构,集成多模态感知与语音重建模块,总参数达 5600 亿,激活参数 270 亿,实现低延迟实时音视频交互。来源:龙猫LongCat

阿里通义千问Qwen3-Max上线深度思考模式

阿里 Qwen 团队宣布 Qwen3-Max Thinking 在 Qwen Chat 上线。模型是万亿参数的 MoE 模型,曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式,免费体验。来源:AI工具集

10月31·周五

MiniMax Music 2.0:让音乐创作属于每一个人

MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。来源:MiniMax稀宇科技

美团LongCat团队发布WOWService:打造卓越智能交互体验

美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。来源:龙猫LongCat

月之暗面全新的注意力架构Kimi Linear横空出世

月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。来源:AI工具集

OpenAI发布找Bug智能体Aardvark:全自动读代码找漏洞写修复

OpenAI 发布了由 GPT-5 驱动的Agent——Aardvark,能自动在大规模代码库中发现并修复安全漏洞。Aardvark 可识别 92% 的已知与人工注入漏洞,还能定位复杂条件下的问题。通过监控代码提交、分析、验证漏洞并生成修复建议,与 OpenAI Codex 深度集成,为漏洞生成修复补丁。来源:量子位

智源悟界·Emu3.5:开启多模态世界大模型新纪元

北京智源人工智能研究院发布“悟界·Emu3.5”,开启多模态世界大模型新纪元。Emu3.5是340亿参数的稠密自回归Transformer模型,将图像、文本和视频等多模态数据统一建模,实现从“下一Token预测”到“下一状态预测”的能力跃迁。来源:智源研究院

10月30·周四

MiniMax Speech 2.6:最强 Voice Agent 来袭

MiniMax Speech 2.6发布,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。来源:MiniMax稀宇科技

Cursor 2.0来了!多agent并行,自研模型30秒跑完多数任务

AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计,速度达同等模型4倍,每秒输出超200个token,智能水平超开源编程模型。新版本界面以Agent为核心,支持并行运行最多8个Agent,可并行处理任务并择优选择。新增原生浏览器工具,实现代码修改“指哪儿改哪儿”,代码审查功能升级,聚合修改细节。来源:智东西

Adobe推出最强图像生成模型Firefly Image 5!原生400万像素

Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还新增视频和音频生成工具。Adobe还为Photoshop、Premiere Pro和Lightroom等应用推出全新生成式AI工具,并支持更多第三方模型。来源:智东西

智谱清言全新推出「研究模式」

智谱清言推出全新「研究模式」,帮助用户高效深入地开展研究。模式可围绕问题全网搜索并整合分析,自动生成结构化、可引用的研究报告,适用于学术研究、商业洞察、生活决策和热点追踪等多种场景。来源:智谱清言

英国AI视频生成独角兽Synthesia完成2亿美元融资

英国AI视频生成独角兽Synthesia完成2亿美元(约14亿元人民币)融资,估值达40亿美元(约284亿元人民币),由谷歌风投领投,英伟达可能参与。Synthesia成立于2017年,专注于为企业生成虚拟形象视频,用于营销、培训等,已有6万家企业使用其平台,覆盖约70%的全球财富100强企业。来源:智东西

10月29·周三

Flowith发布 Agent 操作系统 FlowithOS,超越 OpenAI Altas

Flowith正式发布FlowithOS,为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题,如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器,为AI Agent提供思考与行动的环境。附:FlowithOS邀请码来源:AI工具集

混元推出国内首个交互式AI播客,听播客可以“举手”提问了

腾讯混元推出国内首个交互式AI播客,用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力,结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色,支持快速创作播客内容。来源:腾讯混元

GitHub 推出 Agent HQ,目标统一管理所有智能体

GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。来源:AI工具集

OpenAI股改完成,非营利主体更名

OpenAI完成资本结构重组,上市道路铺平。非营利主体更名为OpenAI Foundation,掌控营利实体26%股份,目前估值约1300亿美元。员工和投资者持有47%股份,微软持有32.5%股份。OpenAI还同意购买2500万美元微软Azure云服务,微软股价一度上涨3.5%。来源:量子位

Google Labs推出一款AI营销工具:Pomelli

Google Labs推出AI营销工具Pomelli,帮助中小型企业快速创建符合品牌气质的社交媒体活动。用户只需提供公司网站,Pomelli会自动提取品牌信息,建立“商业DNA”,并生成活动创意和视觉素材。用户可编辑调整后直接使用。来源:AI工具集

10月28·周二

ChatDB直接对话数据库!ChatExcel全新升级

ChatExcel推出全新升级版ChatDB,用户无需SQL基础和复杂BI工具,仅通过对话即可连接数据库,快速处理百万数据并生成可视化报告。登录chatexcel.com,进入工作台即可使用ChatDB模块,连接数据库后,可一键提取、分析数据,并生成数据看板。来源:元空AIExcel

Mistral AI 推出企业级 AI 应用开发平台AI Studio

法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio,帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能,支持混合、本地和 VPC 部署,满足企业对 AI 应用的安全、合规和隐私要求。来源:AI工具集

MiniMax Hailuo 2.3 视频复杂表现新高度

MiniMax发布视频模型Hailuo 2.3,升级动态表现力,肢体动作、风格化、微表情效果显著提升,运动指令响应优化。支持多种画风,真人面部表演更自然,物体运动响应出色。性能提升的同时保持原价格,新增Hailuo 2.3 Fast模型,降低成本。来源:MiniMax稀宇科技

xAI推出开源知识库Grokipedia,收录超88.5万篇文章

埃隆·马斯克旗下的xAI团队推出Grokipedia,AI驱动的百科全书正式上线测试版。平台收录超88.5万篇文章,主打“无偏见”特性,通过Grok AI模型自动审核内容真实性,部分条目源自维基百科但标注为“改编内容”。来源:AI工具集

10月27·周一

豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%

火山引擎发布豆包视频生成模型1.0 Pro Fast(Doubao – Seedance – 1.0 – pro – fast),模型在火山引擎的Seedance 1.0 Pro模型基础上,生成速度提升约3倍,价格直降72%。其生成720P的5秒视频仅需10秒,生成5秒1080P视频成本仅1.03元。来源:火山引擎

Skywork AI 的网页复刻(Web Clone)功能正式上线

昆仑万维集团旗下的Skywork AI推出网页复刻功能,用户仅需提供网页链接、上传文件或输入文字描述,AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级,实现结构级复构,而非简单复制外观。来源:昆仑万维集团

谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT

谷歌Gemini的免费互动工作区Canvas推出新功能,可基于一个提示词或上传的文件(文档、电子表格、研究论文等)生成PPT幻灯片,并自动配上主题和相关图片。用户能将生成的幻灯片直接导出到Google Slides进行编辑、优化或团队协作。来源:IT之家

LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

美团开源了 LongCat-Video 的通用视频生成模型,参数量达 13.6B。模型能实现文生视频、图生视频以及视频续写等功能,能在几分钟内生成 720p、30fps 的长视频,画面连贯、人物稳定、物理逻辑合理。来源:龙猫LongCat

月之暗面开源 Agentic Coding 工具:Kimi CLI

月之暗面科技有限公司推出开源 Agentic Coding 工具 Kimi CLI 技术预览版,采用 Shell-like UI,支持 ACP 协议。可在 GitHub 交流反馈。来源:月之暗面Kimi

MiniMax发布最新大语言模型MiniMax M2

MiniMax公司发布最新大语言模型MiniMax M2。目前基于M2的agent免费使用,支持开发代码、研究、制作PPT等多种功能,还可接入日常编程工具。从测试数据来看,其coding能力接近Claude 4.5 Sonnet,工具使用流畅。用户可通过设置MiniMax-M2-Preview使用该模型来源:AI工具集

10月24·周五

OpenAI收购Sky,面向Mac的自然语言交互界面

OpenAI收购了SAI公司,该公司开发了Sky——一款面向Mac的自然语言交互界面。OpenAI将把Sky技术整合进ChatGPT,并吸纳SAI约12人的团队。SAI的三位联合创始人均出身苹果,其CEO和CTO曾创立被苹果收购的Workflow,演化为如今的Shortcuts技术。此次收购不仅是看中Sky的技术,更是为ChatGPT入局操作系统铺路。来源:量子位

支付宝推出多模态AI应用“灵光”

支付宝推出多模态AI应用“灵光”,已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容,实现拍摄即问、实时理解与回答,强调认知层理解,具备强场景分析与多模态推理能力。来源:AI工具集

蚂蚁集团投的灵巧手公司,又融了数亿元

灵心巧手宣布完成数亿元A轮融资,由京国瑞管理公司和博佳资本领投,老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。来源:智东西

谷歌官方学习平台 Google Skills 来了,免费还实用

谷歌推出AI技能学习平台Google Skills,整合Google Cloud、DeepMind等团队资源,提供近3000门课程、实验室及认证,覆盖AI基础、生成式AI、数据分析等领域。平台面向全职场人群,零门槛接入,每月免费提供35个学习点数用于实操实验。来源:AI工具集

豆包编程升级,新增创作模式,让创意轻松实现

豆包编程完成重大升级,让零基础用户也能轻松开发网站和应用。此次升级引入多模态输入功能,支持文字、图片、文件、画板等多种输入形式,AI可自动理解并补全逻辑。新增Agent多工具协作系统,自动联网搜索素材、配图、检查代码,确保生成内容的准确性和可用性。来源:豆包

10月23·周四

LiblibAI融资1.3亿美金,红杉CMC领投

LiblibAI近期完成1.3亿美元B轮融资,由红杉中国、CMC资本及大厂战投联合领投,是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本,从模型社区进化为AI创作Studio。来源:暗涌Waves

Seed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA

字节跳动Seed团队推出3D生成大模型Seed3D 1.0,可从单张图像生成高精度3D模型,兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构,通过大规模数据训练,具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力,在几何与纹理生成方面表现优异。来源:字节跳动Seed

百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”

百川发布了循证增强医疗大模型Baichuan-M2 Plus,并升级应用百小应及开放API。模型首创六源循证推理范式,构建从原始研究到真实世界的完整知识体系,通过循证检索与推理,显著降低医疗幻觉率,其幻觉率较DeepSeek低约3倍,优于美国医疗产品OpenEvidence,可信度比肩资深临床医生水准。来源:百川大模型

10月22·周三

OpenAI首款ChatGPT Atlas浏览器发布!免费下载使用

OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造,整合了ChatGPT对话能力,每个标签页都能直接聊天。具备浏览器上下文助手能力,可直接在浏览页面提问;内置记忆功能,记录用户浏览关键内容;“Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作,如填写表单、预订等。来源:量子位

混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成

腾讯发布并开源了混元世界模型1.1(HunyuanWorld-Mirror)。模型新增支持多视图及视频输入,可在单张显卡上部署,秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限,首次实现了多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度图、相机参数等多种3D几何预测,性能大幅领先现有方法。来源:腾讯混元

AipexBase,中国首个AI原生后端基础设施正式开源!

北京跨赴科技(KuaFuAI)正式开源中国首个AI原生后端即服务(Backend-as-a-Service)平台AipexBase。让开发者“不写后端,也能拥有完整后端”,所有后端能力如数据存储、鉴权等均被自动封装,开发者可通过前端SDK或MCP协议一键调用。AipexBase原生兼容MCP,统一上下文与数据层,支持码上飞、Cursor等AI产品接入,深度适配中国开发生态,兼容飞书、钉钉、微信等生态接入。来源:CodeFlying码上飞

2B、32B!更适合开发者体质的Qwen3-VL来啦

Qwen3-VL家族新增2B与32B两个密集模型尺寸,从轻量级到甜品级,覆盖视觉语言理解场景。两种版本可选:Instruct适合对话与工具调用,Thinking强化长链推理与复杂视觉理解。Qwen3-VL-32B在多个领域表现优于GPT-5 mini等,仅用32B参数匹敌235B模型。Qwen3-VL-2B小体量但表现惊人,可在极限端侧设备上运行。来源:通义千问Qwen

Anthropic 公司推出Claude 桌面版

Claude桌面版正式发布,支持Mac和Windows系统。版本有四项核心功能:全局快捷键(Mac双击Option唤醒)、分享工作(截图、窗口分享、拖拽文件)、语音输入(按Caps Lock说话)和连接工具(可调用代码编辑器、本地文件、数据库)。来源:AI工具集

灵巧手公司星际光年完成Pre-A轮融资

深圳星际光年科技有限公司发布新品五指灵巧手Pantheon 22,并完成Pre-A轮融资。本轮融资由赛纳资本、普华资本领投,柯熙创投跟投,深渡资本担任财务顾问。资金将主要用于灵巧操作底层技术攻关、灵巧手操作系统(小脑模型)研发及核心团队扩张。来源:智能涌现

10月21·周二

Vidu Q2 参考生视频全球上线,高一致性,速度更快,价格更优惠

Vidu Q2 参考生视频全球上线,本次升级聚焦于高一致性,速度更快,价格更优惠三大核心,满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线,用户可以在Vidu网页端,或各大应用商店搜索Vidu AI APP,体验最新功能。来源:Vidu AI

Anthropic正式上线网页版Claude Code

Anthropic发布Claude Code 网页版 ,用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。来源:AI工具集

CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令

CodeBuddy IDE 1.0 正式版发布,国际版全面支持 GPT-5-Codex,新增自定义指令、Web Fetch 实时获取网络信息等功能,MCP 市场正式开放,支持完整 DiffView 功能。来源:腾讯云代码助手CodeBuddy

5000元不限席位,Cherry Studio 企业版击穿底价,让每家公司都用上专属AI

Cherry Studio 企业 Express 版正式发布,以 5000 元买断价、不限员工席位,为企业提供一站式 AI 落地解决方案。该版本内置顶级闭源与开源模型,无需申请 API Key,解决网络问题,简化计费流程,支持私有化和云应用部署。来源:Cherry Studio-千慧科技

智谱推出GLM Coding Plan企业版:以最强Agentic Coding赋能千行百业

智谱发布 GLM Coding Plan 企业版,基于 GLM-4.6 模型,为企业提供全面智能编程解决方案。产品在国际 API 平台 OpenRouter 趋势榜中名列第一,融合多模态理解、联网搜索及智能编排能力,提供从代码生成到全链条开发协同的一站式服务。企业版具备高用量、低成本、高性能和高安全性,无缝适配 10 余款主流编程工具,支持灵活成员管理和使用数据分析。来源:智谱

美团发布面向复杂问题的大模型智能体评测基准——VitaBench

美团 LongCat 团队发布 VitaBench,是面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行三大生活场景为载体,构建了包含 66 个工具的交互式评测环境。VitaBench 从深度推理、工具使用与用户交互三大维度量化任务复杂性,通过真实用户模拟器和原子化评估准则实现细粒度评估。来源:量子位

10月20·周一

DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCR

DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。来源:AI工具集

宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫

宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。来源:APPSO

全球榜首!百度最新开源模型PaddleOCR-VL

百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等多种复杂元素,支持109种语言。来源:百度AI

10月17·周五

李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世

斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。来源:机器之心

美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。来源:龙猫LongCat

一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍

Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升,任务平均完成时间缩短至不足4分钟,速度提升近四倍。Manus 1.5提供两种模型:Manus-1.5适用于高复杂度任务,Manus-1.5-Lite则针对成本效率优化。新版本具备全栈Web应用开发功能,用户可通过对话完成从开发到部署的全过程。来源:IT之家

爱诗科技完成B+轮1亿元融资,ARR突破4000万美金

AI视频企业爱诗科技宣布完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资。爱诗科技旗下产品PixVerse与拍我AI服务于C端大众与专业创作者,用户规模已突破一亿,ARR超过4000万美元,MAU超过1600万。来源:爱诗科技AIsphere

10月16·周四

谷歌推出新款视频生成模型 Veo 3.1

谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。来源:机器之心

讯飞星火升级的「深度研究」全新上线

讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。来源:讯飞开放平台

通义千问正式推出 Qwen Chat Memory 功能

Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。来源:通义千问Qwen

豆包发布四款大模型:能理解情感、调节音调风格、准确读出公式

火山引擎全新发布和升级了四款豆包大模型,包括豆包大模型1.6升级版、豆包大模型1.6 lite、豆包语音合成模型2.0和豆包声音复刻模型2.0。豆包大模型1.6升级版原生支持四种思考长度,是国内首个原生支持“分档调节思考长度”的模型,可平衡效果、时延和成本。豆包大模型1.6 lite更轻量、推理速度更快、性价比更高。来源:火山引擎

Anthropic 发布了 Claude Haiku 4.5,速度翻倍价格大砍

Anthropic发布了Claude Haiku 4.5模型。模型在保持高性能的同时,速度翻倍且价格大幅降低。在SWE-bench Verified测试集中,Haiku 4.5取得了73%的成绩,与Claude Sonnet 4和OpenAI的GPT-5处于同一水平线,在某些任务上甚至超过Sonnet 4。来源:APPSO

阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端

阿里推出全新AI编程工具Qoder CLI,专为命令行环境打造的AI Coding Agent。集成顶尖编程模型,设计轻量级Agent框架,具备强大代码生成与理解能力,同时降低内存消耗和命令响应时间,提升开发效率。Qoder CLI无需复杂初始化,安装即用,支持文件编辑、命令运行等功能,并可通过MCP扩展或自定义开发工具。来源:Qoder

智元精灵 G2 新一代工业级交互式具身作业机器人发布

智元机器人发布新一代工业级交互式具身作业机器人——智元精灵G2。机器人以工业标准打造,搭载NVIDIA Jetson Thor芯片,配备高精度力控双臂和19自由度的灵巧手,具备3D触觉感知和5自由度腰腿搭配全向底盘。支持多人连续语音对话与知识库问答,采用双电池热插拔换电技术,配备360环视鱼眼和前后双激光雷达,可主动避障。来源:IT之家

10月15·周三

仅4B!阿里千问最强视觉模型新开源

阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。来源:智东西

谷歌 NotebookLM 视频概览支持 Nano Banana

NotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。来源:AI工具集

10月14·周二

Karpathy最新开源项目“nanochat”爆火,一夜近5k star

前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。来源:AI工具集

蚂蚁正式发布万亿思考模型Ring-1T,发布即开源

百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。来源:百灵大模型

微软推出的首款自研图像生成模型MAI-Image-1

微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专注于生成逼真的图像,如光影效果和风景,并在速度和质量上表现出色。来源:AI工具集

OpenAI再出手!与博通双方达成AI芯片合作

OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。来源:第一财经

腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding

腾讯优图实验室开源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企业级应用,可胜任文本检索、意图理解等六大任务,在中文文本嵌入评测基准CMTEB上以77.46分登顶。采用“LLM基础预训练→弱监督对齐→协同-判别式微调”的三阶段训练,结合创新微调框架与精细化数据工程,解决了多任务学习难题。来源:腾讯开源

10月13·周一

多模态模型社区全新升级,LiblibAI 2.0正式上线

LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。来源:LiblibAI

工业AI智能体公司「设序科技」获数千万元Pre B轮融资

工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。来源:36氪

未来智能完成亿元级A轮融资,蚂蚁集团领投

中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广,以及加大对AI Agent等前沿技术的投入。来源:智东西

10月10·周五

吴恩达官宣新课《Agentic AI》,手把手教你构建AI智能体

吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。来源:AI工具集

Sand.AI 团队推出的 AI 视频生成平台Gaga,国产的 Sora2

国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。来源:AI工具集

Figure AI 发布最新人形机器人——Figure 03

Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造成本降低90%,目标是帮用户做家务。来源:APPSO

镜识科技获数千万元融资,做出全球首款双形态家庭机器人

镜识科技完成数千万元A轮融资,由常春藤资本独家投资。公司成立于2024年,专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。来源:36氪

谷歌加入CUA战场,发布Gemini 2.5 Computer Use模型

谷歌DeepMind发布Gemini 2.5 Computer Use模型,可让AI直接控制浏览器,执行点击、滚动、输入等操作。模型基于Gemini 2.5,与OpenAI的CUA类似,通过视觉理解和推理能力帮助用户完成任务。在基准测试中,其性能达到SOTA水平,速度优于其他模型。来源:机器之心

10月9·周四

快手推出AI原生IDE工具:CodeFlicker,对标Cursor

快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。来源:AI工具集

蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T

百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。来源:百灵大模型

OpenAI 与流媒体音乐平台 Spotify 达成合作

OpenAI与流媒体音乐平台Spotify达成合作,用户可在ChatGPT网页版或移动端中提到Spotify后登录账号,获取个性化音乐和播客推荐。ChatGPT会根据对话内容调用Spotify控件,推荐歌曲、艺人、专辑等,点击后自动打开Spotify应用。来源:IT之家

首个全自动AI科学家诞生!西湖大学最新成果:DeepScientist系统

西湖大学自然语言处理实验室发布DeepScientist系统,是首个具有完整科研能力的AI科学家。能在无人工干预下,主动识别研究局限、提出新构想、编写代码、执行实验、撰写论文。在AI文本检测任务中,DeepScientist两周完成人类三年的科研进展,取得7.9%的AUROC提升,超越人类SOTA方案。来源:量子位

滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」

滴滴上线AI图寻产品「在哪儿问问」,目前仅支持微信小程序。该产品具有地点查找、相似地点推荐及相关产品推荐功能。用户上传照片,AI可识别大致位置并提供相应服务。来源:AI工具集

Anthropic 发布 AI Agent 上下文工程指南

Anthropic发布AI Agent上下文工程指南,强调上下文工程的重要性。上下文工程是提示词工程的自然演进,关注在LLM推理过程中策划和维护最优token集合。指南指出,LLM的注意力资源有限,上下文应被视为有限资源,需精心设计。来源:AI工具集

Thinking Machines Lab推出首款产品「Tinker」

Thinking Machines Lab推出首款产品「Tinker」,是一个专为语言模型微调而生的API。允许开发者通过简单的Python代码进行模型微调,无需担心底层架构的复杂性。Tinker支持从小到大的各类开放权重模型,包括大型专家混合架构,并集成了基于LoRA的微调方法。来源:AI工具集

谷歌新世界模型Dreamer 4纯靠「想象」训练

谷歌DeepMind发布Dreamer 4,一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务。它是首个仅从离线数据集在《我的世界》中获得钻石的智能体。Dreamer 4利用shortcut forcing目标和高效Transformer架构,准确学习复杂交互,实现实时人机交互和高效想象训练。来源:机器之心

Opera Neon 正式发布:首款 AI Agent 浏览器

昆仑万维集团正式发布Opera Neon浏览器。Opera Neon是Opera浏览器家族的新成员,也是首款AI Agent浏览器,采用付费订阅制,专为大量使用AI的用户设计。具备“任务”功能,可创建独立工作空间,支持AI辅助操作;“卡片”功能可让用户自定义指令,提高效率;“Neon Do”功能可主动执行任务,如购物、预订等;“制作”功能则支持用户创作内容并分享。来源:昆仑万维集团

豆包大模型1.6-vision正式发布!

火山引擎发布豆包大模型1.6-vision。大模型具有多模态能力,可处理文本、图像、视频等多种数据。豆包大模型1.6-vision在多个领域有广泛的应用前景,如智能客服、内容创作、图像识别等。来源:火山引擎

10月7·周二

OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Sora 2 API

OpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。来源:机器之心

©️版权声明:若无特殊声明,本站所有文章版权均归AI智库原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章