争夺云端主导权:字节与阿里拟于春节期间发布新一代大模型
字节跳动与阿里巴巴在春节前后发布新一代底层模型技术的竞争情况,分析了双方在争夺国内技术领先地位及未来云服务市场主导权的较量中所采取的策略及其对行业前景的影响。
蚂蚁集团发布 LingBot-VLA:双臂机器人操控步入“大模型时代”
蚂蚁集团发布了名为LingBot-VLA的视觉-语言-动作(VLA)基础模型,专注于现实世界中的机器人复杂操控。该模型通过海量数据训练,实现了在不同形态机器人上的通用操控能力,标志着具身智能领域的重要进展。
简评:LingBot-VLA采用创新的“混合 Transformer”架构,以Qwen2.5-VL作为多模态主干,能够同时处理多视角图像和自然语言指令。引入LingBot-Depth空间感知模型,通过特征蒸馏技术提升3D空间推理能力,在叠放、插入等任务中表现优异。模型具有极高的数据效率,仅需约80条特定任务的演示数据即可快速适配新机器人,并已开源全套训练工具包和模型权重。
谷歌 Gemini 3.5 泄露:代号 Snow Bunny,单次提示可生成三千行代码
谷歌 Gemini 3.5 的泄露信息揭示了其在编程领域的重大突破,包括单次提示生成3000行代码的能力以及引入深度推理架构。此外,还提到了多个专项模型以应对不同使用场景,显示出该模型的强大功能和潜在影响力。
简评:Snow Bunny 计划 : 内部模型 Snow Bunny 具备极强的应用构建能力,单次可产出3000行代码。 深度推理架构 : 引入“系统2”思维和 Deep Think 切换开关,显著提升复杂逻辑问题的解决率。 多模型协同 : 泄露信息提及 Fierce Falcon(速度与逻辑)与 Ghost Falcon(多模态创作) 两款专项模型。
商汤开源 SenseNova-MARS:Agentic VLM 赋予 AI 独立“思考与行动”力
商汤科技正式开源了其首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型——SenseNova-MARS,该模型在多个榜单中超越了 GPT-5.2,展现了强大的性能和自主规划能力。
简评:SenseNova-MARS 是一个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型。在 MMSearch 和 HR-MMSearch 等评测中,SenseNova-MARS 表现优异,超越了 GPT-5.2。通过双阶段训练,SenseNova-MARS 赋予了 AI 自主规划和复杂任务处理能力。
MiniMax Music 2.5 正式发布:攻克 AI 音乐“控”与“真”两大难题
MiniMax Music 2.5 的发布标志着 AI 音乐创作在可控性和真实度上取得了重大突破。通过段落级强控制和物理级高保真技术,该版本为创作者提供了更精准的音乐制作工具,同时针对华语市场进行了深度优化,提升了中文音乐的表现力和流畅性。
简评:全段落掌控 :支持14种音乐结构标签,让 AI 创作从“随机生成”转向“精准指挥”。真实人声质感 :具备细腻的转音与颤音表现,支持男女对唱中的自然协同感与和声层次。专业级混音 :内置百余种乐器音色,具备自动适配风格的混音能力,实现录音室级音频交付。