AI资讯

字节Doubao全模态模型发布,混元Hy3两周暴涨10倍!国产AI格局生变

AI执行官

刚刚过去的5月初,国产AI迎来了一波重磅爆发:字节跳动的Doubao-Seed-2.0-lite全模态模型正式发布,腾讯混元Hy3preview上线两周Token调用量暴涨10倍,AI行业格局正在被改写。

一、Doubao-Seed-2.0-lite:国产首个全模态理解模型

5月7日,字节跳动旗下火山引擎正式发布Doubao-Seed-2.0-lite,这是豆包大模型家族首款全模态理解模型,实现了视频、图像、音频与文本的原生统一理解。

核心能力:

  • 音画同步推理:不仅能看懂视频画面,还能结合背景音频判断视听一致性,在长视频中精准定位特定事件
  • 物理级推理:在物理、医疗等高阶学科复杂推理测试中,性能大幅超越2月发布的Pro版本
  • 19种语言转写:支持19种语种转写、14个语种互译,可捕捉语音中的情绪波动
  • GUI理解与执行一体化:首次实现识别网页/应用中的按钮、菜单等元素,像真人一样完成点击、拖拽、输入等操作

落地场景:

  • 电竞复盘:可连续分析25小时比赛视频与语音,自动生成战术复盘图谱
  • 在线教育:视频+音频同步理解学生学习状态
  • 跨境电商:多语言实时翻译+商品视频理解

二、腾讯混元Hy3preview:两周增长10倍的背后

腾讯混元Hy3preview上线仅两周,Token调用总量已达到上一代模型Hy2的10倍以上,内部生态(WorkBuddy、Codebuddy、Qclaw等)调用量增幅突破16.5倍

关键数据:

  • OpenRouter周度数据双料冠军:Token调用量总榜 + 市场占有率
  • 编程辅助和工具调用场景热度位居榜首
  • 代码编写与智能体构建成为核心增长引擎

腾讯通过OpenRouter开启限免活动,在真实复杂场景中收集开发者反馈,以开源社区众测模式驱动快速迭代。

三、其他重磅动态

Google Gemma4推理速度提升3倍

采用推测解码架构,将重型目标模型与轻量级MTP起草器配对。在Apple Silicon环境下,Gemma 4 26B模型本地运行速度提升约2.2倍。

Mac本地AI时代来临

Mininglamp发布的Cider+Mano-P组合,让Mac用户可以在本地运行复杂的AI Agent,无需云端算力。纯视觉GUI Agent可操控桌面软件、网页界面,隐私数据不出设备。

四、对普通人的影响

这波AI爆发对普通人意味着什么?

  • 更强的AI助手:音画同步理解意味着AI可以帮你分析视频课程、听懂会议录音
  • 更便宜的AI:Token成本持续下降,AI使用门槛降低
  • 更私密的AI:本地推理技术成熟,个人数据安全更有保障

AI正在从”能用”向”好用且用得起”快速转变,普通人现在正是上车的好时机。

分享给朋友