收起左侧
发新帖

DeepSeek迎最强队友!国产大模型开源猛踩油门,全球第一,免费可用,技术报告公开

时间:2025-2-19 09:28 0 117 | 复制链接 |

马上注册,结交更多好友

您需要 登录 才可以下载或查看,没有账号?立即注册

x
DSC0000.jpg
智东西
作者|陈骏达
编辑|心缘
智东西2月18日报道,今天,中国大模型“六小虎”之一的阶跃星辰与吉利汽车集团联合宣布,将开源两款Step系列多模态大模型,其中包括全球参数量最大的开源文生视频大模型Step-Video-T2(300亿)和Step-Audio语音交互模型。Step-Video-T2可以直接生成最长204帧、540P分辨率的视频。
DSC0001.gif

据悉,这也是阶跃星辰首次开源其Step系列基座模型。即日起,用户可以在跃问APP内体验到这两款模型。阶跃星辰还公开了36页的Step-Video-T2技术报告与25页的Step-Audio技术报告。
DSC0002.jpg

阶跃星辰宣布开源后,相关消息得到了开源平台Hugging Face CEO的转发支持,Hugging Face中国区负责人也在朋友圈发文推荐。
DSC0003.jpg

▲左侧为Hugging Face CEO,右侧为Hugging Face中国区负责人
网友在上手实测视频模型后也给出了很高的评价,称其能生成连贯而复杂的运动,这位网友还特别提到,阶跃星辰采用的是MIT开源协议。这与DeepSeek的开源协议是一致的。
DSC0004.jpg

项目链接:https://huggingface.co/stepfun-ai
技术报告地址:https://arxiv.org/abs/2502.10248 (Step-Video-T2)
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf (Step-Audio)
一、还原复杂运动、理解运镜要求,视频文字生成不再“鬼画符”
Step-Video-T2采用了高压缩比的Video-VAE模型,能够在保持视频重构质量的前提下,将视频在空间维度压缩16×16倍,时间维度压缩8倍。这种高效的压缩技术显著提高了训练和生成效率,使得视频生成过程更为迅速和高效。
此外,阶跃星辰使用两个双语文本编码器(Hunyuan-CLIP和Step-LLM)处理中英文提示,还优化了使用了基于流匹配的DIT架构和Video-DPO(视频偏好优化)算法,增强了模型处理复杂视频数据的能力,并能够进一步提升视频生成质量。
DSC0005.jpg

训练过程中,他们构建了一个包含20亿视频文本对和38亿图像文本对的大规模数据集。通过视频分割、质量评估、运动评估、字幕生成、概念平衡和文本对齐等步骤,将原始视频转换为适合模型预训练的高质量视频文本对。
为了支持大规模训练,阶跃星辰开发了Step-Video-T2V训练系统,包括Step Emulator(训练仿真器)、StepRPC(高性能RPC框架)、StepTelemetry(监控系统)和StepMind(分布式训练平台)。这些工具优化了模型的训练效率和资源利用率。
从生成效果来看,这款模型在复杂运动、美感人物、视觉想象力、基础文字生成等方面展现出一定实力。
下图中,Step-Video-T2V生成了一位美式橄榄球运动员奔跑的画面。模型对提示词中的画面内容、运镜要求都实现了较好的还原,体现出这款模型的语义理解和指令遵循能力。
DSC0006.gif

▲提示词:视频中,一名强壮的美式橄榄球队球员,身穿专业的橄榄球服,在球场上进行练习。整个场景在一个开阔的球场上进行,背景是其他球员和教练。视频采用固定机位平移方式,捕捉了球员跑动的每一个细节,清晰地展示了橄榄球运动的激烈和速度感。
不过,在生成跳水这种难度较高的画面时,Step-Video-T2V的结果中存在一些肢体扭曲的现象。
DSC0007.gif

文字方面,Step-Video-T2V生成的英文艺术字没有出现幻觉,还在数字“2025”上融入了蛇年的元素。
DSC0008.gif

对历史上的知名人物,Step-Video-T2V也能准确描绘,同时也兼顾了画面的美感。
DSC0009.gif

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval,能评估运动、风景、动物、组合概念、超现实等11个内容类别上的视频生成质量。
DSC00010.jpg

二、一款模型同时支持文本、语音生成,无需语音转文字
阶跃星辰还同时开源了Step-Audio语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,与用户自然地高质量对话。
在Llama Question、Web Questions等5大主流公开测试集中,阶跃Step-Audio模型性能均超过了行业内同类型开源模型,位列第一。
DSC00011.jpg
现有的大部分语音交互系统多采用级联架构(ASR-LLM-TTS),存在延迟累积、错误传播和优化不一致等问题。Step-Audio则统一了语音和文本的理解与生成能力,支持语音识别、语义理解、对话、语音克隆、音频编辑和语音合成。这一模型在跃问中可免费使用。
在1300亿参数的完整版Step-Audio基础之上,阶跃星辰训练并开源了高效的Step-Audio-TTS-3B模型,增强了指令跟随能力。
此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系StepEval-Audio-360基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等9项基础能力的维度对开源语音模型进行全面测评。
结语:中国AI开源势力再添猛将
阶跃星辰创始人、CEO姜大昕博士称,阶跃星辰本次开源一方面是希望分享最新技术成果,给开源社区贡献力量;另一方面,他们也认为多模态模型是实现AGI的必经之路,但目前尚处于早期阶段,希望以开源的举措与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。
在DeepSeek的掀起的开源风暴之后,越来越多的中国大模型选择了将自家的专有模型免费开放或是开源给广大开发者群体,一股开源界的中国势力已在悄然崛起。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

扫码添加微信客服
快速回复 返回列表 返回顶部