切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
DeepSeek迎最强队友!国产大模型开源猛踩油门,全球第一 ...
菲龙网编辑部7
有 744 人收听 TA
150528
主题
150545
回复
176751
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/68
现货黄金价格再创历史新高,华尔街开始憧憬3500美元
0/64
两年消失8000万张!信用卡业务春寒料峭
0/63
金饰“卖不动了”,周大福们如何破局?
0/64
供不应求!紧急停售、断货,替代品一天销量达月均20倍
0/62
连续4年募资使用不规范 中天精装遭警示
0/63
筹备多时!浙银理财正式亮相,将淡化规模情结、全力做深做透“大本营”市场
0/54
互换便利工具:撬动资本市场活力的新杠杆|资本市场
0/43
“哪吒经济”背后的金融托举
0/41
地方国资加码银行股权 金融改革纵深推进
查看TA的全部帖子>>
DeepSeek迎最强队友!国产大模型开源猛踩油门,全球第一,免费可用,技术报告公开
时间:2025-2-19 09:28
0
118
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
智东西
作者|陈骏达
编辑|心缘
智东西2月18日报道,今天,中国大模型“六小虎”之一的阶跃星辰与吉利汽车集团联合宣布,将开源两款Step系列多模态大模型,其中包括全球参数量最大的开源文生视频大模型Step-Video-T2(300亿)和Step-Audio语音交互模型。Step-Video-T2可以直接生成最长204帧、540P分辨率的视频。
据悉,这也是阶跃星辰首次开源其Step系列基座模型。即日起,用户可以在跃问APP内体验到这两款模型。阶跃星辰还公开了36页的Step-Video-T2技术报告与25页的Step-Audio技术报告。
阶跃星辰宣布开源后,相关消息得到了开源平台Hugging Face CEO的转发支持,Hugging Face中国区负责人也在朋友圈发文推荐。
▲左侧为Hugging Face CEO,右侧为Hugging Face中国区负责人
网友在上手实测视频模型后也给出了很高的评价,称其能生成连贯而复杂的运动,这位网友还特别提到,阶跃星辰采用的是MIT开源协议。这与DeepSeek的开源协议是一致的。
项目链接:https://huggingface.co/stepfun-ai
技术报告地址:https://arxiv.org/abs/2502.10248 (Step-Video-T2)
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf (Step-Audio)
一、
还原复杂运动、理解运镜要求,
视频文字生成不再“鬼画符”
Step-Video-T2采用了高压缩比的Video-VAE模型,能够在保持视频重构质量的前提下,将视频在空间维度压缩16×16倍,时间维度压缩8倍。这种高效的压缩技术显著提高了训练和生成效率,使得视频生成过程更为迅速和高效。
此外,阶跃星辰使用两个双语文本编码器(Hunyuan-CLIP和Step-LLM)处理中英文提示,还优化了使用了基于流匹配的DIT架构和Video-DPO(视频偏好优化)算法,增强了模型处理复杂视频数据的能力,并能够进一步提升视频生成质量。
训练过程中,他们构建了一个包含20亿视频文本对和38亿图像文本对的大规模数据集。通过视频分割、质量评估、运动评估、字幕生成、概念平衡和文本对齐等步骤,将原始视频转换为适合模型预训练的高质量视频文本对。
为了支持大规模训练,阶跃星辰开发了Step-Video-T2V训练系统,包括Step Emulator(训练仿真器)、StepRPC(高性能RPC框架)、StepTelemetry(监控系统)和StepMind(分布式训练平台)。这些工具优化了模型的训练效率和资源利用率。
从生成效果来看,这款模型在复杂运动、美感人物、视觉想象力、基础文字生成等方面展现出一定实力。
下图中,Step-Video-T2V生成了一位美式橄榄球运动员奔跑的画面。模型对提示词中的画面内容、运镜要求都实现了较好的还原,体现出这款模型的语义理解和指令遵循能力。
▲提示词:视频中,一名强壮的美式橄榄球队球员,身穿专业的橄榄球服,在球场上进行练习。整个场景在一个开阔的球场上进行,背景是其他球员和教练。视频采用固定机位平移方式,捕捉了球员跑动的每一个细节,清晰地展示了橄榄球运动的激烈和速度感。
不过,在生成跳水这种难度较高的画面时,Step-Video-T2V的结果中存在一些肢体扭曲的现象。
文字方面,Step-Video-T2V生成的英文艺术字没有出现幻觉,还在数字“2025”上融入了蛇年的元素。
对历史上的知名人物,Step-Video-T2V也能准确描绘,同时也兼顾了画面的美感。
为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval,能评估运动、风景、动物、组合概念、超现实等11个内容类别上的视频生成质量。
二、一款模型同时支持文本、语音生成,无需语音转文字
阶跃星辰还同时开源了Step-Audio语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,与用户自然地高质量对话。
在Llama Question、Web Questions等5大主流公开测试集中,阶跃Step-Audio模型性能均超过了行业内同类型开源模型,位列第一。
现有的大部分语音交互系统多采用级联架构(ASR-LLM-TTS),存在延迟累积、错误传播和优化不一致等问题。Step-Audio则统一了语音和文本的理解与生成能力,支持语音识别、语义理解、对话、语音克隆、音频编辑和语音合成。这一模型在跃问中可免费使用。
在1300亿参数的完整版Step-Audio基础之上,阶跃星辰训练并开源了高效的Step-Audio-TTS-3B模型,增强了指令跟随能力。
此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系StepEval-Audio-360基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等9项基础能力的维度对开源语音模型进行全面测评。
结语:中国AI开源势力再添猛将
阶跃星辰创始人、CEO姜大昕博士称,阶跃星辰本次开源一方面是希望分享最新技术成果,给开源社区贡献力量;另一方面,他们也认为多模态模型是实现AGI的必经之路,但目前尚处于早期阶段,希望以开源的举措与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。
在DeepSeek的掀起的开源风暴之后,越来越多的中国大模型选择了将自家的专有模型免费开放或是开源给广大开发者群体,一股开源界的中国势力已在悄然崛起。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部