腾讯混元又更新,可让高达跳舞的图生视频功能上线
来源:观察者网
2025-03-06 17:55
3月6日,腾讯混元保持此前的高强度更新,又正式推出了开源的图生视频模型,同步开放视频生成、对口型及动作驱动等趣味功能,并支持2K高清视频与智能背景音效生成。用户现可通过官网或API接口快速体验这一创新技术。
本次更新的核心功能亮点是静态图转动态视频。在上传任意图片后,通过简单文字描述画面运动方式(如物体移动轨迹或镜头运镜),模型即可生成5秒动态短视频,并自动匹配契合场景的背景音效。智能口型同步。
上传人物肖像后,输入文字内容或音频文件,AI将精准驱动人物口型,实现说话或歌唱效果。结合预设舞蹈模板,静态图片人物还能一键生成流畅的舞蹈视频。开发者生态支持:
本次开源的130亿参数模型覆盖写实、动漫及CGI角色生成场景,提供完整模型权重、推理代码及LoRA训练代码。开发者可通过腾讯云API接入服务,或在GitHub、HuggingFace社区下载资源,基于基础模型训练定制化衍生模型(如专属LoRA),拓展多元视频创作可能性。
目前,个人用户可访问混元AI视频官网直接体验,企业级用户可通过腾讯云申请API集成服务。
在观察者网体验中,发现混元图生视频模型的人气火爆,实测中图生视频功能的任务已经“排起长队”,需要等待接近两个小时才能进行使用。
混元图生视频功能排起长队 混元官网
具体的实际操作中,可以通过上传高达的静态图片,让高达跳起“魔性”的舞步。
也可以通过上传一辆汽车的图片,看到汽车高速行驶起来的视频。
混元开源技术报告显示,混元视频生成模型具备灵活的扩展性,图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上,让模型能够捕捉到丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。
混元视频生成模型开源以来,一直保持较高的热度,去年12月登顶huggingface(知名AI社区)全站趋榜第一,目前Github(知名程序平台)平台上Star数超过8.9K。多位开发者自发制作基于社区Hunyuanvideo的插件与衍生模型,积累超过900个衍生版本。更早开源的混元DiT文生图模型,在国内外衍生模型数量多达1600多个。
目前,混元开源系列模型已经完整覆盖文本、图像、视频和3D生成等多个模态,在Github累计获得超2.3万开发者关注和star。
本文系观察者网独家稿件,未经授权,不得转载。