发布日期:2025-03-21 12:38 点击次数:84
就在刚刚,腾讯版 Sora 补王人了又一紧迫拼图——图生视频。
况且如故纯熟的配方,和客岁 12 月发布的文生视频模子 HunyuanVideo 雷同,发布即开源。
那么,这次上新的「图生视频」到底有多强呢?
有网友凯旋用它制作了一部电影:
不错看到,新功能在画质、物体一致性等方面有了很大提高。
现在该功能已上线腾讯混元 AI 视频,东说念主东说念主都可免费体验(有次数澌灭)。
话未几说,量子位一手实测走起 ~
实测腾讯混元「图生视频」
有一说一,图生视频这项功能自身在视频 AI 限制已不新奇,但难的是生成后果好。
而在诸位玩家狂卷生成后果的途中,一些老浩劫问题逐步"出头",并成为锤真金不怕火和驱动视频 AI 进化的法宝。
是以,为了直不雅展示腾讯版 Sora 的「图生视频」才调,咱们凯旋从这些贫乏脱手。
贫乏 1:是否合适试验物理规章
尽人皆知,从视频 AI 出身于今,生成合适试验物理规章的视频堪称行业贫乏。
一不戒备就各式四肢满天飞,让东说念主直呼恐怖:
是以这第一关,咱们凯旋来个大招——让腾讯混元视频 AI 规复畅通员跳水。
况且为了整活儿,考中的原图就有"炸鱼"的倾向了 ( doge):
(右侧为 AI 生成的原图和指示词,考中 2K 视频)
最终后果 be like:
最初,为了保证画质,咱们一开动就有意选了「2K 视频」(默许为高品性),并采取更通用的混元图生 1.0(另一个针对东说念主像优化)。
从澌灭不错看到,举座画面如故比较高清的,唾手一截都有点像体育频说念报说念。
质地上,比拟早期的"四肢乱飞"也彰着有很猛进步,一眼看去莫得彰着罪恶。
然鹅,要是要拿放大镜来看,一些细节如故经不起琢磨。
比如畅通员左手的大小比例不才面这个瞬息有点问题,手掌彰着过宽;另外手势在变换的历程中,抠图感彰着,能从这里看出视频由 AI 生成。
是以,要思澌灭 100% 规复真确物理规章,大噶还得加油啊 ~
BTW,天然生成的视频现在唯有 5 秒,但不难思见这位小哥落水时行将炸鱼了。
贫乏 2:能否"系风捕景"
Okk,贫乏赓续。
为了锤真金不怕火视频生成 AI 的可控性,咱们来看这么一张原图:(草原上莫得一只动物)
输入 prompt,"图中出现了一匹马",最终澌灭如下:
不错看到,视频中确乎出现了一匹白色骏马在草原上冉冉行走。
除此以外,咱们赓续搬出群众镂心刻骨的一个功能来挑战——在画面中生成翰墨(汉文或英文)。
个东说念主屡次实测后发现,现在暂时无法在视频中虚拟生成翰墨(群众有生效案例不错在挑剔区补充)。
不外也有一种波折轮番大致澌灭:先在图片中生成翰墨(不错用腾讯豆包 AI 的绘制功能),再将图片相通成动态视频。
嗯,亦然给量子位打上了赛博告白(doge)~
是以,在让视频"系风捕景"这方面,除了添加翰墨不能控,其他元素仍是不错精练拿持了。
贫乏 3:能否准确解任指示
接下来,图片搭配翰墨指示词,也能用来侦察视频生成 AI 是否贯穿用户意图了。
腾讯混元视频 AI,在上传图片后,不错通过正面(思要哪些画面)和反面(不思要哪些)指示词来缱绻统共这个词画面。
这里咱们又拿腾讯混元视频的"独家艺能"来测试。早在翰墨生成视频的功能发布后,他们就主推了在画面主角保持不变的情况下自动切镜头的这项功能,其时堪称这是业界大部分模子所不具备的才调。
是以,咱们这次的 prompt 如下:
一位番邦好意思女衣服汉服,头发飘舞,布景是长城,然后镜头切换到正面特写。
最终身成澌灭如下:
乍看之下,镜头从侧脸切换到正脸连系挺天然,连发丝都恒久在空中飘舞。
然则一抠细节,其后的黄色发卡有点突兀了,是以在举座一致性上仍有完善空间。
贫乏 4:能否保证连贯一致性
天然,光是准确规复指示还不够,更紧迫的是要让统共元素天然铺开。
换句话说,还要侦察图片升沉成视频后的动作、场景过渡是否天然剖析,有无彰着的卡顿、卓著或不连贯的情况。
嗯,依旧上难度——镜子题材下的畅通一致性锤真金不怕火。
衣服白床单的阴灵面临着镜子。镜子中不错看到阴灵的倒影。阴灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遁入的产品。阁楼的场景照射在镜子中。阴灵在镜子前舞蹈。电影氛围,电影打光。
最终后果如下:
一般来说,镜子题材不错用来锤真金不怕火模子对光影的贯穿,以及镜子表里主体畅通是否能保持一致。
而上头这个生成后果果真惊艳,当身披白床单的阴灵"活蹦活跳"时,镜子里的动作至极一致,况且连地上的光影变换也至极合适物理规章。
举座看起来相称丝滑 ~
Okk,几个堪称最难的测试到此告一段落。实测下来,腾讯混元的「图生视频」新功能在这些最难挑战上有了很猛进步,但离 100% 合适物理规章和全都一致性仍有一段距离。
终末附上来自官方的写 prompt 小 tips:
用法 1:指示词 = 主体 + 动作 (相对简易的表述后果更优)
主体:视频的主要阐明对象要与与输入图片一致,不错为东说念主、动物、植物、物品等,浮浅描述即可,比如一个女孩、一个熊猫等。
动作:对主体动作或情状的描述,用词提倡浮浅且了了具体,最佳有动态感,比如戴眼镜 ->用手戴上眼镜,喝水 ->用手举起杯子喝水。
用法 2:指示词 = 主体 + 动作 + 运镜神色
运镜神色:镜头的畅通神色,比如静止镜头、镜头平移向右,镜头缩放等。
网友豪恣试玩 ing
与此同期,网友们的第一波鲜测也出炉了:
感兴味的童鞋不错玩起来了 ~
在线免费体验:
https://video.hunyuan.tencent.com/
Github:
https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:
https://huggingface.co/tencent/HunyuanVideo-I2V
参考连系:
[ 1 ] https://x.com/TXhunyuan/status/1897558826519556325
[ 2 ] https://x.com/iamhk/status/1897557803755253850体育游戏app平台