工业切换镜头 “清华系Sora”上线！首发实测：多镜头切换强到爆，30秒生成大片

小编新闻资讯 2025-05-07 258

“清华系Sora”上线！首发实测：多镜头切换强到爆，30秒生成大片

作者 | 香草 编辑 | 李水青

最适合二次元的“国产Sora”来了！

就在刚刚，清华系大模型创企生数科技 ，在全球范围上线视频生成模型Vidu ，全面开放文生、图生视频能力。

先来看看效果：

如果没有右上角的水印，你会不会以为这是某个日本动画电影的片段截取？

实际上，这是我用Vidu文生视频能力生成的动画，提示词为：两个人举起茶杯小口抿了一口。左边的人轻抿双唇后微笑，右边的人专注于他们的茶，形成一种静雅和微妙互动的场景。布景精致，淡雅的颜色、花卉布置和古典家具增强了优雅氛围。

今年4月，Vidu首次亮相，据称具备高动态性、高逼真度、高一致性等特点。此次上线，Vidu主打两大能力：动漫风格、角色一致性 ，其支持生成4秒、8秒 固定时长的视频，分辨率达到1080P ，此外还支持生成数字、英文 等文字。在推理速度上，Vidu生成一段4秒片段只需30秒 。

在价格方面，Vidu提供免费版 和3种收费机制 。免费版每月有80积分，可生成20个4秒视频；按月度订阅，标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元（约合人民币145.22元、435.80元、1452.83元），每月分别可额外获得240、800、2880积分，视频时长延长到8秒，可去水印和商用。目前在上线前两周，Vidu提供限时5折优惠。

用户如果按年订阅，标准版、高级版、尊享版目前的价格分别是7.99美元/月、23.99美元/月、79.99美元/月。此外，Vidu开放了API内测申请 。

▲Vidu按年订阅价格

具体的生成效果和速度还得用了才知道，智东西第一时间拿到了内测资格并上手测试了Vidu 。一番体验下来，我主要有以下几点感受：

1、首先是快，经过掐表实测，Vidu生成4秒视频不超过30秒。

2、语义理解能力 很强，在100+字的长提示词下，Vidu也能覆盖到大部分细节并准确呈现。

3、Vidu实现了多镜头切换 ，能够通过一个提示词直接生成不同镜头的视频，这对于影视场景等应用很有价值。

4、运动幅度很大 ，无论是人物的表情、动作，还是景别切换，都保持了稳定性且没有牺牲动幅。

5、对动漫风格 的定向优化突出，能保持风格一致性，避免了常见的崩坏现象。

Vidu体验链接： www.vidu.studio

一、文生视频：单提示词镜头切换，支持生成英文数字

打开Vidu，在左侧的文本框中，我可以直接输入文字进行视频生成，也可以让系统随机生成提示词。文生视频可以选择写实、动画 两种风格，时长支持4秒、8秒 固定长度，其中8秒视频需要订阅套餐。

图生视频则是上传图片后，选择用作起始帧或参考人物角色，提示词可有可无，此外不支持选择风格。

▲Vidu视频生成界面

我们首先来测一下文生视频 的效果。

虽然主打动画风格，但写实风格对Vidu来说也不在话下。例如文章开头的案例，如果用同样的提示词选择写实风格，生成的视频效果是这样：

是不是还挺有古风古韵那味儿的？

虽然视频后半段出现了茶杯“闪现”的失误，但瑕不掩瑜，Vidu无论是对提示词的语义理解上，还是对人脸、人手等细节的呈现上，都挑不出什么毛病。要是清晰度能再上一层，说是影视剧片段也不为过。

Vidu也在系统内提供了分辨率提升 的功能，点击生成视频底部的“超清”按钮，就可以对视频进行超清处理。

在体验过程中，我发现Vidu对长文本的理解，以及基于单提示词生成多镜头的能力很突出。

例如这段提示词：在一个柔和灯光的浴室里，一只造型如美国动画角色的泰迪熊正在洗澡。它部分沉浸在泡泡浴缸中，一只爪子拿着电话，另一只爪子在搓洗自己。柔和的灯光营造出温暖和惬意的氛围，浴室的瓷砖是舒缓的粉彩色，增强了温馨和奇幻的氛围。泰迪熊的表情专注，表现出洗澡和打电话的同时进行。

这个提示词很长，覆盖了对主体动作、表情，场景氛围、灯光等多个细节的描写，而Vidu都一一准确地表现了出来。在理解语义的基础上，Vidu还增加了“侧面描写”，为泰迪熊添加了口型变化来体现“打电话”。

再比如这段提示词：先是一个滴答作响的怀表的特写镜头，然后拉远，揭示出相对而坐的两个人物，紧张气氛扑面而来。最后镜头转到窗外，是一篇黑压压的山脉。

这段提示词切换了3个镜头，Vidu准确生成了怀表的特写，并转换成两个人对话的场景，最后又抬高镜头对准了窗外。

值得一提的是，Vidu还支持在视频中生成包含数字、英文 的画面。在上面的案例中也可见一斑，怀表上的数字清晰可见，从1到12都很准确。

例如基于这个提示词，我生成了一个动画风格视频：女孩捧着一个草莓生日蛋糕，上面插着蜡烛，蜡烛是数字“25”的形状。

Vidu不仅准确呈现了提示词，还“自由发挥”了后半段女孩走远和转身的细节，并且在此过程中，画面背景和人物保持了高度一致性。

再来看看英文单词的生成，我用的提示词为：一只柯基身穿红色的赛车服，头戴小头盔。在类似赛道的简约布景上，柯基坐在一辆小巧流线型的赛车中，准备起跑，赛车车身印有“DOGE”字样。

除了准确生成了“DOGE”字样外，Vidu在这个视频中还有一点惊艳到我：对光影的模拟 。

在经过一段看起来像建筑阴影的地方时，画面主体的柯基和赛车随着相对建筑的位置，从全部笼罩在阴影中，逐渐变为只有柯基在阴影中、全部暴露在阳光下。虽然过渡还有些不自然，但在一定程度上体现了对物理世界光影关系的模拟。

当然，Vidu也有“翻车”的时候，在遇到涉及大幅度运动或是偏专业场景的时候，它明显有些力不从心。

例如我想让它生成一个奥运会场景，提示词为：在奥运会的乒乓球赛场上，灯光闪耀，观众们热情欢呼。甲和乙站在球台两端，甲表情自信地准备发球，他将球高高抛起，然后用力挥拍发球。球在空中划过一道弧线，乙则表情沉稳，快速移动脚步，精准地挥拍接球，随后球在半空快速穿梭，甲眼神期待，乙顽强应对，两人开始了激烈的对打，展现出高超的乒乓球技艺。

无论是动画还是写实风格，Vidu在这个提示词上都大翻车，要么让运动员站在了球台的侧面，要么直接在球台的一边生成了第三个运动员，还“放任”运动员大肆犯规。

总的来说，在文生视频中，Vidu已经能应对大部分较为日常的场景，虽然有失误和翻车情况，但整体瑕不掩瑜，并且这些情况也可能通过“抽卡”解决。同时，Vidu对文字、多镜头的支持能大幅减少后期的工作，在实际应用中有很大的价值。

二、图生视频：角色风格高度一致，“纸片人”也能复刻

在图生视频方面，Vidu支持起始帧参考 和角色一致参考 两种方式。

这两个功能可以说是表情包和梗图制作神器了，比如我可以让马斯克变身深情男，为屏幕对面献上玫瑰。

或者让他换上金刚狼的衣服，在城市夜景中“大秀肌肉”。

我也可以用Vidu让喜欢的照片动起来，比如上传一张戴墨镜男孩的照片，把他的墨镜摘下来。

虽然这个人脸看起来有点诡异，但你就说墨镜摘没摘吧（doge）。

我又上传了一张举着摄像机的人像照片，输入提示词：男孩转身面向镜头。

在保持发型、服装一致性的前提下，Vidu不仅让人物面向了镜头，还发挥想象力为他生成了一个欧美男孩的脸，比上一个视频中的脸进步了不少。

不过，用AI复活真人照片已经涌现出不少玩法了。既然Vidu针对动漫风格进行了专门的优化，那它能复活“纸片人”吗？

我上传了一张日本动画角色C.C.的特写，首先不写任何提示词，选择用作起始帧，看看Vidu会如何自由发挥。

▲日本动画角色C.C.特写

不得不说，Vidu的表现有些超出我的预期了，其在初始画面的基础上变换了人物角度、表情，在此过程中不仅保证了画面的流畅和风格一致性，还让头发进行了大幅度随风飘动，有点“中二病”那味儿了。

同样是上传这张参考图，我又尝试选择参考人物角色，随后分别输入“她微笑着，向镜头伸出双手 ”、“她生气地抱着双臂，转过头不理你 ”作为提示词。

令我惊讶的是，即使是“纸片人”，Vidu也实现了很高的角色一致性，虽然画风有所变化，但人物的发色、瞳色、衣服都保持一致。不过在第二个提示词中，Vidu没能呈现“转过头”这个动作。

看来2D平面角色问题不大，那3D角色呢？我上传了一款日本游戏中的角色爱丽丝。

▲日本游戏角色爱丽丝

选择参考人物角色后，我输入提示词：她幸福地笑着，眼睛眯成一条线，背景是一片花海。

Vidu基本复现了她的发型、发饰和服装，但人脸显然并不是同一张，同时发型等细看也有不一致，有点像Cosplay和原版的差别。不过在对提示词的理解和表达上，Vidu倒是没什么失误。

“纸片人”都试了，“纸片动物”是不是也能一试？我上传了一张杰瑞，让Vidu将其作为起始帧生成了下面这个视频。

只见小杰瑞表情、动作都十分生动，就是Vidu似乎没分清他的左右腿……

总的来说，在图生视频方面，Vidu不仅能实现其他同类产品复活照片的功能，而且基于对动漫风格的优化，它能将真实人物照片中的玩法延伸到二次元，这为动画、游戏等行业带来了新的价值。

结语：剑走偏锋，Vidu走出差异化道路

AI视频生成赛道迎来小高潮，上周爱诗科技、智谱AI刚刚发布新模型，今天生数科技就甩出Vidu大模型迎战。

Vidu大模型在今年4月首次发布，当时据称支持一键生成16秒、分辨率1080P的高清视频内容，具备多镜头生成、时空一致性高等特点。从这次体验来看，虽然Vidu还没有上线16秒视频生成的能力，清晰度也有待提高，但在多镜头、一致性方面确实有很大突破，这为Vidu带来了差异化的特点。

短短5个多月，国内大厂、创企纷纷亮出杀手锏，国产视频生成大模型与Sora的差距越来越小，甚至已经实现弯道超车。

苹果推出DockKit手机稳定器：支持自动跟踪、按键切换镜头以及变焦

苹果公司最近推出了一款名为DockKit的手机稳定器，该产品可以直接接入DockKit协议，并与iPhone原生相机相结合。在iOS 18系统下，这款稳定器实现了自动跟踪、按键切换前后镜头以及通过变焦拨轮进行变焦的功能。

据了解，这款稳定器是由国产智能影像品牌影石Insta360 Flow系列最新推出的AI手机稳定器。DockKit是苹果公司在去年的iOS 17中推出的新API，它允许iPhone手机的电动支架与相机结合起来，以便控制底座配件的支架，并通过相机追踪出现在视频帧中的人脸和身体位置。

得益于DockKit智能主体跟踪技术，接入DockKit协议的手机稳定器在使用时不需要摇动镜头或操控摇杆就可以方便地锁定和追踪拍摄对象，从而实现更流畅和专业的视频拍摄效果。此外，在iOS 18系统中，DockKit团队开发了全新的高级跟踪管道，可以通过ML模型来选择并跟踪主体。

据官方消息显示，影石Insta360 Flow系列新款AI手机稳定器将于近期上市，具体发布时间为7月9日21点。目前其他产品信息和定价还未公布。

(8816214)