你的位置：宏匠工艺品 > 科技创新 > 中关村声音|对标Sora 首个国产自研视频大模型Vidu发布

中关村声音|对标Sora 首个国产自研视频大模型Vidu发布

时间：2024-04-28 02:16 点击：101 次

<div>新京报贝壳财经讯（记者罗亦丹）4月27日，在中关村论坛未来人工智能先锋论坛上，清华大学教授、生数科技首席科学家朱军发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。在论坛现场，朱军向观众展示了Vidu生成的视频，包括戴珍珠耳环的猫、弹吉他的熊猫以及摩登女郎等。与此前震撼业界的Sora一致，Vidu能够根据提供的文本描述直接生成高质量视频。<img data-reference="image" src="https://img-s-msn-com.akamaized.net/tenant/amp/entityid/AA1nKSlq">朱军在中关村论坛现场作报告。新京报贝壳财经记者罗亦丹/摄朱军表示，除了在时长方面的突破外，Vidu在视频效果方面实现显著提升，主要体现在几个方面，包括能够生成细节复杂的场景，且符合真实的物理规律；能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容；能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换；在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致；能够生成特有的中国元素，例如熊猫、龙等。朱军表示，之所以Vidu能够达到这样的效果，是因为其团队的技术路线正好与Sora高度一致。Vidu由生数科技与清华大学联合推出。朱军称，Vidu的快速突破源于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer（均为模型名称）融合的架构，完全由团队自主研发。朱军表示，自今年2月Sora发布推出后，和记娱乐官网团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。从图文任务的统一到融合视频能力，作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构也将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。“我们也希望和在座各位以及国内优质单位一起合作，共同推进技术进步，诚邀产业链上下游企业、研究机构加入，共同构建合作生态。”朱军说。编辑陶野校对赵琳</div>

六问法就是六种问题不断提问然后回答，用答案梳理出文章框架结构再进行写作。六种问题没有什么先后顺序，也没有什么数量上的要求，想到哪个用哪个非常自由，有些问题问了自己答不出来那就换一个问。六种问题用英文单词表示比较好，分别为：what\when\where\who\why\how和记娱乐官网，用这六个词中任意一个词提问题。

改：蓝蓝的天空中飘着几朵洁白的云，像一朵朵棉花糖，温和的阳光洒在树梢，地上留下了大树的影子，微风迎面吹来感觉非常舒服。

•

上一篇：创8个季度以来最高纪录！一季度规上工业增加值同比增长6.1%
下一篇：资本市场力挺科技企业 16项硬核举措精准“滴灌”

好消息！iPhone 15 Pro Max价格一降再降，从9999元跌至8199元 2024-05-17

腾格尔：直播中利用其音频对口型假唱欺骗打赏等，均未取得授权，属侵权行为 2024-05-16

实话说，华为手机，不需要余承东来喊“遥遥领先”了 2024-05-15

楼市新政之后，北京中介“紧急取消了假期” 2024-05-14

制造业用钢占比上升钢铁行业产品结构调整加快 2024-05-12

从“网红”变“长红”小帐篷撑起身边的“诗与远方” 2024-05-11