视频生成模型 Zeroscope开源免费无水印 - 齐鲁经济网

频道
搜索

资讯资讯金融股市房产汽车图片旅游体育国际消费资讯金融快讯

微信微博 QQ空间 MORE

站长之家（ChinaZ.com）6月26日消息:据huggingface 页面显示，一款名为 Zeroscope_v2_576w 的视频生成模型现已开源。

Zeroscope_v2_576w 基于 Modelscope 打造，是一个具有17亿个参数的多级文本到视频扩散模型。它根据文本描述生成视频内容。并且提供更高的分辨率，没有 Shutterstock 水印，并且宽高比更接近16:9。

【资料图】

Zeroscope 具有两个组件: Zeroscope_v2567w，专为以576x320像素的分辨率快速创建内容以探索视频概念而设计。然后可以使用 Zeroscope_v2XL 将优质视频升级到1024x576的“高清”分辨率。

对于视频生成，该模型需要7.9GB 的 VRam（分辨率为576x320像素、帧速率为每秒30帧）和15.3GB 的 VRam(分辨率为1024x576像素、帧速率为每秒)。因此，较小的型号应该可以在许多标准显卡上运行。

Zeroscope 的训练涉及将偏移噪声应用于9，923个剪辑和29，769个标记帧，每个帧包含24帧。偏移噪声可能涉及视频帧内对象的随机移动、帧时序的轻微变化或轻微的失真。

训练期间引入的噪声增强了模型对数据分布的理解。因此，该模型可以生成更多样化的真实视频，并更有效地解释文本描述的变化。

根据拥有 Modelscope 经验的 Zeroscope 开发者“Cerspense”的说法，用24GB VRam 微调模型并不“超级困难”。他在微调过程中删除了 Modelscope 水印。

他将自己的模型描述为“旨在挑战 Gen-2”，即 Runway ML 提供的商业文本到视频模型。根据 Cespense 的说法，Zerscope 完全免费供公众使用。

目前，文本到视频仍处于起步阶段。人工智能生成的剪辑通常只有几秒钟长，并且存在许多视觉缺陷。然而，图像人工智能模型最初面临类似的问题，但在几个月内就实现了照片级真实感。但与这些模型不同的是，视频生成无论是训练还是生成都需要消耗更多的资源。

谷歌已经推出了Phenaki 和 Imagen Video，这两种文本到视频模型能够生成高分辨率、更长、逻辑连贯的剪辑，尽管它们尚未发布。Meta 的Make-a-Video（文本转视频模型）也尚未发布。

目前，只有Runway 的 Gen-2已商用，并且现已在 iPhone 上提供。Zeroscope 标志着第一个高质量开源模型的出现。

关键词：

责任编辑：zN_2618

学生组11号作品：大美林州【秦晨贺】-热消息
4 合涧一小秦晨贺：马虎先生，我想对你说5 合涧一小秦晨贺：我的妹
全球快看：重庆法院开展全民反诈和打击整治养老诈骗集中公开宣判活动
近年来，重庆法院切实履行维护国家政治安全、确保社会大局稳定、促进社
战律2试玩demo发布：支持肉鸽模式免费试玩|环球快讯
回合制战术游戏《战律2》在Steam新品节期间发布了试玩demo。从6月19日
渭南高新区召开上半年主要经济指标工作调度会
6月25日下午，渭南高新区召开上半年主要经济指标工作调度会，分析研判
SHEIN在墨西哥正式启动第三方平台模式
SHEIN近日宣布，在墨西哥正式启动第三方平台模式的运营。同时，SHEIN或

即时推荐

学生组11号作品：大美林州【秦晨贺】-热消息

2023-06-26 13:40:16
全球快看：重庆法院开展全民反诈和打击整治养老诈骗集中公开宣判活动

2023-06-26 13:44:25
战律2试玩demo发布：支持肉鸽模式免费试玩|环球快讯

2023-06-26 13:39:35
渭南高新区召开上半年主要经济指标工作调度会

2023-06-26 13:56:07
SHEIN在墨西哥正式启动第三方平台模式

2023-06-26 13:44:35

国际