图生视频还带声音？我把LTX 2.3塞进了自己的显卡里

上周三深夜，我在折腾一个视频生成项目。

用的是国内某平台的图生视频接口，上传了一张图，写好提示词，等了三十多秒——

“生成失败，请检查内容是否符合平台规范。”

我看了半天，也不知道哪里违规了。图就是一个普通的人物摆拍，提示词也没写什么过分的东西。重新提交，又失败。

我当时就在想：为什么我生成个视频还要看别人脸色？

就在那天，有人在群里丢了一个链接，说LTX 2.3出了GGUF量化版，能在普通显卡上跑。

我盯着那条消息看了三秒。

“图生视频+生成音频，一起的。”

又看了三秒。

然后关掉了那个一直报错的网页，开始下模型。

先说说LTX 2.3是什么来头

LTX-Video是以色列公司Lightricks搞出来的开源视频生成模型，这家公司在图像处理领域有年头了，你可能用过他们的某款修图App。

2.3这个版本比之前有几个重要升级：

• 原生音频生成：不是后期配乐，是模型在生成视频的同时同步生成音频，口型、环境音、甚至背景音乐都是一起出来的
• 新VAE架构：细节更锐利，头发丝、衣服纹理这些之前模糊的地方有了明显改善
• 图生视频质量大幅提升：给它一张图，它知道这张图里的人或物”接下来应该怎么动”
• 支持4K、50帧：虽然量化版跑不到那么高，但原始模型能力在那里

整个模型参数量是19B级别，按理说要跑起来需要巨大的VRAM。

但GGUF量化把它压下来了。

GGUF量化是什么意思？

不绕圈子，说人话。

原始模型用BF16精度存储，每个参数占2个字节。19B个参数，大概需要38GB显存——普通显卡直接劝退。

GGUF把这些参数压缩成4bit精度，体积缩小到原来的1/4到1/5。

我用的是Q4_K_S这个版本，模型文件大概10GB多一点。显卡是RTX 3080（10GB VRAM），加上文字编码器会超出，所以文字编码器走CPU，主模型走GPU——

生成一条5秒的960×544视频，大概两三分钟。有音频的那种。

说实话，第一次看到生成结果的时候，我愣了一下。

不是因为多惊艳，是因为它真的有声音。

真实上手体验

我做的是一个美女唱歌的图生视频测试。

原图是一张正脸人像。

输入图片

提示词我就写了一句：美女唱歌视频。

负面提示词加了一些通用的：模糊、低质量、静止帧、水印。

然后等了大概两分半钟。

视频里的人物有了自然的嘴型动作，背景有了轻微的焦距变化，配上音频之后……你看完就明白那种感觉了。

再来一条不同输入的：

质量不是那种”哇塞完美无瑕”的级别，但是在我自己电脑上、完全离线跑出来的，这件事本身就已经让我想多想想了。

为什么选择本地跑，而不是用云端接口？

这个问题我被问过几次，每次我都觉得有点奇怪——这不应该很显然吗？

第一，隐私。

你上传到云端平台的每一张图、每一条提示词，都是别人的服务器上的数据。你不知道他们存多久，拿去做什么。

本地跑就不一样了。模型在你硬盘上，运行在你显卡里，生成的视频在你的输出文件夹。整个过程，没有任何东西离开你的电脑。

第二，没有审核。

不是说一定要做什么”违规”的事情——我说的是，你的创作自由不应该被一个不知道在哪里的算法审核员卡着。

你想让视频里的角色做什么动作，是你的事。

第三，长期来看更省钱。

云端接口按量付费，用多了费用不低。本地一次性把模型下载下来，电费而已。

如果你也想跑起来

硬件要求：

• 最低：RTX 3080 10GB / RTX 4070 12GB，文字编码器走CPU
• 推荐：RTX 4080/4090 16GB+，全程GPU，速度快一倍以上
• 内存：32GB RAM（文字编码器Gemma 3 12B走CPU时需要）
• 硬盘：至少30GB空间（模型+环境）

模型文件：

• 主模型：LTX-2.3-distilled-Q4_K_S.gguf（~10.7GB）
• CLIP：Gemma 3 12B fp4 + LTX文字投影层
• VAE（视频）+ VAE（音频）各一个

我打包了一个一键启动版本，包含：

• 完整的ComfyUI环境（已配置好所有自定义节点）
• 预设好的工作流
• 双击01-run.bat直接启动，浏览器打开就能用

下载地址：https://xueshu.fun/7251

最后说一句

我折腾这些东西折腾了几年了，从最早的Stable Diffusion开始，一路到现在的视频+音频同步生成。

每次有新的能力解锁，我都会有一种类似的感觉：

科技应该是让人更自由的，不是更受限的。

一个能在你自己电脑上运行、不需要向任何人申请、不受任何内容政策约束的本地AI——这东西存在的本身，就有它的意义。

至于你打算拿它来做什么，那是你自己的事了。

声明：本站所有软件、课程、素材等资源全部来源于互联网，赞助VIP仅用于对本站服务器带宽及网站运营等费用支出做支持，从本站下载资源，说明你已同意本条款。如若本站内容侵犯了原著者的合法权益，请携带版权证明与我们联系，我们会及时处理。

图生视频还带声音？我把LTX 2.3塞进了自己的显卡里

图生视频还带声音？我把LTX 2.3塞进了自己的显卡里

先说说LTX 2.3是什么来头

GGUF量化是什么意思？

真实上手体验

为什么选择本地跑，而不是用云端接口？

如果你也想跑起来

最后说一句

AI资源

学术课程

学术软件

学术素材

联系我们

图生视频还带声音？我把LTX 2.3塞进了自己的显卡里

先说说LTX 2.3是什么来头

GGUF量化是什么意思？

真实上手体验

为什么选择本地跑，而不是用云端接口？

如果你也想跑起来

最后说一句

开通会员后，网站中的其他内容也可以免费下载吗？

体验会员有效期状态什么时候刷新？

购买过的资源，可以免费更新吗？

会员开通之后可以退款吗？

网站运营多长时间了，会不会有安全问题？

网站是否有客服，碰到问题怎么解决？

相关文章