图生视频还带声音?我把LTX 2.3塞进了自己的显卡里

封面
封面

上周三深夜,我在折腾一个视频生成项目。

用的是国内某平台的图生视频接口,上传了一张图,写好提示词,等了三十多秒——

“生成失败,请检查内容是否符合平台规范。”

我看了半天,也不知道哪里违规了。图就是一个普通的人物摆拍,提示词也没写什么过分的东西。重新提交,又失败。

我当时就在想:为什么我生成个视频还要看别人脸色?


就在那天,有人在群里丢了一个链接,说LTX 2.3出了GGUF量化版,能在普通显卡上跑。

我盯着那条消息看了三秒。

“图生视频+生成音频,一起的。”

又看了三秒。

然后关掉了那个一直报错的网页,开始下模型。


先说说LTX 2.3是什么来头

LTX-Video是以色列公司Lightricks搞出来的开源视频生成模型,这家公司在图像处理领域有年头了,你可能用过他们的某款修图App。

2.3这个版本比之前有几个重要升级:

  • 原生音频生成:不是后期配乐,是模型在生成视频的同时同步生成音频,口型、环境音、甚至背景音乐都是一起出来的
  • 新VAE架构:细节更锐利,头发丝、衣服纹理这些之前模糊的地方有了明显改善
  • 图生视频质量大幅提升:给它一张图,它知道这张图里的人或物”接下来应该怎么动”
  • 支持4K、50帧:虽然量化版跑不到那么高,但原始模型能力在那里

整个模型参数量是19B级别,按理说要跑起来需要巨大的VRAM。

但GGUF量化把它压下来了。


GGUF量化是什么意思?

不绕圈子,说人话。

原始模型用BF16精度存储,每个参数占2个字节。19B个参数,大概需要38GB显存——普通显卡直接劝退。

GGUF把这些参数压缩成4bit精度,体积缩小到原来的1/4到1/5。

我用的是Q4_K_S这个版本,模型文件大概10GB多一点。显卡是RTX 3080(10GB VRAM),加上文字编码器会超出,所以文字编码器走CPU,主模型走GPU——

生成一条5秒的960×544视频,大概两三分钟。有音频的那种。

说实话,第一次看到生成结果的时候,我愣了一下。

不是因为多惊艳,是因为它真的有声音


真实上手体验

我做的是一个美女唱歌的图生视频测试。

原图是一张正脸人像。

输入图片

提示词我就写了一句:美女唱歌视频

负面提示词加了一些通用的:模糊、低质量、静止帧、水印。

然后等了大概两分半钟。

视频里的人物有了自然的嘴型动作,背景有了轻微的焦距变化,配上音频之后……你看完就明白那种感觉了。

再来一条不同输入的:

质量不是那种”哇塞完美无瑕”的级别,但是在我自己电脑上、完全离线跑出来的,这件事本身就已经让我想多想想了。


为什么选择本地跑,而不是用云端接口?

这个问题我被问过几次,每次我都觉得有点奇怪——这不应该很显然吗?

第一,隐私。

你上传到云端平台的每一张图、每一条提示词,都是别人的服务器上的数据。你不知道他们存多久,拿去做什么。

本地跑就不一样了。模型在你硬盘上,运行在你显卡里,生成的视频在你的输出文件夹。整个过程,没有任何东西离开你的电脑。

第二,没有审核。

不是说一定要做什么”违规”的事情——我说的是,你的创作自由不应该被一个不知道在哪里的算法审核员卡着。

你想让视频里的角色做什么动作,是你的事。

第三,长期来看更省钱。

云端接口按量付费,用多了费用不低。本地一次性把模型下载下来,电费而已。


如果你也想跑起来

硬件要求:

  • 最低:RTX 3080 10GB / RTX 4070 12GB,文字编码器走CPU
  • 推荐:RTX 4080/4090 16GB+,全程GPU,速度快一倍以上
  • • 内存:32GB RAM(文字编码器Gemma 3 12B走CPU时需要)
  • • 硬盘:至少30GB空间(模型+环境)

模型文件:

  • • 主模型:LTX-2.3-distilled-Q4_K_S.gguf(~10.7GB)
  • • CLIP:Gemma 3 12B fp4 + LTX文字投影层
  • • VAE(视频)+ VAE(音频)各一个

我打包了一个一键启动版本,包含:

  • • 完整的ComfyUI环境(已配置好所有自定义节点)
  • • 预设好的工作流
  • • 双击01-run.bat直接启动,浏览器打开就能用

下载地址:https://xueshu.fun/7251


最后说一句

我折腾这些东西折腾了几年了,从最早的Stable Diffusion开始,一路到现在的视频+音频同步生成。

每次有新的能力解锁,我都会有一种类似的感觉:

科技应该是让人更自由的,不是更受限的。

一个能在你自己电脑上运行、不需要向任何人申请、不受任何内容政策约束的本地AI——这东西存在的本身,就有它的意义。

至于你打算拿它来做什么,那是你自己的事了。

 

会员分体验会员和永久会员,都可以免费下载本站所有课程软件等资源。

体验会员状态的刷新时间为北京时间上午8:00。AI软件下载后可以永久使用,与会员有效期无关。

本站所有资源支持免费更新,具体规则如下:

  • 登录后单独购买的资源,可以永久免费更新,无时间限制
  • 购买体验会员的用户,在会员到期后,下载的内容将无法继续获得更新
  • 购买永久会员的用户,可以永久免费更新,无时间限制

由于商品的特殊性,本站不支持退款,所以在开通会员之前,请确认你的需求。如果不放心,可以开通体验会员体验,满意再升级其他会员套餐。

从2019年开始已经运行3年多时间,诚信经营,会员过万,所有数据均有3级容灾备份,不存在安全问题。

碰到问题可优先查看文章教程。AI软件相关问题,请先检查自己机器是否为N卡,除非特别注明支持A卡或者CPU,一般默认只支持N卡运行,有些软件需要安装 CUDA 才能运行,请参考CUDA安装教程。其他售前售后问题请添加学术Fun公众号,站长每天上午8-9点,晚上7-8点时间段统一回复解决问题,其他时间看到留言也会第一时间解决。