2026-07-04·AI技术趋势

AI技术趋势--10.9K星的港大开源项目让AI长视频全自动制片，人物一致性追踪是最大亮点

返回博客

金

金柘

#ViMax#AI视频#长视频#港大#开源

现有的AI视频工具能做出几秒钟的炫酷画面——人物一跳，第三个镜头就变成另一个人了。ViMax解决的正是这件事：让AI视频从"几秒碎片"变成"有角色、有叙事、有风格的完整内容"。

本文是一篇行业分析，基于公开信息和作者个人判断。

发生了什么

香港大学数据科学实验室（HKUDS）开源了ViMax——一个AI长视频全自动制片的框架。10.9K星，362次commits，论文已上传arXiv。

它定义了四种工作模式：

Idea2Video：一句话想法→完整视频
Novel2Video：整本小说→分集视频
Script2Video：自定义剧本→成片（完全可控）
AutoCameo：上传你的照片→你变成片中角色

这四种模式覆盖了从"完全交给AI"到"精细控制每个环节"的完整谱系。

核心创新

ViMax的核心不是视频生成——它管的是编排层。剧本→分镜→选参考图→一致性校验→组装。图像的生成仍然依赖API（Google Veo、Imagen等），但"从剧本到成片"的编排逻辑全部开源。

这里最有价值的技术是多镜头角色一致性追踪。现在的AI视频工具在单个镜头里可以生成高质量画面，但切到第二个镜头时——发型变了、衣服颜色不对、面部结构漂移。ViMax做的事情是：在生成每个镜头之前，先提取上一镜的角色参考特征，注入到当前镜头的生成参数里。这不是简单的"保持提示词一样"——是像素级的特征锚定。

能用在哪些场景

自媒体批量视频生产。 结合已有的AI自媒体流水线——选题→脚本→ViMax编排→Veo生成→剪辑发布——从选题到成品的Agent链可以全自动跑了。
小说改编视频。 Novel2Video模式可以直接把一本小说转成分集视频。这是网文平台和短剧公司最感兴趣的功能。
品牌营销视频。 AutoCameo让品牌方把自己的产品模特面部特征直接植入视频角色中——个性化视频广告的制作成本可以降一个数量级。

带来了什么变化

ViMax解决的不是"能不能生成视频"，是"能不能讲一个完整的故事"。"几秒碎片"和"几分钟完整叙事"之间的鸿沟，不是靠更强的视频生成模型填平的——是靠编排层的工程能力。

对创业者的意义

如果你在做AI视频相关的创业——不管是自媒体、短剧还是广告——现在最重要的事不是选哪个视频生成模型，是先把编排层的架构搭好。剧本管理、分镜规划、一致性校验、音频合成——这些"脏活"才是壁垒。ViMax的开源让这件事的门槛降到几乎为零。

延伸思考

"编排层开源，生成层依赖API"这个架构会不会成为AI视频的标准范式？如果是——那编排层的竞争会在12个月内白热化，而生成层的API价格会继续下降。视频制作的最终瓶颈可能不在技术上，在法律上——深度换脸、版权归属、人物肖像权。AI能做出来的东西，不一定都能合法发布。这是所有AI视频工具绕不过去的坎。

本文数据来源于GitHub公开仓库（HKUDS/ViMax）及arXiv论文（2606.07649），数据截至2026年7月4日。

查看所有文章 →