
AI技术趋势--10.9K星的港大开源项目让AI长视频全自动制片,人物一致性追踪是最大亮点
现有的AI视频工具能做出几秒钟的炫酷画面——人物一跳,第三个镜头就变成另一个人了。ViMax解决的正是这件事:让AI视频从"几秒碎片"变成"有角色、有叙事、有风格的完整内容"。
本文是一篇行业分析,基于公开信息和作者个人判断。
发生了什么
香港大学数据科学实验室(HKUDS)开源了ViMax——一个AI长视频全自动制片的框架。10.9K星,362次commits,论文已上传arXiv。
它定义了四种工作模式:
- Idea2Video:一句话想法→完整视频
- Novel2Video:整本小说→分集视频
- Script2Video:自定义剧本→成片(完全可控)
- AutoCameo:上传你的照片→你变成片中角色
这四种模式覆盖了从"完全交给AI"到"精细控制每个环节"的完整谱系。
核心创新
ViMax的核心不是视频生成——它管的是编排层。剧本→分镜→选参考图→一致性校验→组装。图像的生成仍然依赖API(Google Veo、Imagen等),但"从剧本到成片"的编排逻辑全部开源。
这里最有价值的技术是多镜头角色一致性追踪。现在的AI视频工具在单个镜头里可以生成高质量画面,但切到第二个镜头时——发型变了、衣服颜色不对、面部结构漂移。ViMax做的事情是:在生成每个镜头之前,先提取上一镜的角色参考特征,注入到当前镜头的生成参数里。这不是简单的"保持提示词一样"——是像素级的特征锚定。
能用在哪些场景
-
自媒体批量视频生产。 结合已有的AI自媒体流水线——选题→脚本→ViMax编排→Veo生成→剪辑发布——从选题到成品的Agent链可以全自动跑了。
-
小说改编视频。 Novel2Video模式可以直接把一本小说转成分集视频。这是网文平台和短剧公司最感兴趣的功能。
-
品牌营销视频。 AutoCameo让品牌方把自己的产品模特面部特征直接植入视频角色中——个性化视频广告的制作成本可以降一个数量级。
带来了什么变化
ViMax解决的不是"能不能生成视频",是"能不能讲一个完整的故事"。"几秒碎片"和"几分钟完整叙事"之间的鸿沟,不是靠更强的视频生成模型填平的——是靠编排层的工程能力。
对创业者的意义
如果你在做AI视频相关的创业——不管是自媒体、短剧还是广告——现在最重要的事不是选哪个视频生成模型,是先把编排层的架构搭好。剧本管理、分镜规划、一致性校验、音频合成——这些"脏活"才是壁垒。ViMax的开源让这件事的门槛降到几乎为零。
延伸思考
"编排层开源,生成层依赖API"这个架构会不会成为AI视频的标准范式?如果是——那编排层的竞争会在12个月内白热化,而生成层的API价格会继续下降。视频制作的最终瓶颈可能不在技术上,在法律上——深度换脸、版权归属、人物肖像权。AI能做出来的东西,不一定都能合法发布。这是所有AI视频工具绕不过去的坎。
本文数据来源于GitHub公开仓库(HKUDS/ViMax)及arXiv论文(2606.07649),数据截至2026年7月4日。