这是个很棒的工作,但我关于mask的形式有所疑问 看算法实现,传入mask时是将图片mask沿时间维度进行复制成为一个静态的视频mask。 那么是否支持直接传入一个视频mask进行生成呢? 我尝试进行如上操作,但生成的结果仅仅时原视频加上黑色的mask,似乎没有生成任何东西 这是我实现方法的问题还是模型本身不支持动态视频mask呢? 此外我看到comfyui似乎不支持手动传入mask,所以我没有办法验证是否是模型问题还是我的代码实现问题 感谢作者将这么优秀的工作开源