v2v模型是否支持视频mask？

这是个很棒的工作，但我关于mask的形式有所疑问

看算法实现，传入mask时是将图片mask沿时间维度进行复制成为一个静态的视频mask。

那么是否支持直接传入一个视频mask进行生成呢？

我尝试进行如上操作，但生成的结果仅仅时原视频加上黑色的mask，似乎没有生成任何东西

这是我实现方法的问题还是模型本身不支持动态视频mask呢？

此外我看到comfyui似乎不支持手动传入mask，所以我没有办法验证是否是模型问题还是我的代码实现问题

感谢作者将这么优秀的工作开源