Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

We update WavTokenizer paper in Arxiv and release WavTokenizer-Large checkpoint in Huggingface on 2024.10.22 #45

Open
jishengpeng opened this issue Oct 23, 2024 · 5 comments

Comments

@jishengpeng
Copy link
Owner

Paper and WavTokenizer-Large.

@MrPig
Copy link

MrPig commented Oct 23, 2024

尝试了large 模型的重构效果(75和40 两个版本都试了),发现音乐、声音类依然效果比较差,这个符合你们的测试结果么?不知道是不是我使用有误。

@jishengpeng
Copy link
Owner Author

jishengpeng commented Oct 24, 2024

尝试了large 模型的重构效果(75和40 两个版本都试了),发现音乐、声音类依然效果比较差,这个符合你们的测试结果么?不知道是不是我使用有误。

在Large版本中,我们目前并没有放出wavtokenizer强有力支持music和audio的版本,也就是75版本仅仅支持speech,不支持music和audio。 因为我们发现统一训练music,speech,audio效果一般。之前的codec模型都是分开训练的(SNAC中分成了speech,music,audio三个模型),我们也在考虑这种一种范式(同时music和audio的采样率也不会设置成24k)/或者我们正在设计一种机制在重建范式下更好地统一music,audio和speech。

@oswen
Copy link

oswen commented Nov 1, 2024

尝试了large 模型的重构效果(75和40 两个版本都试了),发现音乐、声音类依然效果比较差,这个符合你们的测试结果么?不知道是不是我使用有误。

在Large版本中,我们目前并没有放出wavtokenizer强有力支持music和audio的版本,也就是75版本仅仅支持speech,不支持music和audio。 因为我们发现统一训练music,speech,audio效果一般。之前的codec模型都是分开训练的(SNAC中分成了speech,music,audio三个模型),我们也在考虑这种一种范式(同时music和audio的采样率也不会设置成24k)/或者我们正在设计一种机制在重建范式下更好地统一music,audio和speech。

hello,之前仔细读了您的论文,对于您说的这个问题,我有一个想法,有没有可能是4K的codebook不足以表征music,speech,audio这三种形式,如果在4K的基础上,再扩充4K code,有没有可能在保持speech建模能力的基础上,把music的能力也融入进来呢?

@fzhml
Copy link

fzhml commented Nov 20, 2024

请教下,release large model中训练数据中中文数据大概是多少?

@silverriver
Copy link

The config file is missing in https://huggingface.co/novateur/WavTokenizer-large-speech-75token.

The model is also missing here: https://huggingface.co/novateur/WavTokenizer-large-unify-75token/tree/main

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants