关于libriTTS数据集 #4

WhiteFu · 2022-12-18T04:54:41Z

大佬，我在网上openslr上面下载的libriTTS 的clean100数据集和你们处理好的不一样，文本和语音都对不上，是我下错了还是需要额外的处理呢？求解惑

Labmem-Zhouyx · 2022-12-19T12:30:50Z

你好，libriTTS我们是用的openslr上下载的数据集，关于预处理部分代码脚本和ming024/FastSpeech2也基本一致，你可以先判断下是哪一步出的问题导致文本和语音对不上。

以下是我重新处理的一些流程。

下载解压好LibriTTS数据集：

第一步：执行prepare_align.py，按照说话人目录获得文本、语音成对的lab标注和wav文件，可检查是否对应；

第二步：下载对齐文件TextGrid放到指定目录下，这里也可以检查下对齐结果是正常；

第三步：执行preprocess.py，获得train-clean-100/dev-clean/test-clean.txt等文件以及 duration/pitch/energy/mel等数据。

WhiteFu · 2022-12-20T06:00:20Z

谢谢老哥的回复

你们的wav是程序自动切分转换的来的吗，我对过我自己下载好的东西，我发现对应前缀的音频和文本和你们的就不太一样，比如669_129061_000001后面所有的和我对应的文本都不一致

是我差了那一步呢，或者是下载的目录有错？

WhiteFu · 2022-12-20T07:47:58Z

而且我的音频是16K的，下载地址能提供给我一下吗，感谢

Labmem-Zhouyx · 2022-12-20T08:22:36Z

https://www.openslr.org/60/.

WhiteFu · 2022-12-20T08:31:33Z

好的，多谢哈

lareina-a · 2024-10-10T12:34:24Z

您好，请问LibriTTS的对齐MFA文件从哪下载呢

lareina-a · 2024-10-10T12:39:07Z

你好，libriTTS我们是用的openslr上下载的数据集，关于预处理部分代码脚本和ming024/FastSpeech2也基本一致，你可以先判断下是哪一步出的问题导致文本和语音对不上。

以下是我重新处理的一些流程。

下载解压好LibriTTS数据集：

第一步：执行prepare_align.py，按照说话人目录获得文本、语音成对的lab标注和wav文件，可检查是否对应；

第二步：下载对齐文件TextGrid放到指定目录下，这里也可以检查下对齐结果是正常；

第三步：执行preprocess.py，获得train-clean-100/dev-clean/test-clean.txt等文件以及 duration/pitch/energy/mel等数据。

Checking TextGrid path: data/training_data/preprocessed_data/LibriTTS/TextGrid/121/121_127105_000043_000003.TextGrid
Does TextGrid exist for 121_127105_000043_000003? False
TextGrid not found for 121_127105_000043_000003: data/training_data/preprocessed_data/LibriTTS/TextGrid/121/121_127105_000043_000003.TextGrid
Checking TextGrid path: data/training_data/preprocessed_data/LibriTTS/TextGrid/121/121_127105_000036_000001.TextGrid
Does TextGrid exist for 121_127105_000036_000001? False这些文件没有

gaoyiyao · 2024-10-23T12:08:02Z

Processing Data ...
train-clean-100: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 247/247 [00:00<00:00, 1165.51it/s]
Traceback (most recent call last):
File "preprocess.py", line 21, in
preprocessor.build_from_path() #调用预处理器实例的build_from_path方法
File "/root/MY-CDFSE/preprocessor/preprocessor_multiset.py", line 82, in build_from_path
for speaker in tqdm(os.listdir(dset_dir), desc=dset):
FileNotFoundError: [Errno 2] No such file or directory: '/root/MY-CDFSE/raw_data/LibriTTS/dev-clean'

有没有大神解答一下这是什么原因，为什么在python3 prepare_align.py config/LibriTTS/preprocess.yaml的时候，他没有处理完全，

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于libriTTS数据集 #4

关于libriTTS数据集 #4

WhiteFu commented Dec 18, 2022

Labmem-Zhouyx commented Dec 19, 2022

WhiteFu commented Dec 20, 2022

WhiteFu commented Dec 20, 2022

Labmem-Zhouyx commented Dec 20, 2022

WhiteFu commented Dec 20, 2022

lareina-a commented Oct 10, 2024

lareina-a commented Oct 10, 2024

gaoyiyao commented Oct 23, 2024 •

edited

Loading

关于libriTTS数据集 #4

关于libriTTS数据集 #4

Comments

WhiteFu commented Dec 18, 2022

Labmem-Zhouyx commented Dec 19, 2022

WhiteFu commented Dec 20, 2022

WhiteFu commented Dec 20, 2022

Labmem-Zhouyx commented Dec 20, 2022

WhiteFu commented Dec 20, 2022

lareina-a commented Oct 10, 2024

lareina-a commented Oct 10, 2024

gaoyiyao commented Oct 23, 2024 • edited Loading

gaoyiyao commented Oct 23, 2024 •

edited

Loading