Skip to content

关于huggingface数据集中数据的疑问 #26

@ret-1

Description

@ret-1

@QiushiSun 作者你好!

最近在follow本工作,在huggingface上下载了os_genesis_aw_training_data.jsonl

我发现其中的id字段并不是唯一的,大部分都是有两个相同的值。此外,有一些根据id和conversations来看是属于同一个任务的前后轨迹(例如aw_stage1_task1_1, aw_stage1_task1_2, ... aw_stage1_task1_7),但是从aw_stage1_task1_8开始就是另外一个高阶指令了。

所以想问一下id的命名规则,以及如何从中提取出完整的轨迹数据,谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions