Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 101: character maps to <undefined> #193

Open
jeetendraabvv opened this issue Aug 16, 2024 · 0 comments

Comments

@jeetendraabvv
Copy link

How can we resolve this error?. No error occur when we read the file data using pandas read_csv. or how I can set encoding. My data file contains Text written in Hindi Language.
│ 20 │
│ 21 class IncrementalDecoder(codecs.IncrementalDecoder): │
│ 22 │ def decode(self, input, final=False): │
│ ❱ 23 │ │ return codecs.charmap_decode(input,self.errors,decoding_table) │
│ 24 │
│ 25 class StreamWriter(Codec,codecs.StreamWriter): │
│ 26 │ pass │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ final = False │ │
│ │ input = b',output,input,instruction\r\n0,Worst Car Names of All Time │ │
│ │ \xe0\xa4\x95\xe0\xa4\xad\xe0\xa5\x80-\xe0\xa4\x95\xe0\xa4\xad\x… │ │
│ │ \xe0\xa4\xb5'+8112 │ │
│ │ self = <encodings.cp1252.IncrementalDecoder object at │ │
│ │ 0x00000266E8003D90> │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
╰──────────────────────────────────────────────────────────────────────────────╯
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8d in position 101:
character maps to

The above exception was the direct cause of the following exception:

╭───────────────────── Traceback (most recent call last) ──────────────────────╮
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\llmtune\cli\toolki │
│ t.py:123 in run │
│ │
│ 120 │ │ │ config = yaml.safe_load(file) │
│ 121 │ │ │ config = Config(**config) │
│ 122 │ │ │
│ ❱ 123 │ │ run_one_experiment(config, config_path) │
│ 124 │
│ 125 │
│ 126 @generate_app.command("config") │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ config = Config( │ │
│ │ │ save_dir='./experiment/', │ │
│ │ │ ablation=AblationConfig( │ │
│ │ │ │ use_ablate=False, │ │
│ │ │ │ study_name='ablation' │ │
│ │ │ ), │ │
│ │ │ data=DataConfig( │ │
│ │ │ │ file_type='csv', │ │
│ │ │ │ │ │
│ │ path='C:\Users\Administrator\Pictures\lll_tk\jag_ful… │ │
│ │ │ │ prompt='Below is an instruction that describes a │ │
│ │ task. Write a response that appropriat'+89, │ │
│ │ │ │ prompt_stub='{output}', │ │
│ │ │ │ train_size=500, │ │
│ │ │ │ test_size=25, │ │
│ │ │ │ train_test_split_seed=42 │ │
│ │ │ ), │ │
│ │ │ model=ModelConfig( │ │
│ │ │ │ hf_model_ckpt='facebook/opt-125m', │ │
│ │ │ │ device_map='auto', │ │
│ │ │ │ torch_dtype='bfloat16', │ │
│ │ │ │ attn_implementation=None, │ │
│ │ │ │ quantize=True, │ │
│ │ │ │ bitsandbytes=BitsAndBytesConfig( │ │
│ │ │ │ │ load_in_8bit=False, │ │
│ │ │ │ │ llm_int8_threshold=6.0, │ │
│ │ │ │ │ llm_int8_skip_modules=None, │ │
│ │ │ │ │ llm_int8_enable_fp32_cpu_offload=False, │ │
│ │ │ │ │ llm_int8_has_fp16_weight=False, │ │
│ │ │ │ │ load_in_4bit=True, │ │
│ │ │ │ │ bnb_4bit_compute_dtype='bfloat16', │ │
│ │ │ │ │ bnb_4bit_quant_type='nf4', │ │
│ │ │ │ │ bnb_4bit_use_double_quant=True │ │
│ │ │ │ ) │ │
│ │ │ ), │ │
│ │ │ lora=LoraConfig( │ │
│ │ │ │ r=32, │ │
│ │ │ │ task_type='CAUSAL_LM', │ │
│ │ │ │ lora_alpha=64, │ │
│ │ │ │ bias='none', │ │
│ │ │ │ lora_dropout=0.1, │ │
│ │ │ │ target_modules='all-linear', │ │
│ │ │ │ fan_in_fan_out=False, │ │
│ │ │ │ modules_to_save=None, │ │
│ │ │ │ layers_to_transform=None, │ │
│ │ │ │ layers_pattern=None │ │
│ │ │ ), │ │
│ │ │ training=TrainingConfig( │ │
│ │ │ │ training_args=TrainingArgs( │ │
│ │ │ │ │ num_train_epochs=1, │ │
│ │ │ │ │ per_device_train_batch_size=4, │ │
│ │ │ │ │ gradient_accumulation_steps=4, │ │
│ │ │ │ │ gradient_checkpointing=True, │ │
│ │ │ │ │ optim='paged_adamw_32bit', │ │
│ │ │ │ │ logging_steps=1, │ │
│ │ │ │ │ learning_rate=0.0002, │ │
│ │ │ │ │ bf16=True, │ │
│ │ │ │ │ tf32=True, │ │
│ │ │ │ │ fp16=False, │ │
│ │ │ │ │ max_grad_norm=0.3, │ │
│ │ │ │ │ warmup_ratio=0.03, │ │
│ │ │ │ │ lr_scheduler_type='constant', │ │
│ │ │ │ │ save_steps=500 │ │
│ │ │ │ ), │ │
│ │ │ │ sft_args=SftArgs( │ │
│ │ │ │ │ max_seq_length=1024, │ │
│ │ │ │ │ neftune_noise_alpha=None │ │
│ │ │ │ ) │ │
│ │ │ ), │ │
│ │ │ inference=InferenceConfig( │ │
│ │ │ │ max_length=None, │ │
│ │ │ │ max_new_tokens=256, │ │
│ │ │ │ min_length=0, │ │
│ │ │ │ min_new_tokens=None, │ │
│ │ │ │ early_stopping=False, │ │
│ │ │ │ max_time=None, │ │
│ │ │ │ do_sample=True, │ │
│ │ │ │ num_beams=1, │ │
│ │ │ │ num_beam_groups=1, │ │
│ │ │ │ penalty_alpha=None, │ │
│ │ │ │ use_cache=True, │ │
│ │ │ │ temperature=0.8, │ │
│ │ │ │ top_k=50, │ │
│ │ │ │ top_p=0.9, │ │
│ │ │ │ typical_p=1.0, │ │
│ │ │ │ epsilon_cutoff=0.0, │ │
│ │ │ │ eta_cutoff=0.0, │ │
│ │ │ │ diversity_penalty=0.0, │ │
│ │ │ │ repetition_penalty=1.0, │ │
│ │ │ │ encoder_repetition_penalty=1.0, │ │
│ │ │ │ length_penalty=1.0, │ │
│ │ │ │ no_repeat_ngram_size=0, │ │
│ │ │ │ bad_words_ids=None, │ │
│ │ │ │ force_words_ids=None, │ │
│ │ │ │ renormalize_logits=False │ │
│ │ │ ), │ │
│ │ │ qa=QaConfig( │ │
│ │ │ │ llm_metrics=[ │ │
│ │ │ │ │ 'dot_product', │ │
│ │ │ │ │ 'rouge_score', │ │
│ │ │ │ │ 'word_overlap', │ │
│ │ │ │ │ 'verb_percent', │ │
│ │ │ │ │ 'adjective_percent', │ │
│ │ │ │ │ 'noun_percent', │ │
│ │ │ │ │ 'summary_length' │ │
│ │ │ │ ] │ │
│ │ │ ) │ │
│ │ ) │ │
│ │ config_path = './config.yml' │ │
│ │ configs = [ │ │
│ │ │ { │ │
│ │ │ │ 'save_dir': './experiment/', │ │
│ │ │ │ 'ablation': {'use_ablate': False}, │ │
│ │ │ │ 'data': { │ │
│ │ │ │ │ 'file_type': 'csv', │ │
│ │ │ │ │ 'path': │ │
│ │ 'C:\Users\Administrator\Pictures\lll_tk\jag_full_ss.… │ │
│ │ │ │ │ 'prompt': 'Below is an instruction that │ │
│ │ describes a task. Write a response that appropriat'+89, │ │
│ │ │ │ │ 'prompt_stub': '{output}', │ │
│ │ │ │ │ 'test_size': 25, │ │
│ │ │ │ │ 'train_size': 500, │ │
│ │ │ │ │ 'train_test_split_seed': 42 │ │
│ │ │ │ }, │ │
│ │ │ │ 'model': { │ │
│ │ │ │ │ 'hf_model_ckpt': 'facebook/opt-125m', │ │
│ │ │ │ │ 'torch_dtype': 'bfloat16', │ │
│ │ │ │ │ 'quantize': True, │ │
│ │ │ │ │ 'bitsandbytes': { │ │
│ │ │ │ │ │ 'load_in_4bit': True, │ │
│ │ │ │ │ │ 'bnb_4bit_compute_dtype': 'bfloat16', │ │
│ │ │ │ │ │ 'bnb_4bit_quant_type': 'nf4' │ │
│ │ │ │ │ } │ │
│ │ │ │ }, │ │
│ │ │ │ 'lora': { │ │
│ │ │ │ │ 'task_type': 'CAUSAL_LM', │ │
│ │ │ │ │ 'r': 32, │ │
│ │ │ │ │ 'lora_alpha': 64, │ │
│ │ │ │ │ 'lora_dropout': 0.1, │ │
│ │ │ │ │ 'target_modules': 'all-linear' │ │
│ │ │ │ }, │ │
│ │ │ │ 'training': { │ │
│ │ │ │ │ 'training_args': { │ │
│ │ │ │ │ │ 'num_train_epochs': 1, │ │
│ │ │ │ │ │ 'per_device_train_batch_size': 4, │ │
│ │ │ │ │ │ 'gradient_accumulation_steps': 4, │ │
│ │ │ │ │ │ 'gradient_checkpointing': True, │ │
│ │ │ │ │ │ 'optim': 'paged_adamw_32bit', │ │
│ │ │ │ │ │ 'logging_steps': 1, │ │
│ │ │ │ │ │ 'learning_rate': 0.0002, │ │
│ │ │ │ │ │ 'bf16': True, │ │
│ │ │ │ │ │ 'tf32': True, │ │
│ │ │ │ │ │ 'max_grad_norm': 0.3, │ │
│ │ │ │ │ │ ... +2 │ │
│ │ │ │ │ }, │ │
│ │ │ │ │ 'sft_args': {'max_seq_length': 1024} │ │
│ │ │ │ }, │ │
│ │ │ │ 'inference': { │ │
│ │ │ │ │ 'max_new_tokens': 256, │ │
│ │ │ │ │ 'use_cache': True, │ │
│ │ │ │ │ 'do_sample': True, │ │
│ │ │ │ │ 'top_p': 0.9, │ │
│ │ │ │ │ 'temperature': 0.8 │ │
│ │ │ │ }, │ │
│ │ │ │ 'qa': { │ │
│ │ │ │ │ 'llm_metrics': [ │ │
│ │ │ │ │ │ 'dot_product', │ │
│ │ │ │ │ │ 'rouge_score', │ │
│ │ │ │ │ │ 'word_overlap', │ │
│ │ │ │ │ │ 'verb_percent', │ │
│ │ │ │ │ │ 'adjective_percent', │ │
│ │ │ │ │ │ 'noun_percent', │ │
│ │ │ │ │ │ 'summary_length' │ │
│ │ │ │ │ ] │ │
│ │ │ │ } │ │
│ │ │ } │ │
│ │ ] │ │
│ │ dir_helper = <llmtune.utils.save_utils.DirectoryHelper object at │ │
│ │ 0x00000266E7F23190> │ │
│ │ file = <_io.TextIOWrapper │ │
│ │ name='experiment\zYTcZ\config\config.yml' mode='r' │ │
│ │ encoding='cp1252'> │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\llmtune\cli\toolki │
│ t.py:47 in run_one_experiment │
│ │
│ 44 │ RichUI.before_dataset_creation() │
│ 45 │ │
│ 46 │ with RichUI.during_dataset_creation("Injecting Values into Prompt" │
│ ❱ 47 │ │ dataset_generator = DatasetGenerator(**config.data.model_dump( │
│ 48 │ │
│ 49 │ _ = dataset_generator.train_columns │
│ 50 │ test_column = dataset_generator.test_column │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ config = Config( │ │
│ │ │ save_dir='./experiment/', │ │
│ │ │ ablation=AblationConfig( │ │
│ │ │ │ use_ablate=False, │ │
│ │ │ │ study_name='ablation' │ │
│ │ │ ), │ │
│ │ │ data=DataConfig( │ │
│ │ │ │ file_type='csv', │ │
│ │ │ │ │ │
│ │ path='C:\Users\Administrator\Pictures\lll_tk\jag_ful… │ │
│ │ │ │ prompt='Below is an instruction that describes a │ │
│ │ task. Write a response that appropriat'+89, │ │
│ │ │ │ prompt_stub='{output}', │ │
│ │ │ │ train_size=500, │ │
│ │ │ │ test_size=25, │ │
│ │ │ │ train_test_split_seed=42 │ │
│ │ │ ), │ │
│ │ │ model=ModelConfig( │ │
│ │ │ │ hf_model_ckpt='facebook/opt-125m', │ │
│ │ │ │ device_map='auto', │ │
│ │ │ │ torch_dtype='bfloat16', │ │
│ │ │ │ attn_implementation=None, │ │
│ │ │ │ quantize=True, │ │
│ │ │ │ bitsandbytes=BitsAndBytesConfig( │ │
│ │ │ │ │ load_in_8bit=False, │ │
│ │ │ │ │ llm_int8_threshold=6.0, │ │
│ │ │ │ │ llm_int8_skip_modules=None, │ │
│ │ │ │ │ llm_int8_enable_fp32_cpu_offload=False, │ │
│ │ │ │ │ llm_int8_has_fp16_weight=False, │ │
│ │ │ │ │ load_in_4bit=True, │ │
│ │ │ │ │ bnb_4bit_compute_dtype='bfloat16', │ │
│ │ │ │ │ bnb_4bit_quant_type='nf4', │ │
│ │ │ │ │ bnb_4bit_use_double_quant=True │ │
│ │ │ │ ) │ │
│ │ │ ), │ │
│ │ │ lora=LoraConfig( │ │
│ │ │ │ r=32, │ │
│ │ │ │ task_type='CAUSAL_LM', │ │
│ │ │ │ lora_alpha=64, │ │
│ │ │ │ bias='none', │ │
│ │ │ │ lora_dropout=0.1, │ │
│ │ │ │ target_modules='all-linear', │ │
│ │ │ │ fan_in_fan_out=False, │ │
│ │ │ │ modules_to_save=None, │ │
│ │ │ │ layers_to_transform=None, │ │
│ │ │ │ layers_pattern=None │ │
│ │ │ ), │ │
│ │ │ training=TrainingConfig( │ │
│ │ │ │ training_args=TrainingArgs( │ │
│ │ │ │ │ num_train_epochs=1, │ │
│ │ │ │ │ per_device_train_batch_size=4, │ │
│ │ │ │ │ gradient_accumulation_steps=4, │ │
│ │ │ │ │ gradient_checkpointing=True, │ │
│ │ │ │ │ optim='paged_adamw_32bit', │ │
│ │ │ │ │ logging_steps=1, │ │
│ │ │ │ │ learning_rate=0.0002, │ │
│ │ │ │ │ bf16=True, │ │
│ │ │ │ │ tf32=True, │ │
│ │ │ │ │ fp16=False, │ │
│ │ │ │ │ max_grad_norm=0.3, │ │
│ │ │ │ │ warmup_ratio=0.03, │ │
│ │ │ │ │ lr_scheduler_type='constant', │ │
│ │ │ │ │ save_steps=500 │ │
│ │ │ │ ), │ │
│ │ │ │ sft_args=SftArgs( │ │
│ │ │ │ │ max_seq_length=1024, │ │
│ │ │ │ │ neftune_noise_alpha=None │ │
│ │ │ │ ) │ │
│ │ │ ), │ │
│ │ │ inference=InferenceConfig( │ │
│ │ │ │ max_length=None, │ │
│ │ │ │ max_new_tokens=256, │ │
│ │ │ │ min_length=0, │ │
│ │ │ │ min_new_tokens=None, │ │
│ │ │ │ early_stopping=False, │ │
│ │ │ │ max_time=None, │ │
�� │ │ │ do_sample=True, │ │
│ │ │ │ num_beams=1, │ │
│ │ │ │ num_beam_groups=1, │ │
│ │ │ │ penalty_alpha=None, │ │
│ │ │ │ use_cache=True, │ │
│ │ │ │ temperature=0.8, │ │
│ │ │ │ top_k=50, │ │
│ │ │ │ top_p=0.9, │ │
│ │ │ │ typical_p=1.0, │ │
│ │ │ │ epsilon_cutoff=0.0, │ │
│ │ │ │ eta_cutoff=0.0, │ │
│ │ │ │ diversity_penalty=0.0, │ │
│ │ │ │ repetition_penalty=1.0, │ │
│ │ │ │ encoder_repetition_penalty=1.0, │ │
│ │ │ │ length_penalty=1.0, │ │
│ │ │ │ no_repeat_ngram_size=0, │ │
│ │ │ │ bad_words_ids=None, │ │
│ │ │ │ force_words_ids=None, │ │
│ │ │ │ renormalize_logits=False │ │
│ │ │ ), │ │
│ │ │ qa=QaConfig( │ │
│ │ │ │ llm_metrics=[ │ │
│ │ │ │ │ 'dot_product', │ │
│ │ │ │ │ 'rouge_score', │ │
│ │ │ │ │ 'word_overlap', │ │
│ │ │ │ │ 'verb_percent', │ │
│ │ │ │ │ 'adjective_percent', │ │
│ │ │ │ │ 'noun_percent', │ │
│ │ │ │ │ 'summary_length' │ │
│ │ │ │ ] │ │
│ │ │ ) │ │
│ │ ) │ │
│ │ config_path = './config.yml' │ │
│ │ dir_helper = <llmtune.utils.save_utils.DirectoryHelper object at │ │
│ │ 0x00000266E7A75C90> │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\llmtune\data\datas │
│ et_generator.py:27 in init
│ │
│ 24 │ │ self.ingestor: Ingestor = get_ingestor(file_type) │
│ 25 │ │ self.ingestor: Ingestor = self.ingestor(path) │
│ 26 │ │ │
│ ❱ 27 │ │ self.dataset: Dataset = self.ingestor.to_dataset() │
│ 28 │ │ self.prompt: str = prompt │
│ 29 │ │ self.prompt_stub: str = prompt_stub │
│ 30 │ │ self.test_size = test_size │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ file_type = 'csv' │ │
│ │ path = 'C:\Users\Administrator\Pictures\lll_tk\ja… │ │
│ │ prompt = 'Below is an instruction that describes a task. │ │
│ │ Write a response that appropriat'+89 │ │
│ │ prompt_stub = '{output}' │ │
│ │ self = <llmtune.data.dataset_generator.DatasetGenerator │ │
│ │ object at 0x00000266E7F54050> │ │
│ │ test_size = 25 │ │
│ │ train_size = 500 │ │
│ │ train_test_split_seed = 42 │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\llmtune\data\inges │
│ tor.py:67 in to_dataset │
│ │
│ 64 │ │ │ │ yield row │
│ 65 │ │
│ 66 │ def to_dataset(self) -> Dataset: │
│ ❱ 67 │ │ return Dataset.from_generator(self._csv_generator) │
│ 68 │
│ 69 │
│ 70 class HuggingfaceIngestor(Ingestor): │
│ │
�� ╭──────────────────────────────── locals ─────────────────────────────────╮ │
│ │ self = <llmtune.data.ingestor.CsvIngestor object at 0x00000266E7F23E90> │ │
│ ╰─────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\datasets\arrow_dat │
│ aset.py:1125 in from_generator │
│ │
│ 1122 │ │ │ gen_kwargs=gen_kwargs, │
│ 1123 │ │ │ num_proc=num_proc, │
│ 1124 │ │ │ **kwargs, │
│ ❱ 1125 │ │ ).read() │
│ 1126 │ │
│ 1127 │ @staticmethod
│ 1128 │ def from_json( │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ cache_dir = None │ │
│ │ features = None │ │
│ │ gen_kwargs = None │ │
│ │ generator = <bound method CsvIngestor._csv_generator │ │
│ │ of <llmtune.data.ingestor.CsvIngestor │ │
│ │ object at 0x00000266E7F23E90>> │ │
│ │ GeneratorDatasetInputStream = <class │ │
│ │ 'datasets.io.generator.GeneratorDatasetIn… │ │
│ │ keep_in_memory = False │ │
│ │ kwargs = {} │ │
│ │ num_proc = None │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\datasets\io\genera │
│ tor.py:47 in read │
│ │
│ 44 │ │ │ verification_mode = None │
│ 45 │ │ │ base_path = None │
│ 46 │ │ │ │
│ ❱ 47 │ │ │ self.builder.download_and_prepare( │
│ 48 │ │ │ │ download_config=download_config, │
│ 49 │ │ │ │ download_mode=download_mode, │
│ 50 │ │ │ │ verification_mode=verification_mode, │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ base_path = None │ │
│ │ download_config = None │ │
│ │ download_mode = None │ │
│ │ self = <datasets.io.generator.GeneratorDatasetInputStream │ │
│ │ object at 0x00000266E7F23B90> │ │
│ │ verification_mode = None │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\datasets\builder.p │
│ y:1027 in download_and_prepare │
│ │
│ 1024 │ │ │ │ │ │ │ prepare_split_kwargs["max_shard_size"] = │
│ 1025 │ │ │ │ │ │ if num_proc is not None: │
│ 1026 │ │ │ │ │ │ │ prepare_split_kwargs["num_proc"] = num_pr │
│ ❱ 1027 │ │ │ │ │ │ self._download_and_prepare( │
│ 1028 │ │ │ │ │ │ │ dl_manager=dl_manager, │
│ 1029 │ │ │ │ │ │ │ verification_mode=verification_mode, │
│ 1030 │ │ │ │ │ │ │ **prepare_split_kwargs, │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ _dest = 'C:/Users/Administrator/.cache/huggingfac… │ │
│ │ base_path = None │ │
│ │ data_exists = False │ │
│ │ dl_manager = <datasets.download.download_manager.Downl… │ │
│ │ object at 0x00000266E8006650> │ │
│ │ download_and_prepare_kwargs = {} │ │
│ │ download_config = DownloadConfig( │ │
│ │ │ │ │
│ │ cache_dir='C:\Users\Administrator\.cac… │ │
│ │ │ force_download=False, │ │
│ │ │ resume_download=False, │ │
│ │ │ local_files_only=False, │ │
│ │ │ proxies=None, │ │
│ │ │ user_agent=None, │ │
│ │ │ extract_compressed_file=False, │ │
│ │ │ force_extract=False, │ │
│ │ │ delete_extracted=False, │ │
│ │ │ extract_on_the_fly=False, │ │
│ │ │ use_etag=False, │ │
│ │ │ num_proc=None, │ │
│ │ │ max_retries=1, │ │
│ │ │ token=None, │ │
│ │ │ ignore_url_params=False, │ │
│ │ │ storage_options={ │ │
│ │ │ │ 'hf': { │ │
│ │ │ │ │ 'token': None, │ │
│ │ │ │ │ 'endpoint': │ │
│ │ 'https://huggingface.co' │ │
│ │ │ │ } │ │
│ │ │ }, │ │
│ │ │ download_desc=None, │ │
│ │ │ disable_tqdm=False │ │
│ │ ) │ │
│ │ download_mode = <DownloadMode.REUSE_DATASET_IF_EXISTS: │ │
│ │ 'reuse_dataset_if_exists'> │ │
│ │ downloaded_from_gcs = False │ │
│ │ file_format = 'arrow' │ │
│ │ fs = <fsspec.implementations.local.LocalFileSy… │ │
│ │ object at 0x00000266E7887D50> │ │
│ │ ignore_verifications = 'deprecated' │ │
│ │ incomplete_dir = <function │ │
│ │ DatasetBuilder.download_and_prepare.<loca… │ │
│ │ at 0x00000266E7FFE3E0> │ │
│ │ is_local = True │ │
│ │ lock_path = 'C:/Users/Administrator/.cache/huggingfac… │ │
│ │ max_shard_size = None │ │
│ │ num_proc = None │ │
│ │ output_dir = 'C:/Users/Administrator/.cache/huggingfac�� │ │
│ │ prepare_split_kwargs = {'file_format': 'arrow'} │ │
│ │ self = <datasets.packaged_modules.generator.gene… │ │
│ │ object at 0x00000266E7F23AD0> │ │
│ │ storage_options = None │ │
│ │ tmp_output_dir = 'C:/Users/Administrator/.cache/huggingfac… │ │
│ │ token = None │ │
│ │ try_from_hf_gcs = False │ │
│ │ use_auth_token = 'deprecated' │ │
│ │ verification_mode = <VerificationMode.BASIC_CHECKS: │ │
│ │ 'basic_checks'> │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\datasets\builder.p │
│ y:1789 in _download_and_prepare │
│ │
│ 1786 │ │ yield job_id, True, (total_num_examples, total_num_bytes, wri │
│ 1787 │ │
│ 1788 │ def _download_and_prepare(self, dl_manager, verification_mode, ** │
│ ❱ 1789 │ │ super()._download_and_prepare( │
│ 1790 │ │ │ dl_manager, │
│ 1791 │ │ │ verification_mode, │
│ 1792 │ │ │ check_duplicate_keys=verification_mode == VerificationMod │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ dl_manager = <datasets.download.download_manager.DownloadMan… │ │
│ │ object at 0x00000266E8006650> │ │
│ │ prepare_splits_kwargs = {'file_format': 'arrow'} │ │
│ │ self = <datasets.packaged_modules.generator.generator.… │ │
│ │ object at 0x00000266E7F23AD0> │ │
│ │ verification_mode = <VerificationMode.BASIC_CHECKS: 'basic_checks'> │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\datasets\builder.p │
│ y:1122 in _download_and_prepare │
│ │
│ 1119 │ │ │ │
│ 1120 │ │ │ try: │
│ 1121 │ │ │ │ # Prepare split will record examples associated to th │
│ ❱ 1122 │ │ │ │ self.prepare_split(split_generator, **prepare_split
│ 1123 │ │ │ except OSError as e: │
│ 1124 │ │ │ │ raise OSError( │
│ 1125 │ │ │ │ │ "Cannot find data file. " │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ dl_manager = <datasets.download.download_manager.DownloadM… │ │
│ │ object at 0x00000266E8006650> │ │
│ │ prepare_split_kwargs = { │ │
│ │ │ 'check_duplicate_keys': True, │ │
│ │ │ 'file_format': 'arrow' │ │
│ │ } │ │
│ │ self = <datasets.packaged_modules.generator.generato… │ │
│ │ object at 0x00000266E7F23AD0> │ │
│ │ split_dict = { │ │
│ │ │ 'train': SplitInfo( │ │
│ │ │ │ name='train', │ │
│ │ │ │ num_bytes=0, │ │
│ │ │ │ num_examples=0, │ │
│ │ │ │ shard_lengths=None, │ │
│ │ │ │ dataset_name='generator' │ │
│ │ │ ) │ │
│ │ } │ │
│ │ split_generator = SplitGenerator( │ │
│ │ │ name='train', │ │
│ │ │ gen_kwargs={}, │ │
│ │ │ split_info=SplitInfo( │ │
│ │ │ │ name='train', │ │
│ │ │ │ num_bytes=0, │ │
│ │ │ │ num_examples=0, │ │
│ │ │ │ shard_lengths=None, │ │
│ │ │ │ dataset_name='generator' │ │
│ │ │ ) │ │
│ │ ) │ │
│ │ split_generators = [ │ │
│ │ │ SplitGenerator( │ │
│ │ │ │ name='train', │ │
│ │ │ │ gen_kwargs={}, │ │
│ │ │ │ split_info=SplitInfo( │ │
│ │ │ │ │ name='train', │ │
│ │ │ │ │ num_bytes=0, │ │
│ │ │ │ │ num_examples=0, │ │
│ │ │ │ │ shard_lengths=None, │ │
│ │ │ │ │ dataset_name='generator' │ │
│ │ │ │ ) │ │
│ │ │ ) │ │
│ │ ] │ │
│ │ split_generators_kwargs = {} │ │
│ │ verification_mode = <VerificationMode.BASIC_CHECKS: │ │
│ │ 'basic_checks'> │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\datasets\builder.p │
│ y:1627 in _prepare_split │
│ │
│ 1624 │ │ │ gen_kwargs = split_generator.gen_kwargs │
│ 1625 │ │ │ job_id = 0 │
│ 1626 │ │ │ with pbar: │
│ ❱ 1627 │ │ │ │ for job_id, done, content in self._prepare_split_sing │
│ 1628 │ │ │ │ │ gen_kwargs=gen_kwargs, job_id=job_id, **prepare
│ 1629 │ │ │ │ ): │
│ 1630 │ │ │ │ │ if done: │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ _prepare_split_args = { │ │
│ │ │ 'fpath': │ │
│ │ 'C:/Users/Administrator/.cache/huggingface/datas… │ │
│ │ │ 'file_format': 'arrow', │ ���
│ │ │ 'max_shard_size': 500000000, │ │
│ │ │ 'split_info': SplitInfo( │ │
│ │ │ │ name='train', │ │
│ │ │ │ num_bytes=0, │ │
│ │ │ │ num_examples=0, │ │
│ │ │ │ shard_lengths=None, │ │
│ │ │ │ dataset_name='generator' │ │
│ │ │ ), │ │
│ │ │ 'check_duplicate_keys': True │ │
│ │ } │ │
│ │ check_duplicate_keys = True │ │
│ │ content = 0 │ │
│ │ done = False │ │
│ │ file_format = 'arrow' │ │
│ │ fname = 'generator-train-JJJJJ-SSSSS-of-NNNNN.arrow' │ │
│ │ fpath = 'C:/Users/Administrator/.cache/huggingface/datas… │ │
│ │ gen_kwargs = {} │ │
│ │ job_id = 0 │ │
│ │ max_shard_size = 500000000 │ │
│ │ num_proc = None │ │
│ │ pbar = <datasets.utils.tqdm.tqdm object at │ │
│ │ 0x00000266E8006190> │ │
│ │ result = None │ │
│ │ self = <datasets.packaged_modules.generator.generator.G… │ │
│ │ object at 0x00000266E7F23AD0> │ │
│ │ split_generator = SplitGenerator( │ │
│ │ │ name='train', │ │
│ │ │ gen_kwargs={}, │ │
│ │ │ split_info=SplitInfo( │ │
│ │ │ │ name='train', │ │
│ │ │ │ num_bytes=0, │ │
│ │ │ │ num_examples=0, │ │
│ │ │ │ shard_lengths=None, │ │
│ │ │ │ dataset_name='generator' │ │
│ │ │ ) │ │
│ │ ) │ │
│ │ split_info = SplitInfo( │ │
│ │ │ name='train', │ │
│ │ │ num_bytes=0, │ │
│ │ │ num_examples=0, │ │
│ │ │ shard_lengths=None, │ │
│ │ │ dataset_name='generator' │ │
│ │ ) │ │
│ │ SUFFIX = '-JJJJJ-SSSSS-of-NNNNN' │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
│ │
│ C:\ProgramData\anaconda3\envs\llm-ntkit\Lib\site-packages\datasets\builder.p │
│ y:1784 in _prepare_split_single │
│ │
│ 1781 │ │ │ # Ignore the writer's error for no examples written to th │
│ 1782 │ │ │ if isinstance(e, SchemaInferenceError) and e.context
│ 1783 │ │ │ │ e = e.context
│ ❱ 1784 │ │ │ raise DatasetGenerationError("An error occurred while gen │
│ 1785 │ │ │
│ 1786 │ │ yield job_id, True, (total_num_examples, total_num_bytes, wri │
│ 1787 │
│ │
│ ╭───────────────────────────────── locals ─────────────────────────────────╮ │
│ │ _time = 1723796203.1039772 │ │
│ │ check_duplicate_keys = True │ │
│ │ embed_local_files = False │ │
│ │ file_format = 'arrow' │ │
│ │ fpath = 'C:/Users/Administrator/.cache/huggingfa… │ │
│ │ gen_kwargs = {} │ │
│ │ generator = <generator object │ │
│ │ Generator._generate_examples at │ │
│ │ 0x00000266E8020440> │ │
│ │ job_id = 0 │ │
│ │ max_shard_size = 500000000 │ │
│ │ num_examples_progress_update = 0 │ │
│ │ num_shards = 1 │ │
│ │ self = <datasets.packaged_modules.generator.gen… │ │
│ │ object at 0x00000266E7F23AD0> │ │
│ │ shard_id = 0 │ │
│ │ shard_lengths = [] │ │
│ │ split_info = SplitInfo( │ │
│ │ │ name='train', │ │
│ │ │ num_bytes=0, │ │
│ │ │ num_examples=0, │ │
│ │ │ shard_lengths=None, │ │
│ │ │ dataset_name='generator' │ │
│ │ ) │ │
│ │ total_num_bytes = 0 │ │
│ │ total_num_examples = 0 │ │
│ │ writer = <datasets.arrow_writer.ArrowWriter object │ │
│ │ at 0x00000266E8004510> │ │
│ │ writer_class = <class │ │
│ │ 'datasets.arrow_writer.ArrowWriter'> │ │
│ ╰──────────────────────────────────────────────────────────────────────────╯ │
╰──────────────────────────────────────────────────────────────────────────────╯
DatasetGenerationError: An error occurred while generating the dataset
PS C:\Users\Administrator\Pictures\lll_tk>

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant