Nixtla
diff --git a/‎nbs/core.ipynb
Lines changed: 125 additions & 76 deletions b/‎nbs/core.ipynb
Lines changed: 125 additions & 76 deletions
@@ -1284,7 +1284,7 @@
     "        ]\n",
     "        cols_order = first_out_cols + remaining_cols + [target_col]\n",
     "        return ufp.sort(out[cols_order], by=[id_col, 'cutoff', time_col])\n",
-    "\n",
+    "        \n",
     "    def predict_insample(self, step_size: int = 1):\n",
     "        \"\"\"Predict insample with core.NeuralForecast.\n",
     "\n",
@@ -1307,97 +1307,126 @@
     "        for model in self.models:\n",
     "            if model.SAMPLING_TYPE == 'recurrent':\n",
     "                warnings.warn(f'Predict insample might not provide accurate predictions for \\\n",
-    "                       recurrent model {repr(model)} class yet due to scaling.')\n",
+    "                    recurrent model {repr(model)} class yet due to scaling.')\n",
     "                print(f'WARNING: Predict insample might not provide accurate predictions for \\\n",
-    "                      recurrent model {repr(model)} class yet due to scaling.')\n",
-    "        \n",
-    "        cols = []\n",
-    "        count_names = {'model': 0}\n",
-    "        for model in self.models:\n",
-    "            model_name = repr(model)\n",
-    "            count_names[model_name] = count_names.get(model_name, -1) + 1\n",
-    "            if count_names[model_name] > 0:\n",
-    "                model_name += str(count_names[model_name])\n",
-    "            cols += [model_name + n for n in model.loss.output_names]\n",
+    "                    recurrent model {repr(model)} class yet due to scaling.')\n",
     "\n",
-    "        # Remove test set from dataset and last dates\n",
     "        test_size = self.models[0].get_test_size()\n",
-    "\n",
-    "        # trim the forefront period to ensure `test_size - h` should be module `step_size\n",
-    "        # Note: current constraint imposes that all series lengths are equal, so we can take the first series length as sample\n",
-    "        series_length = self.dataset.indptr[1] - self.dataset.indptr[0]\n",
-    "        _, forefront_offset = np.divmod((series_length - test_size - self.h), step_size)\n",
-    "\n",
-    "        if test_size>0 or forefront_offset>0:\n",
-    "            trimmed_dataset = TimeSeriesDataset.trim_dataset(dataset=self.dataset,\n",
-    "                                                     right_trim=test_size,\n",
-    "                                                     left_trim=forefront_offset)\n",
-    "            new_idxs = np.hstack(\n",
-    "                [\n",
-    "                    np.arange(self.dataset.indptr[i] + forefront_offset, self.dataset.indptr[i + 1] - test_size)\n",
-    "                    for i in range(self.dataset.n_groups)\n",
-    "                ]\n",
+    "        \n",
+    "        # Process each series separately\n",
+    "        fcsts_dfs = []\n",
+    "        trimmed_datasets = []\n",
+    "        \n",
+    "        for i in range(self.dataset.n_groups):\n",
+    "            # Calculate series-specific length and offset\n",
+    "            series_length = self.dataset.indptr[i + 1] - self.dataset.indptr[i]\n",
+    "            _, forefront_offset = np.divmod((series_length - test_size - self.h), step_size)\n",
+    "            \n",
+    "            if test_size > 0 or forefront_offset > 0:\n",
+    "                # Create single-series dataset\n",
+    "                series_dataset = TimeSeriesDataset(\n",
+    "                    temporal=self.dataset.temporal[self.dataset.indptr[i]:self.dataset.indptr[i + 1]],\n",
+    "                    temporal_cols=self.dataset.temporal_cols,\n",
+    "                    indptr=np.array([0, series_length]),\n",
+    "                    y_idx=self.dataset.y_idx\n",
+    "                )\n",
+    "                \n",
+    "                # Trim the series\n",
+    "                trimmed_series = TimeSeriesDataset.trim_dataset(\n",
+    "                    dataset=series_dataset,\n",
+    "                    right_trim=test_size,\n",
+    "                    left_trim=forefront_offset\n",
+    "                )\n",
+    "                \n",
+    "                new_idxs = np.arange(\n",
+    "                    self.dataset.indptr[i] + forefront_offset,\n",
+    "                    self.dataset.indptr[i + 1] - test_size\n",
+    "                )\n",
+    "                times = self.ds[new_idxs]\n",
+    "            else:\n",
+    "                trimmed_series = TimeSeriesDataset(\n",
+    "                    temporal=self.dataset.temporal[self.dataset.indptr[i]:self.dataset.indptr[i + 1]],\n",
+    "                    temporal_cols=self.dataset.temporal_cols,\n",
+    "                    indptr=np.array([0, series_length]),\n",
+    "                    y_idx=self.dataset.y_idx\n",
+    "                )\n",
+    "                times = self.ds[self.dataset.indptr[i]:self.dataset.indptr[i + 1]]\n",
+    "            \n",
+    "            series_fcsts_df = _insample_times(\n",
+    "                times=times,\n",
+    "                uids=self.uids[i:i+1],\n",
+    "                indptr=trimmed_series.indptr,\n",
+    "                h=self.h,\n",
+    "                freq=self.freq,\n",
+    "                step_size=step_size,\n",
+    "                id_col=self.id_col,\n",
+    "                time_col=self.time_col,\n",
     "            )\n",
-    "            times = self.ds[new_idxs]\n",
-    "        else:\n",
-    "            trimmed_dataset = self.dataset\n",
-    "            times = self.ds\n",
-    "\n",
-    "        # Generate dates\n",
-    "        fcsts_df = _insample_times(\n",
-    "            times=times,\n",
-    "            uids=self.uids,\n",
-    "            indptr=trimmed_dataset.indptr,\n",
-    "            h=self.h,\n",
-    "            freq=self.freq,\n",
-    "            step_size=step_size,\n",
-    "            id_col=self.id_col,\n",
-    "            time_col=self.time_col,\n",
-    "        )\n",
-    "\n",
-    "        col_idx = 0\n",
-    "        fcsts = np.full((len(fcsts_df), len(cols)), np.nan, dtype=np.float32)\n",
+    "            \n",
+    "            fcsts_dfs.append(series_fcsts_df)\n",
+    "            trimmed_datasets.append(trimmed_series)\n",
     "\n",
+    "        # Combine all series forecasts DataFrames\n",
+    "        fcsts_df = ufp.vertical_concat(fcsts_dfs)\n",
+    "        \n",
+    "        # Generate predictions for each model\n",
+    "        fcsts_list = []\n",
     "        for model in self.models:\n",
-    "            # Test size is the number of periods to forecast (full size of trimmed dataset)\n",
-    "            model.set_test_size(test_size=trimmed_dataset.max_size)\n",
-    "\n",
-    "            # Predict\n",
-    "            model_fcsts = model.predict(trimmed_dataset, step_size=step_size)\n",
-    "            # Append predictions in memory placeholder\n",
-    "            output_length = len(model.loss.output_names)\n",
-    "            fcsts[:,col_idx:(col_idx + output_length)] = model_fcsts\n",
-    "            col_idx += output_length          \n",
-    "            model.set_test_size(test_size=test_size) # Set original test_size\n",
-    "\n",
-    "        # original y\n",
+    "            model_series_preds = []\n",
+    "            for i, trimmed_dataset in enumerate(trimmed_datasets):\n",
+    "                # Set test size to current series length\n",
+    "                model.set_test_size(test_size=trimmed_dataset.max_size)\n",
+    "                # Generate predictions\n",
+    "                model_fcsts = model.predict(trimmed_dataset, step_size=step_size)\n",
+    "                # Handle distributional forecasts; take only median\n",
+    "                if len(model_fcsts.shape) > 1 and model_fcsts.shape[1] == 3:\n",
+    "                    model_fcsts = model_fcsts[:, 0]  # Take first column (median)\n",
+    "                # Ensure consistent 2D shape\n",
+    "                if len(model_fcsts.shape) == 1:\n",
+    "                    model_fcsts = model_fcsts.reshape(-1, 1)\n",
+    "                model_series_preds.append(model_fcsts)\n",
+    "            model_preds = np.concatenate(model_series_preds, axis=0)\n",
+    "            fcsts_list.append(model_preds)\n",
+    "            # Reset test size to original\n",
+    "            model.set_test_size(test_size=test_size)\n",
+    "        \n",
+    "        # Combine all predictions\n",
+    "        fcsts = np.hstack(fcsts_list)\n",
+    "        \n",
+    "        # Add original y values\n",
     "        original_y = {\n",
     "            self.id_col: ufp.repeat(self.uids, np.diff(self.dataset.indptr)),\n",
     "            self.time_col: self.ds,\n",
     "            self.target_col: self.dataset.temporal[:, 0].numpy(),\n",
     "        }\n",
     "\n",
-    "        # Add predictions to forecasts DataFrame\n",
+    "        # Create forecasts DataFrame\n",
+    "        cols = self._get_model_names()\n",
+    "        selected_cols = [col for col in cols if not col.endswith(('-lo', '-hi')) and (not '-' in col or col.endswith('-median'))]\n",
     "        if isinstance(self.uids, pl_Series):\n",
-    "            fcsts = pl_DataFrame(dict(zip(cols, fcsts.T)))\n",
+    "            fcsts = pl_DataFrame(dict(zip(selected_cols, fcsts.T)))\n",
     "            Y_df = pl_DataFrame(original_y)\n",
     "        else:\n",
-    "            fcsts = pd.DataFrame(fcsts, columns=cols)\n",
+    "            fcsts = pd.DataFrame(fcsts, columns=selected_cols)\n",
     "            Y_df = pd.DataFrame(original_y).reset_index(drop=True)\n",
-    "        fcsts_df = ufp.horizontal_concat([fcsts_df, fcsts])\n",
     "\n",
-    "        # Add original input df's y to forecasts DataFrame\n",
+    "        # Combine forecasts with dates\n",
+    "        fcsts_df = ufp.horizontal_concat([fcsts_df, fcsts])\n",
+    "        \n",
+    "        # Add original values\n",
     "        fcsts_df = ufp.join(fcsts_df, Y_df, how='left', on=[self.id_col, self.time_col])\n",
+    "        \n",
+    "        # Apply scaling if needed\n",
     "        if self.scalers_:\n",
     "            sizes = ufp.counts_by_id(fcsts_df, self.id_col)['counts'].to_numpy()\n",
     "            indptr = np.append(0, sizes.cumsum())\n",
     "            invert_cols = cols + [self.target_col]\n",
     "            fcsts_df[invert_cols] = self._scalers_target_inverse_transform(\n",
     "                fcsts_df[invert_cols].to_numpy(),\n",
     "                indptr\n",
-    "            )          \n",
+    "            )\n",
     "        return fcsts_df\n",
-    "        \n",
+    "\n",
     "    # Save list of models with pytorch lightning save_checkpoint function\n",
     "    def save(self, path: str, model_index: Optional[List]=None, save_dataset: bool=True, overwrite: bool=False):\n",
     "        \"\"\"Save NeuralForecast core class.\n",
@@ -2079,15 +2108,16 @@
     "n_series = 2\n",
     "h = 12\n",
     "\n",
-    "config = {'input_size': tune.choice([12, 24]), \n",
-    "          'hidden_size': 128,\n",
-    "          'max_steps': 1,\n",
-    "          'val_check_steps': 1,\n",
-    "          'step_size': 12}\n",
-    "\n",
+    "def get_expected_size(df, h, test_size, step_size):\n",
+    "    expected_size = 0\n",
+    "    uids = df['unique_id'].unique()\n",
+    "    for uid in uids:\n",
+    "        input_len = len(df[df['unique_id'] == uid])\n",
+    "        expected_size += ((input_len - test_size - h) / step_size + 1)*h\n",
+    "    return expected_size\n",
+    "        \n",
     "models = [\n",
     "    NHITS(h=h, input_size=24, loss=MQLoss(level=[80]), max_steps=1, alias='NHITS', scaler_type=None),\n",
-    "    AutoMLP(h=12, config=config, cpus=1, num_samples=1),\n",
     "    RNN(h=h, input_size=-1, loss=MAE(), max_steps=1, alias='RNN', scaler_type=None),\n",
     "    ]\n",
     "\n",
@@ -2096,7 +2126,26 @@
     "\n",
     "forecasts = nf.predict_insample(step_size=1)\n",
     "\n",
-    "expected_size = n_series*((len(AirPassengersPanel_train)//n_series-test_size)-h+1)*h\n",
+    "expected_size = get_expected_size(AirPassengersPanel_train, h, test_size, step_size=1)\n",
+    "assert len(forecasts) == expected_size, f'Shape mismatch in predict_insample: {len(forecasts)=}, {expected_size=}'"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8d996a0f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#| hide\n",
+    "# Test predict_insample (different lengths)\n",
+    "diff_len_df = generate_series(n_series=n_series, max_length=100)\n",
+    "\n",
+    "nf = NeuralForecast(models=models, freq='D')\n",
+    "cv = nf.cross_validation(df=diff_len_df, val_size=0, test_size=test_size, n_windows=None)\n",
+    "\n",
+    "forecasts = nf.predict_insample(step_size=1)\n",
+    "expected_size = get_expected_size(diff_len_df, h, test_size, step_size=1)\n",
     "assert len(forecasts) == expected_size, f'Shape mismatch in predict_insample: {len(forecasts)=}, {expected_size=}'"
    ]
   },
@@ -2866,7 +2915,7 @@
    "source": [
     "#| hide\n",
     "#| polars\n",
-    "models = [LSTM(h=12, input_size=24, max_steps=5, hist_exog_list=['zeros'], scaler_type='robust')]\n",
+    "models = [LSTM(h=12, input_size=24, max_steps=5, scaler_type='robust')]\n",
     "\n",
     "# Pandas\n",
     "nf = NeuralForecast(models=models, freq='M')\n",
@@ -2940,7 +2989,7 @@
     "    last_cutoff = train_end - test_size * pd.offsets.MonthEnd() - h * pd.offsets.MonthEnd()\n",
     "    expected_cutoffs = np.flip(np.array([last_cutoff - step_size * i * pd.offsets.MonthEnd() for i in range(n_expected_cutoffs)]))\n",
     "    pl_cutoffs = forecasts.filter(polars.col('uid') ==nf.uids[1]).select('cutoff').unique(maintain_order=True)\n",
-    "    actual_cutoffs = np.array([pd.Timestamp(x['cutoff']) for x in pl_cutoffs.rows(named=True)])\n",
+    "    actual_cutoffs = np.sort(np.array([pd.Timestamp(x['cutoff']) for x in pl_cutoffs.rows(named=True)]))\n",
     "    np.testing.assert_array_equal(expected_cutoffs, actual_cutoffs, err_msg=f\"{step_size=},{expected_cutoffs=},{actual_cutoffs=}\")\n",
     "\n",
     "    # check forecast-points count per series\n",