jamesmcroft
diff --git a/‎Sample.ipynb
Lines changed: 22 additions & 6 deletions b/‎Sample.ipynb
Lines changed: 22 additions & 6 deletions
diff --git a/‎images/Invoice_6.pdf.page_1.jpg
44.3 KB b/‎images/Invoice_6.pdf.page_1.jpg
44.3 KB
diff --git a/‎model_training/Invoice_1.pdf
56.3 KB b/‎model_training/Invoice_1.pdf
56.3 KB
@@ -56,7 +56,7 @@
    "source": [
     "import os\n",
     "import datetime\n",
-    "from azure.ai.formrecognizer import (DocumentModelAdministrationClient, ModelBuildMode, DocumentAnalysisClient)\n",
+    "from azure.ai.formrecognizer import (DocumentModelAdministrationClient, ModelBuildMode, DocumentAnalysisClient, AnalyzeResult)\n",
     "from azure.core.credentials import AzureKeyCredential\n",
     "from azure.storage.blob import BlobServiceClient, ContainerSasPermissions, generate_container_sas\n",
     "from dotenv import dotenv_values\n",
@@ -92,7 +92,7 @@
     "                with open(f\"{root}/{file}\", \"rb\") as data:\n",
     "                    blob_client.upload_blob(data, overwrite=True)\n",
     "\n",
-    "        start_time = datetime.datetime.now(datetime.timezone.utc)\n",
+    "        start_time = datetime.datetime.now(datetime.timezone.utc) - datetime.timedelta(minutes=5)\n",
     "        expiry_time = start_time + datetime.timedelta(days=1)\n",
     "\n",
     "        sas_token = generate_container_sas(\n",
@@ -123,8 +123,25 @@
     "    def run_layout_analysis(self, file_path):\n",
     "        with open(file_path, \"rb\") as f:\n",
     "            poller = self.document_analysis_client.begin_analyze_document(model_id=self.model.model_id, document=f)\n",
-    "            result = poller.result()\n",
-    "        return result"
+    "            self.analysis_result = poller.result()\n",
+    "        return self.analysis_to_json(self.analysis_result)\n",
+    "\n",
+    "    def analysis_to_json(self, analysis_result: AnalyzeResult):\n",
+    "        return {\n",
+    "            \"status\": \"succeeded\",\n",
+    "            \"createdDateTime\": datetime.datetime.now().isoformat(),\n",
+    "            \"lastUpdatedDateTime\": datetime.datetime.now().isoformat(),\n",
+    "            \"analyzeResult\": analysis_result.to_dict()\n",
+    "        }"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model_training_client = ModelTrainingClient(config)"
    ]
   },
   {
@@ -133,7 +150,6 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "model_training_client = ModelTrainingClient(config)\n",
     "model_training_client.upload_training_data(f\"{working_dir}/model_training\")\n",
     "invoice_model = model_training_client.create_model(\"invoice_model\")"
    ]
@@ -288,7 +304,7 @@
     "        layout_analysis = model_training_client.run_layout_analysis(image_path_ref)\n",
     "        layout_analysis_path_ref = os.path.join(pdf_dir, f'{pdf_file_name}.ocr.json')\n",
     "        with open(layout_analysis_path_ref, 'w') as f:\n",
-    "            json.dump(layout_analysis.to_dict(), f)\n",
+    "            json.dump(layout_analysis, f)\n",
     "    \n",
     "        canvases[i].image_path_ref = image_path_ref\n",
     "        canvases[i].page_ref = page_ref\n",