gvashishtha · gvashishtha · Oct 27, 2019 · Oct 28, 2019 · Oct 28, 2019 · Oct 28, 2019
diff --git a/1-Training/AzureServiceClassifier_Training.ipynb b/1-Training/AzureServiceClassifier_Training.ipynb
@@ -29,7 +29,7 @@
     "- Introduction to Transformer and BERT deep learning models\n",
     "- Introduction to Azure Machine Learning service\n",
     "- Preparing raw data for training using Apache Spark\n",
-    "- Registering cleanup training data as a Dataset\n",
+    "- Registering cleaned up training data as a Dataset\n",
     "- Debugging the model in Tensorflow 2.0 Eager Mode\n",
     "- Training the model on GPU cluster\n",
     "- Monitoring training progress with built-in Tensorboard dashboard \n",
@@ -152,7 +152,10 @@
     "<img src=\"http://jalammar.github.io/images/bert-classifier.png\" alt=\"Drawing\" style=\"width: 700px;\"/>\n",
     "\n",
     "_Taken from [5](http://jalammar.github.io/illustrated-bert/)_\n",
-    " "
+    "\n",
+    "The end-to-end training process of the stackoverflow question tagging model looks like this:\n",
+    "\n",
+    "![](images/model-training-e2e.png)\n"
    ]
   },
   {
@@ -314,9 +317,9 @@
     "from azureml.core import Datastore, Dataset\n",
     "\n",
     "datastore_name = 'tfworld'\n",
-    "container_name = 'azureml-blobstore-7c6bdd88-21fa-453a-9c80-16998f02935f'\n",
-    "account_name = 'tfworld6818510241'\n",
-    "sas_token = '?sv=2019-02-02&ss=bfqt&srt=sco&sp=rl&se=2019-11-08T05:12:15Z&st=2019-10-23T20:12:15Z&spr=https&sig=eDqnc51TkqiIklpQfloT5vcU70pgzDuKb5PAGTvCdx4%3D'\n",
+    "container_name = 'azure-service-classifier'\n",
+    "account_name = 'johndatasets'\n",
+    "sas_token = '?sv=2019-02-02&ss=bfqt&srt=sco&sp=rl&se=2021-06-02T03:40:25Z&st=2020-03-09T19:40:25Z&spr=https&sig=bUwK7AJUj2c%2Fr90Qf8O1sojF0w6wRFgL2c9zMVCWNPA%3D'\n",
     "\n",
     "datastore = Datastore.register_azure_blob_container(workspace=workspace, \n",
     "                                                    datastore_name=datastore_name, \n",
@@ -404,7 +407,7 @@
     "\n",
     "In addition to UI we can register datasets using SDK. In this workshop we will register second type of Datasets using code - File Dataset. File Dataset allows specific folder in our datastore that contains our data files to be registered as a Dataset.\n",
     "\n",
-    "There is a folder within our datastore called **azure-service-data** that contains all our training and testing data. We will register this as a dataset."
+    "There is a folder within our datastore called **data** that contains all our training and testing data. We will register this as a dataset."
    ]
   },
   {
@@ -415,7 +418,7 @@
    },
    "outputs": [],
    "source": [
-    "azure_dataset = Dataset.File.from_files(path=(datastore, 'azure-service-classifier/data'))\n",
+    "azure_dataset = Dataset.File.from_files(path=(datastore, 'data'))\n",
     "\n",
     "azure_dataset = azure_dataset.register(workspace=workspace,\n",
     "                                       name='Azure Services Dataset',\n",
@@ -474,7 +477,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "%%pip install transformers==2.0.0"
+    "%pip install transformers==2.0.0"
    ]
   },
   {
@@ -534,7 +537,7 @@
     "\n",
     "* **ACTION**: Install [Microsoft VS Code](https://code.visualstudio.com/) on your local machine.\n",
     "\n",
-    "* **ACTION**: Follow this [configuration guide](https://github.com/danielsc/azureml-debug-training/blob/master/Setting%20up%20VSCode%20Remote%20on%20an%20AzureML%20Notebook%20VM.md) to setup VS Code Remote connection to Notebook VM.\n",
+    "* **ACTION**: Follow this [configuration guide](https://github.com/danielsc/azureml-debug-training/blob/master/Setting%20up%20VSCode%20Remote%20on%20an%20AzureML%20Compute%20Instance.md) to setup VS Code Remote connection to Notebook VM.\n",
     "\n",
     "#### Debug training code using step-by-step debugger\n",
     "\n",
@@ -610,7 +613,7 @@
     "                        },\n",
     "                        framework_version='2.0',\n",
     "                        use_gpu=True,\n",
-    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.1.22'])"
+    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.3.0'])"
    ]
   },
   {
@@ -757,7 +760,7 @@
     "                        },\n",
     "                        framework_version='2.0',\n",
     "                        use_gpu=True,\n",
-    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.1.22'])\n",
+    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.3.0'])\n",
     "\n",
     "run2 = experiment.submit(estimator2)"
    ]
@@ -865,7 +868,7 @@
     "run2.download_files(prefix='outputs/model')\n",
     "\n",
     "# If you haven't finished training the model then just download pre-made model from datastore\n",
-    "datastore.download('./',prefix=\"azure-service-classifier/model\")"
+    "datastore.download('./',prefix=\"model\")"
    ]
   },
   {
@@ -906,7 +909,7 @@
     "    \n",
     "labels = ['azure-web-app-service', 'azure-storage', 'azure-devops', 'azure-virtual-machine', 'azure-functions']\n",
     "# Load model and tokenizer\n",
-    "loaded_model = TFBertForMultiClassification.from_pretrained('azure-service-classifier/model', num_labels=len(labels))\n",
+    "loaded_model = TFBertForMultiClassification.from_pretrained('model', num_labels=len(labels))\n",
     "tokenizer = BertTokenizer.from_pretrained('bert-base-cased')\n",
     "print(\"Model loaded from disk.\")"
    ]
@@ -1023,7 +1026,7 @@
     "                        node_count=1,\n",
     "                        distributed_training=Mpi(process_count_per_node=2),\n",
     "                        use_gpu=True,\n",
-    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.1.22'])\n",
+    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.3.0'])\n",
     "\n",
     "run3 = experiment.submit(estimator3)"
    ]
@@ -1144,7 +1147,7 @@
     "                        },\n",
     "                        framework_version='2.0',\n",
     "                        use_gpu=True,\n",
-    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.1.22'])"
+    "                        pip_packages=['transformers==2.0.0', 'azureml-dataprep[fuse,pandas]==1.3.0'])"
    ]
   },
   {
@@ -1262,9 +1265,9 @@
  "metadata": {
   "file_extension": ".py",
   "kernelspec": {
-   "display_name": "Python 3.6 - AzureML",
+   "display_name": "Python 3",
    "language": "python",
-   "name": "python3-azureml"
+   "name": "python3"
   },
   "language_info": {
    "codemirror_mode": {
@@ -1276,7 +1279,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.6.2"
+   "version": "3.7.3"
   },
   "mimetype": "text/x-python",
   "name": "python",

diff --git a/1-Training/databricks/stackoverflow-data-prep.dbc b/1-Training/databricks/stackoverflow-data-prep.dbc
diff --git a/1-Training/databricks/stackoverflow-data-prep.html b/1-Training/databricks/stackoverflow-data-prep.html
diff --git a/1-Training/images/model-training-e2e.png b/1-Training/images/model-training-e2e.png
diff --git a/1-Training/spark/stackoverflow-data-prep.dbc b/1-Training/spark/stackoverflow-data-prep.dbc
diff --git a/1-Training/spark/stackoverflow-data-prep.html b/1-Training/spark/stackoverflow-data-prep.html
diff --git a/1-Training/train_eager.py b/1-Training/train_eager.py
@@ -135,8 +135,8 @@ def main(_):
     optimizer = tf.keras.optimizers.Adam(learning_rate=FLAGS.learning_rate, epsilon=1e-08, clipnorm=1.0)
     loss = tf.keras.losses.SparseCategoricalCrossentropy()
     metric = tf.keras.metrics.SparseCategoricalAccuracy('accuracy')
-    #model.compile(optimizer=optimizer, loss=loss, metrics=[metric])
 
+    # Train and evaluate model
     for item, label in train_dataset:
         with tf.GradientTape() as tape:
             prediction, = model(item, training=True)