cleaned up main file

pycoder49 · pycoder49 · commit 596ddfaaad86 · 2024-12-24T19:35:12.000-08:00
diff --git a/main.py b/main.py
@@ -12,86 +12,90 @@
 
 2) Data preparation -- DataPrep
     - Perform Exploratory Data Analysis (EDA)
-    
     - Deal with null values based on the results of EDA
     - Encode categorical data
     - Scale numerical features only -- skip encoded categorical columns
     - Split the data set into training and testing set
 
-5) Model selection and training
+3) Model selection and training
     - Models for this project:
         - Linear Regression
-            - Use regularization to avoid under/overfitting
         - Multi-Class Logistic Regression
         - K-Nearest Neighbors (KNN)
-    - Choose a gradient descent variant and use it for parameter optimization
 
-6) Hyperparameter tuning
-    - Use grid search / random search for tuning
-    - Evaluate models on validation dataset to prevent overfitting
-
-6) Model Evaluation
-    - Evaluating the best model and the hyperparameters which give the best accuracy
+4) Model Evaluation
+    - Evaluating the best model accuracy percentages
 """
 
-# numerical data .skew() outputs
-# CustomerID:        0.0
-# Age:              -0.040893617755290594
-# Tenure:           -0.12605627128660457
-# Usage Frequency:   0.03754298828827117
-# Support Calls:    -0.19285414431875514
-# Payment Delay:    -0.35071402695836457
-# Total Spend:       0.04774634961486376
-# Last Interaction:  0.005111808910520158
-# Churn:             0.10540842751365004
 
-data = pd.read_csv("customer_churn_dataset-testing-master.csv")
-data = data.drop("CustomerID", axis=1)      # dropping unnecessary columns
+def prepare_data(file_path):
+    """
+    load and prepare the dataset
+    """
+    data = pd.read_csv(file_path)
+    data = data.drop("CustomerID", axis=1)  # dropping unnecessary columns
 
-"""
-Data Preparation
-"""
-dp = DataPrep(data)
+    dp = DataPrep(data)
+    dp.clean_data()
+    dp.transform()
 
-dp.clean_data()
-dp.transform()
+    return dp.get_datasets()
 
-x_train, y_train, x_test, y_test = dp.get_datasets()
 
+def evaluate_linear(x_train, y_train, x_test, y_test):
+    linear_model = models.LinearRegression()
 
-"""
-Training the models
-"""
-# Linear Regression Model
-linear_model = models.LinearRegression()
-
-linear_losses = linear_model.fit(x_train, y_train)
-continuous_predictions = linear_model.predict(x_test)
-linear_predictions = linear_model.predict_class(x_test)
-print(f"Accuracy of Linear Regression: {models.accuracy(linear_predictions, y_test): .2f}%")
-
-# Logistic Regression Model
-log_model = models.LogisticRegression()
-
-log_losses = log_model.fit(x_train, y_train)
-log_predictions = log_model.predict(x_test)
-print(f"Accuracy of Logistic Regression: {models.accuracy(log_predictions, y_test): .2f}%")
-
-# K-Nearest Neighbors Model
-knn_model = models.KNearestNeighbor()
-
-knn_model.fit(x_train, y_train)
-knn_predictions = knn_model.predict(x_test)
-print(f"Accuracy of KNN model: {models.accuracy(knn_predictions, y_test): .2f}%")
-
-
-# plotting the errors for all three
-x_axis_linear = np.arange(len(linear_losses))
-x_axis_logistic = np.arange(len(log_losses))
-plt.plot(x_axis_linear, linear_losses, label="Linear Regression Loss")
-plt.plot(x_axis_logistic, log_losses, label="Logistic Regression Loss")
-plt.xlabel("Epochs")
-plt.ylabel("Loss")
-plt.title("Loss Over Time")
-plt.legend()
-plt.show()
+    linear_losses = linear_model.fit(x_train, y_train)
+    continuous_predictions = linear_model.predict(x_test)
+    linear_predictions = linear_model.predict_class(x_test)
+    print(f"Accuracy of Linear Regression: {models.accuracy(linear_predictions, y_test): .2f}%")
+
+    return linear_losses
+
+
+def evaluate_logistic(x_train, y_train, x_test, y_test):
+    log_model = models.LogisticRegression()
+
+    log_losses = log_model.fit(x_train, y_train)
+    log_predictions = log_model.predict(x_test)
+    print(f"Accuracy of Logistic Regression: {models.accuracy(log_predictions, y_test): .2f}%")
+
+    return log_losses
+
+
+def evaluate_knn(x_train, y_train, x_test, y_test):
+    knn_model = models.KNearestNeighbor()
+
+    knn_model.fit(x_train, y_train)
+    knn_predictions = knn_model.predict(x_test)
+    print(f"Accuracy of KNN model: {models.accuracy(knn_predictions, y_test): .2f}%")
+
+
+def plot_losses(linear_loss, log_loss):
+    x_axis_linear = np.arange(len(linear_loss))
+    x_axis_logistic = np.arange(len(log_loss))
+    plt.plot(x_axis_linear, linear_loss, label="Linear Regression Loss")
+    plt.plot(x_axis_logistic, log_loss, label="Logistic Regression Loss")
+    plt.xlabel("Epochs")
+    plt.ylabel("Loss")
+    plt.title("Loss Over Time")
+    plt.legend()
+    plt.show()
+
+
+def main():
+    # Data preparation
+    file_path = "customer_churn_dataset-testing-master.csv"
+    x_train, y_train, x_test, y_test = prepare_data(file_path)
+
+    # Training the models
+    linear_loss = evaluate_linear(x_train, y_train, x_test, y_test)
+    log_loss = evaluate_logistic(x_train, y_train, x_test, y_test)
+    evaluate_knn(x_train, y_train, x_test, y_test)
+
+    # Plotting losses
+    plot_losses(linear_loss, log_loss)
+
+
+if __name__ == "__main__":
+    main()