From 33c0b2c5515f64d2942e99cbf5913cfa0efbb231 Mon Sep 17 00:00:00 2001
From: Sefik Ilkin Serengil <serengil@gmail.com>
Date: Mon, 25 Dec 2023 17:43:24 +0000
Subject: [PATCH] modular unit tests

---
 .github/workflows/tests.yml                   |   2 +-
 Makefile                                      |   2 +-
 chefboost/Chefboost.py                        |  81 +++--
 chefboost/commons/evaluate.py                 |  90 +++--
 chefboost/training/Training.py                |  18 +-
 chefboost/tuning/adaboost.py                  |  11 +-
 chefboost/tuning/gbm.py                       |  53 ++-
 chefboost/tuning/randomforest.py              |  33 +-
 .../test_adaboost.cpython-38-pytest-7.1.2.pyc | Bin 0 -> 1691 bytes
 .../test_c45.cpython-38-pytest-7.1.2.pyc      | Bin 0 -> 1906 bytes
 .../test_cart.cpython-38-pytest-7.1.2.pyc     | Bin 0 -> 1910 bytes
 .../test_chaid.cpython-38-pytest-7.1.2.pyc    | Bin 0 -> 1975 bytes
 .../test_gbm.cpython-38-pytest-7.1.2.pyc      | Bin 0 -> 2791 bytes
 .../test_id3.cpython-38-pytest-7.1.2.pyc      | Bin 0 -> 9261 bytes
 ...t_randomforest.cpython-38-pytest-7.1.2.pyc | Bin 0 -> 3370 bytes
 ...est_regression.cpython-38-pytest-7.1.2.pyc | Bin 0 -> 1752 bytes
 tests/global-unit-test.py                     | 339 ------------------
 tests/test_adaboost.py                        |  27 ++
 tests/test_c45.py                             |  24 ++
 tests/test_cart.py                            |  25 ++
 tests/test_chaid.py                           |  26 ++
 tests/test_gbm.py                             |  48 +++
 tests/test_id3.py                             | 114 ++++++
 tests/test_randomforest.py                    |  55 +++
 tests/test_regression.py                      |  27 ++
 25 files changed, 549 insertions(+), 426 deletions(-)
 create mode 100644 tests/__pycache__/test_adaboost.cpython-38-pytest-7.1.2.pyc
 create mode 100644 tests/__pycache__/test_c45.cpython-38-pytest-7.1.2.pyc
 create mode 100644 tests/__pycache__/test_cart.cpython-38-pytest-7.1.2.pyc
 create mode 100644 tests/__pycache__/test_chaid.cpython-38-pytest-7.1.2.pyc
 create mode 100644 tests/__pycache__/test_gbm.cpython-38-pytest-7.1.2.pyc
 create mode 100644 tests/__pycache__/test_id3.cpython-38-pytest-7.1.2.pyc
 create mode 100644 tests/__pycache__/test_randomforest.cpython-38-pytest-7.1.2.pyc
 create mode 100644 tests/__pycache__/test_regression.cpython-38-pytest-7.1.2.pyc
 delete mode 100644 tests/global-unit-test.py
 create mode 100644 tests/test_adaboost.py
 create mode 100644 tests/test_c45.py
 create mode 100644 tests/test_cart.py
 create mode 100644 tests/test_chaid.py
 create mode 100644 tests/test_gbm.py
 create mode 100644 tests/test_id3.py
 create mode 100644 tests/test_randomforest.py
 create mode 100644 tests/test_regression.py

diff --git a/.github/workflows/tests.yml b/.github/workflows/tests.yml
index 5a5350b..d7cf83a 100644
--- a/.github/workflows/tests.yml
+++ b/.github/workflows/tests.yml
@@ -40,7 +40,7 @@ jobs:
     - name: Test with pytest
       run: |
         cd tests
-        python global-unit-test.py
+        python -m pytest . -s --disable-warnings
   linting:
     needs: unit-tests
     
diff --git a/Makefile b/Makefile
index ab7f41a..168bbb7 100644
--- a/Makefile
+++ b/Makefile
@@ -1,5 +1,5 @@
 test:
-	cd tests && python global-unit-test.py
+	cd tests && python -m pytest . -s --disable-warnings
 
 lint:
 	python -m pylint chefboost/ --fail-under=10
\ No newline at end of file
diff --git a/chefboost/Chefboost.py b/chefboost/Chefboost.py
index bd9ef1e..9cf0e1a 100644
--- a/chefboost/Chefboost.py
+++ b/chefboost/Chefboost.py
@@ -24,6 +24,7 @@ def fit(
     config: Optional[dict] = None,
     target_label: str = "Decision",
     validation_df: Optional[pd.DataFrame] = None,
+    silent: bool = False,
 ) -> Dict[str, Any]:
     """
     Build (a) decision tree model(s)
@@ -55,6 +56,9 @@ def fit(
                 if nothing is passed to validation data frame, then the function validates
                 built trees for training data frame
 
+            silent (bool): set this to True if you do not want to see
+                any informative logs
+
     Returns:
             chefboost model
     """
@@ -139,7 +143,8 @@ def fit(
 
     if enableParallelism == True:
         num_cores = config["num_cores"]
-        logger.info(f"[INFO]: {num_cores} CPU cores will be allocated in parallel running")
+        if silent is False:
+            logger.info(f"[INFO]: {num_cores} CPU cores will be allocated in parallel running")
 
         from multiprocessing import set_start_method, freeze_support
 
@@ -169,7 +174,8 @@ def fit(
         config["algorithm"] = "Regression"
 
     if enableGBM == True:
-        logger.info("Gradient Boosting Machines...")
+        if silent is False:
+            logger.info("Gradient Boosting Machines...")
         algorithm = "Regression"
         config["algorithm"] = "Regression"
 
@@ -184,7 +190,8 @@ def fit(
 
     # -------------------------
 
-    logger.info(f"{algorithm} tree is going to be built...")
+    if silent is False:
+        logger.info(f"{algorithm} tree is going to be built...")
 
     # initialize a dictionary. this is going to be used to check features numeric or nominal.
     # numeric features should be transformed to nominal values based on scales.
@@ -212,7 +219,13 @@ def fit(
 
     if enableAdaboost == True:
         trees, alphas = adaboost_clf.apply(
-            df, config, header, dataset_features, validation_df=validation_df, process_id=process_id
+            df,
+            config,
+            header,
+            dataset_features,
+            validation_df=validation_df,
+            process_id=process_id,
+            silent=silent,
         )
 
     elif enableGBM == True:
@@ -224,6 +237,7 @@ def fit(
                 dataset_features,
                 validation_df=validation_df,
                 process_id=process_id,
+                silent=silent,
             )
             # classification = True
 
@@ -235,12 +249,19 @@ def fit(
                 dataset_features,
                 validation_df=validation_df,
                 process_id=process_id,
+                silent=silent,
             )
             # classification = False
 
     elif enableRandomForest == True:
         trees = randomforest.apply(
-            df, config, header, dataset_features, validation_df=validation_df, process_id=process_id
+            df,
+            config,
+            header,
+            dataset_features,
+            validation_df=validation_df,
+            process_id=process_id,
+            silent=silent,
         )
     else:  # regular decision tree building
         root = 1
@@ -264,8 +285,9 @@ def fit(
             main_process_id=process_id,
         )
 
-    logger.info("-------------------------")
-    logger.info(f"finished in {time.time() - begin} seconds")
+    if silent is False:
+        logger.info("-------------------------")
+        logger.info(f"finished in {time.time() - begin} seconds")
 
     obj = {"trees": trees, "alphas": alphas, "config": config, "nan_values": nan_values}
 
@@ -273,13 +295,13 @@ def fit(
 
     # train set accuracy
     df = base_df.copy()
-    evaluate(obj, df, task="train")
+    trainset_evaluation = evaluate(obj, df, task="train", silent=silent)
+    obj["evaluation"] = {"train": trainset_evaluation}
 
     # validation set accuracy
     if isinstance(validation_df, pd.DataFrame):
-        evaluate(obj, validation_df, task="validation")
-
-    # -----------------------------------------
+        validationset_evaluation = evaluate(obj, validation_df, task="validation", silent=silent)
+        obj["evaluation"]["validation"] = validationset_evaluation
 
     return obj
 
@@ -455,31 +477,38 @@ def restoreTree(module_name) -> Any:
     return functions.restoreTree(module_name)
 
 
-def feature_importance(rules: Union[str, list]) -> pd.DataFrame:
+def feature_importance(rules: Union[str, list], silent: bool = False) -> pd.DataFrame:
     """
     Show the feature importance values of a built model
     Args:
-            rules (str or list): e.g. decision_rules = "outputs/rules/rules.py"
+        rules (str or list): e.g. decision_rules = "outputs/rules/rules.py"
             or this could be retrieved from built model as shown below.
 
-                    decision_rules = []
-                    for tree in model["trees"]:
-                       rule = .__dict__["__spec__"].origin
-                       decision_rules.append(rule)
+            ```python
+            decision_rules = []
+            for tree in model["trees"]:
+               rule = .__dict__["__spec__"].origin
+               decision_rules.append(rule)
+            ```
+        silent (bool): set this to True if you do want to see
+            any informative logs.
     Returns:
             feature importance (pd.DataFrame)
     """
 
     if not isinstance(rules, list):
         rules = [rules]
-    logger.info(f"rules: {rules}")
+
+    if silent is False:
+        logger.info(f"rules: {rules}")
 
     # -----------------------------
 
     dfs = []
 
     for rule in rules:
-        logger.info("Decision rule: {rule}")
+        if silent is False:
+            logger.info(f"Decision rule: {rule}")
 
         with open(rule, "r", encoding="UTF-8") as file:
             lines = file.readlines()
@@ -564,8 +593,12 @@ def feature_importance(rules: Union[str, list]) -> pd.DataFrame:
 
 
 def evaluate(
-    model: dict, df: pd.DataFrame, target_label: str = "Decision", task: str = "test"
-) -> None:
+    model: dict,
+    df: pd.DataFrame,
+    target_label: str = "Decision",
+    task: str = "test",
+    silent: bool = False,
+) -> dict:
     """
     Evaluate the performance of a built model on a data set
     Args:
@@ -573,8 +606,10 @@ def evaluate(
         df (pandas data frame): data frame you would like to evaluate
         target_label (str): target label
         task (string): set this to train, validation or test
+        silent (bool): set this to True if you do not want to see
+            any informative logs
     Returns:
-        None
+        evaluation results (dict)
     """
 
     # --------------------------
@@ -598,4 +633,4 @@ def evaluate(
         df["Decision"] = df["Decision"].astype(str)
         df["Prediction"] = df["Prediction"].astype(str)
 
-    cb_eval.evaluate(df, task=task)
+    return cb_eval.evaluate(df, task=task, silent=silent)
diff --git a/chefboost/commons/evaluate.py b/chefboost/commons/evaluate.py
index 44eba39..2cb480d 100644
--- a/chefboost/commons/evaluate.py
+++ b/chefboost/commons/evaluate.py
@@ -1,4 +1,5 @@
 import math
+import pandas as pd
 from chefboost.commons.logger import Logger
 
 # pylint: disable=broad-except
@@ -6,25 +7,38 @@
 logger = Logger(module="chefboost/commons/evaluate.py")
 
 
-def evaluate(df, task="train"):
+def evaluate(df: pd.DataFrame, task: str = "train", silent: bool = False) -> dict:
+    """
+    Evaluate results
+    Args:
+        df (pd.DataFrame): data frame
+        task (str): train, test
+        silent (bool): set this to True if you do not want to
+            see any informative logs
+    Returns:
+        evaluation results (dict)
+    """
     if df["Decision"].dtypes == "object":
         problem_type = "classification"
     else:
         problem_type = "regression"
 
-    # -------------------------------------
-
+    evaluation_results = {}
     instances = df.shape[0]
 
-    logger.info("-------------------------")
-    logger.info(f"Evaluate {task} set")
-    logger.info("-------------------------")
+    if silent is False:
+        logger.info("-------------------------")
+        logger.info(f"Evaluate {task} set")
+        logger.info("-------------------------")
 
     if problem_type == "classification":
         idx = df[df["Prediction"] == df["Decision"]].index
         accuracy = 100 * len(idx) / df.shape[0]
-        logger.info(f"Accuracy: {accuracy}% on {instances} instances")
+        if silent is False:
+            logger.info(f"Accuracy: {accuracy}% on {instances} instances")
 
+        evaluation_results["Accuracy"] = accuracy
+        evaluation_results["Instances"] = instances
         # -----------------------------
 
         predictions = df.Prediction.values
@@ -48,8 +62,12 @@ def evaluate(df, task="train"):
                 confusion_row.append(item)
             confusion_matrix.append(confusion_row)
 
-        logger.info(f"Labels: {labels}")
-        logger.info(f"Confusion matrix: {confusion_matrix}")
+        if silent is False:
+            logger.info(f"Labels: {labels}")
+            logger.info(f"Confusion matrix: {confusion_matrix}")
+
+        evaluation_results["Labels"] = labels
+        evaluation_results["Confusion matrix"] = confusion_matrix
 
         # -----------------------------
         # precision and recall
@@ -79,11 +97,19 @@ def evaluate(df, task="train"):
             accuracy = round(100 * (tp + tn) / (tp + tn + fp + fn + epsilon), 4)
 
             if len(labels) >= 3:
-                logger.info(f"Decision {decision_class}")
-                logger.info(f"Accuray: {accuracy}")
+                if silent is False:
+                    logger.info(f"Decision {decision_class}")
+                    logger.info(f"Accuracy: {accuracy}")
+
+                evaluation_results[f"Decision {decision_class}'s Accuracy"] = accuracy
 
-            logger.info(f"Precision: {precision}%, Recall: {recall}%, F1: {f1_score}%")
-            logger.debug(f"TP: {tp}, TN: {tn}, FP: {fp}, FN: {fn}")
+            if silent is False:
+                logger.info(f"Precision: {precision}%, Recall: {recall}%, F1: {f1_score}%")
+                logger.debug(f"TP: {tp}, TN: {tn}, FP: {fp}, FN: {fn}")
+
+            evaluation_results["Precision"] = precision
+            evaluation_results["Recall"] = recall
+            evaluation_results["F1"] = f1_score
 
             if len(labels) < 3:
                 break
@@ -99,13 +125,17 @@ def evaluate(df, task="train"):
 
         if instances > 0:
             mae = df["Absolute_Error"].sum() / instances
-            logger.info(f"MAE: {mae}")
-
             mse = df["Absolute_Error_Squared"].sum() / instances
-            logger.info(f"MSE: {mse}")
-
             rmse = math.sqrt(mse)
-            logger.info(f"RMSE: {rmse}")
+
+            evaluation_results["MAE"] = mae
+            evaluation_results["MSE"] = mse
+            evaluation_results["RMSE"] = rmse
+
+            if silent is False:
+                logger.info(f"MAE: {mae}")
+                logger.info(f"MSE: {mse}")
+                logger.info(f"RMSE: {rmse}")
 
             rae = 0
             rrse = 0
@@ -122,12 +152,26 @@ def evaluate(df, task="train"):
             except Exception as err:
                 logger.error(str(err))
 
-            logger.info(f"RAE: {rae}")
-            logger.info(f"RRSE {rrse}")
+            if silent is False:
+                logger.info(f"RAE: {rae}")
+                logger.info(f"RRSE {rrse}")
+
+            evaluation_results["RAE"] = rae
+            evaluation_results["RRSE"] = rrse
 
             mean = df["Decision"].mean()
-            logger.info(f"Mean: {mean}")
+
+            if silent is False:
+                logger.info(f"Mean: {mean}")
+
+            evaluation_results["Mean"] = mean
 
             if mean > 0:
-                logger.info(f"MAE / Mean: {100 * mae / mean}%")
-                logger.info(f"RMSE / Mean: {100 * rmse / mean}%")
+                if silent is False:
+                    logger.info(f"MAE / Mean: {100 * mae / mean}%")
+                    logger.info(f"RMSE / Mean: {100 * rmse / mean}%")
+
+                evaluation_results["MAE / Mean"] = 100 * mae / mean
+                evaluation_results["RMSE / Mean"] = 100 * rmse / mean
+
+    return evaluation_results
diff --git a/chefboost/training/Training.py b/chefboost/training/Training.py
index ee37ca7..b7c6e06 100644
--- a/chefboost/training/Training.py
+++ b/chefboost/training/Training.py
@@ -510,16 +510,10 @@ def buildDecisionTree(
     # add else condition in the decision tree
 
     if df.Decision.dtypes == "object":  # classification
-        pivot = pd.DataFrame(subdataset.Decision.value_counts()).reset_index()
-
-        if pd.__version__.split(".")[0] == "1":
-            pivot = pivot.rename(columns={"Decision": "Instances", "index": "Decision"})
-        else:  # if pd.__version__.split(".")[0] == "2":
-            pivot = pivot.rename(columns={"Decision": "Instances", "count": "Decision"})
-
-        pivot = pivot.sort_values(by=["Instances"], ascending=False).reset_index()
-
-        else_decision = f"return '{pivot.iloc[0].Decision}'"
+        pivot = pd.DataFrame(subdataset.Decision.value_counts()).sort_values(
+            by=["count"], ascending=False
+        )
+        else_decision = f"return '{str(pivot.iloc[0].name)}'"
 
         if enableParallelism != True:
             functions.storeRule(file, (functions.formatRule(root), "else:"))
@@ -669,7 +663,7 @@ def buildDecisionTree(
             # this is reguler decision tree. find accuracy here.
 
             module_name = "outputs/rules/rules"
-            myrules = load_module(module_name) # rules0
+            myrules = load_module(module_name)  # rules0
             models.append(myrules)
 
     return models
@@ -682,7 +676,7 @@ def findPrediction(row):
         params.append(row[j])
 
     module_name = "outputs/rules/rules"
-    myrules = load_module(module_name) # rules0
+    myrules = load_module(module_name)  # rules0
 
     prediction = myrules.findDecision(params)
     return prediction
diff --git a/chefboost/tuning/adaboost.py b/chefboost/tuning/adaboost.py
index cda488e..3623347 100644
--- a/chefboost/tuning/adaboost.py
+++ b/chefboost/tuning/adaboost.py
@@ -31,7 +31,9 @@ def findPrediction(row):
     return prediction
 
 
-def apply(df, config, header, dataset_features, validation_df=None, process_id=None):
+def apply(
+    df, config, header, dataset_features, validation_df=None, process_id=None, silent: bool = False
+):
     models = []
     alphas = []
 
@@ -53,8 +55,7 @@ def apply(df, config, header, dataset_features, validation_df=None, process_id=N
     best_epoch_idx = 0
     best_epoch_value = 1000000
 
-    # for i in range(0, num_of_weak_classifier):
-    pbar = tqdm(range(0, num_of_weak_classifier), desc="Adaboosting")
+    pbar = tqdm(range(0, num_of_weak_classifier), desc="Adaboosting", disable=silent)
     for i in pbar:
         worksheet["Decision"] = worksheet["Weight"] * worksheet["Decision"]
 
@@ -139,8 +140,8 @@ def apply(df, config, header, dataset_features, validation_df=None, process_id=N
         pbar.set_description(f"Epoch {i + 1}. Loss: {mae}. Process: ")
 
     # ------------------------------
-
-    logger.info(f"The best epoch is {best_epoch_idx} with the {best_epoch_value} MAE score")
+    if silent is False:
+        logger.info(f"The best epoch is {best_epoch_idx} with the {best_epoch_value} MAE score")
 
     models = models[0 : best_epoch_idx + 1]
     alphas = alphas[0 : best_epoch_idx + 1]
diff --git a/chefboost/tuning/gbm.py b/chefboost/tuning/gbm.py
index 95bb17f..85ac99b 100644
--- a/chefboost/tuning/gbm.py
+++ b/chefboost/tuning/gbm.py
@@ -1,4 +1,5 @@
 import gc
+from typing import Optional, Union
 
 import pandas as pd
 import numpy as np
@@ -14,7 +15,7 @@
 logger = Logger(module="chefboost/tuning/gbm.py")
 
 
-def findPrediction(row):
+def findPrediction(row: pd.Series) -> Union[str, float]:
     epoch = row["Epoch"]
     row = row.drop(labels=["Epoch"])
     columns = row.shape[0]
@@ -32,7 +33,15 @@ def findPrediction(row):
     return prediction
 
 
-def regressor(df, config, header, dataset_features, validation_df=None, process_id=None):
+def regressor(
+    df: pd.DataFrame,
+    config: dict,
+    header: str,
+    dataset_features: dict,
+    validation_df: Optional[pd.DataFrame] = None,
+    process_id: Optional[int] = None,
+    silent: bool = False,
+) -> list:
     models = []
 
     # we will update decisions in every epoch, this will be used to restore
@@ -69,10 +78,7 @@ def regressor(df, config, header, dataset_features, validation_df=None, process_
     best_epoch_idx = 0
     best_epoch_loss = 1000000
 
-    pbar = tqdm(range(1, epochs + 1), desc="Boosting")
-
-    # for index in range(1,epochs+1):
-    # for index in tqdm(range(1,epochs+1), desc='Boosting'):
+    pbar = tqdm(range(1, epochs + 1), desc="Boosting", disable=silent)
     for index in pbar:
         logger.debug(f"epoch {index} - ")
         loss = 0
@@ -155,22 +161,33 @@ def regressor(df, config, header, dataset_features, validation_df=None, process_
 
     # ---------------------------------
 
-    logger.info(f"The best epoch is {best_epoch_idx} with {best_epoch_loss} loss value")
+    if silent is False:
+        logger.info(f"The best epoch is {best_epoch_idx} with {best_epoch_loss} loss value")
     models = models[0:best_epoch_idx]
     config["epochs"] = best_epoch_idx
 
-    logger.info(
-        f"MSE of {num_of_instances} instances are boosted from {boosted_from}"
-        f"to {best_epoch_loss} in {epochs} epochs"
-    )
+    if silent is False:
+        logger.info(
+            f"MSE of {num_of_instances} instances are boosted from {boosted_from}"
+            f"to {best_epoch_loss} in {epochs} epochs"
+        )
 
     return models
 
 
-def classifier(df, config, header, dataset_features, validation_df=None, process_id=None):
+def classifier(
+    df: pd.DataFrame,
+    config: dict,
+    header: str,
+    dataset_features: dict,
+    validation_df: Optional[pd.DataFrame] = None,
+    process_id: Optional[int] = None,
+    silent: bool = False,
+) -> tuple:
     models = []
 
-    logger.info("gradient boosting for classification")
+    if silent is False:
+        logger.info("gradient boosting for classification")
 
     epochs = config["epochs"]
     enableParallelism = config["enableParallelism"]
@@ -182,7 +199,7 @@ def classifier(df, config, header, dataset_features, validation_df=None, process
 
     boosted_predictions = np.zeros([df.shape[0], len(classes)])
 
-    pbar = tqdm(range(0, epochs), desc="Boosting")
+    pbar = tqdm(range(0, epochs), desc="Boosting", disable=silent)
 
     # store actual set, we will use this to calculate loss
     actual_set = pd.DataFrame(np.zeros([df.shape[0], len(classes)]), columns=classes)
@@ -317,9 +334,11 @@ def classifier(df, config, header, dataset_features, validation_df=None, process
 
     # --------------------------------
 
-    logger.info(
-        f"The best accuracy got in {best_accuracy_idx} epoch with the score {best_accuracy_value}"
-    )
+    if silent is False:
+        logger.info(
+            f"The best accuracy got in {best_accuracy_idx} epoch"
+            f" with the score {best_accuracy_value}"
+        )
 
     models = models[0 : best_accuracy_idx * len(classes) + len(classes)]
 
diff --git a/chefboost/tuning/randomforest.py b/chefboost/tuning/randomforest.py
index d6dfe6e..a8a1c40 100644
--- a/chefboost/tuning/randomforest.py
+++ b/chefboost/tuning/randomforest.py
@@ -1,7 +1,9 @@
+from typing import Optional
 import multiprocessing
 from contextlib import closing
 
 from tqdm import tqdm
+import pandas as pd
 
 from chefboost.commons import functions
 from chefboost.training import Training
@@ -10,7 +12,15 @@
 # pylint: disable=unused-argument
 
 
-def apply(df, config, header, dataset_features, validation_df=None, process_id=None):
+def apply(
+    df: pd.DataFrame,
+    config: dict,
+    header: str,
+    dataset_features: dict,
+    validation_df: Optional[pd.DataFrame] = None,
+    process_id: Optional[int] = None,
+    silent: bool = False,
+):
     models = []
 
     num_of_trees = config["num_of_trees"]
@@ -24,9 +34,10 @@ def apply(df, config, header, dataset_features, validation_df=None, process_id=N
 
     input_params = []
 
-    pbar = tqdm(range(0, num_of_trees), desc="Bagging")
+    pbar = tqdm(range(0, num_of_trees), desc="Bagging", disable=silent)
     for i in pbar:
-        pbar.set_description(f"Sub decision tree {i + 1} is processing")
+        if silent is False:
+            pbar.set_description(f"Sub decision tree {i + 1} is processing")
         subset = df.sample(frac=1 / num_of_trees)
 
         root = 1
@@ -38,7 +49,19 @@ def apply(df, config, header, dataset_features, validation_df=None, process_id=N
 
         if parallelism_on:  # parallel run
             input_params.append(
-                (subset, root, file, config, dataset_features, 0, 0, "root", i, None, process_id)
+                (
+                    subset,
+                    root,
+                    file,
+                    config,
+                    dataset_features,
+                    0,
+                    0,
+                    "root",
+                    i,
+                    None,
+                    process_id,
+                )
             )
 
         else:  # serial run
@@ -75,7 +98,7 @@ def apply(df, config, header, dataset_features, validation_df=None, process_id=N
 
             # all functions registered here
             # results = []
-            for f in tqdm(funclist):
+            for f in tqdm(funclist, disable=silent):
                 _ = f.get(timeout=100000)  # this was branch_results
                 # results.append(branch_results)
 
diff --git a/tests/__pycache__/test_adaboost.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_adaboost.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5469e37b860b4bb1be9c7a21f94cf362a8444a42
GIT binary patch
literal 1691
zcmZWqPjA~c6elTJmSxG#zh((`@j48M4vX6)O<G_HQgrKSD2i>p=rBPsDMz#Z7$nm+
znRHpVVV45=06Eyl?X(ZDPr~E2OTI#}!yaWPa5ox!djI&|kMEK63(s>9jK6>Xh5bel
z`b!Io!vNtJrg#p7B8pQK;QC84gCLADGiczM#R{5WA*r3U0;kp)X*+WR7bE6UlQ!Ps
zz@rvz{)mDO#a|=ezJ{pinU7WL$tjCZib6;btS^h<knxLk$%GVrO~Z&rwRwAdu067X
zo~3M{m*0#fV45(Wz!W70xR?@Z=)_lMg(R9_YE5y4OFSV{R1s->XO_4`B>}(YTeC8#
zO<O}!nbMdvN~1KVq-s#7vP!Fss%F_Jn<G-$r7ixD)}%?>r5$7HYJE(mCiSE}X-(0{
z5<i38DH~JFFM(@oE+=5uJYb-mE3%HN7VXldvXx-q9qEGAE1fBRgMWY$o2as3T9DVE
z%bOs{PHDfvRT~hwWxI4oX62RMB^KYp$|hYYJwUUnEj6088#Lgt0UnO*Oz|b=cQp#l
z1EMv}m-ZCb-}e0L0>V32CZOujb^1ZssS$SP2)qA5*annd<;w14iEd1>ZalPh^I710
z#fF>-kreqi*ZP<}^-a}^(qX|9d71?smPaQkdpz%Ku%4e~VG)O~STqU;X#^|dgz;c`
z=J!0}QJS(e5!uBWjbtR4?B5;>`C9r!c`u_h0UM+YX{;=fq%4=$CL|xigy9}v!_h!K
zen$=ueSER{$=3M%o-cZbhrLfVzv~O-j5(vpK!<^#1~>#jb}u@BiE-J}e*3=A%Ke}r
zIb#9>;v<OH*S0-hIN#5i-eK(yDYmp`#}~d+^^R)g0pv0Op>J{zK<Ripn(S$E@Lsw{
zvviNnw!rbvtDkx|JMY0&U}+BuEel@nyr(Zrj}|%emlYY)z~(HX;Xu4p=Aam#D>66<
zj5v`&bG}dI9FNau*Nm&>Z~%1<IUDmqk&PqHlndtY<Sa>Lk_%;}1$YRx5sK5|ETy$;
zI82L^C=K%{W2zO3C}ui>>O8JX29^AR^Mb3@FfMo&$&kGsr%_%5=3Us64y$jyGLt+m
z{3T@#iabt+iqM$rd#xJvPL&N9WRwpWcXiF$8r!TdJBz~JqHupE%u+vC6b=^Mb{B>H
zMd7_Q4}-cOvuOA4{fhWUfaKkS{tGxAqAysSjQXE5F_Oi&Ke&0=>UZq_ubJ}Rd*5t`
zBpw1mgy8!3k7YU7CM(1yE-{gXY<L@<A{TX#i|tynK^xSXCBi?3wSHIGH~r#wK%q9n
zS%<f0rGkEJbM^`@B6RCkrJ8dcUxhV+HI8x`39esO)w<mXhd&C$SG32*t#TXAN>=1z
qd)7s+|2X)EnrJ+AffmSJ&?)<~*(-jeFQm}Tw9yK(v5Q^e82<uWU*&25

literal 0
HcmV?d00001

diff --git a/tests/__pycache__/test_c45.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_c45.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..83ddd6398ce778209fcd7e9366830ee98714d011
GIT binary patch
literal 1906
zcmdT_PmkL~6rZsj$H_YBW?NOPkiZ}z5rmR$*)5kYDq6Tzz0h8KF|(d=YS#ZcGlA~P
zkr00*E_?yh!{(Sz!S|RWocI7-_QZR3HUy~@ajd2J&Aj)<o|)hK&GVDNpikiW_1RCt
zatQeyjqS$<;{i1FB>*R!W+bFdZ{@Z{D9N3$L)(ZOb|GSAUfv7)jnB?@azFGb5k7Z#
z=VuxYxXZggkZ{O7-h=)I@ADn#cRBrnjQu}g74m3IP4DEXNKVUAX)xS}<!mP8#YhXK
z)f6#`5056*IR^8R&odF@o7Ybl2G~xZsb2szxul#f>4IqME4zkWayzBXp6ms!DR=k5
zw@((}U)Z%(+h^9osU7vLb}l=-TRREm9{Lk&>449zttD-Gdr5ikg>{=OI(U}4lTsMF
zx(iXSc9-;f`W-Olz_+0}3tRUt``lkrWC+eYcyzJLnPy7p>8#9>iGHq4k7ct`ruu1q
z<(wQ&jvlWp<Hlu?q%-5HG!uoE9-M1MudL(a6}{Md@BQlh&R7M<#{mux$7*GTHuw+@
zuZB!1A$1eGH&zCm_x^kcU-<3CkHP6Y&3F*QIzdv(peXaSU|GNl9u)Ij$TSWT!Sq}T
z)jHP`G?O!-1I$Oj%R;Pnj8*Z_lY;RmR$m({J`L?8)u#WTI&ad(q!~pq%d$v{O2%bg
zF)2(hQY;bZF~d)rjizPsxs;_eHzU|m&U7T6R~ajqhKO;qMi9nHi=<q2jl~nw0Ud}e
z+<}#%_OJ)r#z))6-PUNoe6($Rydv@~pyldd`UD75Qzer0Z2Fl{XS%GW@wF-&5&lDp
z=HObFxZ`L|VsuSh1Z-}cEpeDYbsK=tKD|YK(1-`^L*kPm@u>_T@;b|Uv@PqqsB77Q
zBS{zFvBdk?Xjozel0L!!VTf=8VHaV9@FoK0rG>X)WbVI|?}p}9w6EeG7kL%;??C)@
z=6+LBVkRe;hyO?Y`~x`uOG-nAH$GVB_3w-S?@8KglGMBwtzWzKAJo4K@$txbSe0~I
zDC6Um-dOulTS_MFC5Lh_k>VSul~6`DF4JB6B(4^^707}qxd(>nZ7#92z?L_0#v2>w
z1d38#7HZPg7-{32eS`o3g&}c^TXJlK*=W+c-~Nq0p)f<Cem$~BJnB>5>f4^{xqkun
C_~(rP

literal 0
HcmV?d00001

diff --git a/tests/__pycache__/test_cart.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_cart.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8a45a5001340cfd7a344f79416964a7bca645190
GIT binary patch
literal 1910
zcmdT_Pmj|^6rZsj$H_X&?m`iJsOk$UX;H$`g<ePn+V+Mxl;x6(nazxYS^r~ZQrMLv
zp_WR$^a~&kn`6EUpJ0ydsULvLo_NpBh9ChIM=Z^6{ND3SW`6JYULJHhZ355hCw~do
zA>>~)Rv#OT+c4Ba08Thf$dFdEmD(1eBz1-jT1VVr6CzgPrLAGR^4ZB+>JNQNgwGw`
z_?r$p+~v&|WVp^f-h%lYZ}T;nH#ogdy8eIgE9736n%3SU5gp{Y(qOoE^YK{7<1H<e
zR(-^9#H8*OM;J|WK1sv~m!3UMc)_s;L%jsh<b-lMqf?@-$94(F<aSJ}L)lYWQtobp
zZ<|cPKebD%v=6PRQ#$Ioc1{|+SvnEr9{M9|=77&Ftr@Lmdq#Qdm35I!8+e(r5mR_~
zbrYgq>CWgM^mm}lfxTfkQ(L!A+T5Q}qzEqExp%z5nPy7p{y0yfo_?lHizVY+#`;le
zoV`20?(fen<BswyipR!PaUwD;J-FALo?3&!oE~pozET|RbX71I1o*n!Rj|YcAHweG
zI#WtWUBzy86*_OexeGh|^XkvwU=k-hKuUusmqC`NamJE>Wjx3xsgUs~hy>FUDOBxT
ze4v>e3msrW0-k4LzGkd~8&3+x!;$*USfc}DN3k~T+r?3pHzv&{Bri!qDGE8t(}GE1
zTA^Z*K#y6!QynzUvtOjlr8ytMky55Z@vKN##xz8Xn^cN0PMk&gylE^RnFi=UBxVhM
zDXcGhZPoZ;)wo_8_0Bg|jUVSkehajm?(`o3VXCi06d(3~7V1#vMSpZA%SwgsYtig1
zm5FB#7c_=v)P=z3(pgi7DO48$2yN2~)CZM#Fs>4xtP`KgE=0a$VQ;Pq`#LIHHsDIq
z1=yEZp_PgyHX-RFbPzTWHW9WE&Lez-fSIY`3cQ)YhY7EEu66q<^3TB*pCbP|h=0lC
zFS`m9b`KNrdE8I%{wv*Kw|ArJ4ha^0ut@B?+W&Z#s<s_g%fiL7ul|Sn?;+mZG#)l4
z9cRk;Sk+5wJFL4&udZ|G2t6sDLc4@cvUHi|!Y41mZpJM@7EH+tXtb7fEG@7lmY}(`
zboQVxrFo`$b(@hke)BZ~7NkUCBpz`^kCiejQF^!PKct^1e4$Xv9@!!u^{H>QZLjIM
FZvm-v@;Lwi

literal 0
HcmV?d00001

diff --git a/tests/__pycache__/test_chaid.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_chaid.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1a9c50c626cf7b58a096d0e7600f95e7b1467c94
GIT binary patch
literal 1975
zcmdT_&2Jk;6rb5$@2;J78mAu+38B3JH9~e9l5%NKqZA1w=!N#;%QD%Sb+*|rX2xw3
z*%IPI;=(_GdWetye>lw%PW%fw@!oE1e1Hg!U1{FTd(ZRre!uzoS-0CE@cs7f&w@IH
z{DIE;XM^(yn)(I|C!A(vMC;zlZHrKnJEInDGVaKOjFtI$d(^38cD9iRqks|-aEG^k
zp`$K$x%VR(ZE~Ntp})a9d;|I|PQNDo;7{0vJn2)@J~|P}aak%2j{9Xf9t(Ni(?V%A
zL>t9>`-AEXlX=M}nTT=b^7CMT?FgFs6^teql+!t#5p6xUr*KMcr?ftkJ)={~-5rSS
zkQu~h_SBl%r`F7wI_f*^T(r11brQ;bj3?IIftWkB=CtnZIpyuw)*Uiy;a#S!l)~86
z9%TKgJEuR;@1bH2tPRbX*}8qv;lZ3@h2YNJC+Az7X{Ll8j>{|==vUgbSvD?Zs!wv$
zI{N(Zi^oqFmT}{<NYb%!Rho%HOCK(_pqJLc!GfM|zjwDfyWdyg!9j?_y}p7eHpI~E
zU2Za^gw%EJL0@6;!Q>ED`2F=y;qfHRco?6sl!r+v!=lX7f@NVMn4U<XLRRoqP%}9e
zIz$vgUKV1pVXTT9Ukb*fSiLY-d~EC_)u!{PI;+8A()6O3WmzOeCF3%$m=vZRDV7L~
zn9albbZJ?9CS@tj%?OT>GaZRnRmKXYA!FRErh#$NA}JT1v3O!yfWFAg2J93yH@vs*
ze7x@LHcqqh{<`zYg2?xw7MHujXHX?IR3b@FhmVCi)nzq|mt3r=w<I7|3n*yrE%}IN
zj;=}<ElU?c=~ls}bcma}1BTEJy+s4yh7au{5|B+2P<a<JZ!(>G>vY~lKFbzdNxER3
zN_>|!btNi~4A6AZY@z9anS2H2I$G9joa92L@qeSJ+{U%vMT0Om<^vd+hyMs(jajq7
zbwJ*L6|Mua5BWD4$dxX|Ob!s#|B2&=aQ`(N_Xhj5x@0II;T1{#){%b)X}bogo)%qA
z!{>8d>2d3R&-kcpIxUn5P$5>{PShyVpwSFamw^;7L2yBpRw3hE#pGMCnsF<j1yk}S
zI_;GvNDF*<8-s7Jf&<XFye!n9kt}KBZ{9(Jk6R)!Bpz{%jx{lBPWlg<zqC&&{6gWg
R@X0puX+Q(3WBZ=({RMOI2?qcG

literal 0
HcmV?d00001

diff --git a/tests/__pycache__/test_gbm.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_gbm.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5e9d7c07b019bc403672809bdaf2eb7c0a39cba5
GIT binary patch
literal 2791
zcmZ8j&2QYs73c74NiKI+yOJEqu^r{BF_T&!w*1xFj*>Vi5;R6p$8EsNhT55>XmOW|
znUNEz<fZAQ2LnbA1zHG&_RxcGJ>=9w|AO?|15ZJ6QV+c~2#lcUdqYW~!o@tknfK<s
zH;?mvZy&T;o(7Nc*Wa`Mnws`CPU?>VlMNW+BOp|xB-KKq-ulSUHKL8o&?1$@4jUlR
zQ)lFco?0`~=Ex6yqA{PE)Ot+97PV>PcUst{4t3$(q2#_6c!ywJyBCnseP@deH?vGg
znAkth;+XNhu4F=r6{P)mbF@6!Md2u;J1HCB&f{ku7zf5XFvL9_A|_O)2KwGN3r%VV
zgxXV5kP}Xq`a>fpxt8mo*?4RgMs84NQKRmnR+y9&R&M6jwqDq|E&eFY1B-gOJtVY=
z>qC8N!kV3%Q=;D1lu&<PKcf{5+M?~ekr3b=*#N1NJ5%x*`7Pwn1lurdux`)}cygti
zyPttKY8GB@<=(bgH1p;YBG#49nY;-;yC^}Qv?slT=2Y9Z#eYEVOLt26w-^C(V;$re
z74Yf}QK`2F(ar9g5Rp&k=zQ+0=vqh7wQAA15S<01S$OmeeGYyLv01d~V$qTMK`S@%
z_Eaxs@|nD|0GhI$TM&I0qVMJ1ytl2vDZD4T_zC#6=vj!G(C1O2qCa;WJ)G}vpyA8*
zlsqB)?-(WWaDsF6d`;_LsFlwstuIjvdC)pfFVwWYQ(7I+(z&g)fCsG$itip}p$A!b
zVc&u*%+e+LVm_;~Fn5%Nxmp%516>$i(W4sN)0ggr-Y;3qnGi`f{_qfM=a2w-YL;%4
z#u-oK)+lt@IND6v&))tZwAmyZY>BXyvWSn9aop#TWP4p2$w)A{5@+dfeOZ1gpXz1n
zQIsYi0MmUsENzjbY%EKAkd22)%<*DBCC~KRw*#`*d-dXEcP$W0w{I^YyB>%@FAZ2j
zvcA`jgkW4M*|k7~uy`%BBxg(n<QcgGCRUF2dA~VgmMT-Lfw+h(m%*f0EZtEyt_Pwt
zAe_KN`>RMU^BIT;Enh$7?q=ogW@z2t8IN}lAE1``YZh%EE&_}0Z-M)tqK~VAsN4fn
zbFcj4=`Jbf7zu`QOU-UzDAA@Uy$NSD8DPFjTSh!)GO+k8_~0ERbLbetyNcw-UZ<9l
zH8^BwLbg_ePN`35>2Ma&{y;n`^}%Lo3=>&;8<SlHIT0_r{Xvwbea<F)kc}o0XQkU0
z(U9Rv*?vnU8{&AE^Ng3X{b9yOk?gZiCuuZRUzGPCn$icG{mq>umC0C?cA9}%Q7-hw
zR<@H;WxpS%*=CgX$I*zDjiV#-1=t<Tb03Z9bjb1Ml@>rCOT#7_tq!+ZpIoU=E|*HJ
z3hZhnsV3JeNo8QIzUNwfa%#_wP@SYQu(nz{Ll(&$s0)4;0^|6d>wDMhlk3%_+I#bq
zp|z(PzXW@qt*$(P>nm0S8z$Q;cbV9h*<@vK+#6IYIMoo!+2ig2Njxr4tQhe=5KY&K
z`h90NJmTp+;sXRbFn+B0T3hppqh^j~Yrj$}GrCVqQeXdzTIVZZ?NrafFVTRZdd|Or
z`C-p_2t9{3u-{RSHe-wWkM)A&<UpTlg)WVU=1Ko)VgI3R+MzSF3wR4S57=rPK$n0H
zqk53)MUA{6zLNGqgU;p+K-Rh3u6hxjm(GE!`obST4xI}6!ai_K<Nyih>6sIa&y@!B
z2L2DF0UT%m+N=KM&;`1fI|>_J>4QcK`$^Tmpt~U+p1l_u@7=xfA-CY%+(v?__#WO8
zo`_|{x;_6sn?&gnKu9dN_L|k~lZ3*={{@pZQ8iPd(7DS731TfYd<!c=a2FiJFyJ}2
z5&!v5__!PKKfl1Iw-FE3^Ua%ko%g``rAKg$l0lYcoVQ@hF?2%xA44agi@LDt>IQlR
zAc!5OPz?Z9;a$+?&x4Gg15%oUY_iMG<NN}W*O0t`WC_VDNM1$qBP1^(c?rqOKmt!y
zGrx!nc!_ubq;vonWHcVI?<<MF0fKtbT;Z>yK2}OamT~8EClxSAp_r3lGEm5a;R*Co
zuL2Y5!T+CaI(qNqrkmQw)g8YAy1`8890Qd)NV(Xr@Nl_83iv3?oP7cv53ulLscamr
zsWgQ4BpTC5sFaoNN&Ry8Yo@8Zg$pN(%Ydw-Y%G>j^{<Z`po0*Je*sn5ag3{WYIS~f
bbmvy}XYda8V$lZTXg$q=`t^0saOVFH+QaYg

literal 0
HcmV?d00001

diff --git a/tests/__pycache__/test_id3.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_id3.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f6454caaaa12f4370d4f9cff053a2e9d83e7604a
GIT binary patch
literal 9261
zcmd5?ON<;x8SdvyPtSXHZLeR+<n0Mz?e*J`m;{^13Bd}nLtqee##24JvpX-Udi~h+
zL=gcLkRthj5JEoe9#@JuAPy)egg9}G5Qi4x037fYak5av_gDAy_Kdw=FOFjGYX0u3
z>c{_A|KDF<{Z((~^R|M&KmGIrw^dM-e^4R$r=##9e&Rg{rZBam)Kz)Zy1J&QO4q2H
zYS@yhr_rKytZt@m%R0T2?dIw^RdI97VCIKvJ<n1s{UfDbU>3{ZSY$TK;#guimdCNo
z3ap4@g_T$t$0=4}Q#ejD^@38Hz6mXq^EEZdoLO*Nm->C-p^$p5KR@sCm9pmwPaGua
zwAqo_!8K~^_StgBZPJ~izcfzhcLqQ4a|lmaRhhb`4i!&Z)O}dN^bfV6>Z{DytuS-9
zGSpaVsQa3)FKI)=H^ho(tePzC8!eStRNvCp4AiB3ZB3O&eNAPV8`@4~Xp)t_*;a9$
z^3rIv{M4HIzWPJ-rGaPTXAE^Ovud;4no4~KYxC!Cl~}`T2-iC}-|w_$y{q2Ebyy_Y
z9k=HNsb;^|YR?CmMrXdy+ulMq&|f)wWL>?bz3{@ix>9-Sz~I_kO;lfap-QJmYhqms
zbkvbJdaKY7!sVW9J6;o1d3<>fdgJdmeq0q^qsJPYRnd`E>d`9e_uN`G&;~59xZ7Y(
zQ(O+T=A}SywY|W8ad1s`e1ivNr`hOq9PSQyv)>&wxEo{~(P+6;6BJ&OuWk2xU*o*b
zgDI!g=iP?qxK{_AMz7(aB}jGTCk>2tuhm~q2O4VyCcdQG39@*T6RLhFSvZm`91aWN
zlaD0}C)O4IG>p7;=-`_$UmO%}tG#satSgqh{@`G9<X6&-#+)hGFAco3-0m>)FXsyS
z-0Ah5@H<%KOgkYI)m95?4j<OS?>Qx>6qKCG51?ht3+dVne$oryPK|lt$RE|vAK{1O
zk@`^cwb&zdc%<R$z5$OkeN+4-@<>y9B<f?2geOXmG-8iTNsmlPk4#4%nNE154v#eP
zbdBZU|9SYo<y(uHVTKik1}hG2KjRy|{k}HLveGc;XZ_rgG0gk<>#8^>^(gy!=ux2-
z(t}NT_G)%bSxSk2qdn(aYbyV*)Cy-k4ef-T%!a12Y)9p6bObus^o<m7RA4*UPQM^6
zC`J|(6Bc9$Q~25VW%0{H%g};dTUelp0^V)1O)Y?pzrz*MhU+T-gVgl%wqj;WEB?HN
z6`FWAwnF0{JP<2(Z()Tlezk=ax;PtKq4V<(#ELzWR`}{-o)v+b5E+_8h9O$gmb661
z-rJFJ-4LbN7K88kd~IR-Fuqxfg<;7ry{`<*h%Du$6h)Tnrqs)1`+bTnk5Ef8wrpS<
z7JQPh;IFq?P>OI|296)SVF1S!R%MU*6^Y}i2**<i9Lq=q{Fa7g_V`^i{0-i9FB+P{
zi#0SkAs|JuD2_n)r6J<w6Ns1i@{2|GBxGqgjR;=$rxCxO0;AaB?}$7@XHO@i_w|%`
zSz3^meQZ%&Pxi6YbKCLTtE^73XJSTi;5;`m;9RU}LH=^1(+0c1VC%3JCpN@s1miR!
zaUz90OCnDK%uwNF5*3KRc5(A^I8fUg&k3xTn$2b2XkOzgF1tyC9mt4!8eHTJA|NMg
z!hR<@sfL{7@TdwWQPrWEn4Nb$dw3usEzgY@O3fZtPs_p_Xiczd<JAsn1i~SfJDyli
z5tTVqhd9hjBdw`;vTlI=%-t#`n9tl1Jc_E11ew>l+iVNTKi+VO!vxyPb3x{n9<iaO
zD`3cl&&rU9l#wO3N@u|2mg&V+5Fy^a3YMp}dwAU$dL41Nc2639V$@$aiTdl<s0t@h
z6-=64a<2*WA^L3H;6?gu=zt?6j!{>f7^8ouLi%?KRJw7=?TEnixa*3*avU*mn~uXl
zPn4Sm#PTr+Vu&#@BpL+$JeT(xo$AI%sS<guws@oKhU9UYPvKrZO=1TLVnBQsi5U{R
zNe}_$dm#cHUJ&Gn?Gfej+C4$E5T8W^Gmcp3FN1~=qjcsw{Y&`#J-jF|#X@7?1_qf=
z>a%v!bDSUrf;`{u1(lZD@Rqsjw7Y{omtU3dqc`q{sO{vB(s_+UmBeEt9w+exi6==s
zMPd#j$v5Ycg@|v4PIe+RAuP;|G1gOIQ%F+h4v&?NCLcIfIG$v)C&z9&6ckwG!4Aiy
zN7T($o8V1^Hx$p1;?LfR$d10Cv+)ISD|wFiJp{2@TPtZ3yjII;DX?5au_fP4DJ{u&
zXVmf9#rvqW!J|{k=m`eSQ?jNmpIK6GtI?;mf;!SC;@=wo9&8xn-{gle|NaDl@gbQ7
zj<|msBS*$p{dC0riGkZ-;JKmB@{)n;5d$wwFz{F9NK%wMqZIRuvX@=WNe2EOwC5!Q
z|5T1E;rLgU=OYF_nls#qfmb31KE<ZDVBj=*k27$xV8<2~Xc6Do)B-T@k4H9uf&cM=
zSg~_UEB*q#Ot!fdns_g^LgPPsAXe<!!U|p7*un~3G8gGj*LD8-1F>Re(h5JlSdjD9
zaR$C1Z3!9p?%R<8{#wBmp)CgA_xakw_F#T*Ef!-2u1N-tY!etb>1DFLV1+8%hkVlp
z14q7z#n^@gH18W(@VDD6Nb=kL5d(jOJ$e@gF0)e+1Fzmi!{6SchNie2YiM#pz=(l|
z5$L`&^h&E`_E^k#ACDNX<S+M1aQSl>86=10U!=2H5{DpybVM=vVX8Vxg6I%GPT~ZK
zlO#@&_!5aPlX#xQX%b%{@l_I(^x<bAHsMq5)vftdWqW+eifFsb&(X_YA@M4SuakI<
z#5YK6@S*9D4^^plQz|6c()a0-Z<2U}#03%;NxVtoTO{5h@of^{AyFssT@n-I<O_Eq
zC!_92k`v@bpT+&+BM6yuyN#RJYU$x)CmMen`i?OXnq<ZK=#MaYdPtavwhI11Sn{+m
zGd)a$jck??r)=J5oDpYvS`T2Qd1Ginhpe9lYtg_U%9uMN1BuM1?b~1jzlh##%bX)x
zqMT!HHBXEOSG<iY3Y1?2Us#ke2j}supJvw6GFP9KdBv>EN93Y>1hS5CuHGIRUU9X=
zcEvGf=KqN?D;b&1o*gW80`tOhuXnAkpX+;d<6L`wAu!%@8%u$9zCTLiV^Tay<I{ZA
z9&ndtHkdK4Yy1e@hrb9hHmAdMkiUe=WtzH-CT#MhRYWnb&*cO@k=rkCFPzw-aoKgk
zoV?xXV?iK1Pe-~<2AGYolD~(rQZIx`x}(QhnE!?IH5c~CSd*LxMN_13E_Hk|rtFk4
zMe0Xcf|2nQlLbZRJErV48~?XYcXF6;(1hewIsLFS-oyQ4aL%D3hV#=84V-C-jQ|BO
zVQN9p_R|29g>=5*TM|qeKLe;x5|V(N0hmhEBEeLS6Ziqz!vy|6C6JQS2Le(>0?B4H
zJ+LK^vJsGw#*cxN0g&>mNaM#q+IfDZoLulaELXg?H*`19_c!IBa|vghz6)n0q}R0Q
zY@UQf1`T|K47sEu6B_WJYOmjIQziooVAbAo*X8YIHA)+Zurj*9YjC6}5(p}83qgF5
z6qy)?W0b7t?g1ryi5?LHf_JFcB{4Cmo}L&~VJB9uq@51zbRs*Qk)3g4Xd{j6f)=pu
zJkI9S5hz{`L80;=;M&bW@$th13W7yA%A_WML8D9(7}E)0RAOLktZWh64uSEn1Teyt
zt&I`JmLtqvfx&j+e}?U5d)Th|Nv-xyX!Yy6YXv}G9qEO!?}zuP8Ldq3JHHaIOg9^R
zmOy)PTR08O%L^FjZfbCoKs{VHMVHd8dZ&M-ZZ7v4&E}@44Gg+7P>%*iw~wV|{Swx|
zb=*<Q-#`2Y&}R}mQxZEJ0=q+&Iv}2uOcKQP?+l32Bp|ennsD6U@8I4sfY68$j~c&3
z!BZBoDS?tdw0VN1<`I*zgfQBofDIJU76lti4q3TH0jZ(H76n?;Gg)3v84H_kQ7A@R
z6tLl9>n#d$V?renr`x<O<o936U2q48n%J5!?=7rk!_t*DLm~IN>m{1Pl57gBvr)nl
zTQy9|;EL@zQZ2K+kNyZccJc$ueIpK8BEK&_FU3(onP^2dR87r&nldI=^!dAJt?dY`
zQF2;F@?f_U?t_>O6TTp5v)sLc-5J;e5m(VXQr5}jcaR#;UJD@&2{Q2x1Ww?PiSl43
zuAIe=if+FrX2T5<T&HW~ph4kTCOPH&Lb4JWg{7xSZ4-9O;o%wF5m?WI79m%B8X;K`
aGZ2<iQ7kxcPP26@ZSA$Dttl&K75@i^PN@0-

literal 0
HcmV?d00001

diff --git a/tests/__pycache__/test_randomforest.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_randomforest.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f961ab0381a2e9e41e597e6bf127155bbcfa43df
GIT binary patch
literal 3370
zcmb_fTW{RP6`tX3xm@mQwU!;pcI=I7Ct{mQmSoFzW4U(Yq!+Y)a1)>)P!JS{yQ0J;
zw=<Met0Yh~eQ1FO&<`*Q?MndlxzBy*bAQ1+73h<I{sI97dd}?1V4buLS}(zG=W;mb
z%pA`54L@$T9Rj~=fBJ3w)FR|>SgHSXs62#Q`~-jzMpNQb^{<U|jZiW&e3MRlEWZIg
zT56A)zN6aov^8>lmy+0J1~WgSew$gW@oVCDn9Z8-KgZ~giRYZa=;Vn<W%K==c(9%4
zqJWC^!+bc5`N72^7KK<v40xEad^E^8R942%(Q1^l{WOknh_hc83Jtj5hg<wzgU~6{
zn9htBdPNFyM436E6)m(~y`&`s&8*M#N-H(iSR%|`B9+c)Wt4hp>}i!*n&LNwab&V)
zX$~lJuzjFS3}~}TeL~g0F`=yWLc2gJi@B^_S_y@6qi8^{T{b54Q~E1dIs?Xr+l0|I
z)&XyGaCeo*`I$#Uc|27fd&=Xv*W+<WDjU2mERo0Lr<bc{+1zci^GjscshrY2YL(7}
zQgTRt)`OLCOIxjrR?(8~w%G+0;~Vu=Ii%u9MfqCSg)PFh#4fT+Y;kB+twKBMlv>%E
zXqC$@vp0vB5w|q=tg2nM4>j=}6~mRX4Y|3BJ(wHTFXoQA6S8N4g$ow*r8}XA8ovN#
z3(J`XHduytfxV?N*J0P#*UFB{+}td4bG6L1E0bM^>jrz9y~CEjQgna)uhIRX7Tq8J
z&*%tjC+~^WzyEmSqZ8b{$GU8W=`iO>u`}{}aTac;@l&;nK2*ENceDLbkPm`_$FVr*
zvakq6T&zYRU%~P*Y%!6faaKqx%CkW-<Tj2=PqnSBV|viLu{?gh=868+Rv(MEJaMc^
z9ol?=Tc@2+h?p0uZ_^XlvnieUS(xsJMUrRIEO?k?zWpeQ_IVgRKk;FBkDk&89zB>p
z8~wrA;6B(xpwbQkF^;1k;1ujnfW3$`c9P-FiJ^)kn4Q$Olc8_!XJHiiIsov6mSixl
ziuxu*on&g@4T#Jc^Oz+O2IZ+4+{77d9MorUdpd*LzWGe~0&XFauKT7Kg=s4FH2=iw
zNo~xe&Et>-k$5JxXj|%oq>#?T@pHvuA(!((1P=r}9`h(4jY9~w8HjKYV~gxOQi}$W
ze873m<+%VTZxj|m{PS@dX48d(6~J(VKw6OAVUkHJ9FOCS`Mp6L7W+I7lF>NlMVLjg
zG{sIhj%8yuN$El`!S;TV7D*<gmF5tSkc)xX$@f#H0t<#|z8$7P7LH=C%Ud{CjSZv;
zlpCkAg(FO}d$V5Is8`mfm1+35>y<m80&$cGm}J0#!G$z1v!D_6R%t_cY6koY`1fm0
z*QS-}(6{Q9&11qJfc5FU)sNxj6RRQ~BzvomW3gA{<JIU)WR#|Sxw6RXU(g%OK@g=d
z<7ALTDhId|#4Z5QGz!;0EYs1tnhP{<!~HICNr$+!`>%D~pe|e;twSBvW1U&*U1+!A
zS&RHYJ!@;Pw(y7G?F(v$fhe_G_#f1cH5IozGj0cU0>%5C;;oj_ANSwtPkW|#9X9us
z6c3b+%`0!cx{`>g+MQG07G94xb{?(^><v(p^T5<LTdJC%B~8#08??kJowB(|Dx+{p
z<5OC-*u}~%Tcx{4X1YRVD}cIk344^TTrOHiuF@4Mo`FTX0M$IC{FlhwSO#4Im8x02
zKr7T%u=*UWunbmjvMV*KKP#)Ivigg%f-+cLQRUX`lmWWMuD&qgWYJ-L_SS#UDg#a#
zEx6mDny3obo^TUhl8;UhIi8LV7HV7%8-A$xo;R`o9Kr&Cum9-L2Pb$+L`uG2r{w!*
zl+5SQdLE&NfJC80!grp=LpZA89_KE$b`X{jE+Sk)xD0T@5O9Zshxd^5foYvz%nJRf
zv;bc(FP{m*H<kBwPk5eF^{27iMRpFig`x^+6(JwSg=g}s=mrmkNa*XlKP%lmn5&7?
z8Vv6npj$V+4!@31+(396;T?o!1P|fs2;V?>7hw(ILxgpN4TM_&GtT6<v0)S84#Hi8
zdkEh`cn@I<;kyX0vfPZ=rh(q6^WSEj^6vSH(5Ga$wx;NB3g3oNW&g|B43a)e4^B=z
z2B<L^?P{+u7k!1<fSr)bkg<^QEb@EBTKs!3j@Om;nZBrnkxRi;|5m1xftO;1$DhE-
z1hnsElWfe|)O!2Y7|tr8PzjOEm(0ykcvWuv#g~mMproTb6Dz6uaNv0UL1n|Q2t}JJ
huG-R|MsT%0_WkK+!~;A`2z*Oz(jzwVwC3n`|DWgvaB%<t

literal 0
HcmV?d00001

diff --git a/tests/__pycache__/test_regression.cpython-38-pytest-7.1.2.pyc b/tests/__pycache__/test_regression.cpython-38-pytest-7.1.2.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4991e46540495332768fdd177945d0aabf5d009a
GIT binary patch
literal 1752
zcmb_c&2HO95Z)yzijpYBcGJ}Ei9Hl3i$F?ZC%ME$ilhY!6h5>L3h=_v+NI2zKf>;+
zi4E$~ra&)!gP^dEex*I8r@n$O?ab0r<ihBw1a>$xyV(8ao1Yi`ewV;EoBqb%*@XOw
z#`*_7@)VYQ34#$ua}rVWw+h=LloU?XqRoyQwPDA~y`mF!jnB?|g&+BpaGyD>^*fFF
z%w_F2BpNV}b>M%Cby*Mo8;pKWLjNy#g&c%bcb*;d^r)(&0>k~bnoPJj+g4mEIYJo=
zJ`r5XtSX1oQ#?~tY?kveUa<TuP+G8_!IF1DC~{62UC=pE){k}#V40m!1I?aO<(#*e
zyPyaiz_bs}Hd&$)$<=65<>~HFy;i!D<daHd>bTI|?^YNNFD&hjt1`_d+Lc+(OEvo%
z9(?!q*WhTD<t%uQH%KcHlvR<HNgkv;Q8Nf6NJ<uzvx19k9H>N0xC$`NfK?^GaJ4mM
z+7mos@mT((t?`kz(@beMH_T`!E7J-vSS-~vz98Z@Jbw9j^g?nWN0O)6$>=$kC#sr`
z#!F@mkvGw)?-`26dk<s48ed_Jmsn%K8ed_J8>}8O?1CV)OK($g2ekh+6_?jiv4^P;
zm|B649*Q=|*$*IYBwPv3ud%*P_A;vf%z(fy5t}HG*+zT_ntpO4RqG5bAGm?G0o))>
z0~*>KYW*#?!FP>1<QC&IRs07i@2j|}U#MJD&GoX9t=eMl4pjFJncJ*AcWS$KPON#W
zZpk;M%DuXkQr1C#YAqb_xwXB(4sdH{L0R{$b%)Gd)?<F{W)$?cYQwHqw-@vm`ZJ6G
z2kwT|nmej<-evt&-wY1KM}X3#C$hhJzIzx_(LoPJViFe8OKX2Wq-R^7el|V5AIe~V
zKR|Ual%W;b;6t%@Hb^8?urhm(LW#~tv(Mog%(Hxzsqt}EP6Ab}_m@fcs(Hem=;6CQ
ziarWtU3Z^OPfh9)p*Q1klIJi|rea(b(?oFHiDi;<^ytBt1_Ml*uY{<C{s5bzNL0*U
zPxGWq6zqswc<}~^&=XszW30LbLy6~658jHKNbap0yX(e-#%S(-xNbcDcg=lbfUm-j
zRkbz_V+<erPhuruKYDb7`j9UV)?MP00r9B_U@zR%9!@8fl~Vf%a%Jtr4L!pKHjY`r
zU%}i1YE~}YzVeBW;kL+~LfI$M(5*YGF(Ysc8|I_!m2(J07gZ^T%>WZNo-rgMbkhU|
i;#%mY@l4NoPnu!>1%<N`S@*~m@u*LIt806%=luh5f#2i+

literal 0
HcmV?d00001

diff --git a/tests/global-unit-test.py b/tests/global-unit-test.py
deleted file mode 100644
index a519828..0000000
--- a/tests/global-unit-test.py
+++ /dev/null
@@ -1,339 +0,0 @@
-import gc
-import pandas as pd
-from chefboost import Chefboost as cb
-from chefboost.commons.logger import Logger
-
-pd.set_option("display.max_rows", 500)
-pd.set_option("display.max_columns", 500)
-pd.set_option("display.width", 1000)
-
-logger = Logger(module="tests/global-unit-test.py")
-
-# ----------------------------------------------
-
-parallelism_cases = [True]
-# parallelism_cases = [False]
-# parallelism_cases = [False, True]
-
-if __name__ == "__main__":
-
-    for enableParallelism in parallelism_cases:
-
-        logger.info("*************************")
-        logger.info(f"enableParallelism is set to {enableParallelism}")
-        logger.info("*************************")
-
-        logger.info("no config passed")
-        df = pd.read_csv("dataset/golf.txt")
-        model = cb.fit(df)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Validation set case")
-
-        df = pd.read_csv("dataset/golf.txt")
-        validation_df = pd.read_csv("dataset/golf.txt")
-        config = {"algorithm": "ID3", "enableParallelism": enableParallelism}
-        model = cb.fit(df, config, validation_df=validation_df)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Feature importance")
-        # decision_rules = model["trees"][0].__dict__["__name__"]+".py"
-        decision_rules = model["trees"][0].__dict__["__spec__"].origin
-        logger.info(cb.feature_importance(decision_rules))
-
-        logger.info("-------------------------")
-
-        logger.info("ID3 for nominal features and nominal target:")
-        df = pd.read_csv("dataset/golf.txt")
-
-        config = {"algorithm": "ID3", "enableParallelism": enableParallelism}
-        model = cb.fit(df, config)
-
-        validation_df = pd.read_csv("dataset/golf.txt")
-
-        logger.info("External validation")
-        cb.evaluate(model, validation_df)
-
-        cb.save_model(model)
-        logger.info("built model is saved to model.pkl")
-
-        restored_model = cb.load_model("model.pkl")
-        logger.info("built model is restored from model.pkl")
-
-        instance = ["Sunny", "Hot", "High", "Weak"]
-        prediction = cb.predict(restored_model, instance)
-
-        logger.info(f"prediction for {instance} is {prediction}")
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("ID3 for nominal/numeric features and nominal target:")
-        config = {"algorithm": "ID3", "enableParallelism": enableParallelism}
-        model = cb.fit(pd.read_csv("dataset/golf2.txt"), config)
-
-        instance = ["Sunny", 85, 85, "Weak"]
-        prediction = cb.predict(model, instance)
-        logger.info(f"prediction for {instance} is {prediction}")
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("C4.5 for nominal/numeric features and nominal target:")
-        config = {"algorithm": "C4.5", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/golf2.txt"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("CART for nominal/numeric features and nominal target:")
-        config = {"algorithm": "CART", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/golf2.txt"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("CHAID for nominal features and nominal target:")
-        config = {"algorithm": "CHAID", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/golf.txt"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("CHAID for nominal/numeric features and nominal target:")
-        config = {"algorithm": "CHAID", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/golf2.txt"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("regression tree for nominal features, numeric target")
-        config = {"algorithm": "Regression", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/golf3.txt"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("regression tree for nominal/numeric features, numeric target")
-        config = {"algorithm": "Regression", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/golf4.txt"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info(
-            "algorithm must be regression tree for numetic target. set any other algorithm."
-        )
-        config = {"algorithm": "ID3", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/golf4.txt"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("ID3 for nominal features and target (large data set)")
-        config = {"algorithm": "ID3", "enableParallelism": enableParallelism}
-        model = cb.fit(pd.read_csv("dataset/car.data"), config)
-
-        instance = ["vhigh", "vhigh", 2, "2", "small", "low"]
-        prediction = cb.predict(model, instance)
-        logger.info(prediction)
-
-        instance = ["high", "high", "4", "more", "big", "high"]
-        prediction = cb.predict(model, instance)
-        logger.info(prediction)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("C4.5 for nominal features and target (large data set)")
-        config = {"algorithm": "C4.5", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/car.data"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("CART for nominal features and target (large data set)")
-        config = {"algorithm": "CART", "enableParallelism": enableParallelism}
-        cb.fit(pd.read_csv("dataset/car.data"), config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("CHAID for nominal features and target (large data set)")
-        config = {"algorithm": "CHAID", "enableParallelism": enableParallelism}
-        df = pd.read_csv("dataset/car.data")
-        cb.fit(df, config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Iris with regular decision tree")
-        config = {"algorithm": "ID3"}
-        df = pd.read_csv(
-            "dataset/iris.data",
-            names=["Sepal length", "Sepal width", "Petal length", "Petal width", "Decision"],
-        )
-        model = cb.fit(df, config)
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Adaboost")
-        config = {
-            "algorithm": "ID3",
-            "enableAdaboost": True,
-            "num_of_weak_classifier": 10,
-            "enableParallelism": False,
-        }
-        df = pd.read_csv("dataset/adaboost.txt")
-        validation_df = df.copy()
-
-        model = cb.fit(df, config, validation_df=validation_df)
-
-        instance = [4, 3.5]
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Regular GBM")
-        config = {
-            "algorithm": "CART",
-            "enableGBM": True,
-            "epochs": 10,
-            "learning_rate": 1,
-            "enableParallelism": enableParallelism,
-        }
-        df = pd.read_csv("dataset/golf4.txt")
-        validation_df = pd.read_csv("dataset/golf4.txt")
-        model = cb.fit(df, config, validation_df=validation_df)
-
-        instance = ["Sunny", 85, 85, "Weak"]
-        prediction = cb.predict(model, instance)
-        logger.info(f"prediction for {instance} is {prediction}")
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("GBM for classification")
-        config = {
-            "algorithm": "ID3",
-            "enableGBM": True,
-            "epochs": 10,
-            "learning_rate": 1,
-            "enableParallelism": enableParallelism,
-        }
-
-        df = pd.read_csv(
-            "dataset/iris.data",
-            names=["Sepal length", "Sepal width", "Petal length", "Petal width", "Decision"],
-        )
-        validation_df = df.copy()
-
-        model = cb.fit(df, config, validation_df=validation_df)
-
-        instance = [7.0, 3.2, 4.7, 1.4]
-        prediction = cb.predict(model, instance)
-        logger.info(f"prediction for {instance} is {prediction}")
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Random forest")
-        config = {
-            "algorithm": "ID3",
-            "enableRandomForest": True,
-            "num_of_trees": 3,
-            "enableParallelism": enableParallelism,
-        }
-        df = pd.read_csv("dataset/car.data")
-        validation_df = pd.read_csv("dataset/car.data")
-        model = cb.fit(
-            pd.read_csv("dataset/car.data"),
-            config
-            # , validation_df = validation_df
-        )
-
-        logger.info("Feature importance of random forest")
-        decision_rules = []
-        for tree in model["trees"]:
-
-            decision_rule = tree.__dict__["__spec__"].origin
-            decision_rules.append(decision_rule)
-
-        df = cb.feature_importance(decision_rules)
-        logger.info(df)
-
-        instance = ["vhigh", "vhigh", 2, "2", "small", "low"]
-
-        prediction = cb.predict(model, instance)
-        logger.info(f"prediction for {instance} is {prediction}")
-
-        instance = ["high", "high", 4, "more", "big", "high"]
-
-        prediction = cb.predict(model, instance)
-        logger.info(f"prediction for {instance} is {prediction}")
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Random forest for regression")
-
-        config = {
-            "algorithm": "ID3",
-            "enableRandomForest": True,
-            "num_of_trees": 5,
-            "enableMultitasking": False,
-            "enableParallelism": enableParallelism,
-        }
-
-        df = pd.read_csv("dataset/car_reg.data")
-        model = cb.fit(pd.read_csv("dataset/car_reg.data"), config)
-
-        validation_df = pd.read_csv("dataset/car_reg.data")
-        cb.evaluate(model, validation_df)
-
-        instance = ["high", "high", 4, "more", "big", "high"]
-        prediction = cb.predict(model, instance)
-        logger.info(f"prediction for {instance} is {prediction}")
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-        logger.info("Is there any none predictions?")
-        config = {"algorithm": "C4.5", "enableParallelism": enableParallelism}
-        model = cb.fit(pd.read_csv("dataset/none_train.txt"), config)
-        test_set = pd.read_csv("dataset/none_test.txt")
-        instance = test_set.iloc[3]
-        logger.info(f"{instance.values} -> {cb.predict(model, instance)}")
-
-        gc.collect()
-
-        logger.info("-------------------------")
-
-    logger.info("-------------------------")
-    logger.info("unit tests completed successfully...")
diff --git a/tests/test_adaboost.py b/tests/test_adaboost.py
new file mode 100644
index 0000000..25d928b
--- /dev/null
+++ b/tests/test_adaboost.py
@@ -0,0 +1,27 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_adaboost.py")
+
+
+def test_adaboost():
+    config = {
+        "algorithm": "Regression",
+        "enableAdaboost": True,
+        "num_of_weak_classifier": 10,
+        "enableParallelism": False,
+    }
+    df = pd.read_csv("dataset/adaboost.txt")
+    validation_df = df.copy()
+
+    model = cb.fit(df, config, validation_df=validation_df, silent=True)
+
+    instance = [4, 3.5]
+
+    prediction = cb.predict(model, instance)
+
+    assert prediction == -1
+    assert len(model["trees"]) > 1
+
+    logger.info("✅ adaboost model restoration test done")
diff --git a/tests/test_c45.py b/tests/test_c45.py
new file mode 100644
index 0000000..bec68ea
--- /dev/null
+++ b/tests/test_c45.py
@@ -0,0 +1,24 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_c45.py")
+
+
+def test_c45_for_nominal_features_and_nominal_target():
+    df = pd.read_csv("dataset/golf.txt")
+    model = cb.fit(df, config={"algorithm": "C4.5"}, silent=True)
+    assert model["config"]["algorithm"] == "C4.5"
+    logger.info("✅ build c4.5 for nominal and numeric features and nominal target test done")
+
+def test_c45_for_nominal_and_numeric_features_and_nominal_target():
+    df = pd.read_csv("dataset/golf2.txt")
+    model = cb.fit(df, config={"algorithm": "C4.5"}, silent=True)
+    assert model["config"]["algorithm"] == "C4.5"
+    logger.info("✅ build c4.5 for nominal and numeric features and nominal target test done")
+
+def test_large_dataset():
+    df = pd.read_csv("dataset/car.data")
+    model = cb.fit(df, config={"algorithm": "C4.5"}, silent=True)
+    assert model["config"]["algorithm"] == "C4.5"
+    logger.info("✅ build c4.5 for large dataset test done")
\ No newline at end of file
diff --git a/tests/test_cart.py b/tests/test_cart.py
new file mode 100644
index 0000000..8e1c6d9
--- /dev/null
+++ b/tests/test_cart.py
@@ -0,0 +1,25 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_cart.py")
+
+
+def test_cart_for_nominal_features_and_nominal_target():
+    df = pd.read_csv("dataset/golf.txt")
+    model = cb.fit(df, config={"algorithm": "CART"}, silent=True)
+    assert model["config"]["algorithm"] == "CART"
+    logger.info("✅ build cart for nominal and numeric features and nominal target test done")
+
+
+def test_cart_for_nominal_and_numeric_features_and_nominal_target():
+    df = pd.read_csv("dataset/golf2.txt")
+    model = cb.fit(df, config={"algorithm": "CART"}, silent=True)
+    assert model["config"]["algorithm"] == "CART"
+    logger.info("✅ build cart for nominal and numeric features and nominal target test done")
+
+def test_large_dataset():
+    df = pd.read_csv("dataset/car.data")
+    model = cb.fit(df, config={"algorithm": "CART"}, silent=True)
+    assert model["config"]["algorithm"] == "CART"
+    logger.info("✅ build c4.5 for large dataset test done")
\ No newline at end of file
diff --git a/tests/test_chaid.py b/tests/test_chaid.py
new file mode 100644
index 0000000..45fba69
--- /dev/null
+++ b/tests/test_chaid.py
@@ -0,0 +1,26 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_c45.py")
+
+
+def test_c45_for_nominal_features_and_nominal_target():
+    df = pd.read_csv("dataset/golf.txt")
+    model = cb.fit(df, config={"algorithm": "CHAID"}, silent=True)
+    assert model["config"]["algorithm"] == "CHAID"
+    logger.info("✅ build chaid for nominal features and nominal target test done")
+
+
+def test_c45_for_nominal_and_numeric_features_and_nominal_target():
+    df = pd.read_csv("dataset/golf2.txt")
+    model = cb.fit(df, config={"algorithm": "CHAID"}, silent=True)
+    assert model["config"]["algorithm"] == "CHAID"
+    logger.info("✅ build chaid for nominal and numeric features and nominal target test done")
+
+
+def test_large_dataset():
+    df = pd.read_csv("dataset/car.data")
+    model = cb.fit(df, config={"algorithm": "CHAID"}, silent=True)
+    assert model["config"]["algorithm"] == "CHAID"
+    logger.info("✅ build c4.5 for large dataset test done")
diff --git a/tests/test_gbm.py b/tests/test_gbm.py
new file mode 100644
index 0000000..6800f4c
--- /dev/null
+++ b/tests/test_gbm.py
@@ -0,0 +1,48 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_gbm.py")
+
+
+def test_gbm_regression():
+    config = {
+        "algorithm": "Regression",
+        "enableGBM": True,
+        "epochs": 10,
+        "learning_rate": 1,
+    }
+
+    df = pd.read_csv("dataset/golf4.txt")
+    validation_df = pd.read_csv("dataset/golf4.txt")
+
+    model = cb.fit(df, config, validation_df=validation_df, silent=True)
+    assert model["config"]["algorithm"] == "Regression"
+    assert len(model["trees"]) > 1
+
+    features = ["Sunny", 85, 85, "Weak"]
+    target = 25
+    prediction = cb.predict(model, features)
+    assert abs(prediction - target) < 1
+
+
+def test_gbm_classification():
+    config = {
+        "algorithm": "ID3",
+        "enableGBM": True,
+        "epochs": 10,
+        "learning_rate": 1,
+    }
+
+    df = pd.read_csv(
+        "dataset/iris.data",
+        names=["Sepal length", "Sepal width", "Petal length", "Petal width", "Decision"],
+    )
+    validation_df = df.copy()
+
+    model = cb.fit(df, config, validation_df=validation_df, silent=True)
+
+    instance = [7.0, 3.2, 4.7, 1.4]
+    target = "Iris-versicolor"
+    prediction = cb.predict(model, instance)
+    assert prediction == target
diff --git a/tests/test_id3.py b/tests/test_id3.py
new file mode 100644
index 0000000..d83cbf9
--- /dev/null
+++ b/tests/test_id3.py
@@ -0,0 +1,114 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_id3.py")
+
+
+def test_build_id3_with_no_config():
+    df = pd.read_csv("dataset/golf.txt")
+    model = cb.fit(df, silent=True)
+    assert model["config"]["algorithm"] == "ID3"
+    logger.info("✅ standard id3 test done")
+
+
+def test_build_id3_with_internal_validation_df():
+    df = pd.read_csv("dataset/golf.txt")
+    validation_df = pd.read_csv("dataset/golf.txt")
+
+    model = cb.fit(df, validation_df=validation_df, silent=True)
+
+    assert model["config"]["algorithm"] == "ID3"
+
+    validation_eval_results = model["evaluation"]["validation"]
+
+    assert validation_eval_results.get("Accuracy", 0) > 99
+    assert validation_eval_results.get("Precision", 0) > 99
+    assert validation_eval_results.get("Recall", 0) > 99
+    assert validation_eval_results.get("F1", 0) > 99
+    assert validation_eval_results.get("Instances", 0) == validation_df.shape[0]
+    assert "Confusion matrix" in validation_eval_results.keys()
+    assert "Labels" in validation_eval_results.keys()
+
+    # decision_rules = model["trees"][0].__dict__["__name__"]+".py"
+    decision_rules = model["trees"][0].__dict__["__spec__"].origin
+
+    fi_df = cb.feature_importance(decision_rules, silent=True)
+    assert fi_df.shape[0] == 4
+
+    logger.info("✅ id3 test with internal validation data frame done")
+
+
+def test_build_id3_with_external_validation_set():
+    df = pd.read_csv("dataset/golf.txt")
+    model = cb.fit(df, silent=True)
+
+    assert model["config"]["algorithm"] == "ID3"
+
+    validation_df = pd.read_csv("dataset/golf.txt")
+    results = cb.evaluate(model, validation_df, silent=True)
+
+    assert results.get("Accuracy", 0) > 99
+    assert results.get("Precision", 0) > 99
+    assert results.get("Recall", 0) > 99
+    assert results.get("F1", 0) > 99
+    assert results.get("Instances", 0) == validation_df.shape[0]
+    assert "Confusion matrix" in results.keys()
+    assert "Labels" in results.keys()
+
+    logger.info("✅ id3 test with external validation data frame done")
+
+
+def test_model_restoration():
+    df = pd.read_csv("dataset/golf.txt")
+    model = cb.fit(df, silent=True)
+    assert model["config"]["algorithm"] == "ID3"
+
+    cb.save_model(model)
+
+    restored_model = cb.load_model("model.pkl")
+
+    assert restored_model["config"]["algorithm"] == "ID3"
+
+    instance = ["Sunny", "Hot", "High", "Weak"]
+
+    prediction = cb.predict(restored_model, instance)
+    assert prediction == "No"
+
+    logger.info("✅ id3 model restoration test done")
+
+
+def test_build_id3_for_nominal_and_numeric_features_nominal_target():
+    df = pd.read_csv("dataset/golf2.txt")
+    model = cb.fit(df, silent=True)
+
+    assert model["config"]["algorithm"] == "ID3"
+
+    instance = ["Sunny", 85, 85, "Weak"]
+    prediction = cb.predict(model, instance)
+    assert prediction == "No"
+    logger.info("✅ build id3 for nominal and numeric features and nominal target test done")
+
+
+def test_large_data_set():
+    df = pd.read_csv("dataset/car.data")
+    model = cb.fit(df, silent=True)
+
+    assert model["config"]["algorithm"] == "ID3"
+
+    instance = ["vhigh", "vhigh", 2, "2", "small", "low"]
+    prediction = cb.predict(model, instance)
+    assert prediction == "unacc"
+
+    instance = ["high", "high", "4", "more", "big", "high"]
+    prediction = cb.predict(model, instance)
+    assert prediction == "acc"
+
+
+def test_iris_dataset():
+    df = pd.read_csv(
+        "dataset/iris.data",
+        names=["Sepal length", "Sepal width", "Petal length", "Petal width", "Decision"],
+    )
+    model = cb.fit(df, silent=True)
+    assert model["config"]["algorithm"] == "ID3"
diff --git a/tests/test_randomforest.py b/tests/test_randomforest.py
new file mode 100644
index 0000000..3b244a5
--- /dev/null
+++ b/tests/test_randomforest.py
@@ -0,0 +1,55 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_randomforest.py")
+
+
+def test_randomforest_for_classification():
+    config = {
+        "algorithm": "ID3",
+        "enableRandomForest": True,
+        "num_of_trees": 3,
+    }
+    df = pd.read_csv("dataset/car.data")
+
+    model = cb.fit(df, config, silent=True)
+
+    assert model["config"]["algorithm"] == "ID3"
+    assert model["evaluation"]["train"]["Accuracy"] > 90
+
+    # feature importance
+    decision_rules = []
+    for tree in model["trees"]:
+        decision_rule = tree.__dict__["__spec__"].origin
+        decision_rules.append(decision_rule)
+
+    df = cb.feature_importance(decision_rules, silent=True)
+    assert df.shape[0] == 6
+
+    # this is not in train data
+    instance = ["high", "high", 4, "more", "big", "high"]
+    prediction = cb.predict(model, instance)
+    assert prediction in ["unacc", "acc"]
+
+    instance = ["vhigh", "vhigh", 2, "2", "small", "low"]
+    prediction = cb.predict(model, instance)
+    assert prediction in ["unacc", "acc"]
+
+
+def test_randomforest_for_regression():
+    config = {
+        "algorithm": "ID3",
+        "enableRandomForest": True,
+        "num_of_trees": 5,
+    }
+    df = pd.read_csv("dataset/car_reg.data")
+    model = cb.fit(df, config, silent=True)
+
+    assert model["evaluation"]["train"]["MAE"] < 10
+    assert model["config"]["algorithm"] == "Regression"
+
+    instance = ["high", "high", 4, "more", "big", "high"]
+    target = 100
+    prediction = cb.predict(model, instance)
+    assert abs(prediction - target) < 30
diff --git a/tests/test_regression.py b/tests/test_regression.py
new file mode 100644
index 0000000..35ffea4
--- /dev/null
+++ b/tests/test_regression.py
@@ -0,0 +1,27 @@
+import pandas as pd
+from chefboost import Chefboost as cb
+from chefboost.commons.logger import Logger
+
+logger = Logger(module="tests/test_regression.py")
+
+
+def test_c45_for_nominal_features_and_numeric_target():
+    df = pd.read_csv("dataset/golf3.txt")
+    _ = cb.fit(df, config={"algorithm": "Regression"}, silent=True)
+    logger.info("✅ build regression for nominal features and numeric target test done")
+
+
+def test_c45_for_nominal_and_numeric_features_and_numeric_target():
+    df = pd.read_csv("dataset/golf4.txt")
+    _ = cb.fit(df, config={"algorithm": "Regression"}, silent=True)
+    logger.info(
+        "✅ build regression tree for nominal and numeric features and numeric target test done"
+    )
+
+
+def test_switching_to_regression_tree():
+    df = pd.read_csv("dataset/golf4.txt")
+    config = {"algorithm": "ID3"}
+    model = cb.fit(df, config, silent=True)
+    assert model["config"]["algorithm"] == "Regression"
+    logger.info("✅ switching to regression tree test done")