enose_2025/TrainerClass.py

import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib.cm as cm
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['text.usetex'] = True

from sklearn.preprocessing import KBinsDiscretizer
from sklearn.model_selection import StratifiedGroupKFold, StratifiedShuffleSplit, GridSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import MinMaxScaler

from xgboost import XGBRegressor

# from ray import tune
# import ray
# from keras.callbacks import TensorBoard
# from keras.models import Sequential
# from keras.callbacks import EarlyStopping
# from keras.layers import Dense, BatchNormalization, Dropout
# from kerastuner.tuners import RandomSearch, Hyperband, GridSearch

from datetime import datetime
import enlighten
import logging
import zipfile
import random
import joblib
import pickle
import time
import json
import os


def get_seed():
  return random.randint(0, 2**32 - 1)

class eNoseTrainer:
    def __init__(self, loader, test_size=0.2, debug=False):
        self.ledger = pd.DataFrame(columns=["node", "ts", "Dataset", "Samples", "Target", "Train Size", "Train Ratio", "Model", "Params", "Ratio", "Train mse", "mse", "mae", "rmse"])
        self.loader = loader
        self.name = self.loader.label_file
        self.state = dict()

        os.makedirs(self.name, exist_ok=True)
        self.start = int(time.time())

        log_format = '%(asctime)s | %(levelname)-8s | %(name)-15s | %(message)s'
        date_format = '%Y-%m-%d %H:%M:%S'
        logging.basicConfig(format=log_format, datefmt=date_format)

        target_log = '{}/load-{}.log'.format(self.name, self.start)
        fh = logging.FileHandler(target_log)

        self.debug = debug

        self.logger = logging.getLogger("eNoseTrainer")
        if self.debug:
            self.logger.setLevel(logging.DEBUG)
            fh.setLevel(logging.DEBUG)
        else:
            self.logger.setLevel(logging.INFO)
            fh.setLevel(logging.INFO)
        self.logger.addHandler(fh)

        self.ratio = test_size

        self.loader.stats()
        self.loadCheckPoint()

    def loadCheckPoint(self):
        if not os.path.isfile('{}/Simulaciones.xlsx'.format(self.name)):
            self.saveCheckPoint()

        with pd.ExcelFile('{}/Simulaciones.xlsx'.format(self.name)) as xls:
            self.ledger = pd.read_excel(xls, sheet_name='Historial')
            self.trained = self.ledger.shape[0]

        # with open('{}/vars.pickle'.format(self.name), 'rb') as pfile:
        #     self.ratio, self.state  = pickle.load(pfile)

    def saveCheckPoint(self):
        with pd.ExcelWriter('{}/Simulaciones.xlsx'.format(self.name), engine='xlsxwriter') as xls:
            self.ledger.to_excel(xls, sheet_name='Historial', index=False)

        # with open('{}/vars.pickle'.format(self.name), 'wb') as pfile:
        #     pickle.dump((self.ratio, self.state), pfile, protocol=pickle.HIGHEST_PROTOCOL)

        self.trained = self.ledger.shape[0]

    def wrap_and_save(self):
        self.logger.info("{:=^60}".format(' Saving Summary and Wrap the output in a ZipFile '))

        with pd.ExcelWriter('{}/Summary.xlsx'.format(self.name) , engine='xlsxwriter') as xls:
            self.get_best_models().to_excel(xls, sheet_name='Results')

        with zipfile.ZipFile('{}-{}.zip'.format(self.name, self.start), 'w', zipfile.ZIP_DEFLATED) as zipf:
            for root, dirs, files in os.walk(self.name):
                for file in files:
                    zipf.write(os.path.join(root, file))

    def row_exists(self, dataset, model):
        search_result = self.ledger[(self.ledger["Dataset"]==dataset) & (self.ledger["Target"]==self.loader.target) & (self.ledger["Model"]==model) & (self.ledger["Ratio"]==self.ratio)].shape[0] > 0
        self.logger.debug(f'Looking for {dataset}, {model}, {self.loader.target}, {self.ratio} => {search_result} {self.ledger.shape}')
        return search_result

    def model_A(self, hp):

        model = Sequential()
        model.add(Dense(units=hp.Int('units_input', min_value=48, max_value=56, step=8), input_dim=self.nvars, activation='relu'))
        model.add(BatchNormalization())
        model.add(Dropout(rate=hp.Float('dropout_input', min_value=0.1, max_value=0.1, step=0.1)))

        model.add(Dense(units=hp.Int('units_hidden', min_value=32, max_value=48, step=8), activation='relu'))
        model.add(BatchNormalization())
        model.add(Dropout(rate=hp.Float('dropout_hidden', min_value=0.4, max_value=0.4, step=0.1)))

        model.add(Dense(1, activation='sigmoid'))

        model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy', AUC()])

        return model

    def train_and_score_model_keras(self, X_train, X_test, Y_train, Y_test, seed, label):
#        set_random_seed(seed)
        ntrials = 6
        tuner = RandomSearch(
            self.get_model_train_keras,
            objective='val_loss', #val_loss
#            seed=seed,
            max_trials=ntrials,
#            executions_per_trial=1,  # Número de ejecuciones por cada configuración
            directory=self.name,
            project_name='{}-{}'.format(label,seed))

        self.logger.info("{:~^60}".format(' {}-{} '.format(label,seed)))


        search_dir = "{}/keras-tuner-{}/".format(self.name,label)
        os.makedirs(search_dir, exist_ok=True)
        search_callback = TensorBoard(log_dir=search_dir)
        early_stopping_search = EarlyStopping(monitor='val_loss', patience=13, min_delta=0.005, start_from_epoch=7, restore_best_weights=True)
        tuner.search(X_train, Y_train, epochs=150, batch_size=10, validation_data=(X_test, Y_test), callbacks=[early_stopping_search, search_callback])
        best_hps = tuner.get_best_hyperparameters(num_trials=1)[0]

        self.trained += 1
        self.bar.update()
        return mse, mae, rmse, optimized_model, model_params

    def get_model_train(self):
        return [
            XGBRegressor(objective='reg:squarederror'),
        ]

    def get_tunable_params(self, model):
        if isinstance(model, XGBRegressor):
            return {
                'tree_method': ["hist"],
                "n_estimators": [100, 128, 150],
                'max_depth': [6, 7, 8],
                'subsample': [0.5, 0.6, 0.7],
                'multi_strategy': ['one_output_per_tree', 'multi_output_tree']
            }
        elif isinstance(model, RandomForestClassifier):
            return {
                "n_estimators": [50, 100, 200],
                "max_depth": [5, 10, 15],
                "max_features": [2, 5, 10] #['n', 'max_depth', 'max_features', 'max_leaf_nodes', 'max_samples', 'min_impurity_decrease', 'min_samples_leaf', 'min_samples_split', 'min_weight_fraction_leaf', 'monotonic_cst', 'n_estimators', 'n_jobs', 'oob_score', 'random_state', 'verbose', 'warm_start']
            }
        else:
            return {}

    def train_and_score_model(self, model, X_train, X_test, Y_train, Y_test):
        param_dist = self.get_tunable_params(model)

        cv = StratifiedShuffleSplit(n_splits=int(1/(2*self.ratio))+1, test_size=self.ratio, random_state=get_seed())
        grid_search = GridSearchCV(estimator=model, param_grid=param_dist, scoring='neg_mean_squared_error', cv=cv, verbose=10, n_jobs=-1)

        grid_search.fit(X_train, Y_train)

        optimized_model = grid_search.best_estimator_
        model_params = grid_search.best_params_

        y_aux = optimized_model.predict(X_train)
        tmse = mean_squared_error(Y_train, y_aux)

        y_pred = optimized_model.predict(X_test)
        mse = mean_squared_error(Y_test, y_pred)
        mae = mean_absolute_error(Y_test, y_pred)
        rmse = np.sqrt(mse)

        return tmse, mse, mae, rmse, optimized_model, model_params

    def gen_plots(self, dataset, model_id, target=None):
        if isinstance(target, list):
            self.loader.target_list=target
        if isinstance(target, str):
            self.loader.target_list= list(target)

        if dataset.endswith("-conv3"):
            self.loader.smooth = 'conv3'
        else:
            self.loader.smooth = None

        self.loader.reset()
        if not self.row_exists(dataset, model_id):
            self.logger.error(f'No se encuentra la simulacion {dataset}, {model_id}')
            return

        model_file = '{}/{}/{}/{}'.format(self.name, self.loader.target, dataset, model_id )
        if not os.path.isfile(model_file):
            self.logger.error('No se encuentra el modelo')
            return

        trained_model = joblib.load(model_file)

        pics_folder = '{}/{}/{}/plots'.format(self.name, self.loader.target, dataset)
        os.makedirs(pics_folder, exist_ok=True)

        df = self.loader.scaled_data

        Y_samples = np.zeros((len(df), len(self.loader.target_list)))
        for i, sample in enumerate(df):
            Y_samples[i] = np.array([[df[sample]['label'][key] for key in self.loader.target_list]])

        self.logger.debug(f"Y_samples.shape: {Y_samples.shape}")

        target_scaler = MinMaxScaler()
        Y_samples = target_scaler.fit_transform(Y_samples)

        cmapx = cm.get_cmap('ocean', len(self.loader.source_channels))
        cmapy = cm.get_cmap('prism', Y_samples.shape[1])

        for measurament, (r, l) in self.loader.dataset['range'].items():
            # df[measurament]['data'].plot(figsize=(12, 6), title=f"{measurament} Prediction")
            plt.figure(figsize=(12, 6))
            plt.xlabel("Time")
            plt.ylabel("Sensor Readings")
            plt.legend(bbox_to_anchor=(0.95, 0.5), loc="center left")

            plt.vlines(x=r, ymin=0, ymax=1, colors='blue')
            plt.vlines(x=l, ymin=0, ymax=1, colors='blue')

            for i, channel_name in enumerate(df[measurament]['data'].columns):
                plt.plot(df[measurament]['data'][channel_name], linestyle = 'dotted', color=cmapx(i))

            Y_value = np.zeros((1, len(self.loader.target_list)))
            Y_value[0] = np.array([[df[measurament]['label'][key] for key in self.loader.target_list]])

            self.logger.debug(f"Y_value.shape: {Y_value.shape}")
            self.logger.debug(f"Y_value: {Y_value}")

            Y_scaled = target_scaler.transform(Y_value).reshape(1, -1)
            self.logger.debug(f"Y_scaled.shape: {Y_scaled.shape}")
            self.logger.debug(f"Y_scaled: {Y_scaled}")

            for i, value in enumerate(Y_scaled):
                plt.axhline(y=value, xmin=0, xmax=df[measurament]['data'].shape[0], color=cmapy(i), linestyle='dashed')

            y_pred = trained_model.predict(df[measurament]['data'].to_numpy())

            if y_pred.ndim == 2:
                for i in range(y_pred.shape[0]):
                    plt.plot(y_pred[:, i], color=cmapy(i), linestyle='solid')
            else:
                plt.plot(y_pred, color=cmapy(0), linestyle='solid')

            filename = os.path.join(pics_folder, f"{measurament}_{model_id}.png")
            plt.savefig(filename)
            self.logger.info(f"Saved plot as {filename}")

            plt.close()

    def fit(self):
        total_train_queue = 2*int(1/self.ratio)*len(self.get_model_train())
        self.logger.info("{:=^60}".format(f'Begin Fit {total_train_queue} Models'))
        self.trained = 0
        manager = enlighten.get_manager()
        self.bar = manager.counter(total=total_train_queue, count=self.trained, desc='Tunning', unit='Models',
                                format='{desc}{desc_pad}{percentage:3.0f}%|{bar}| {count:{len_total}d}/{total:d} [{elapsed}<{eta}, {rate:.2f}{unit_pad}{unit}/s]'
                                )

        discretizer = KBinsDiscretizer(n_bins=200, encode='ordinal', strategy='uniform')
        gss = StratifiedGroupKFold(n_splits=int(1/self.ratio), shuffle=True, random_state=get_seed())

        node = os.uname()[1]
        self.loader.smooth = None
        self.loader.reset()

        X_xboost, Y_xboost, G_xboost = self.loader.load_dataset_xboost()
        # self.logger.debug(f"X_xboost: {X_xboost.shape}")
        self.logger.debug(f"Y_xboost: {Y_xboost.shape}")
        # self.logger.debug(f"G_xboost: {G_xboost.shape}")

        Y_discrete = discretizer.fit_transform(Y_xboost)
        if Y_discrete.ndim == 2:
            Y_discrete = np.sum(Y_discrete, axis=1)
        # self.logger.debug(f"Y_discrete: {Y_discrete.shape}")

        for i, (train_index, test_index) in enumerate(gss.split(X_xboost, Y_discrete, G_xboost)):
            dataset = 'Tabular'
            os.makedirs('{}/{}/{}'.format(self.name, self.loader.target, dataset), exist_ok=True)
            X_train, X_test = X_xboost[train_index], X_xboost[test_index]
            Y_train, Y_test = Y_xboost[train_index], Y_xboost[test_index]
            # self.logger.debug(f"X_train: {X_train.shape}")
            # self.logger.debug(f"X_test: {X_test.shape}")
            self.logger.debug(f"Y_train: {Y_train.shape}")
            self.logger.debug(f"Y_test: {Y_test.shape}")


            for model in self.get_model_train():
                model_id = "{}_{}".format(type(model).__name__, i)
                self.trained += 1

                if self.row_exists(dataset, model_id):
                    self.bar.update()
                    continue

                model_file = '{}/{}/{}/{}'.format(self.name, self.loader.target, dataset, model_id )

                tmse, mse, mae, rmse, optimized_model, model_params = self.train_and_score_model(model, X_train, X_test, Y_train, Y_test)

                ts = datetime.now().strftime("%d/%m/%Y %H:%M:%S")
                joblib.dump(optimized_model, model_file)

                newrow = pd.DataFrame( [{"node": node,
                                    "ts": ts,
                                    "Dataset": dataset,
                                    "Samples": Y_xboost.shape[0],
                                    "Target": self.loader.target,
                                    "Train Size": Y_train.shape[0],
                                    "Train Ratio": Y_train.shape[0]/Y_xboost.shape[0],
                                    "Ratio": self.ratio,
                                    "Model": model_id,
                                    "Params": json.dumps(model_params),
                                    "Train mse": tmse,
                                    "mse": mse,
                                    "mae": mae,
                                    "rmse": rmse
                                    }] )
                self.ledger = pd.concat([self.ledger, newrow], ignore_index=True)
                self.bar.update()

            self.saveCheckPoint()

        self.loader.smooth = 'conv3'
        self.loader.reset()
        X_xboost, Y_xboost, G_xboost = self.loader.load_dataset_xboost()
        # self.logger.debug(f"X_xboost: {X_xboost.shape}")
        self.logger.debug(f"Y_xboost: {Y_xboost.shape}")
        # self.logger.debug(f"G_xboost: {G_xboost.shape}")

        Y_discrete = discretizer.fit_transform(Y_xboost)
        if Y_discrete.ndim == 2:
            Y_discrete = np.sum(Y_discrete, axis=1)

        for i, (train_index, test_index) in enumerate(gss.split(X_xboost, Y_discrete, G_xboost)):
            dataset = 'Tabular-conv3'
            os.makedirs('{}/{}/{}'.format(self.name, self.loader.target, dataset), exist_ok=True)
            X_train, X_test = X_xboost[train_index], X_xboost[test_index]
            Y_train, Y_test = Y_xboost[train_index], Y_xboost[test_index]
            # self.logger.debug(f"X_train: {X_train.shape}")
            # self.logger.debug(f"X_test: {X_test.shape}")
            self.logger.debug(f"Y_train: {Y_train.shape}")
            self.logger.debug(f"Y_test: {Y_test.shape}")

            for model in self.get_model_train():
                model_id = "{}_{}".format(type(model).__name__, i)
                self.trained += 1

                if self.row_exists(dataset, model_id):
                    self.bar.update()
                    continue

                model_file = '{}/{}/{}/{}'.format(self.name, self.loader.target, dataset, model_id )

                tmse, mse, mae, rmse, optimized_model, model_params = self.train_and_score_model(model, X_train, X_test, Y_train, Y_test)

                ts = datetime.now().strftime("%d/%m/%Y %H:%M:%S")
                joblib.dump(optimized_model, model_file)

                newrow = pd.DataFrame( [{"node": node,
                                    "ts": ts,
                                    "Dataset": dataset,
                                    "Samples": Y_xboost.shape[0],
                                    "Target": self.loader.target,
                                    "Train Size": Y_train.shape[0],
                                    "Train Ratio": Y_train.shape[0]/Y_xboost.shape[0],
                                    "Ratio": self.ratio,
                                    "Model": model_id,
                                    "Params": json.dumps(model_params),
                                    "Train mse": tmse,
                                    "mse": mse,
                                    "mae": mae,
                                    "rmse": rmse
                                    }] )
                self.ledger = pd.concat([self.ledger, newrow], ignore_index=True)
                self.bar.update()

            self.saveCheckPoint()

        # if self.dnn:
        #     model_file = '{}/{}/DNN_{}'.format(self.name, label, seed )
        #     model_label = "{}".format(label)
        #
        #     accuracy, specificity, recall, f1, roc_auc, optimized_model, parms = self.train_and_score_model_keras(X_train, X_test, Y_train, Y_test, seed, model_label)
        #     ts = datetime.now().strftime("%d/%m/%Y %H:%M:%S")
        #
        #     newrow = pd.DataFrame( [{"node": node,
        #                         "ts": ts,
        #                         "Dataset": model_label,
        #                         "Model": 'DNN',
        #                         "Params": parms,
        #                         "Seed": seed,
        #                         "F1": f1,
        #                         "ROC_AUC": roc_auc
        #                         }] )
        #     self.ledger = pd.concat([self.ledger, newrow], ignore_index=True)

        self.bar.close()
first commit 2025-03-09 04:22:15 -03:00			`import numpy as np`
			`import pandas as pd`
			`import tensorflow as tf`
test 2025-03-13 17:51:13 -03:00			`import matplotlib.cm as cm`
first commit 2025-03-09 04:22:15 -03:00			`import matplotlib.pyplot as plt`
			`import matplotlib`
			`matplotlib.rcParams['text.usetex'] = True`

fix 2025-03-10 19:34:13 -03:00			`from sklearn.preprocessing import KBinsDiscretizer`
			`from sklearn.model_selection import StratifiedGroupKFold, StratifiedShuffleSplit, GridSearchCV`
first commit 2025-03-09 04:22:15 -03:00			`from sklearn.metrics import mean_squared_error, mean_absolute_error`
fix 2025-03-10 19:16:11 -03:00			`from sklearn.preprocessing import MinMaxScaler`
first commit 2025-03-09 04:22:15 -03:00
			`from xgboost import XGBRegressor`

			`# from ray import tune`
			`# import ray`
			`# from keras.callbacks import TensorBoard`
			`# from keras.models import Sequential`
			`# from keras.callbacks import EarlyStopping`
			`# from keras.layers import Dense, BatchNormalization, Dropout`
			`# from kerastuner.tuners import RandomSearch, Hyperband, GridSearch`

			`from datetime import datetime`
			`import enlighten`
			`import logging`
			`import zipfile`
			`import random`
			`import joblib`
			`import pickle`
			`import time`
			`import json`
			`import os`


			`def get_seed():`
			`return random.randint(0, 2**32 - 1)`

			`class eNoseTrainer:`
test 2025-03-13 17:51:13 -03:00			`def __init__(self, loader, test_size=0.2, debug=False):`
first commit 2025-03-09 04:22:15 -03:00			`self.ledger = pd.DataFrame(columns=["node", "ts", "Dataset", "Samples", "Target", "Train Size", "Train Ratio", "Model", "Params", "Ratio", "Train mse", "mse", "mae", "rmse"])`
			`self.loader = loader`
			`self.name = self.loader.label_file`
			`self.state = dict()`

			`os.makedirs(self.name, exist_ok=True)`
			`self.start = int(time.time())`

			`log_format = '%(asctime)s \| %(levelname)-8s \| %(name)-15s \| %(message)s'`
			`date_format = '%Y-%m-%d %H:%M:%S'`
			`logging.basicConfig(format=log_format, datefmt=date_format)`

			`target_log = '{}/load-{}.log'.format(self.name, self.start)`
			`fh = logging.FileHandler(target_log)`

			`self.debug = debug`

			`self.logger = logging.getLogger("eNoseTrainer")`
			`if self.debug:`
			`self.logger.setLevel(logging.DEBUG)`
			`fh.setLevel(logging.DEBUG)`
			`else:`
			`self.logger.setLevel(logging.INFO)`
			`fh.setLevel(logging.INFO)`
			`self.logger.addHandler(fh)`

			`self.ratio = test_size`

			`self.loader.stats()`
			`self.loadCheckPoint()`

			`def loadCheckPoint(self):`
			`if not os.path.isfile('{}/Simulaciones.xlsx'.format(self.name)):`
			`self.saveCheckPoint()`

			`with pd.ExcelFile('{}/Simulaciones.xlsx'.format(self.name)) as xls:`
			`self.ledger = pd.read_excel(xls, sheet_name='Historial')`
			`self.trained = self.ledger.shape[0]`

test 2025-03-13 17:51:13 -03:00			`# with open('{}/vars.pickle'.format(self.name), 'rb') as pfile:`
			`# self.ratio, self.state = pickle.load(pfile)`
first commit 2025-03-09 04:22:15 -03:00
			`def saveCheckPoint(self):`
			`with pd.ExcelWriter('{}/Simulaciones.xlsx'.format(self.name), engine='xlsxwriter') as xls:`
			`self.ledger.to_excel(xls, sheet_name='Historial', index=False)`

test 2025-03-13 17:51:13 -03:00			`# with open('{}/vars.pickle'.format(self.name), 'wb') as pfile:`
			`# pickle.dump((self.ratio, self.state), pfile, protocol=pickle.HIGHEST_PROTOCOL)`
first commit 2025-03-09 04:22:15 -03:00
			`self.trained = self.ledger.shape[0]`

			`def wrap_and_save(self):`
			`self.logger.info("{:=^60}".format(' Saving Summary and Wrap the output in a ZipFile '))`

			`with pd.ExcelWriter('{}/Summary.xlsx'.format(self.name) , engine='xlsxwriter') as xls:`
			`self.get_best_models().to_excel(xls, sheet_name='Results')`

			`with zipfile.ZipFile('{}-{}.zip'.format(self.name, self.start), 'w', zipfile.ZIP_DEFLATED) as zipf:`
			`for root, dirs, files in os.walk(self.name):`
			`for file in files:`
			`zipf.write(os.path.join(root, file))`

			`def row_exists(self, dataset, model):`
test 2025-03-13 17:51:13 -03:00			`search_result = self.ledger[(self.ledger["Dataset"]==dataset) & (self.ledger["Target"]==self.loader.target) & (self.ledger["Model"]==model) & (self.ledger["Ratio"]==self.ratio)].shape[0] > 0`
			`self.logger.debug(f'Looking for {dataset}, {model}, {self.loader.target}, {self.ratio} => {search_result} {self.ledger.shape}')`
			`return search_result`
first commit 2025-03-09 04:22:15 -03:00
			`def model_A(self, hp):`

			`model = Sequential()`
			`model.add(Dense(units=hp.Int('units_input', min_value=48, max_value=56, step=8), input_dim=self.nvars, activation='relu'))`
			`model.add(BatchNormalization())`
			`model.add(Dropout(rate=hp.Float('dropout_input', min_value=0.1, max_value=0.1, step=0.1)))`

			`model.add(Dense(units=hp.Int('units_hidden', min_value=32, max_value=48, step=8), activation='relu'))`
			`model.add(BatchNormalization())`
			`model.add(Dropout(rate=hp.Float('dropout_hidden', min_value=0.4, max_value=0.4, step=0.1)))`

			`model.add(Dense(1, activation='sigmoid'))`

			`model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy', AUC()])`

			`return model`

fix 2025-03-10 23:11:41 -03:00			`def train_and_score_model_keras(self, X_train, X_test, Y_train, Y_test, seed, label):`
first commit 2025-03-09 04:22:15 -03:00			`# set_random_seed(seed)`
			`ntrials = 6`
			`tuner = RandomSearch(`
			`self.get_model_train_keras,`
			`objective='val_loss', #val_loss`
			`# seed=seed,`
			`max_trials=ntrials,`
			`# executions_per_trial=1, # Número de ejecuciones por cada configuración`
			`directory=self.name,`
			`project_name='{}-{}'.format(label,seed))`

			`self.logger.info("{:~^60}".format(' {}-{} '.format(label,seed)))`


			`search_dir = "{}/keras-tuner-{}/".format(self.name,label)`
			`os.makedirs(search_dir, exist_ok=True)`
			`search_callback = TensorBoard(log_dir=search_dir)`
			`early_stopping_search = EarlyStopping(monitor='val_loss', patience=13, min_delta=0.005, start_from_epoch=7, restore_best_weights=True)`
fix 2025-03-10 23:11:41 -03:00			`tuner.search(X_train, Y_train, epochs=150, batch_size=10, validation_data=(X_test, Y_test), callbacks=[early_stopping_search, search_callback])`
first commit 2025-03-09 04:22:15 -03:00			`best_hps = tuner.get_best_hyperparameters(num_trials=1)[0]`

			`self.trained += 1`
			`self.bar.update()`
			`return mse, mae, rmse, optimized_model, model_params`

			`def get_model_train(self):`
			`return [`
			`XGBRegressor(objective='reg:squarederror'),`
			`]`

			`def get_tunable_params(self, model):`
			`if isinstance(model, XGBRegressor):`
			`return {`
test 2025-03-13 17:51:13 -03:00			`'tree_method': ["hist"],`
			`"n_estimators": [100, 128, 150],`
			`'max_depth': [6, 7, 8],`
			`'subsample': [0.5, 0.6, 0.7],`
			`'multi_strategy': ['one_output_per_tree', 'multi_output_tree']`
first commit 2025-03-09 04:22:15 -03:00			`}`
			`elif isinstance(model, RandomForestClassifier):`
			`return {`
			`"n_estimators": [50, 100, 200],`
			`"max_depth": [5, 10, 15],`
			`"max_features": [2, 5, 10] #['n', 'max_depth', 'max_features', 'max_leaf_nodes', 'max_samples', 'min_impurity_decrease', 'min_samples_leaf', 'min_samples_split', 'min_weight_fraction_leaf', 'monotonic_cst', 'n_estimators', 'n_jobs', 'oob_score', 'random_state', 'verbose', 'warm_start']`
			`}`
			`else:`
			`return {}`

fix 2025-03-10 23:11:41 -03:00			`def train_and_score_model(self, model, X_train, X_test, Y_train, Y_test):`
first commit 2025-03-09 04:22:15 -03:00			`param_dist = self.get_tunable_params(model)`

new run 2025-03-10 18:49:22 -03:00			`cv = StratifiedShuffleSplit(n_splits=int(1/(2*self.ratio))+1, test_size=self.ratio, random_state=get_seed())`
first commit 2025-03-09 04:22:15 -03:00			`grid_search = GridSearchCV(estimator=model, param_grid=param_dist, scoring='neg_mean_squared_error', cv=cv, verbose=10, n_jobs=-1)`

fix 2025-03-10 23:11:41 -03:00			`grid_search.fit(X_train, Y_train)`
first commit 2025-03-09 04:22:15 -03:00
			`optimized_model = grid_search.best_estimator_`
			`model_params = grid_search.best_params_`

			`y_aux = optimized_model.predict(X_train)`
fix 2025-03-10 23:11:41 -03:00			`tmse = mean_squared_error(Y_train, y_aux)`
first commit 2025-03-09 04:22:15 -03:00
			`y_pred = optimized_model.predict(X_test)`
fix 2025-03-10 23:11:41 -03:00			`mse = mean_squared_error(Y_test, y_pred)`
			`mae = mean_absolute_error(Y_test, y_pred)`
first commit 2025-03-09 04:22:15 -03:00			`rmse = np.sqrt(mse)`

			`return tmse, mse, mae, rmse, optimized_model, model_params`

test 2025-03-13 17:51:13 -03:00			`def gen_plots(self, dataset, model_id, target=None):`
			`if isinstance(target, list):`
			`self.loader.target_list=target`
			`if isinstance(target, str):`
			`self.loader.target_list= list(target)`

			`if dataset.endswith("-conv3"):`
			`self.loader.smooth = 'conv3'`
			`else:`
			`self.loader.smooth = None`

			`self.loader.reset()`
			`if not self.row_exists(dataset, model_id):`
			`self.logger.error(f'No se encuentra la simulacion {dataset}, {model_id}')`
			`return`

			`model_file = '{}/{}/{}/{}'.format(self.name, self.loader.target, dataset, model_id )`
			`if not os.path.isfile(model_file):`
			`self.logger.error('No se encuentra el modelo')`
			`return`

			`trained_model = joblib.load(model_file)`

			`pics_folder = '{}/{}/{}/plots'.format(self.name, self.loader.target, dataset)`
			`os.makedirs(pics_folder, exist_ok=True)`

			`df = self.loader.scaled_data`

			`Y_samples = np.zeros((len(df), len(self.loader.target_list)))`
			`for i, sample in enumerate(df):`
			`Y_samples[i] = np.array([[df[sample]['label'][key] for key in self.loader.target_list]])`

			`self.logger.debug(f"Y_samples.shape: {Y_samples.shape}")`

			`target_scaler = MinMaxScaler()`
			`Y_samples = target_scaler.fit_transform(Y_samples)`

			`cmapx = cm.get_cmap('ocean', len(self.loader.source_channels))`
			`cmapy = cm.get_cmap('prism', Y_samples.shape[1])`

			`for measurament, (r, l) in self.loader.dataset['range'].items():`
			`# df[measurament]['data'].plot(figsize=(12, 6), title=f"{measurament} Prediction")`
			`plt.figure(figsize=(12, 6))`
			`plt.xlabel("Time")`
			`plt.ylabel("Sensor Readings")`
			`plt.legend(bbox_to_anchor=(0.95, 0.5), loc="center left")`

			`plt.vlines(x=r, ymin=0, ymax=1, colors='blue')`
			`plt.vlines(x=l, ymin=0, ymax=1, colors='blue')`

			`for i, channel_name in enumerate(df[measurament]['data'].columns):`
			`plt.plot(df[measurament]['data'][channel_name], linestyle = 'dotted', color=cmapx(i))`

			`Y_value = np.zeros((1, len(self.loader.target_list)))`
			`Y_value[0] = np.array([[df[measurament]['label'][key] for key in self.loader.target_list]])`

			`self.logger.debug(f"Y_value.shape: {Y_value.shape}")`
			`self.logger.debug(f"Y_value: {Y_value}")`

			`Y_scaled = target_scaler.transform(Y_value).reshape(1, -1)`
			`self.logger.debug(f"Y_scaled.shape: {Y_scaled.shape}")`
			`self.logger.debug(f"Y_scaled: {Y_scaled}")`

			`for i, value in enumerate(Y_scaled):`
			`plt.axhline(y=value, xmin=0, xmax=df[measurament]['data'].shape[0], color=cmapy(i), linestyle='dashed')`

			`y_pred = trained_model.predict(df[measurament]['data'].to_numpy())`

			`if y_pred.ndim == 2:`
			`for i in range(y_pred.shape[0]):`
			`plt.plot(y_pred[:, i], color=cmapy(i), linestyle='solid')`
			`else:`
			`plt.plot(y_pred, color=cmapy(0), linestyle='solid')`

			`filename = os.path.join(pics_folder, f"{measurament}_{model_id}.png")`
			`plt.savefig(filename)`
			`self.logger.info(f"Saved plot as {filename}")`

			`plt.close()`

first commit 2025-03-09 04:22:15 -03:00			`def fit(self):`
mix 2025-03-11 02:14:25 -03:00			`total_train_queue = 2int(1/self.ratio)len(self.get_model_train())`
first commit 2025-03-09 04:22:15 -03:00			`self.logger.info("{:=^60}".format(f'Begin Fit {total_train_queue} Models'))`
			`self.trained = 0`
			`manager = enlighten.get_manager()`
			`self.bar = manager.counter(total=total_train_queue, count=self.trained, desc='Tunning', unit='Models',`
			`format='{desc}{desc_pad}{percentage:3.0f}%\|{bar}\| {count:{len_total}d}/{total:d} [{elapsed}<{eta}, {rate:.2f}{unit_pad}{unit}/s]'`
			`)`

test 2025-03-13 17:51:13 -03:00			`discretizer = KBinsDiscretizer(n_bins=200, encode='ordinal', strategy='uniform')`
			`gss = StratifiedGroupKFold(n_splits=int(1/self.ratio), shuffle=True, random_state=get_seed())`
first commit 2025-03-09 04:22:15 -03:00
			`node = os.uname()[1]`
test 2025-03-13 17:51:13 -03:00			`self.loader.smooth = None`
			`self.loader.reset()`

first commit 2025-03-09 04:22:15 -03:00			`X_xboost, Y_xboost, G_xboost = self.loader.load_dataset_xboost()`
test 2025-03-13 17:51:13 -03:00			`# self.logger.debug(f"X_xboost: {X_xboost.shape}")`
fix 2025-03-10 23:11:41 -03:00			`self.logger.debug(f"Y_xboost: {Y_xboost.shape}")`
test 2025-03-13 17:51:13 -03:00			`# self.logger.debug(f"G_xboost: {G_xboost.shape}")`
first commit 2025-03-09 04:22:15 -03:00
test 2025-03-13 17:51:13 -03:00			`Y_discrete = discretizer.fit_transform(Y_xboost)`
			`if Y_discrete.ndim == 2:`
			`Y_discrete = np.sum(Y_discrete, axis=1)`
			`# self.logger.debug(f"Y_discrete: {Y_discrete.shape}")`
first commit 2025-03-09 04:22:15 -03:00
now 2025-03-10 19:32:46 -03:00			`for i, (train_index, test_index) in enumerate(gss.split(X_xboost, Y_discrete, G_xboost)):`
mix 2025-03-11 02:14:25 -03:00			`dataset = 'Tabular'`
test 2025-03-13 17:51:13 -03:00			`os.makedirs('{}/{}/{}'.format(self.name, self.loader.target, dataset), exist_ok=True)`
fix 2025-03-10 23:11:41 -03:00			`X_train, X_test = X_xboost[train_index], X_xboost[test_index]`
			`Y_train, Y_test = Y_xboost[train_index], Y_xboost[test_index]`
test 2025-03-13 17:51:13 -03:00			`# self.logger.debug(f"X_train: {X_train.shape}")`
			`# self.logger.debug(f"X_test: {X_test.shape}")`
fix 2025-03-10 23:11:41 -03:00			`self.logger.debug(f"Y_train: {Y_train.shape}")`
			`self.logger.debug(f"Y_test: {Y_test.shape}")`
first commit 2025-03-09 04:22:15 -03:00

mix 2025-03-11 02:14:25 -03:00			`for model in self.get_model_train():`
			`model_id = "{}_{}".format(type(model).__name__, i)`
			`self.trained += 1`

			`if self.row_exists(dataset, model_id):`
			`self.bar.update()`
			`continue`

test 2025-03-13 17:51:13 -03:00			`model_file = '{}/{}/{}/{}'.format(self.name, self.loader.target, dataset, model_id )`
mix 2025-03-11 02:14:25 -03:00
			`tmse, mse, mae, rmse, optimized_model, model_params = self.train_and_score_model(model, X_train, X_test, Y_train, Y_test)`

			`ts = datetime.now().strftime("%d/%m/%Y %H:%M:%S")`
			`joblib.dump(optimized_model, model_file)`

			`newrow = pd.DataFrame( [{"node": node,`
			`"ts": ts,`
			`"Dataset": dataset,`
			`"Samples": Y_xboost.shape[0],`
test 2025-03-13 17:51:13 -03:00			`"Target": self.loader.target,`
mix 2025-03-11 02:14:25 -03:00			`"Train Size": Y_train.shape[0],`
			`"Train Ratio": Y_train.shape[0]/Y_xboost.shape[0],`
			`"Ratio": self.ratio,`
			`"Model": model_id,`
			`"Params": json.dumps(model_params),`
			`"Train mse": tmse,`
			`"mse": mse,`
			`"mae": mae,`
			`"rmse": rmse`
			`}] )`
			`self.ledger = pd.concat([self.ledger, newrow], ignore_index=True)`
			`self.bar.update()`

			`self.saveCheckPoint()`

test 2025-03-13 17:51:13 -03:00			`self.loader.smooth = 'conv3'`
			`self.loader.reset()`
			`X_xboost, Y_xboost, G_xboost = self.loader.load_dataset_xboost()`
			`# self.logger.debug(f"X_xboost: {X_xboost.shape}")`
			`self.logger.debug(f"Y_xboost: {Y_xboost.shape}")`
			`# self.logger.debug(f"G_xboost: {G_xboost.shape}")`

			`Y_discrete = discretizer.fit_transform(Y_xboost)`
			`if Y_discrete.ndim == 2:`
			`Y_discrete = np.sum(Y_discrete, axis=1)`

			`for i, (train_index, test_index) in enumerate(gss.split(X_xboost, Y_discrete, G_xboost)):`
			`dataset = 'Tabular-conv3'`
			`os.makedirs('{}/{}/{}'.format(self.name, self.loader.target, dataset), exist_ok=True)`
			`X_train, X_test = X_xboost[train_index], X_xboost[test_index]`
			`Y_train, Y_test = Y_xboost[train_index], Y_xboost[test_index]`
			`# self.logger.debug(f"X_train: {X_train.shape}")`
			`# self.logger.debug(f"X_test: {X_test.shape}")`
			`self.logger.debug(f"Y_train: {Y_train.shape}")`
			`self.logger.debug(f"Y_test: {Y_test.shape}")`
mix 2025-03-11 02:14:25 -03:00
first commit 2025-03-09 04:22:15 -03:00			`for model in self.get_model_train():`
			`model_id = "{}_{}".format(type(model).__name__, i)`
			`self.trained += 1`

			`if self.row_exists(dataset, model_id):`
			`self.bar.update()`
			`continue`

test 2025-03-13 17:51:13 -03:00			`model_file = '{}/{}/{}/{}'.format(self.name, self.loader.target, dataset, model_id )`
first commit 2025-03-09 04:22:15 -03:00
fix 2025-03-10 23:11:41 -03:00			`tmse, mse, mae, rmse, optimized_model, model_params = self.train_and_score_model(model, X_train, X_test, Y_train, Y_test)`
first commit 2025-03-09 04:22:15 -03:00
			`ts = datetime.now().strftime("%d/%m/%Y %H:%M:%S")`
			`joblib.dump(optimized_model, model_file)`

			`newrow = pd.DataFrame( [{"node": node,`
			`"ts": ts,`
			`"Dataset": dataset,`
			`"Samples": Y_xboost.shape[0],`
test 2025-03-13 17:51:13 -03:00			`"Target": self.loader.target,`
fix 2025-03-10 23:11:41 -03:00			`"Train Size": Y_train.shape[0],`
			`"Train Ratio": Y_train.shape[0]/Y_xboost.shape[0],`
first commit 2025-03-09 04:22:15 -03:00			`"Ratio": self.ratio,`
			`"Model": model_id,`
			`"Params": json.dumps(model_params),`
			`"Train mse": tmse,`
			`"mse": mse,`
			`"mae": mae,`
			`"rmse": rmse`
			`}] )`
			`self.ledger = pd.concat([self.ledger, newrow], ignore_index=True)`
			`self.bar.update()`

			`self.saveCheckPoint()`

			`# if self.dnn:`
			`# model_file = '{}/{}/DNN_{}'.format(self.name, label, seed )`
			`# model_label = "{}".format(label)`
			`#`
fix 2025-03-10 23:11:41 -03:00			`# accuracy, specificity, recall, f1, roc_auc, optimized_model, parms = self.train_and_score_model_keras(X_train, X_test, Y_train, Y_test, seed, model_label)`
first commit 2025-03-09 04:22:15 -03:00			`# ts = datetime.now().strftime("%d/%m/%Y %H:%M:%S")`
			`#`
			`# newrow = pd.DataFrame( [{"node": node,`
			`# "ts": ts,`
			`# "Dataset": model_label,`
			`# "Model": 'DNN',`
			`# "Params": parms,`
			`# "Seed": seed,`
			`# "F1": f1,`
			`# "ROC_AUC": roc_auc`
			`# }] )`
			`# self.ledger = pd.concat([self.ledger, newrow], ignore_index=True)`

			`self.bar.close()`