import pandas #Manipulation des données
import numpy as np
import matplotlib.pyplot as plt
import seaborn #Pour la heatmap et pairplot
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay #Pour le visuel de la matrice de confusion
import plotly.express as px #plot

#Classifieurs :
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.svm import SVC 
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
import lightgbm as lgbm #lgbm classifier

#Aides pour les metriques :
from sklearn.metrics import accuracy_score #Calcul de l'accuracy sur le réseau de neurone
from sklearn.metrics import precision_recall_fscore_support

#Selection de modèle :
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

#Stat (pour le LGBM) :
from scipy.stats import randint as sp_randint
from scipy.stats import uniform as sp_uniform

#Reseau de neurones :
from keras.models import Sequential
from keras.layers import Dense, Dropout

#Clustering :
from sklearn.cluster import KMeans 

#Scaling :
from sklearn.preprocessing import StandardScaler

#ignore warning messages : 
import warnings
warnings.filterwarnings('ignore')


##Recupération des données :
data=pandas.read_csv('E:/Projet M2/Machine Learning (Ok)/diabetes.csv')
##Séparation variables explicatives/outcome
X=data.get(["Pregnancies","Glucose","BloodPressure",
                     "SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age"])
y=data["Outcome"]


##Visualisation d'une partie :
print(data.head(),"\n")
print("Shape des données : ", data.shape)
data_true=data[data["Outcome"]==1]
data_false=data[data["Outcome"]==0]
print("Nombre de diabétique :", len(data_true)," Proportion de diabétique :", len(data_true)/len(data))
print("Nombre de non-diabétique :", len(data_false)," Proportion de non-diabétique :", len(data_false)/len(data))

   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1   

Shape des données :  (768, 9)
Nombre de diabétique : 268  Proportion de diabétique : 0.3489583333333333
Nombre de non-diabétique : 500  Proportion de non-diabétique : 0.6510416666666666


insulin_0=data[data["Insulin"]==0]
skin_0=data[data["SkinThickness"]==0]
bp_0=data[data["BloodPressure"]==0]
gluco_0=data[data["Glucose"]==0]
bmi_0=data[data["BMI"]==0]

donnees_completes=data[(data["BloodPressure"]!=0) & (data["SkinThickness"]!=0) 
                       & (data["Insulin"]!=0) & (data["Glucose"]!=0) & (data["BMI"]!=0)]

print("Nombre de données Insulin à 0 :" ,len(insulin_0))
print("Nombre de données SkinThickness à 0 :" ,len(skin_0))
print("Nombre de données BloodPressure à 0 :",len(bp_0))
print("Nombre de données Glucose à 0 :",len(gluco_0))
print("Nombre de données BMI à 0 :",len(bmi_0))
print("Nombre de données complètes :",len(donnees_completes) )
print("Nombre de données avec au moins un variable à 0 :", len(data)-len(donnees_completes))

print("Nombre d'insuline rempli dans ST_0 :",len(skin_0[skin_0["Insulin"]!=0]))
print("Nombre d'insuline rempli dans BP_0 :",len(bp_0[bp_0["Insulin"]!=0]))
print("Nombre d'insuline rempli dans Glu_0 :",len(gluco_0[gluco_0["Insulin"]!=0]))
print("Nombre d'insuline rempli dans Bmi_0 :",len(bmi_0[bmi_0["Insulin"]!=0]))

Nombre de données Insulin à 0 : 374
Nombre de données SkinThickness à 0 : 227
Nombre de données BloodPressure à 0 : 35
Nombre de données Glucose à 0 : 5
Nombre de données BMI à 0 : 11
Nombre de données complètes : 392
Nombre de données avec au moins un variable à 0 : 376
Nombre d'insuline rempli dans ST_0 : 0
Nombre d'insuline rempli dans BP_0 : 0
Nombre d'insuline rempli dans Glu_0 : 1
Nombre d'insuline rempli dans Bmi_0 : 1


donnees_manquantes=data[(data["Glucose"]==0) | (data["Insulin"]==0)| (data["BMI"]==0)]
donnees_manquantes_true=donnees_manquantes[donnees_manquantes["Outcome"]==0]
print("Nombre de données manquantes :", len(donnees_manquantes))
print("Nombre de diabétiques parmi eux :",len(donnees_manquantes_true))
print("Proportion de diabétique :",len(donnees_manquantes_true)/len(donnees_manquantes))
print("Nombre de non-diabétiques parmi eux :", len(donnees_manquantes)-len(donnees_manquantes_true))
print("Proportion de non-diabétiques :",(len(donnees_manquantes)-len(donnees_manquantes_true))/len(donnees_manquantes))

Nombre de données manquantes : 376
Nombre de diabétiques parmi eux : 238
Proportion de diabétique : 0.6329787234042553
Nombre de non-diabétiques parmi eux : 138
Proportion de non-diabétiques : 0.3670212765957447


print("Nombre de données complètes :",len(donnees_completes))
donnees_completes_true=donnees_completes[donnees_completes["Outcome"]==1]
print("Nombre de diabétiques parmi eux :",len(donnees_completes_true))
print("Proportion de diabétique dedans :",len(donnees_completes_true)/len(donnees_completes))
print("Nombre de non-diabétiques parmi eux :", len(donnees_completes)-len(donnees_completes_true))
print("Proportion de non-diabétiques dedans :",(len(donnees_completes)-len(donnees_completes_true))/len(donnees_completes))

Nombre de données complètes : 392
Nombre de diabétiques parmi eux : 130
Proportion de diabétique dedans : 0.33163265306122447
Nombre de non-diabétiques parmi eux : 262
Proportion de non-diabétiques dedans : 0.6683673469387755


#Heatmap sur les donénes complètes : 
plt.subplots(figsize=(8,8))
corrmat=donnees_completes.corr()
seaborn.heatmap(corrmat,vmax=1,square=True,annot=True)
plt.show()


#Heatmap sur les données totales
plt.subplots(figsize=(8,8))
corrmat=data.corr()
seaborn.heatmap(corrmat,vmax=1,square=True,annot=True)
plt.show()


seaborn.pairplot(donnees_completes,hue="Outcome",vars=["Pregnancies","Glucose","BloodPressure","SkinThickness","Insulin",
                                                       "BMI","DiabetesPedigreeFunction","Age"])

<seaborn.axisgrid.PairGrid at 0x1ac94b57fa0>


#Library pour ACP :
from sklearn.decomposition import PCA

#Normalisation :
ss = StandardScaler()
X_std = ss.fit_transform(X)
ACP_X_std=PCA().fit(X_std)

#Application de l'ACP sur nos données (sans la sortie) :
print("Composantes principales :\n",  ACP_X_std.components_,"\n")
print("Pourcentage de variance expliquée par composante principale :\n",ACP_X_std.explained_variance_ratio_,"\n")
print("Nombre de composantes estimée par l'ACP :", ACP_X_std.n_components_,"\n")
print("Nombre de composantes réelles :", ACP_X_std.n_features_,"\n")

Composantes principales :
 [[ 0.1284321   0.39308257  0.36000261  0.43982428  0.43502617  0.45194134
   0.27061144  0.19802707]
 [ 0.59378583  0.17402908  0.18389207 -0.33196534 -0.25078106 -0.1009598
  -0.122069    0.62058853]
 [-0.01308692  0.46792282 -0.53549442 -0.2376738   0.33670893 -0.36186463
   0.43318905  0.07524755]
 [ 0.08069115 -0.40432871  0.05598649  0.03797608 -0.34994376  0.05364595
   0.8336801   0.0712006 ]
 [-0.47560573  0.46632804  0.32795306 -0.48786206 -0.34693481  0.25320376
   0.11981049 -0.10928996]
 [ 0.19359817  0.09416176 -0.6341159   0.00958944 -0.27065061  0.68537218
  -0.08578409 -0.03335717]
 [-0.58879003 -0.06015291 -0.19211793  0.28221253 -0.13200992 -0.03536644
  -0.08609107  0.71208542]
 [ 0.11784098  0.45035526 -0.01129554  0.5662838  -0.54862138 -0.34151764
  -0.00825873 -0.21166198]] 

Pourcentage de variance expliquée par composante principale :
 [0.26179749 0.21640127 0.12870373 0.10944113 0.09529305 0.08532855
 0.05247702 0.05055776] 

Nombre de composantes estimée par l'ACP : 8 

Nombre de composantes réelles : 8


PCA_values = np.arange(ACP_X_std.n_components_) + 1
plt.plot(PCA_values, ACP_X_std.explained_variance_ratio_, 'o-', linewidth=2, color='blue')
plt.title('Scree Plot')
plt.xlabel('Component Principal')
plt.ylabel('Proportion de la variance')
plt.show()


kmeans = KMeans(n_clusters=2,random_state=0).fit(X_std)

labels = kmeans.labels_
labels_vrai=sum(y==labels)
labels_faux=len(labels)-labels_vrai
print("Resultat : %d sur %d échantillons sont \"correctement\" classés" % (labels_vrai, y.size))
print("Proportion d\'échantillons bien classés : {0:0.2f}". format(labels_vrai/float(y.size)))

Resultat : 250 sur 768 échantillons sont "correctement" classés
Proportion d'échantillons bien classés : 0.33


#Library nécessaires : 
from sklearn.metrics import silhouette_samples, silhouette_score
import matplotlib.cm as cm

#Choix de la liste de n_clusters à tester : 
range_n_clusters = [2, 3, 4, 5, 6]

#Corps : (Fait les K-means, Calcul le score silhouette, Trace les graphes)
for n_clusters in range_n_clusters:
    fig, ax1 = plt.subplots(1, 1)
    clusterer = KMeans(n_clusters=n_clusters, random_state=0)
    cluster_labels = clusterer.fit_predict(X_std)
    silhouette_avg = silhouette_score(X_std, cluster_labels) ###Score silhouette
    print("Score silhouette moyen :",silhouette_avg, "avec", n_clusters,"classes")

    # Compute the silhouette scores for each sample
    sample_silhouette_values = silhouette_samples(X_std, cluster_labels)
    y_lower = 10
    for i in range(n_clusters):
        # Aggregate the silhouette scores for samples belonging to
        # cluster i, and sort them
        ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]
        ith_cluster_silhouette_values.sort()
        size_cluster_i = ith_cluster_silhouette_values.shape[0]
        y_upper = y_lower + size_cluster_i

        color = cm.nipy_spectral(float(i) / n_clusters)
        ax1.fill_betweenx(
            np.arange(y_lower, y_upper),
            0,
            ith_cluster_silhouette_values,
            facecolor=color,
            edgecolor=color,
            alpha=0.7,
        )

        # Label the silhouette plots with their cluster numbers at the middle
        ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

        # Compute the new y_lower for next plot
        y_lower = y_upper + 10  # 10 for the 0 samples

    # The vertical line for average silhouette score of all the values
    ax1.axvline(x=silhouette_avg, color="red", linestyle="--")

plt.show()

Score silhouette moyen : 0.1956540901138544 avec 2 classes
Score silhouette moyen : 0.1784643674529339 avec 3 classes
Score silhouette moyen : 0.20039690719846023 avec 4 classes
Score silhouette moyen : 0.15291607045244326 avec 5 classes
Score silhouette moyen : 0.16760637284099414 avec 6 classes


##Recupération des tables train et test créées : (Loïc)
data_train=pandas.read_csv('E:/Projet M2/Machine Learning (Ok)/data_train.csv')
data_test=pandas.read_csv('E:/Projet M2/Machine Learning (Ok)/data_test.csv')

##Séparation variables explicatives/variable expliquée
X_train=data_train.get(["Pregnancies","Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age"])
y_train=data_train["Outcome"]
X_test=data_test.get(["Pregnancies","Glucose","BloodPressure","SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age"])
y_test=data_test["Outcome"]

##Normalisation des données : (Khoa Anh)
ss = StandardScaler()
X_train_std = ss.fit_transform(X_train)
X_test_std = ss.transform(X_test)

##Etude de la qualité de la séparation :
print("Nombre de données train : ",len(data_train)," Nombre de diabétiques :",sum(data_train["Outcome"]))
print("Nombre de données test : ",len(data_test)," Nombre de diabétiques :",sum(data_test["Outcome"]))

Nombre de données train :  576  Nombre de diabétiques : 205
Nombre de données test :  192  Nombre de diabétiques : 63


score_bete=(len(y_test)-sum(y_test))/len(y_test)
print("Score du prédicteur naïf :", score_bete)
y_pred = 0*y_test
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
print('Taux de mauvaise classification sur la classe 1 :',1) #On se trompe tout le temps
mv_class_bete=1
res_pred_bete=list([0,0,0]) ###Toujours 0 car il a aucun TP vu qu'il prédit jamais de positif

Score du prédicteur naïf : 0.671875
Taux de mauvaise classification sur la classe 1 : 1


grid_dt=GridSearchCV(estimator=DecisionTreeClassifier(),param_grid={'max_depth':np.arange(1,50,step=1)},
                  scoring="accuracy",cv=10,verbose=1)
grid_dt.fit(X_train_std,y_train)
print("Meilleurs paramètres :",grid_dt.best_params_)
best_DT=grid_dt.best_score_
print("Meilleur score du Decision Tree sur le train :",best_DT)
score_DT=grid_dt.score(X_test_std,y_test)
print("Score du Decision Tree sur le test :",score_DT)

#Matrice de confusion : 
y_pred=grid_dt.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_dt=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_dt) #FN/(FN+TP)
res_dt=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 10 folds for each of 49 candidates, totalling 490 fits
Meilleurs paramètres : {'max_depth': 2}
Meilleur score du Decision Tree sur le train : 0.7411978221415608
Score du Decision Tree sur le test : 0.7239583333333334
Taux de mauvaise classification sur la classe 1 : 0.7301587301587301


grid_knn=GridSearchCV(estimator=KNeighborsClassifier(),param_grid={'n_neighbors':np.arange(2,100,step=1)},
                  scoring="accuracy",cv=10,verbose=1)
grid_knn.fit(X_train_std,y_train)
print("Meilleurs paramètres :",grid_knn.best_params_)
best_knn=grid_knn.best_score_
print("Meilleur score des K-Nearest Neighbour sur le train :",best_knn)
score_knn=grid_knn.score(X_test_std,y_test)
print("Score des K-Nearest Neighbour sur le test :",score_knn)

#Matrice de confusion : 
y_pred=grid_knn.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_knn=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_knn) #FN/(FN+TP)
res_knn=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 10 folds for each of 98 candidates, totalling 980 fits
Meilleurs paramètres : {'n_neighbors': 45}
Meilleur score des K-Nearest Neighbour sur le train : 0.7463399879007865
Score des K-Nearest Neighbour sur le test : 0.8020833333333334
Taux de mauvaise classification sur la classe 1 : 0.5555555555555556


grid_lr=GridSearchCV(estimator=LogisticRegression(max_iter=5000),param_grid={'C':np.arange(0.5,30,step=0.5),'solver':['newton-cg','lbfgs','liblinear']},
                  scoring="accuracy",cv=10,verbose=1)
grid_lr.fit(X_train_std,y_train)
print("Meilleurs paramètres :",grid_lr.best_params_)
best_reg=grid_lr.best_score_
print("Meilleur score de la Regression Logistique sur le train :",best_reg)
score_reg=grid_lr.score(X_test_std,y_test)
print("Score de la Regression Logistique sur le test :",score_reg)

#Matrice de confusion :
y_pred=grid_lr.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_lr=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_lr) #FN/(FN+TP)
res_reg_log=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 10 folds for each of 177 candidates, totalling 1770 fits
Meilleurs paramètres : {'C': 1.0, 'solver': 'liblinear'}
Meilleur score de la Regression Logistique sur le train : 0.7743799153055052
Score de la Regression Logistique sur le test : 0.8177083333333334
Taux de mauvaise classification sur la classe 1 : 0.4444444444444444


clf_qda=QuadraticDiscriminantAnalysis().fit(X_train_std,y_train)
score_qda=clf_qda.score(X_test_std,y_test)
print("Score du QDA sur le test :", score_qda)

#Matrice de confusion :
y_pred=clf_qda.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_qda=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_qda) #FN/(FN+TP)
res_qda=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Score du QDA sur le test : 0.8020833333333334
Taux de mauvaise classification sur la classe 1 : 0.4444444444444444


grid_svc=GridSearchCV(estimator=SVC(),param_grid={'C':np.arange(0,20,step=1),'kernel':['rbf','sigmoid'],'gamma':['auto','scale']},
                  scoring="accuracy",cv=10,verbose=1,refit=True)
grid_svc.fit(X_train_std,y_train)
print("Meilleur paramètres :",grid_svc.best_params_)
best_svc=grid_svc.best_score_
print("Meilleure score du SVM sur le train :",best_svc)
score_svc=grid_svc.score(X_test_std,y_test)
print("Score du SVM sur le test :",score_svc)

#Matrice de confusion : 
y_pred=grid_svc.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_svm=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_svm) #FN/(FN+TP)
res_svm=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 10 folds for each of 80 candidates, totalling 800 fits
Meilleur paramètres : {'C': 1, 'gamma': 'auto', 'kernel': 'rbf'}
Meilleure score du SVM sur le train : 0.7534180278281911
Score du SVM sur le test : 0.796875
Taux de mauvaise classification sur la classe 1 : 0.5079365079365079


grid_rf=GridSearchCV(estimator=RandomForestClassifier(),param_grid={"n_estimators":np.arange(20,100,step=1),
                                                                    'max_depth':np.arange(2,15,step=1)}
                  ,scoring="accuracy",cv=5,verbose=1)
grid_rf.fit(X_train_std,y_train)
print("Meilleurs paramètres :",grid_rf.best_params_)
best_RF=grid_rf.best_score_
print("Meilleur score de la Random Forest sur le train :",best_RF)
score_RF=grid_rf.score(X_test_std,y_test)
print("Score de la Random Forest sur le test :",score_RF)

#Matrice de confusion :
y_pred=grid_rf.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_rf=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_rf) #FN/(FN+TP)
res_rf=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 5 folds for each of 1040 candidates, totalling 5200 fits
Meilleurs paramètres : {'max_depth': 6, 'n_estimators': 94}
Meilleur score de la Random Forest sur le train : 0.7622638680659671
Score de la Random Forest sur le test : 0.7864583333333334
Taux de mauvaise classification sur la classe 1 : 0.5079365079365079


grid_gb=GridSearchCV(GradientBoostingClassifier(),param_grid={'learning_rate': [0.05, 0.1, 0.5],
                                                              'max_features': np.arange(1,10,step=1), 'max_depth': np.arange(1,5,step=1)},
                                                               cv=10, scoring='accuracy',verbose=1)
grid_gb.fit(X_train_std,y_train)
print("Meilleurs paramètres :",grid_gb.best_params_)
best_gb=grid_gb.best_score_
print("Meilleur score du Gradient Boosting sur le train :",best_gb)
score_gb=grid_gb.score(X_test_std,y_test)
print("Score du Gradient Boosting sur le test :",score_gb)

#Matrice de confusion :
y_pred=grid_gb.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_gb=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_gb) #FN/(FN+TP)
res_gb=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 10 folds for each of 108 candidates, totalling 1080 fits
Meilleurs paramètres : {'learning_rate': 0.05, 'max_depth': 1, 'max_features': 4}
Meilleur score du Gradient Boosting sur le train : 0.7639745916515426
Score du Gradient Boosting sur le test : 0.7760416666666666
Taux de mauvaise classification sur la classe 1 : 0.5555555555555556


fit_params = {"early_stopping_rounds" : 100, 
             "eval_metric" : 'auc', 
             "eval_set" : [(X,y)],
             'eval_names': ['valid'],
             'verbose': 0,
             'categorical_feature': 'auto'}

param_test = {'learning_rate' : np.arange(0.1,0.5,step=0.1),
              'n_estimators' : np.arange(100,500,step=100),
              'max_depth': [3, 4, 5]}

#intialize lgbm and launch the search
clf_LGBM = lgbm.LGBMClassifier(random_state=50, silent=True, metric='None', n_jobs=4)

#gridsearch
grid = RandomizedSearchCV(
    estimator=clf_LGBM, param_distributions=param_test, 
    n_iter=400,
    scoring='accuracy',
    cv=10,
    refit=True,
    random_state=50,
    verbose=1)

grid.fit(X_train_std, y_train, **fit_params)
print("Meilleurs parametres :",grid.best_params_)
print("Meilleur score de LGBM Classifier sur le train :",grid.best_score_)
score_LGBM=grid.score(X_test_std,y_test)
print("Score de LGBM sur le test : ", score_LGBM)

#Matrice de confusion :
y_pred=grid.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_lgbm=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_lgbm) #FN/(FN+TP)
res_lgbm=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 10 folds for each of 48 candidates, totalling 480 fits
Meilleurs parametres : {'n_estimators': 100, 'max_depth': 5, 'learning_rate': 0.2}
Meilleur score de LGBM Classifier sur le train : 0.7464912280701755
Score de LGBM sur le test :  0.7916666666666666
Taux de mauvaise classification sur la classe 1 : 0.4126984126984127


# creer le modele, ajouter les layers
model = Sequential()
# Ajouter le "input layer" et le 1er "hidden layer"
model.add(Dense(units= 6, kernel_initializer = 'uniform', activation = 'relu'))
# Ajouter le 2eme "hidden layer"
model.add(Dense(units= 6, kernel_initializer = 'uniform', activation = 'relu'))
# Ajouter le "output layer"
model.add(Dense(units = 1, kernel_initializer = 'uniform', activation = 'sigmoid'))

# compiler le modele, avec adam gradient descent
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=['accuracy'])

# Entrainer le network
clf_rn=model.fit(X_train_std, y_train, epochs = 1000, batch_size=10, validation_data=(X_test_std, y_test),verbose=0)


y_pred_test = model.predict(X_test_std)
y_pred_test = y_pred_test>0.5

y_pred_train = model.predict(X_train_std)
y_pred_train = y_pred_train>0.5

score_RN = accuracy_score(y_test,y_pred_test)
print("Score sur le train = ",accuracy_score(y_train,y_pred_train))
print("Score sur le test = ",score_RN)

#Matrice de confusion : 
cm = confusion_matrix(y_test, y_pred_test)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_rn=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_rn) #FN/(FN+TP)

#Calcul des différents score : 
prec=cm[1,1]/(cm[1,1]+cm[0,1])
recall=cm[1,1]/(cm[1,1]+cm[1,0])
f1=prec*recall*2/(prec+recall)
res_rn=[prec,recall,f1]

Score sur le train =  0.8055555555555556
Score sur le test =  0.8020833333333334
Taux de mauvaise classification sur la classe 1 : 0.31746031746031744


#https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier
from sklearn.neural_network import MLPClassifier    
##Activation logistique car classification binaire,
grip_mlp = GridSearchCV(MLPClassifier(max_iter=300,random_state=0,activation='logistic',solver='adam'),param_grid={
                                                                'alpha' : [0,1e-8,1e-7,1e-6,1e-5, 1e-4], #Param de regul
                                                                'learning_rate': ['constant', 'invscaling', 'adaptive'],
                                                                'hidden_layer_sizes':[100,150,200]},
                                                               cv=10, scoring='accuracy',verbose=1)
grip_mlp.fit(X_train_std,y_train)
print("Meilleurs paramètres :",grip_mlp.best_params_)
best_mlp=grip_mlp.best_score_
print("Meilleur score sur le train :", best_mlp)
score_mlp=grip_mlp.score(X_test_std, y_test)
print("Score du MLP sur le test : ", score_mlp)

#Matrice de confusion :
y_pred=grip_mlp.predict(X_test_std)
cm=confusion_matrix(y_test, y_pred)
cm_display = ConfusionMatrixDisplay(cm).plot()
mv_class_mlp=cm[1,0]/(cm[1,0]+cm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_mlp) #FN/(FN+TP)
res_mlp=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Fitting 10 folds for each of 54 candidates, totalling 540 fits
Meilleurs paramètres : {'alpha': 0, 'hidden_layer_sizes': 100, 'learning_rate': 'constant'}
Meilleur score sur le train : 0.7743799153055052
Score du MLP sur le test :  0.8177083333333334
Taux de mauvaise classification sur la classe 1 : 0.4444444444444444


model_names = ["Prediction bete", "DT","KNN","Reg", "QDA", "SVM","RF","GB","LGBM","RN","MLP"]

# Accuracy :
fig = px.bar(x=model_names, y=np.array([score_bete,score_DT,score_knn,score_reg, score_qda,score_svc,score_RF,score_gb,score_LGBM,score_RN,score_mlp]), title="Comparaison score des modeles", color=model_names)
fig.show()


res_1=np.zeros((11,5))

res_1[0,0]=score_bete
res_1[0,1:4]=res_pred_bete
res_1[0,4]=mv_class_bete

res_1[1,0]=score_reg
res_1[1,1:4]=res_reg_log
res_1[1,4]=mv_class_lr

res_1[2,0]=score_qda
res_1[2,1:4]=res_qda
res_1[2,4]=mv_class_qda

res_1[3,0]=score_svc
res_1[3,1:4]=res_svm
res_1[3,4]=mv_class_svm

res_1[4,0]=score_DT
res_1[4,1:4]=res_dt
res_1[4,4]=mv_class_dt

res_1[5,0]=score_RF
res_1[5,1:4]=res_rf
res_1[5,4]=mv_class_rf

res_1[6,0]=score_knn
res_1[6,1:4]=res_knn
res_1[6,4]=mv_class_knn

res_1[7,0]=score_gb
res_1[7,1:4]=res_gb
res_1[7,4]=mv_class_gb

res_1[8,0]=score_LGBM
res_1[8,1:4]=res_lgbm
res_1[8,4]=mv_class_lgbm

res_1[9,0]=score_RN
res_1[9,1:4]=res_rn
res_1[9,4]=mv_class_rn

res_1[10,0]=score_mlp
res_1[10,1:4]=res_mlp
res_1[10,4]=mv_class_mlp


resultats=pandas.DataFrame(res_1)
resultats.insert(0,"Model",['Predicteur de base','Regression Logistique','QDA','SVM',
                    'Decision Tree','Random Forest','K-NN',"Gradient Boosting","LightGBM","Reseau Neuronaux","MLP"])
resultats=resultats.set_index("Model")
resultats=resultats.rename(columns = {0: 'Accuracy', 1: 'Precision', 2: 'Recall', 3: 'F1-Score',4:'Erreur sur la classe 1'}) 
resultats.sort_values(by=['Accuracy','Precision','Recall','F1-Score'],ascending=False)


##Récupération des data train et data test  : 
data_train=pandas.read_csv('E:/Projet M2/Machine Learning (Ok)/data_train.csv')
data_test=pandas.read_csv('E:/Projet M2/Machine Learning (Ok)/data_test.csv')

X_train=data_train.get(["Pregnancies","Glucose","BloodPressure",
                     "SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age"])
y_train=data_train["Outcome"]

X_test=data_test.get(["Pregnancies","Glucose","BloodPressure",
                     "SkinThickness","Insulin","BMI","DiabetesPedigreeFunction","Age"])
y_test=data_test["Outcome"]

#Library nécessaire : 
from imblearn.over_sampling import RandomOverSampler

##Oversampling sur les données avec sampler naïf aléatoire :
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X_train, y_train)
y_train=y_resampled #Pour pas s'embéter avec des renames après 

##Normalisation des X_test et X_train : 
ss = StandardScaler()
X_train_std = ss.fit_transform(X_resampled)
X_test_std = ss.transform(X_test)

##Repartition dans les données "complètes" resamplées :
print("Nombre de 1 dans resampled total: ",sum(y_train),"Taille total: ",len(y_train),"Ratio : ", sum(y_train)/len(y_train))
print("Nombre de 1 dans le test : ",sum(y_test),"Taille total: ",len(y_test),"Ratio : ", sum(y_test)/len(y_test))

Nombre de 1 dans resampled total:  371 Taille total:  742 Ratio :  0.5
Nombre de 1 dans le test :  63 Taille total:  192 Ratio :  0.328125


##Naïf :
score_bete=(len(y_test)-sum(y_test))/len(y_test)
print("Score du prédicteur bête :", score_bete)
y_pred = 0*y_test
cm_bete=confusion_matrix(y_test, y_pred)
mv_class_bete=1
res_bete=[0,0,0]


##Logistic regression :
grid_lr=GridSearchCV(estimator=LogisticRegression(max_iter=5000),param_grid={'C':np.arange(0.5,30,step=0.5),'solver':['newton-cg','lbfgs','liblinear']},
                  scoring="accuracy",cv=10,verbose=1)
grid_lr.fit(X_train_std,y_train)
score_reg=grid_lr.score(X_test_std,y_test)
print("Score de la Regression Logistique sur le test :",score_reg)
y_pred=grid_lr.predict(X_test_std)
cm_lr=confusion_matrix(y_test, y_pred)
mv_class_lr=cm_lr[1,0]/(cm_lr[1,0]+cm_lr[1,1])
res_rl=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]


##Decision tree :
grid_dt=GridSearchCV(estimator=DecisionTreeClassifier(),param_grid={'max_depth':np.arange(1,50,step=1)},
                  scoring="accuracy",cv=5,verbose=1)
grid_dt.fit(X_train_std,y_train)
score_DT=grid_dt.score(X_test_std,y_test)
print("Score du Decision Tree sur le test :",score_DT)
y_pred=grid_dt.predict(X_test_std)
cm_dt=confusion_matrix(y_test, y_pred)
mv_class_dt=cm_dt[1,0]/(cm_dt[1,0]+cm_dt[1,1])
res_dt=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]


##K-nn :
grid_knn=GridSearchCV(estimator=KNeighborsClassifier(),param_grid={'n_neighbors':np.arange(2,100,step=1)},
                  scoring="accuracy",cv=10,verbose=1)
grid_knn.fit(X_train_std,y_train)
score_knn=grid_knn.score(X_test_std,y_test)
print("Score des K-Nearest Neighbour sur le test :",score_knn)
y_pred=grid_knn.predict(X_test_std)
cm_knn=confusion_matrix(y_test, y_pred)
mv_class_knn=cm_knn[1,0]/(cm_knn[1,0]+cm_knn[1,1])
res_knn=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]


##QDA :
clf_qda=QuadraticDiscriminantAnalysis().fit(X_train_std,y_train)
score_qda=clf_qda.score(X_test_std,y_test)
print("Score du QDA sur le test :", score_qda)
y_pred=clf_qda.predict(X_test_std)
cm_qda=confusion_matrix(y_test, y_pred)
mv_class_qda=cm_qda[1,0]/(cm_qda[1,0]+cm_qda[1,1])
res_qda=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]


##SVM :
grid_svc=GridSearchCV(estimator=SVC(),param_grid={'C':np.arange(0.5,20,step=0.5),'kernel':['rbf','sigmoid'],'gamma':['auto','scale']},
                  scoring="accuracy",cv=10,verbose=1,refit=True)
grid_svc.fit(X_train_std,y_train)
score_svc=grid_svc.score(X_test_std,y_test)
print("Score du SVM sur le test :",score_svc)
y_pred=grid_svc.predict(X_test_std)
cm_svm=confusion_matrix(y_test, y_pred)
mv_class_svm=cm_svm[1,0]/(cm_svm[1,0]+cm_svm[1,1])
res_svm=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]


##Random Forest : 
grid_rf=GridSearchCV(estimator=RandomForestClassifier(),param_grid={"n_estimators":np.arange(20,100,step=1),
                                                                    'max_depth':np.arange(2,15,step=1)}
                  ,scoring="accuracy",cv=10,verbose=1)
grid_rf.fit(X_train_std,y_train)
score_RF=grid_rf.score(X_test_std,y_test)
print("Score de la Random Forest sur le test :",score_RF)
y_pred=grid_rf.predict(X_test_std)
cm_rf=confusion_matrix(y_test, y_pred)
mv_class_rf=cm_rf[1,0]/(cm_rf[1,0]+cm_rf[1,1])
res_rf=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]


##Gradient Boosting :
grid_gb=GridSearchCV(GradientBoostingClassifier(),param_grid={'learning_rate': [0.05, 0.1, 0.5],
                                                              'max_features': np.arange(1,10,step=1), 'max_depth': np.arange(1,5,step=1)},
                                                               cv=10, scoring='accuracy',verbose=1)
grid_gb.fit(X_train_std,y_train)
score_gb=grid_gb.score(X_test_std,y_test)
print("Score du Gradient Boosting sur le test :",score_gb)
y_pred=grid_gb.predict(X_test_std)
cm_gb=confusion_matrix(y_test, y_pred)
mv_class_gb=cm_gb[1,0]/(cm_gb[1,0]+cm_gb[1,1])
res_gb=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]



##LightGBM :
fit_params = {"early_stopping_rounds" : 100, 
             "eval_metric" : 'auc', 
             "eval_set" : [(X,y)],
             'eval_names': ['valid'],
             'verbose': 0,
             'categorical_feature': 'auto'}
param_test = {'learning_rate' : np.arange(0.1,0.5,step=0.1),
              'n_estimators' : np.arange(100,500,step=100),
              'max_depth': [3, 4, 5]
             }
#intialize lgbm and launch the search
clf_LGBM = lgbm.LGBMClassifier(random_state=50, silent=True, metric='None', n_jobs=4)
#gridsearch
grid = RandomizedSearchCV(estimator=clf_LGBM, param_distributions=param_test, n_iter=400,scoring='accuracy',cv=10,
    refit=True,random_state=50,verbose=1)
grid.fit(X_train_std, y_train, **fit_params)
score_LGBM=grid.score(X_test_std,y_test)
print("Score de LGBM : ", score_LGBM)
y_pred=grid.predict(X_test_std)
cm_lgbm=confusion_matrix(y_test, y_pred)
mv_class_lgbm=cm_lgbm[1,0]/(cm_lgbm[1,0]+cm_lgbm[1,1])
res_lgbm=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]


##MLP : 
from sklearn.neural_network import MLPClassifier
grip_mlp = GridSearchCV(MLPClassifier(max_iter=300,random_state=0,activation='logistic',solver='adam'),param_grid={
                                                                'alpha' : [0,1e-8,1e-7,1e-6,1e-5, 1e-4], #Param de regul
                                                                'learning_rate': ['constant', 'invscaling', 'adaptive'],
                                                                'hidden_layer_sizes':[100,150,200]},
                                                               cv=10, scoring='accuracy',verbose=1)
grip_mlp.fit(X_train_std,y_train)
score_mlp=grip_mlp.score(X_test_std, y_test)
print("Score de MLP : ", score_mlp)
y_pred=grip_mlp.predict(X_test_std)
cm_mlp=confusion_matrix(y_test, y_pred)
mv_class_mlp=cm_mlp[1,0]/(cm_mlp[1,0]+cm_mlp[1,1])
res_mlp=precision_recall_fscore_support(y_test,y_pred,average='weighted')[0:3]

Score du prédicteur bête : 0.671875
Fitting 10 folds for each of 177 candidates, totalling 1770 fits
Score de la Regression Logistique sur le test : 0.8333333333333334
Fitting 5 folds for each of 49 candidates, totalling 245 fits
Score du Decision Tree sur le test : 0.703125
Fitting 10 folds for each of 98 candidates, totalling 980 fits
Score des K-Nearest Neighbour sur le test : 0.7708333333333334
Score du QDA sur le test : 0.8072916666666666
Fitting 10 folds for each of 156 candidates, totalling 1560 fits
Score du SVM sur le test : 0.8125
Fitting 10 folds for each of 1040 candidates, totalling 10400 fits
Score de la Random Forest sur le test : 0.7864583333333334
Fitting 10 folds for each of 108 candidates, totalling 1080 fits
Score du Gradient Boosting sur le test : 0.7708333333333334
Fitting 10 folds for each of 48 candidates, totalling 480 fits
Score de LGBM :  0.796875
Fitting 10 folds for each of 54 candidates, totalling 540 fits
Score de MLP :  0.8229166666666666


cm_display_bete = ConfusionMatrixDisplay(cm_bete).plot()
plt.title("Prédicteur Naïf")
plt.show()
mv_class_bete=1
print('Taux de mauvaise classification sur la classe 1 :',mv_class_bete) #Se trompe tout le temps sur la classe 1.

cm_display_lr = ConfusionMatrixDisplay(cm_lr).plot()
plt.title("Logistic reg")
plt.show()
mv_class_lr=cm_lr[1,0]/(cm_lr[1,0]+cm_lr[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_lr) #FN/(FN+TP)

cm_display_dt = ConfusionMatrixDisplay(cm_dt).plot()
plt.title("Decision Tree")
plt.show()
mv_class_dt=cm_dt[1,0]/(cm_dt[1,0]+cm_dt[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_dt) #FN/(FN+TP)

cm_display_knn = ConfusionMatrixDisplay(cm_knn).plot()
plt.title("K-NN")
plt.show()
mv_class_knn=cm_knn[1,0]/(cm_knn[1,0]+cm_knn[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_knn) #FN/(FN+TP)

cm_display_qda = ConfusionMatrixDisplay(cm_qda).plot()
plt.title("QDA")
plt.show()
mv_class_qda=cm_qda[1,0]/(cm_qda[1,0]+cm_qda[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_qda) #FN/(FN+TP)

cm_display_svm = ConfusionMatrixDisplay(cm_svm).plot()
plt.title("SVM")
plt.show()
mv_class_svm=cm_svm[1,0]/(cm_svm[1,0]+cm_svm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_svm) #FN/(FN+TP)

cm_display_rf = ConfusionMatrixDisplay(cm_rf).plot()
plt.title("Random Forest")
plt.show()
mv_class_rf=cm_rf[1,0]/(cm_rf[1,0]+cm_rf[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_rf) #FN/(FN+TP)

cm_display_gb = ConfusionMatrixDisplay(cm_gb).plot()
plt.title("Gradient Boosting")
plt.show()
mv_class_gb=cm_gb[1,0]/(cm_gb[1,0]+cm_gb[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_gb) #FN/(FN+TP)

cm_display_lgbm = ConfusionMatrixDisplay(cm_lgbm).plot()
plt.title("LightGBM")
plt.show()
mv_class_lgbm=cm_lgbm[1,0]/(cm_lgbm[1,0]+cm_lgbm[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_lgbm) #FN/(FN+TP)

cm_display_mlp = ConfusionMatrixDisplay(cm_mlp).plot()
plt.title("MLP")
plt.show()
mv_class_mlp=cm_mlp[1,0]/(cm_mlp[1,0]+cm_mlp[1,1])
print('Taux de mauvaise classification sur la classe 1 :',mv_class_mlp) #FN/(FN+TP)

Taux de mauvaise classification sur la classe 1 : 1

Taux de mauvaise classification sur la classe 1 : 0.2222222222222222

Taux de mauvaise classification sur la classe 1 : 0.4126984126984127

Taux de mauvaise classification sur la classe 1 : 0.25396825396825395

Taux de mauvaise classification sur la classe 1 : 0.38095238095238093

Taux de mauvaise classification sur la classe 1 : 0.2698412698412698

Taux de mauvaise classification sur la classe 1 : 0.3968253968253968

Taux de mauvaise classification sur la classe 1 : 0.38095238095238093

Taux de mauvaise classification sur la classe 1 : 0.31746031746031744

Taux de mauvaise classification sur la classe 1 : 0.23809523809523808


res=np.zeros((10,5))

res[0,0]=score_bete
res[0,1:4]=res_bete
res[0,4]=mv_class_bete

res[1,0]=score_reg
res[1,1:4]=res_rl
res[1,4]=mv_class_lr

res[2,0]=score_qda
res[2,1:4]=res_qda
res[2,4]=mv_class_qda

res[3,0]=score_svc
res[3,1:4]=res_svm
res[3,4]=mv_class_svm

res[4,0]=score_DT
res[4,1:4]=res_dt
res[4,4]=mv_class_dt

res[5,0]=score_RF
res[5,1:4]=res_rf
res[5,4]=mv_class_rf

res[6,0]=score_knn
res[6,1:4]=res_knn
res[6,4]=mv_class_knn

res[7,0]=score_gb
res[7,1:4]=res_gb
res[7,4]=mv_class_gb

res[8,0]=score_LGBM
res[8,1:4]=res_lgbm
res[8,4]=mv_class_lgbm

res[9,0]=score_mlp
res[9,1:4]=res_mlp
res[9,4]=mv_class_mlp


resultats=pandas.DataFrame(res)
resultats.insert(0,"Model",['Predicteur de base','Regression Logistique','QDA','SVM',
                    'Decision Tree','Random Forest','K-NN',"Gradient Boosting","LightGBM","MLP"])
resultats=resultats.set_index("Model")
resultats=resultats.rename(columns = {0: 'Accuracy', 1: 'Precision', 2: 'Recall', 3: 'F1-Score',4:'Erreur sur la classe 1'}) 
resultats.sort_values(by=['Accuracy','Precision','Recall','F1-Score'],ascending=False)

	Accuracy	Precision	Recall	F1-Score	Erreur sur la classe 1
Model
Regression Logistique	0.817708	0.819896	0.817708	0.806340	0.444444
MLP	0.817708	0.819896	0.817708	0.806340	0.444444
K-NN	0.802083	0.822186	0.802083	0.779315	0.555556
QDA	0.802083	0.799107	0.802083	0.792044	0.444444
Reseau Neuronaux	0.802083	0.704918	0.682540	0.693548	0.317460
SVM	0.796875	0.799946	0.796875	0.780708	0.507937
LightGBM	0.791667	0.786035	0.791667	0.785331	0.412698
Random Forest	0.786458	0.784725	0.786458	0.771356	0.507937
Gradient Boosting	0.776042	0.776342	0.776042	0.756110	0.555556
Decision Tree	0.723958	0.720331	0.723958	0.680211	0.730159
Predicteur de base	0.671875	0.000000	0.000000	0.000000	1.000000

	Accuracy	Precision	Recall	F1-Score	Erreur sur la classe 1
Model
Regression Logistique	0.833333	0.836597	0.833333	0.834585	0.222222
MLP	0.822917	0.826325	0.822917	0.824247	0.238095
SVM	0.812500	0.814151	0.812500	0.813232	0.269841
QDA	0.807292	0.802790	0.807292	0.802015	0.380952
LightGBM	0.796875	0.796080	0.796875	0.796455	0.317460
Random Forest	0.786458	0.781061	0.786458	0.781844	0.396825
K-NN	0.770833	0.785620	0.770833	0.775208	0.253968
Gradient Boosting	0.770833	0.767531	0.770833	0.768826	0.380952
Decision Tree	0.703125	0.709537	0.703125	0.705857	0.412698
Predicteur de base	0.671875	0.000000	0.000000	0.000000	1.000000

Projet de Machine Learning : Classification sur le diabète¶

Ngo Khoa Anh , Laffineur Loïc, ISUP, M2ISDS¶

Bibliothèques :¶

Introduction :¶

Etape 1 : Cadre (Loïc)¶

Etape 2 : Visualisation des données (Loïc)¶

Remarque :¶

Données atypiques :¶

Composition des donneés manquantes :¶

Composition des donneés "Complètes" :¶

Choix du traitement des données incomplètes :¶

Etape 2 (bis) : Etude des corrélations entre variables explicatives (Loïc)¶

Heatmap :¶

Pairplot :¶

ACP :¶

Etape 3 : Clustering (Khoa Anh)¶

Graphes silhouette : (Loïc)¶

Etape 4 : Apprentissage¶

Composition des training/test set :¶

Entrainement des prédicteurs :¶

Prédicteur naïf : (Loïc)¶

Modèles simples :¶

1 - Decision Tree : (Loïc)¶

2 - K-NN : (Loïc)¶

Modèles paramétriques :¶

1 - Régression Logistique : (Loïc)¶

2 - Quadratic Discriminant Analysis : (Loïc)¶

3 - SVM : (Loïc)¶

Modèles non-paramétriques :¶

1 - Random Forest : (Loïc)¶

2 - Gradient Boosting (Khoa Anh) :¶

3 - LightGBM Classifier : (Khoa Anh)¶

Deep-learning :¶

1 - Reseau de neurones : (Khoa Anh)¶

2 - Perceptron Multicouche : (Loïc)¶

Conclusion :¶

Comparaison des modèles : (Khoa Anh)¶

Evaluation des modeles : (Loïc)¶

Partie supplémentaire : Essayer de résoudre le problème de classes deséquillibrées. (Loïc)¶

Oversampling sur les données totales :¶

Conclusion :¶