06.06.2008

Méthodes Statistiques-Mathèmatique utilisées dans Bâle2

Dans cette partie nous exposerons les différentes méthodes statistiques, qui nous permettent d’estimer les différents paramètres de pondération, alors il s’agit de mettre des outils de datamining, qui entre dans le cadre des techniques de scoring. En bref, le scoring consiste à affecter une note globale à un individu à partir de notes partielles calculées sur des variables isolées ou en interaction. Cette note est utilisée essentiellement pour classer les individus par ordre ascendant ou descendant. La construction d’un score fait appel à la modélisation prédictive, et l’on parle d’un score quand la variable à prédire n’a que deux modalités possibles, type oui/non. Cela vient du fait qu’à l’origine, le « crédit scoring » a consisté à prédire la probabilité d’être un mauvais ou un bon payeur dans l’octroi d’un crédit.

Parmi les méthodes les plus courantes, l’analyse discriminante, la régression logistique binaire, les arbres de décision, et les réseaux de neurones, elles font partie des méthodes dites supervisées, pour les méthodes dites non supervisées, nous utiliserons les méthodes de classifications,la carte kohonen, les K-means,le Two-step 

Nous expliquons ici les méthodes les plus utilisées pour faire le scoring, nous commençons  par les arbres de décision puis nous exposerons la régression logistique et nous finirons par les réseaux neurones.           

section1 : les arbres de décision

 

Dans cette partie nous allons exposer les méthodes pour construire les arbres de décision.Tout d’abord nous allons répondre à la question : qu’est ce qu'un arbre de décision.

1-1 Définition

Un arbre de décision est un arbre hiérarchique. Chaque nœud est un test d’un ou de plusieurs attributs, et chaque branche correspondant à un résultat de ce test.

 

2-2 Modèle Mathématique

Les données d'enseignement sont en forme des vecteurs K+1 dimension  

X : (X1;X2;…..;XK; Y ) les variables X s’appellent «  variables de prédiction », et la variable Y est dite « variable de classification ».

Y accepte les valeurs dans C = {1,2,….J}.

C est dit « ensemble de classes ».

Q = dom(X1) * dom(X2) *….. * dom (XK) est l'espace des variables de prédiction.

Définition 1 (Une classification) :

Une classification ou une règle de classification est une fonction d(x) qui est définie sur Q pour que d(x) soit égal  à un des nombres

 1; 2;… ;J.

Soit Aj = {x : d(x) = j}, on a  Q = UjAj.

Une classification est une partition de Q en J sous-ensembles A1,...,AJ séparés

 

Définition 2 (Un échantillon d'enseignement)

 

Un échantillon d'enseignement L comprend des données (x1; j1) ,..., (xN; jN) avec xn Є Q

Et  jn Є C, n = 1;…; N.

L = {(x1; j1);…, (xN; jN)}

2-3 Schéma d'algorithme

A chaque échantillon d'enseignement, correspondant plusieurs arbres. Donc, lequel arbre est préférable? C'est celui qui a la taille la plus petite possible. Car plus la taille d'un arbre est petite, plus cet arbre contient les meilleurs attributs.

Les meilleurs attributs, sont ceux qui bien discriminent les données, sont donc les attributs importants, significatifs et pertinents. Autre raison vient du principe « du rasoir d'Occam. » on peut penser que chaque arbre correspond à une hypothèse. Le principe d'Occam dit que l'hypothèse plus simple, c'est-à-dire l'arbre ayant la taille plus petite, est préférée. Normalement, pour construire l'arbre ayant la taille la plus petite, on mesure les données D par une quantité quelconque (par exemple : entropy, gain-information, gini-index,...). Chaque fois, qu'on divise D en D[1],..,D[k], cette quantité diminue. Lors que la quantité d'un arbre est égale à 0 ou prés de 0, on arrête et les données sont bien divisées. De façon gourmande, à chaque pas, on peut choisir un critère de division qui diminue le plus la quantité. C'est la raison pour laquelle à peu prés que tous les Algorithmes de fabrication d'arbre de décision sont les algorithmes de haut en bas et gourmand. Voici, le schéma commun pour ces algorithmes (voir l'algorithme 1).

clip_image002.jpg

 

2-4 Techniques

Avant d’expliquer l’ensemble des arbres de décision utilisés dans cette étude, nous aimerions d’abord d’expliquer la notion d’entropie.  

2-4-1- définition (Entropy)

Soit S un ensemble contenant n sous-ensembles différents :

 

clip_image002.jpg

 

 

 

 

 

 

La mesure Entropy est calculée sur la variable de classification. Lors du choix d'un attribut pour diviser les données, le total des entropies des sous-ensembles des données est inférieur à l'entropy avant de diviser. C’est à dire, le désordre diminue. A chaque pas, l'entropy diminue, donc on retire de l'information. On définit l'information obtenue quand on choisit un attribut pour diviser. Dans cette définition, S est l'ensemble des données avant de diviser, A est l'attribut utilisé pour diviser, Sv correspond aux données ayant la valeur de A égale à v.

clip_image002.jpg

 2-6 Arbre de décision QUEST

2-6-1 introduction

L'algorithme QUEST veut dire arbre statistique efficace sans biais et rapide En 1997, Loh et Shih ont présenté cet algorithme dans le journal Statistica Sinica. Les algorithmes qui utilisent la recherche exhaustive rencontrent toujours deux difficultés

  • Le temps de calcul est trop élevé.
  • La division choisie est partiale.
QUEST est un effort pour surmonter ces difficultés.

QUEST (Quick, Unbiased, Efficient Statistical Tree) est une méthode de classification binaire permettant de créer des arbres décision. L'une des principales raisons pour lesquelles cette méthode a été développée consiste à réduire le temps de traitement nécessaire aux analyses C&RT importantes, qui utilisaient alors de nombreuses variables ou observations. QUEST avait également pour objectif de limiter la tendance à favoriser les valeurs prédites autorisant un nombre supérieur de divisions, à savoir des variables de prévision continues ou des valeurs prédites dotées de nombreuses catégories.

·         QUEST utilise une séquence de règles, basée sur des tests de signification, pour évaluer les variables de prévision d'un noeud. A des fins de sélection, on peut être amené à n'effectuer qu'un seul test sur chaque valeur prédite d'un noeud. Contrairement à C&RT, cette méthode ne vérifie pas toutes les divisions et, à la différence de C&RT et CHAID, elle ne teste pas non plus les combinaisons de catégories lorsqu'une valeur prédite est évaluée pour la sélection. L'analyse s'en trouve ainsi accélérée.

·         Les divisions sont définies en exécutant une analyse discriminante quadratique via la valeur prédite sélectionnée dans les groupes qui se composent des catégories cible. Là encore, cette méthode accélère le processus lors d'une recherche complète (C&RT) pour déterminer la division optimale

 

2-6-2 Algorithme 
  1. Calculer le p-valeur du test du kh2 sur chaque variable
  2. Si la plus petite p-valeur est inférieure à un seuil déterminé par la méthode de Bonferroni. Alors, la variable correspondant est choisie

3.      Par contre, on calcule le test F-statistique de Levene pour chaque variable numérique. Ici, si la plus petite p-valeur est inférieure à autre seuil de Bonferroni, alors on choisit également la variable correspondant

4.      Par contre, on choisit la variable ayant le plus petit p-valeur dans la première étape.

 

2-7 Arbre de décision CART

2-7-1 introduction

Le nom complet de CART est arbre de classification et régression. Il a été créé par Leo Breiman en 1984. CART utilise uniquement la division binaire. Il construit donc uniquement des arbres binaires (chaque noeud a deux branches). CART a deux façons de traiter les données. Si la variable de classification est numérique, il utilise la régression. Sinon il utilise  la classification. C'est la raison pour laquelle il a pour nom .arbre de classification et régression. Ensuite D'ailleurs, CART introduit une nouvelle mesure pour mesurer une division, c'est la mesure indice de Gini. Enfin, pour traiter les attributs manquants, la technique "division subrogation" est utilisée.

 

2-7-2 Régression

Dans la méthode CART, si la variable de classification est numérique, on fait la régression. Le point différence avec la classification est que l'on assigne une valeur numérique à un nœud. Il n'est pas nécessaire que cette valeur soit une des valeurs de classification des exemples. Il faut choisir une valeur qui minimise une quantité qui va être introduite. La notion de la régression est la même pou les autres algorithmes. On va définir une mesure sur un noeud. Ensuite, lors qu'on divise ce noeud en des sous-noeuds, cette mesure va diminuer. Ce processus continue sur les sous-noeuds et s'arrête quand la mesure ne peut plus diminuer. La mesure utilisée est le carré de la distance entre la valeur assignée et la valeur de classification de chaque exemple.

 

Définition (erreur de régression)

soient y la valeur à assigner,et.

N exemples X1…..XN ayant la valeur de classification y1…… yN.

Alors, la distance entre y et y1…… yN, est

clip_image002.jpg

 

 

 

 

 

Donc, on définit l’erreur de régression ainsi

clip_image002.jpg

 

 

 

 

 

clip_image002.jpg

13.05.2008

Formation Statistique théor/partiq

Modèle Base : Reporting et graphique, statistique descriptive, classification (nuées dynamiques, hiérarchique, Two-step), Analyses factorielle, Positionnement, Analyse discriminante, Régression linéaire)

 

Modèles de régression : Régression logistique multinomiale, Régression logistique binaire,régression non linéaire sans contrainte,Régression non linéaire avec contraintes,Moindre carrées pondérés,Doubles moindres carrés, Analyse probit.

 

Modèles Avancés : Analyse de variance, covariance (ANOVA, ANCOVA, MANOVA et MANCOVA), Effets fixes, effets aléatoires, modèle mixtes, Modèle linéaire général (GLM), Mesures répétées univariées.

 

Modèles de Correspondance : Analyse de correspondances, Analyse de l’homogénéité, Analyse de correspondance Multiples, Analyse des corrélations canoniques.

 

Modèles de Testes Exacts : test d’ajustement khi deux, Kolmogorov, Runs, Test Binomial, K-échantillons, Mesures d’association (nominales, ordinales, Kappa de cohen.)

 

Modèles de Séries:ARIMA, Lissage Exponentiel, Analyse Spectrale, Auto régression.

 

Modèles des Valeurs Manquantes : Analyse de la structure des données manquantes, Remplacement des valeurs manquantes par algorithme EM ou régression.

 

Modèles d’ Echantillonnages : Echantillonnage aléatoire simple, Echantillonnage stratifié, Echantillonnage en grappe, Systématique avec PPS, PPS Brewer, PPS Murthy.

 

Modèles d’arbres de décisions : CHAID, Exhaustive CHAID, Quest., C5.0, CRT 

 

Modèles Analyse conjointe, Modèles Validation de données,