24.07.2008

Introduction Générale Bâle2 au maroc

 INTRODUCTION GENERALE :Bâle2 AU MAROC

Conformément au métier d'un intermédiaire financier, les banques sont exposées, dans le cadre de leur activité, à divers risques : risque de liquidité, risque de taux, risque de change, risque de pays…et risque de contrepartie ou risque de défaillance du débiteur et perte d’opportunité en cas de défaillance du refinanceur. Parmi ces risques, la défaillance du débiteur ou le risque de crédit se présente comme le plus dangereux et le plus préoccupent pour les banques.

La réglementation bancaire est là pour limiter les risques, moyennant des ratios prudentiels : ratio de division des risques, coefficient de fonds propres, ratio de liquidité, ratio de participation et plus particulièrement important, ratio de solvabilité. Concernant la supervision des activités bancaires, il faut mentionner le rôle important du Comité de Bâle.

Instauré en 1974 par les autorités des pays membre du G10, le comité de Bâle est une instance qui regroupe aujourd’hui 13 pays1[1]*. Son but est la sécurisation des relations bancaires, à travers notamment l’harmonisation des dispositifs de contrôle nationaux. Ce comité n’a pas de pouvoir législatif supranational mais ses recommandations sont en général mises en oeuvre par les régulateurs nationaux.

En 1988, le Comité de Bâle a instauré une réglementation dite prudentielle (Bâle I) afin d’assurer la pérennité de la banque face à ses principaux risques que sont le risque de crédit et le risque de marché. Il a proposé la mise en place du ratio Cooke qui impose aux banques de disposer d’un montant minimum de fonds propres proportionnel à leur risque de crédit « fonds propres /risque de crédit + risque de marché ».

Ce ratio a été vivement critiqué par les banques elles-mêmes et les autorités, L’approche est d’abord restrictive, elle ne prend en compte que quatre classes de risque et les degrés de pondération du risque de crédit ne sont pas suffisamment calibrés pour déterminer et différencier adéquatement les emprunteurs. Le taux de 8 % appliqué ne prend pas en compte le fait que, même dans une classe de risque, certains emprunteurs sont plus risqués que les autres. En conséquence, la quantité de fonds propres que Bâle I exige pour un prêt à un client peut ne pas correspondre à son risque réel.

C’est sur les limites du ratio Cooke, et aussi pour assurer une meilleure stabilité au système bancaire que la réglementation devait évoluer vers une appréciation plus réaliste des risques et des fonds propres exigés par l’activité bancaire. Le Comité de Bâle, présidé par W. McDonough, a décidé la refonte de cette réglementation en 1999, qui devrait s’appliquer au 1er janvier 2007.

Le nouveau ratio de solvabilité, appelé ratio Mc Donough, ne change pas l’assiette de calcul « fonds propres /risque de crédit + risque de marché + risque opérationnel  » qui reste fixée à 8%. Par contre, une ventilation du risque en fonction de sa nature sera exigée (risque de crédit comptant pour 75%, le risque opérationnel pour 20% et le risque de marché pour 5%). Il faut marquer l’introduction du risque opérationnel dans l’exigence des fonds propres.

La réforme Bâle II se traduit par l’avènement de « trois piliers » qui doivent garantir son efficacité. Le premier est l'estimation un nouveau ratio de solvabilité (le calcul des exigences réglementaires en fonds propres), C’est le seul pilier obligatoire d’ici 2008. Le second, la surveillance prudentielle, accroît le pouvoir des autorités. Le troisième, enfin, concerne la discipline de marché et contraint les banques à un reporting complet et normalisé de leurs gestions des risques.



[1] Les 13 pays : Allemagne, Belgique, Canada, Espagne, Etats-Unis, France, Italie, Japon, Luxembourg, Pays-Bas, Royaume-Uni, Suède, Suisse

Modélisation Mathématique des Paramètres de Pondération PD, LGD, EAD, M

Nous décrivons dans cette partie les étapes de modélisation, qui nous permettent d’estimer les paramètres de pondération, nous rappelons ici que les étapes de modélisation, ont été faites par le logiciel SPSS Clementine.

Nous allons commencer d’abord, par la représentation de premier flux qui nous permet de créer les classes de risques. Les questions que nous nous poserons  sont les suivantes :

  1. Combien de classes de risque doit-on avoir ?
  2. Comment sont-ils définis ?
  3. Est-ce la nature d’emprunteur qui détermine cette segmentation ou celle des activités de la banque ?
  4. Et, si on arrive à les créer, comment peut-on les classer ?
  5. On se base sur quoi pour faire ce classement ?

 les réponses à ces questions, on va les voir techniquement dans le premier flux Demogr_risk_segments.str      

Section 1 : segmentation et création des classes de risque 

L’objectif principal du flux Demogr_risk_segments.str est de créer des classes de risque, ainsi que de générer des règles de classement, qui nous permet d’affecter l’individu à la classe correspondante.

exemple : flux des segmentations et création des classes de risque

clip_image002.jpg

 

 

 

 

 

Le flux Demogr_risk_segments.str comporte trois modèles, nous commençons d'abord par le modèle de classification non supervisée TowStep, puis nous confirmerons cette classification par un autre modèle, celui de la classification de Kohonen. Après la construction des classes nous nous s’intéresserons à produire des règles du classement, nous ferions donc appel à la modélisation prédictive par le biais d’un arbre de décision prédictive C&RT, puis nous générerons  pour chaque classe de risque une règle de décision, pour laquelle chaque individu doit être affecté à une seule classe de risque.

Les trois modèles utilisent plusieurs champs d’entrés (figure 7 ci-après). Ces champs sont très reliés à la nature des emprunteurs, en prenant par exemple les variables démographiques qui expliquent l’âge, Home /Femme, Marié/Divorcé. Il y a aussi des variables socioprofessionnelles qui expliquent le niveau d’études, type de fonction, ancienneté, revenu, et un autre variable reliée à l’activité de la banque qui correspond au compte bancaire de l’emprunteur (Active, défaut, fermé, payeur).

 

1-Segmentation

Les deux nœuds de modélisation Two-Step et Kohonen permettent de construire un modèle de classification non supervisée. Ce type de modèle permet de classer les données en groupes distincts, lorsque aucun groupe n’est défini au départ, c'est-à-dire les enregistrements similaires sont ressemblés dans le même groupe. Nous espérons  que la modélisation de réseau Kohonen doive être la plus proche possible de la modélisation de classification Two-step, soit au niveau de nombre des classes, soit au niveau des enregistrements au sein des classes.

Le modèle trouvé par la modélisation Two-Step est le suivant:

clip_image002.jpg

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Pour chaque classe de risque on a des enregistrements qui expliquent les caractéristiques de la classe. le nombre minimum des enregistrements est de 777 et le nombre maximum de 1841 enregistrements, ils sont enregistrés respectivement dans les classes 9 et 8.

remarque:

Pour donner un ordonnancement des classes de risque, il suffit de compter en moyenne combien d’individus comporte la catégorie « Défaut » pour chaque classe de risque. Aussi, la première classe de risque ou la classe qui possède le moins de risque, sera celle qui va connaître nombre moyen le plus petit de la catégorie « Défaut ».

 

Nous exposerons les caractéristiques des classes seulement pour la classe le moins risquée et la classe le plus risquée:

 

Classe 4 (le moins risquée) 

 

clip_image002.jpg

 

 

 

la moitié des emprunteurs de la classe 4 ont un âge entre 45 et 60 ans, ainsi environ 37% parmi eux ont plus de 60 ans, les client de cette classe touchent un salaire inférieur à 15K, ce qui  s’explique par le type de la fonction qu’ils exercent, en effet, plus 86% des emprunteurs de la classe 4 sont des retraiter.    

.    

 

 

 Classe 5 (le plus risquée)

clip_image002.jpg

 

L’étude de la classe 5 fait ressortir que la majorité des emprunteurs sont des clients très jeunes, leurs âges se situant entre 18 ans et 32 ans, comporte aussi 65% des hommes et 34% des femmes. Plus de 65% de ces clients occupent des fonctions non garanties, et environ du 53% parmi eux sont des emprunteurs célibataires. Pour l’ancienneté du travail, 45% des clients entre 1.5 an  et 5 ans, et 29% ont au dessous de 1,5 an de travail. 

.

   

2-Génération des règles pour les classes de risque        

Maintenant nous nous s’intéressons à générer des règles de classement des individus, c'est-à-dire à déterminer pour chaque classe de risque, une règle de décision, qui nous permette de classer l’individu selon sa caractéristique à une seule classe de risque. Pour faire ceci nous nous basons sur le nœud arbre C&RT. Le modèle obtenu est le suivant :

clip_image002.jpg Pour qu’un individu ou un emprunteur soit dans la classe « Risk_sgment 1 » qui possède moins de risque, les caractéristiques de l’emprunteur devront respecter une de deux règles suivantes:

 

Règle1

 

1

Age_Group in [ "32_45" "45_60" "60_90" "NA" ]
2 Job_Type in [ "Executive" "Leader" "Other" "Public_Employee" "Retired" ]
3 Gender in [ "Female" ]
4

Job_Type in [ "Retired" ]

Règle2

1

Age_Group in [ "32_45" "45_60" "60_90" "NA" ]
2 Job_Type in [ "Executive" "Leader" "Other" "Public_Employee" "Retired" ]
3 Gender in [ "Male" ]
4 Age_Group in [ "45_60" "60_90" "NA" ]
5 Job_Type in [ "Retired" ]

 

3- Analyse de performance

clip_image002.jpg
 

 

 

 

 D’une manière générale, nous pouvons dire que notre modèle est bon, par ce que plus de 91% des individus sont affectés correctement, et que 9% des individus, ont été mal affecté dés le départ.

4-Résumer

L’objectif principal du premier flux, est de construire des classes de risque,et de générer pour chaque classe une règle de décision qui permette d’affecter l’individu selon ses caractéristiques. En outre, savoir construire des classes de risque et  les ordonner, ça serait un atout pour les prochains flux

11.07.2008

ANALYSE DESCRIMINANTE SOUS SPSS

clip_image002.jpg
ANALYSE DESCRIMINANTE SOUS SPSS

 

Analyse Factorielle Discriminante (AFD)

En Utilisant l’analyse discriminante pour expliquer et prédire l’appartenance d’individus à plusieurs classes, sur la base de variables explicatives quantitatives.

Description et indication

L’Analyse Factorielle Discriminante (AFD) est une méthode ancienne (Fisher, 1936) qui dans sa version classique a peu évolué au cours des vingt dernières années. Cette méthode, à la fois explicative et prédictive, peut être utilisée pour :

  • vérifier sur un graphique à deux ou trois dimensions si les groupes auxquels appartiennent les observations sont bien distincts ;
  • identifier quelles sont les caractéristiques des groupes sur la base de variables explicatives ;
  • prédire le groupe d’appartenance pour un individu.

Les applications possibles de l’AFD sont très nombreuses de l’écologie à la prévision de risque en finance (crédit scoring).

Modèle linéaire ou quadratique 

Deux modèles d’AFD sont possibles en fonction d’une hypothèse fondamentale :

Si l’on suppose que les matrices de covariance sont identiques, on se trouve dans le cas de l’Analyse Factorielle Discriminante linéaire. Si l’on suppose le contraire que les matrices de covariance sont différentes pour au moins deux groupes, alors on se trouve dans le cas d’un modèle quadratique. Le test de Box permet de tester cette hypothèse (l’approximation de Bartlett permet d’utiliser une loi du Khi² pour le test). On peut commencer par une analyse linéaire, puis, en fonction des résultats du test de Box éventuellement faire une analyse quadratique.

Problème de multi colinéarité.

Dans le cas du modèle linéaire et encore plus dans le cas du modèle quadratique on peut faire face à des problèmes de variables ayant une variance nulle ou de multi colinéarité entre variables.

Méthode Pas à Pas  (stepwise).

Comme pour la régression linéaire et logistique, des méthodes pas à pas efficaces ont été proposées. Elles ne sont toutefois utilisables que lorsque seules des variables quantitatives sont sélectionnées car les tests d’entrée et sortie de variables s’appuient sur une hypothèse de normalité des variables. La méthode stepwise (pas à pas progressive) permet d’obtenir un modèle performant évitant les variables qui n’apportent que peu d’information au modèle.

Tableau de classification

Parmi les nombreux résultats proposés, SPSS donne la possibilité d’afficher le tableau de classification (aussi appelé matrice de confusion) qui permet de calculer un pourcentage d’observations bien classées. Lorsque seules deux classes (ou catégories, ou modalités) sont présentes dans la variable dépendante.

Comment faire une analyse factorielle discriminante avec SPSS ?

Les données proviennent de [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics]

 Les données correspondent à 150 fleurs d'Iris, décrites par 4 variables quantitatives (longeur des sépales, largeur des sépales, longueur des pétales, largeur des pétales, et par leur espèce. Trois différentes espèces (3 groupes) font partie de cette étude : setosa, versicolor et virginica. Notre but est de tester si les quatre variables descriptives permettent d'identifier les espèces, puis de visualiser les données sur un graphique afin de vérifier que les trois espèces sont bien distinguées.

Une fois SPSS lancé, choisissez la commande Analyse / classification / Analyse Discriminante

clip_image002.jpg
Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Analyse Factorielle Discriminante (AFD) apparaît. Vous pouvez alors sélectionner ; la critère de regroupement correspond à la variable expliquée, qui est dans ce cas précis, l'espèce d'Iris, Les variables explicatives sont les quatre variables dont on dispose
clip_image002.jpg
Lorsque l'on clique sur le bouton "définir l’intervalle" boite de dialogue apparaît, pour définir le nombre minimum et le maximum des groupes.
Nous avons coché l'option "utiliser la méthode pas à pas", car la méthode pas à pas permet d’obtenir un modèle performant évitant les variables qui n’apportent que peu d’information au modèle.
 Option statistique
Activez cette option pour afficher les statistiques descriptives pour les variables sélectionnées ainsi les coefficients de la fonction discriminante et les matrices de covariance.
clip_image002.jpg
Option méthode (pas à pas)
Activez cette option si vous souhaitez utiliser l’une des Cinq méthodes de sélection proposées ,Test du Lambda de Wilks (approximation de Rao) : ce test permet de tester l’Hypothèse d’égalité des vecteurs moyens des différentes classes
clip_image002.jpg
Option Classement :
Cette option permet de contrôler le calcul des probabilités priori, d’obtenir un résultat de classification récapitulatif et de contrôler la classification des observations avec les valeurs manquantes
Une fois que vous avez cliqué sur le bouton "OK", les calculs commencent puis les résultats sont affichés, SPSS commence par afficher le tableau des statistiques descriptivesclip_image002.jpg
Une fois que vous avez cliqué sur le bouton "OK", les calculs commencent puis les résultats sont affichés, SPSS commence par afficher le tableau des statistiques descriptives
clip_image002.jpg
Le tableau de statistiques descriptives présente pour toutes les variables sélectionnées des statistiques simples. Pour les variables quantitatives Sont affichés le nombre d’observations, la moyenne, et l’écart-type.
Ce tableau fournit les moyennes des différentes variables explicatives pour les différentes classes de la variable dépendante
Test du Lambda de Wilks (L’approximation de Rao)

Ce test permet de tester l’hypothèse d’égalité des vecteurs moyens des différentes classes. Si on a deux classes le test est équivalent au test de Fisher. Si le nombre de classes est inférieur ou égal à trois, le test est exact. L’approximation de Rao est nécessaire à partir de quatre classes pour obtenir une statistique approximativement distribuée suivant une loi de Fisher.

.

clip_image002.jpg

Nous constatons ici que la différence entre les vecteurs moyens est significative au niveau de signification de 0.05.

Remarque :
Le lambda de Wilks est toujours compris entre 0 et 1. Une valeur de 1 correspond au cas où les moyennes des classes sont égales. Une valeur faible s’interprète comme de faibles variations intra-classe et donc de fortes variations inter-classes, d’où une différence significative des moyennes des classes.
Le rapport (variance inter-classe) / (variance intra-classe) est analogue au F de l’analyse de variance, on suppose que la variance à l’intérieur de chaque classe répond au critère de l’homogénéité.
Un rapport maximum est lié non seulement à la grandeur de son numérateur mais aussi à l’étroitesse du dénominateur
Matrices de covariances
clip_image002.jpg
 La matrice intra-groupe combiné est affichée successivement la matrice de covariance entre les groupes et la corrélation entre les variables.
La matrice covariance égale à la matrice de covariance sans biais des moyennes des différentes classes. Sachant que la matrice covariance affiche sur l’axe diagonale la variance.
La forte corrélation a été remarqué entre la variables long.Pét et la variable long.Sép (r = 0,75). Parmi les testes fondamentales de l’analyse discriminante est l’égalité des matrices covariances des groupes 

clip_image002.jpg

Ce tableau fournit les covariances des différentes variables explicatives pour chaque classe de la variable dépendante.

Nous pouvons dire que les matrices covariances pour les différentes classes ne sont pas égales pour confirmer ceci en se basant sur le test de Box

Test de Box de l’égalité des matrices covariances

Test de Box : permet de tester l’hypothèse d’égalité des matrices de covariance intra-classe.

clip_image002.jpg
Le test de box confirme que l’on ne peut pas accepter l’hypothèse H0 : les matrices de covariances sont identiques pour les 3 espèces (le test est significative au niveau de signification 0.05)
clip_image002.jpg

Déterminants Log est un indicateur utilisé pour voir quel est le groupe dont sa matrice de covariance possède une déférence majeure par rapport à l’autres ; dans ce cas on refaire l’analyse, Sans ce dernier

 

Statistiques de multicolinéarité :

Ce tableau permet d’identifier les variables responsables de multicolinéarités entre les variables. Dès qu’une variable est détectée comme étant responsable d’une multicolinéarité, elle n’est pas prise en compte pour le calcul des statistiques de multicolinéarité des variables suivantes. Ainsi dans un cas extrême où deux variables seraient identiques, seule l’une des deux variables sera éliminée des calculs. Les statistiques affichées sont les tolérances (égale à 1-R²).

clip_image002.jpg

La tolérance est une statistique utilisée pour déterminer l’indépendance entre les variables (c'est-à-dire en vérifiant si il y a une relation linéaire entre eux), si une variable a une tolérance faible alors il contribue moins d’information au modèle, et il peut être une source de problème.

A partir de tableau ce dessus  on voit que le premier variable qui entre dans le modèle est long Pét , le dernier variable qui entre dans le modèle est Long Sép

clip_image002.jpg

À partir de ce tableau qui montre la valeur de lambda de chaque pas de l’algorithme, on peut accepter les 4 variables au niveau de signification 0.05

Les fonctions discriminantes canoniques :

Valeurs propres : le tableau suivant affiche les valeurs propres associées aux différents facteurs, ainsi que les pourcentages et pourcentages cumulés de discrimination correspondant. En analyse discriminante,  le nombre de valeurs propres non est égal à (k-1) où k est le nombre de classes.

clip_image002.jpg

Corrélations canoniques : les corrélations canoniques associées à chaque facteur sont les racines carrés des quantités L(i) / (1- L(i)) où L(i) est la valeur propre associée au facteur i. Les corrélations canoniques sont aussi une mesure du pouvoir discriminant des facteurs.

Corrélations Variables/Facteurs : le calcul des corrélations entre les coordonnées des observations dans l’espace des variables initiales et dans l’espace des facteurs discriminants permet de visualiser sur un cercle des corrélations la relation entre les variables de départ et les facteurs. Le cercle des corrélations est une aide à l’interprétation de la représentation des observations dans l’espace des facteurs.

clip_image002.jpg 

Le facteur 1 est très corrélé avec le variable long Pét, et le facteur 2 est très corrélé avec les 2 variables ( larg Sép larg Pét).

Coefficients des fonctions discriminantes canoniques : ces coefficients peuvent être utilisés pour calculer les coordonnées d’une observation dans l’espace des facteurs discriminants à partir de ses coordonnées dans l’espace des variables initiales

clip_image002.jpg

Coefficients standardisés des fonctions discriminantes canoniques : ces coefficients correspondent aux précédents mais sont standardisés. Ainsi leur comparaison permet de mesurer la contribution relative des variables initiales à la discrimination pour un facteur donnée.

clip_image002.jpg

Fonctions aux barycentres : ce tableau donne l’évaluation des fonctions discriminantes pour les points moyens pour chacune des classes.

 

clip_image002.jpg

Fonctions de classement : les fonctions de classement peuvent être utilisées pour déterminer à quelle classe doit être affectée une observation sur la base des valeurs prises pour les différentes variables explicatives. Dans le cas de l’hypothèse d’égalité des matrices de covariance, ces fonctions sont linéaires. Dans le cas de l’hypothèse d’inégalité des matrices de covariance, ces fonctions sont quadratiques. Une observation est affectée à la classe pour laquelle la fonction de classement est la plus élevée

 

clip_image002.jpg

Classification a priori, probabilités, coordonnées et carrés des distances : dans ce tableau sont affichés pour chaque observation, sa classe d’appartenance définie par la variable dépendante, la classe d’appartenance telle que déduite des probabilités d’appartenance, les probabilités d’appartenance à chacune des classes, les coordonnées dans l’espace des facteurs discriminants, et les carrés des distances des observations aux barycentres de chacune des classes.

clip_image002.jpg
Le tableau suivant liste pour chaque fleur, ses coordonnées factorielles, la probabilité d'affectation à chacun des groupes, et le carré des distances de Mahalanobis au centroïde de chacun des groupes. Chaque observation est reclassée dans le groupe pour lequel la probabilité est maximale. Les probabilités sont des probabilités a posteriori qui prennent en compte les probabilités a priori au travers de la formule de Bayes. On remarque que les observations (5, 9,12) ont été reclassées. Il peut y avoir plusieurs raisons pour cela : soit la personne qui a fait ces mesures a fait une erreur d'enregistrement, soit les iris correspondant à ces données ont eu une croissance anormale pour des raisons inconnues, soit le critère de classement utilisé par le spécialiste n'est pas correcte, soit il manque de l'information pour discriminer parfaitement les espèces entre elles.
Représentation graphique

Sur le graphique suivant sont affichés les individus sur les axes factoriels. Ce graphique permet de confirmer que les individus sont bien discriminés sur les axes factoriels obtenus à partir des variables explicatives initiales

clip_image002.jpg
Qualité de la représentation
 On observe la qualité de la représentation : on s’assure que la fonction discriminante classifie bien les individus en sous-groupe, pour cela, on analyse la matrice de confusion qui regroupe les individus bien classés et les mal classés.

clip_image002.jpg

Ainsi dans notre exemple, toutes les individus du groupe 1 ont été bien reclassés, grâce à la fonction discriminante, de même, pour le groupe 2, 49 individus ont été bien reclassés, et un individu a été mal reclassé, de même pour le groupe 3, 2 individus ont été mal reclassés, et 48  ont été bien reclassés. Au total, 147 individus (50+49+48) qui ont été correctement reclassés soit 98% de réussite (147/150=98%).

La note (b), nous indique le pouvoir de reclassement de la fonction discriminante. 

06.06.2008

Méthodes Statistiques-Mathèmatique utilisées dans Bâle2

Dans cette partie nous exposerons les différentes méthodes statistiques, qui nous permettent d’estimer les différents paramètres de pondération, alors il s’agit de mettre des outils de datamining, qui entre dans le cadre des techniques de scoring. En bref, le scoring consiste à affecter une note globale à un individu à partir de notes partielles calculées sur des variables isolées ou en interaction. Cette note est utilisée essentiellement pour classer les individus par ordre ascendant ou descendant. La construction d’un score fait appel à la modélisation prédictive, et l’on parle d’un score quand la variable à prédire n’a que deux modalités possibles, type oui/non. Cela vient du fait qu’à l’origine, le « crédit scoring » a consisté à prédire la probabilité d’être un mauvais ou un bon payeur dans l’octroi d’un crédit.

Parmi les méthodes les plus courantes, l’analyse discriminante, la régression logistique binaire, les arbres de décision, et les réseaux de neurones, elles font partie des méthodes dites supervisées, pour les méthodes dites non supervisées, nous utiliserons les méthodes de classifications,la carte kohonen, les K-means,le Two-step 

Nous expliquons ici les méthodes les plus utilisées pour faire le scoring, nous commençons  par les arbres de décision puis nous exposerons la régression logistique et nous finirons par les réseaux neurones.           

section1 : les arbres de décision

 

Dans cette partie nous allons exposer les méthodes pour construire les arbres de décision.Tout d’abord nous allons répondre à la question : qu’est ce qu'un arbre de décision.

1-1 Définition

Un arbre de décision est un arbre hiérarchique. Chaque nœud est un test d’un ou de plusieurs attributs, et chaque branche correspondant à un résultat de ce test.

 

2-2 Modèle Mathématique

Les données d'enseignement sont en forme des vecteurs K+1 dimension  

X : (X1;X2;…..;XK; Y ) les variables X s’appellent «  variables de prédiction », et la variable Y est dite « variable de classification ».

Y accepte les valeurs dans C = {1,2,….J}.

C est dit « ensemble de classes ».

Q = dom(X1) * dom(X2) *….. * dom (XK) est l'espace des variables de prédiction.

Définition 1 (Une classification) :

Une classification ou une règle de classification est une fonction d(x) qui est définie sur Q pour que d(x) soit égal  à un des nombres

 1; 2;… ;J.

Soit Aj = {x : d(x) = j}, on a  Q = UjAj.

Une classification est une partition de Q en J sous-ensembles A1,...,AJ séparés

 

Définition 2 (Un échantillon d'enseignement)

 

Un échantillon d'enseignement L comprend des données (x1; j1) ,..., (xN; jN) avec xn Є Q

Et  jn Є C, n = 1;…; N.

L = {(x1; j1);…, (xN; jN)}

2-3 Schéma d'algorithme

A chaque échantillon d'enseignement, correspondant plusieurs arbres. Donc, lequel arbre est préférable? C'est celui qui a la taille la plus petite possible. Car plus la taille d'un arbre est petite, plus cet arbre contient les meilleurs attributs.

Les meilleurs attributs, sont ceux qui bien discriminent les données, sont donc les attributs importants, significatifs et pertinents. Autre raison vient du principe « du rasoir d'Occam. » on peut penser que chaque arbre correspond à une hypothèse. Le principe d'Occam dit que l'hypothèse plus simple, c'est-à-dire l'arbre ayant la taille plus petite, est préférée. Normalement, pour construire l'arbre ayant la taille la plus petite, on mesure les données D par une quantité quelconque (par exemple : entropy, gain-information, gini-index,...). Chaque fois, qu'on divise D en D[1],..,D[k], cette quantité diminue. Lors que la quantité d'un arbre est égale à 0 ou prés de 0, on arrête et les données sont bien divisées. De façon gourmande, à chaque pas, on peut choisir un critère de division qui diminue le plus la quantité. C'est la raison pour laquelle à peu prés que tous les Algorithmes de fabrication d'arbre de décision sont les algorithmes de haut en bas et gourmand. Voici, le schéma commun pour ces algorithmes (voir l'algorithme 1).

clip_image002.jpg

 

2-4 Techniques

Avant d’expliquer l’ensemble des arbres de décision utilisés dans cette étude, nous aimerions d’abord d’expliquer la notion d’entropie.  

2-4-1- définition (Entropy)

Soit S un ensemble contenant n sous-ensembles différents :

 

clip_image002.jpg

 

 

 

 

 

 

La mesure Entropy est calculée sur la variable de classification. Lors du choix d'un attribut pour diviser les données, le total des entropies des sous-ensembles des données est inférieur à l'entropy avant de diviser. C’est à dire, le désordre diminue. A chaque pas, l'entropy diminue, donc on retire de l'information. On définit l'information obtenue quand on choisit un attribut pour diviser. Dans cette définition, S est l'ensemble des données avant de diviser, A est l'attribut utilisé pour diviser, Sv correspond aux données ayant la valeur de A égale à v.

clip_image002.jpg

 2-6 Arbre de décision QUEST

2-6-1 introduction

L'algorithme QUEST veut dire arbre statistique efficace sans biais et rapide En 1997, Loh et Shih ont présenté cet algorithme dans le journal Statistica Sinica. Les algorithmes qui utilisent la recherche exhaustive rencontrent toujours deux difficultés

  • Le temps de calcul est trop élevé.
  • La division choisie est partiale.
QUEST est un effort pour surmonter ces difficultés.

QUEST (Quick, Unbiased, Efficient Statistical Tree) est une méthode de classification binaire permettant de créer des arbres décision. L'une des principales raisons pour lesquelles cette méthode a été développée consiste à réduire le temps de traitement nécessaire aux analyses C&RT importantes, qui utilisaient alors de nombreuses variables ou observations. QUEST avait également pour objectif de limiter la tendance à favoriser les valeurs prédites autorisant un nombre supérieur de divisions, à savoir des variables de prévision continues ou des valeurs prédites dotées de nombreuses catégories.

·         QUEST utilise une séquence de règles, basée sur des tests de signification, pour évaluer les variables de prévision d'un noeud. A des fins de sélection, on peut être amené à n'effectuer qu'un seul test sur chaque valeur prédite d'un noeud. Contrairement à C&RT, cette méthode ne vérifie pas toutes les divisions et, à la différence de C&RT et CHAID, elle ne teste pas non plus les combinaisons de catégories lorsqu'une valeur prédite est évaluée pour la sélection. L'analyse s'en trouve ainsi accélérée.

·         Les divisions sont définies en exécutant une analyse discriminante quadratique via la valeur prédite sélectionnée dans les groupes qui se composent des catégories cible. Là encore, cette méthode accélère le processus lors d'une recherche complète (C&RT) pour déterminer la division optimale

 

2-6-2 Algorithme 
  1. Calculer le p-valeur du test du kh2 sur chaque variable
  2. Si la plus petite p-valeur est inférieure à un seuil déterminé par la méthode de Bonferroni. Alors, la variable correspondant est choisie

3.      Par contre, on calcule le test F-statistique de Levene pour chaque variable numérique. Ici, si la plus petite p-valeur est inférieure à autre seuil de Bonferroni, alors on choisit également la variable correspondant

4.      Par contre, on choisit la variable ayant le plus petit p-valeur dans la première étape.

 

2-7 Arbre de décision CART

2-7-1 introduction

Le nom complet de CART est arbre de classification et régression. Il a été créé par Leo Breiman en 1984. CART utilise uniquement la division binaire. Il construit donc uniquement des arbres binaires (chaque noeud a deux branches). CART a deux façons de traiter les données. Si la variable de classification est numérique, il utilise la régression. Sinon il utilise  la classification. C'est la raison pour laquelle il a pour nom .arbre de classification et régression. Ensuite D'ailleurs, CART introduit une nouvelle mesure pour mesurer une division, c'est la mesure indice de Gini. Enfin, pour traiter les attributs manquants, la technique "division subrogation" est utilisée.

 

2-7-2 Régression

Dans la méthode CART, si la variable de classification est numérique, on fait la régression. Le point différence avec la classification est que l'on assigne une valeur numérique à un nœud. Il n'est pas nécessaire que cette valeur soit une des valeurs de classification des exemples. Il faut choisir une valeur qui minimise une quantité qui va être introduite. La notion de la régression est la même pou les autres algorithmes. On va définir une mesure sur un noeud. Ensuite, lors qu'on divise ce noeud en des sous-noeuds, cette mesure va diminuer. Ce processus continue sur les sous-noeuds et s'arrête quand la mesure ne peut plus diminuer. La mesure utilisée est le carré de la distance entre la valeur assignée et la valeur de classification de chaque exemple.

 

Définition (erreur de régression)

soient y la valeur à assigner,et.

N exemples X1…..XN ayant la valeur de classification y1…… yN.

Alors, la distance entre y et y1…… yN, est

clip_image002.jpg

 

 

 

 

 

Donc, on définit l’erreur de régression ainsi

clip_image002.jpg

 

 

 

 

 

clip_image002.jpg

04.06.2008

les Trois Méthodes De Calcule Pour Mesurer le Risque De Crédit

nous nous intéresserons uniquement aux trois méthodes qui nous permettent de mesurer le risque de crédit.

Autrement dit, nous expliquerons en détail chaque méthode proposée par le comité de Bâle, à savoir:

L’approche standardisée, l’approche notations internes (NI) simples, et l’approche NI complexe, Nous essayerons de même de faire une comparaison entre eux.

 

Premièrement, les banques ont le choix entre plusieurs options pour déterminer le niveau de fonds propres requis: elles peuvent utiliser d’une part les évaluations externes d’agences de rating[1] reconnues (approche standardisée) et d’autre part leurs modèles de notations internes (approche NI). Deuxièmement, les exigences minimales de fonds propres dépendent de la catégorie de contrepartie correspondante et de ses risques spécifiques. Les prescriptions de Bâle II font donc une distinction entre les catégories de contreparties ou de débiteurs suivantes: (a) grandes entreprises, (b) Etats et pouvoirs publics, (c) banques, (d) particuliers et petites entreprises (retail) et (e) participations (approche NI uniquement).

Section 1 : L’approche standardisée

La pondération des risques est plus diversifiée que dans le ratio Cooke puisqu’elle est désormais échelonnée sur la base des notations externes d’agences de rating reconnues(ici, les ratings proposées par Standard &Poor’s). Ci-après ici un exemple de calcul du capital minimum :

clip_image002.jpg


     Source BRI, 3ème document consultatif

Figure1 :L’approche standardisée - calcule de capital minimal

 

A * r =RWA              8% * RWA = RC

r: Pondération du risque ou (RW risk weighted )

A: Actif (p. ex. crédit)

RWA: Actif pondéré du risque (risk weighted asset)

RC: Fonds propres réglementaires (regulatory capital

 

Le tableau précédent indique les pondérations de risque proposées par le Comité de Bâle pour différentes catégories de débiteurs et notations de Standard & Poor’s (S&P).

En fonction, de ces critères, une banque doit couvrir un crédit de 1 million Dirham. Octroyé à une entreprise notée A (pondération du risque (RW) à 50%) avec un capital propre de 40 000 Dirham (8% de 500 000 Dirham  pondérés du risque). (Actif * r = RWA =500 000 DH, RC = 500 000 * 8% =40 000) Si la notation de la société emprunteuse est inférieure à BB-, le crédit doit être pondéré à 150% et couvert à hauteur de 120 000 Dirham (8% de 1 500 000 Dirham). Si l’entreprise n’a pas de notation externe, ce qui est le cas des PME, la banque doit appliquer une pondération de 100% et constituer une couverture de 80 000 Dirham.

Section 2 : L’approche notation interne (NI)

 

Nous expliquerons en détail cette approche dans de la section 3, par contre dans cette section nous représenterons seulement les grands linges de l’approche de notation interne simple et l’approche de notation interne avancée.

 

L’approche NI (notation interne), qui est la deuxième option pour évaluer le risque de crédit, accorde à celui-ci une importance nettement plus grande que l’approche standardisée dans le calcul de la dotation en fonds propres.

Cette méthode est réservée aux établissements disposant d’un savoir faire reconnu par leurs autorités de contrôle en matière de mesure et de gestion des risques,

Par ailleurs, les banques optant pour l’approche NI doivent opérer une séparation fonctionnelle entre L’unité de crédit (gestion interne des crédits) et les services de vente ainsi qu’appliquer des standards élevés en matière de gouvernement d’entreprise (organisation adéquate) et de comptabilité.

Pour appliquer l’approche NI, la banque doit calculer quatre paramètres pour chaque crédit (sauf pour les particuliers).

  • Probabilité de défaillance (probability of default, PD);
  • Taux de perte en cas de défaillance (loss given default, LGD);
  • Exposition en cas de défaillance (exposure at default, EAD);
  • Durée du crédit (effective maturity, M).

Durée du crédit (effective maturity, M).

Les paramètres doivent être estimés sur la base de données interne, Ces quatre paramètres sont ensuite pris en considération dans les fonctions utilisées pour le calcul des actifs pondérés du risque (RWA), fonctions prescrites par les dispositions réglementaires et variant selon la catégorie du débiteur[1].

Là encore, une couverture de 8% en fonds propres est requise (figure 2)


clip_image002.jpg

 

 

 

 

 

 

 

 

 

Figure 2:vue d’ensemble de l’approche NI

Le Comité de Bâle a défini deux approches pour la plupart des catégories de débiteurs: l’approche NI simple (IRB Foundation Approach) et l’approche NI complexe (IRB Advanced Approach),

Dans l’approche NI simple la banque estime elle-même la probabilité de défaillance (PD) de ses débiteurs et utilise les valeurs fournies par l’autorité de contrôle pour les autres paramètres de calcul des risques.

Dans l’approche NI complexe les quatre paramètres sont évalués par la banque elle-même.

Comparaison entre AS et NI

Les principales différences entre l’approche NI et l’approche standardisée sont les suivantes:

  • meilleure différenciation des actifs du bilan en fonction du risque individuel;
  • obligation de se fonder sur des données historiques solides pour calculer la pondération des risques;
  • autorisation des autorités prudentielles, à l’issue d’un examen, d’appliquer l’approche NI, ainsi que surveillance accrue des procédures de gestion des risques
  • meilleure prise en compte des instruments de réduction des risques.
  • obligation de publication d’informations plus détaillées.

Puisque le but de ce mémoire, est de toucher l’aspect mathématique dans ce problème, il est préférable de donner une comparaison numérique entre AS et NI. 

clip_image002.jpg

Source : crédit suisse

 

Figure 3 : Pondération des risques selon l’approche NI

 

La figure 3 montre la pondération NI des risques des différentes catégories de débiteurs en fonction des diverses probabilités de défaillance (PD) et des taux de perte (LGD) de 10% et de 50.

Nous rappelons que la pondération de risque RW est en fonction de trois paramètres PD, LGD et M, qui devront être calculés à partir des données historique de la banque.

r = RW (PD, LGD, M)
Illustration numérique
Un crédit d’1 million Dirham accordé à une entreprise notée BBB est pondéré à 17,4% pour un taux de perte estimé (LGD) de 10%, et à 87,1% pour un taux de perte de 50%. Les actifs pondérés du risque (RWA) s’élèveront à 174 000 DH dans le premier cas et à 871 000 DH dans le second; 8% de ces sommes devront être couverts par des fonds propres, soit respectivement 13 920 et 69 680 DH. A titre de comparaison l’approche standardisée de même que Bâle I exigeraient dans ce cas un capital propre de 80 000 DH (section 1).

 

 

[1] Bâle II prévoit une formule spécifique de pondération du risque pour les crédits octroyés aux Etats /entreprises /banques, une autre pour les crédits aux PME et trois formules pour les crédits aux particuliers. Ces dernières sont: les expositions adossées à des hypothèques sur immobilier résidentiel (financements de construction privés), expositions de clientèle retail renouvelables qualifiées (notamment les cartes de crédit) et autres opérations de retail.


[1] Agences de rating : appelée aussi agences de notations, reconnus au niveau international, par exemple Standards & Poor’s.,Moody’s, Export Credit Agencies ou ECA, COFACE en France

Généralité sur le risque de crédit

1-Définition des risques