Dans l'article d'aujourd'hui, nous allons plonger dans le monde fascinant de Forêt d'arbres décisionnels et découvrir tout ce que ce thème a à nous offrir. De ses origines à ses dernières applications, nous plongerons dans une analyse détaillée qui nous permettra de comprendre l'importance et la pertinence de Forêt d'arbres décisionnels aujourd'hui. Nous découvrirons son impact dans différents domaines, ainsi que les avis d'experts dans le domaine qui nous aideront à mieux comprendre son influence. Préparez-vous à explorer un univers de possibilités et à enrichir vos connaissances sur Forêt d'arbres décisionnels. Ne le manquez pas!
Type | |
---|---|
Inventeur | |
Décrit par |
En intelligence artificielle, plus précisément en apprentissage automatique, les forêts d'arbres décisionnels[1] (ou forêts aléatoires de l'anglais random forest classifier) forment une technique d'apprentissage à base d'arbres de décision. Elles ont été premièrement proposées par Ho en 1995[2] et ont été formellement proposées en 2001 par Leo Breiman[3] et Adele Cutler (en)[4].
L'algorithme des forêts d'arbres décisionnels effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de données légèrement différents. Cet algorithme combine les concepts de bagging (méthodes ensemblistes parallèles[5]) pour la phase de sélection des données, et de sous-espaces aléatoires.
Un arbre décisionnel ou arbre de décision est une structure qui prend la forme d'un arbre, dans laquelle on pose des questions sur des attributs (dans certains ouvrages, on parle plutôt de variables[5]). La figure donne un exemple d'un arbre de décision. Il y a deux attributs : l'âge et le fait que la personne soit fumeuse. On pose d'abord la question de l'âge. Si on a moins de 30 ans, il y a peu de risque. Si on a plus de 30 ans, on pose la question si la personne est fumeuse. Si non, peu de risque. Si oui, le risque est grand.
Dans la méthode des forêts aléatoires, nous allons considérer plusieurs arbres de décision en même temps.
La base du calcul repose sur l'apprentissage par arbre de décision. La proposition de Breiman[3] vise à corriger plusieurs inconvénients connus de la méthode initiale, comme la sensibilité des arbres à l'ordre des attributs. Au lieu de n'avoir qu'un unique arbre, le modèle est une collection de arbres de décision partiellement indépendants. Malheureusement, avec la méthode des arbres aléatoires, on perd l'aspect visuel de n'avoir qu'un seul arbre.
Le modèle est constitué de arbres de décision. Pour prédire la classe d'une observation (par exemple, prédire si une personne fumeuse de 35 ans a un grand risque ou non d'avoir un accident cardiovasculaire) :
Considérons un ensemble de observations ( personnes décrites avec leurs attributs, comme l'âge, le fait que la personne fume, etc.) munis de leur classe (on donne l'information pour chaque personne si elle est à risque ou non). L'apprentissage à partir de ces données s'effectue comme suit[6]. On crée arbres de décision. Pour chaque arbre à créer :
Certains auteurs[7],[5] préconisent une valeur égale de q égale à environ , notamment pour des problèmes de classification[5]. L'avantage est de réduire le temps de calcul car on considère moins de variables. Par exemple, on ne considère que 5 attributs pour un problème de 30 attributs, 31 pour un problème qui comprend 1000 attributs, etc. S'il s'agit d'un problème de régression on utilise pour q plutôt une valeur proche de p/3[5].
Le modèle uplift est une application des forêts d'arbres décisionnels pour la détection des populations sensibles aux opérations de marketing ciblées.
(en) Breiman, Leo, « Statistical Modeling: The Two Cultures », Statistical Science, vol. 16, no 3, , p. 199-231 (lire en ligne).