Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
C'est un bœuf.
Figure 19. Un bœuf.
En 1906, une compétition d'évaluation des poids est organisée en Angleterre.
787 participants ont deviné le poids d'un bœuf. L'erreur médiane des estimations individuelles était de 37 lb (une erreur de 3,1%). Toutefois, la médiane globale des estimations ne différait que de 4,1 kg du poids réel de l'animal (1 198 kg), soit une erreur de seulement 0,7%.
Figure 20. Histogramme des estimations de poids individuelles.
Cette anecdote illustre la sagesse de la foule: dans certaines situations, l'opinion collective permet de porter un très bon jugement.
Mathématiquement, la sagesse de la foule peut être modélisée avec le théorème de limite centrale : de manière informelle, l'erreur au carré entre une valeur et la moyenne de N estimations bruyantes de cette valeur tend vers zéro avec un facteur 1/N.
Toutefois, si les variables ne sont pas indépendantes, la variance est plus élevée.
En machine learning, un ensemble est un ensemble de modèles dont les prédictions sont agrégées (ou agrégées d'une manière ou d'une autre). Si les modèles de l'ensemble sont suffisamment différents sans être trop mauvais individuellement, la qualité de l'ensemble est généralement meilleure que celle de chacun des modèles individuels. Un ensemble nécessite plus de temps d'entraînement et d'inférence qu'un seul modèle. Après tout, vous devez effectuer l'entraînement et l'inférence sur plusieurs modèles au lieu d'un seul.
De manière informelle, pour qu'un ensemble fonctionne au mieux, les modèles individuels doivent être indépendants. Par exemple, un ensemble composé de 10 modèles identiques (c'est-à-dire non indépendants du tout) ne sera pas meilleur que le modèle individuel. En revanche, forcer les modèles à être indépendants peut les aggraver. Un ensembrement efficace nécessite de trouver l'équilibre entre l'indépendance des modèles et la qualité de leurs sous-modèles.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/07/27 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/07/27 (UTC)."],[[["\u003cp\u003eThe "wisdom of the crowd" suggests that collective opinions can provide surprisingly accurate judgments, as demonstrated by a 1906 ox weight-guessing competition where the collective guess was remarkably close to the true weight.\u003c/p\u003e\n"],["\u003cp\u003eThis phenomenon can be explained by the Central Limit Theorem, which states that the average of multiple independent estimates tends to converge towards the true value.\u003c/p\u003e\n"],["\u003cp\u003eIn machine learning, ensembles leverage this principle by combining predictions from multiple models, improving overall accuracy when individual models are sufficiently diverse and reasonably accurate.\u003c/p\u003e\n"],["\u003cp\u003eWhile ensembles require more computational resources, their enhanced predictive performance often outweighs the added cost, especially when individual models are carefully selected and combined.\u003c/p\u003e\n"],["\u003cp\u003eAchieving optimal ensemble performance involves striking a balance between ensuring model independence to avoid redundant predictions and maintaining the individual quality of sub-models for overall accuracy.\u003c/p\u003e\n"]]],[],null,["# Random Forest\n\n\u003cbr /\u003e\n\nThis is an Ox.\n\n\n**Figure 19. An ox.**\n\n\u003cbr /\u003e\n\nIn 1906, a [weight judging competition was held in\nEngland](https://www.nature.com/articles/075450a0.pdf).\n787 participants guessed the weight of an ox. The median *error* of individual\nguesses was 37 lb (an error of 3.1%). However, the overall median of the\nguesses was only 9 lb away from the real weight of the ox (1198 lb), which was\nan error of only 0.7%.\n\n**Figure 20. Histogram of individual weight guesses.**\n\nThis anecdote illustrates the\n[Wisdom of the crowd](/machine-learning/glossary#wisdom_of_the_crowd): *In\ncertain situations, collective opinion provides very good judgment.*\n\nMathematically, the wisdom of the crowd can be modeled with the\n[Central limit theorem](https://wikipedia.org/wiki/Central_limit_theorem):\nInformally, the squared error between a value and the average of N noisy\nestimates of this value tends to zero with a 1/N factor.\nHowever, if the variables are not independent, the variance is greater.\n\nIn machine learning, an\n**[ensemble](/machine-learning/glossary#ensemble)** is a collection of models\nwhose predictions are averaged (or aggregated in some way). If the ensemble\nmodels are different enough without being too bad individually, the quality of\nthe ensemble is generally better than the quality of each of the individual\nmodels. An ensemble requires more training and inference time than a single\nmodel. After all, you have to perform training and inference on multiple models\ninstead of a single model.\n\nInformally, for an ensemble to work best, the individual models should be\nindependent. As an illustration, an ensemble composed of 10 of the exact same\nmodels (that is, not independent at all) won't be better than the individual\nmodel. On the other hand, forcing models to be independent could mean making\nthem worse. Effective ensembling requires finding the balance between model\nindependence and the quality of its sub-models."]]