Publication

Risk, Unexpected Uncertainty, and Estimation Uncertainty: Bayesian Learning in Unstable Settings

Concepts associés (32)

vignette|Illustration comparant les approches fréquentiste et bayésienne (Christophe Michel, 2018). L’inférence bayésienne est une méthode d'inférence statistique par laquelle on calcule les probabilités de diverses causes hypothétiques à partir de l'observation d'événements connus. Elle s'appuie principalement sur le théorème de Bayes. Le raisonnement bayésien construit, à partir d'observations, une probabilité de la cause d'un type d'événements.

Ambiguity aversion

In decision theory and economics, ambiguity aversion (also known as uncertainty aversion) is a preference for known risks over unknown risks. An ambiguity-averse individual would rather choose an alternative where the probability distribution of the outcomes is known over one where the probabilities are unknown. This behavior was first introduced through the Ellsberg paradox (people prefer to bet on the outcome of an urn with 50 red and 50 black balls rather than to bet on one with 100 total balls but for which the number of black or red balls is unknown).

Bayesian probability

Bayesian probability (ˈbeɪziən or ˈbeɪʒən ) is an interpretation of the concept of probability, in which, instead of frequency or propensity of some phenomenon, probability is interpreted as reasonable expectation representing a state of knowledge or as quantification of a personal belief. The Bayesian interpretation of probability can be seen as an extension of propositional logic that enables reasoning with hypotheses; that is, with propositions whose truth or falsity is unknown.

Outcome (probability)

In probability theory, an outcome is a possible result of an experiment or trial. Each possible outcome of a particular experiment is unique, and different outcomes are mutually exclusive (only one outcome will occur on each trial of the experiment). All of the possible outcomes of an experiment form the elements of a sample space. For the experiment where we flip a coin twice, the four possible outcomes that make up our sample space are (H, T), (T, H), (T, T) and (H, H), where "H" represents a "heads", and "T" represents a "tails".

Probabilité

vignette|Quatre dés à six faces de quatre couleurs différentes. Les six faces possibles sont visibles. Le terme probabilité possède plusieurs sens : venu historiquement du latin probabilitas, il désigne l'opposé du concept de certitude ; il est également une évaluation du caractère probable d'un événement, c'est-à-dire qu'une valeur permet de représenter son degré de certitude ; récemment, la probabilité est devenue une science mathématique et est appelée théorie des probabilités ou plus simplement probabilités ; enfin une doctrine porte également le nom de probabilisme.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Espace probabilisé

Un espace de probabilité(s) ou espace probabilisé est construit à partir d'un espace probabilisable en le complétant par une mesure de probabilité : il permet la modélisation quantitative de l'expérience aléatoire étudiée en associant une probabilité numérique à tout événement lié à l'expérience. Formellement, c'est un triplet formé d'un ensemble , d'une tribu sur et d'une mesure sur cette tribu tel que . L'ensemble est appelé l'univers et les éléments de sont appelés les événements.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Loi de probabilité

thumb|400px 3 répartitions.png En théorie des probabilités et en statistique, une loi de probabilité décrit le comportement aléatoire d'un phénomène dépendant du hasard. L'étude des phénomènes aléatoires a commencé avec l'étude des jeux de hasard. Jeux de dés, tirage de boules dans des urnes et jeu de pile ou face ont été des motivations pour comprendre et prévoir les expériences aléatoires. Ces premières approches sont des phénomènes discrets, c'est-à-dire dont le nombre de résultats possibles est fini ou infini dénombrable.

Probabilité conditionnelle

vignette|Illustration des probabilités conditionnelles avec un diagramme d'Euler. On a la probabilité a priori et les probabilités conditionnelles , et .|320x320px En théorie des probabilités, une probabilité conditionnelle est la probabilité d'un événement sachant qu'un autre événement a eu lieu. Par exemple, si une carte d'un jeu est tirée au hasard, on estime qu'il y a une chance sur quatre d'obtenir un cœur ; mais si on aperçoit un reflet rouge sur la table, il y a maintenant une chance sur deux d'obtenir un cœur.

Théorie des perspectives

La théorie des perspectives (en anglais : Prospect theory) est une théorie économique développée par Daniel Kahneman et Amos Tversky en 1979. Elle remet en cause la théorie de l'utilité espérée développée par John von Neumann et Oskar Morgenstern en 1944 et a valu à Daniel Kahneman le prix Nobel d'économie en 2002. Cette théorie est fondatrice de l'économie comportementale et de la finance comportementale et constitue l'une des premières théories économiques construite à partir de travaux expérimentaux.

Réseau bayésien

En informatique et en statistique, un réseau bayésien est un modèle graphique probabiliste représentant un ensemble de variables aléatoires sous la forme d'un graphe orienté acyclique. Intuitivement, un réseau bayésien est à la fois : un modèle de représentation des connaissances ; une « machine à calculer » des probabilités conditionnelles une base pour des systèmes d'aide à la décision Pour un domaine donné (par exemple médical), on décrit les relations causales entre variables d'intérêt par un graphe.

Apprentissage

L’apprentissage est un ensemble de mécanismes menant à l'acquisition de savoir-faire, de savoirs ou de connaissances. L'acteur de l'apprentissage est appelé apprenant. On peut opposer l'apprentissage à l'enseignement dont le but est de dispenser des connaissances et savoirs, l'acteur de l'enseignement étant l'enseignant.

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Théorie de l'utilité espérée

La théorie de l'utilité espérée (aussi appelée théorie EU, de l'anglais « expected utility ») est une théorie de la décision en environnement risqué développée par John von Neumann et Oskar Morgenstern dans leur ouvrage Theory of Games and Economic Behavior (1944). Introduisons d'abord quelques notations: L'incertitude est décrite par un ensemble d'états du monde partitionné par la famille de parties (de taille ). Un élément de est appelé événement. Une variable aléatoire est une fonction qui associe à chaque un résultat noté .

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Événement (probabilités)

vignette|Jeu de dés : une expérience aléatoire. En théorie des probabilités, un événement lié à une expérience aléatoire est un sous-ensemble des résultats possibles pour cette expérience (c'est-à-dire un certain sous-ensemble de l'univers lié à l'expérience). Un événement étant souvent défini par une proposition, nous devons pouvoir dire, connaissant le résultat de l'expérience aléatoire, si l'événement a été réalisé ou non au cours de cette expérience. Par exemple, considérons l'expérience aléatoire consistant à lancer un dé à 6 faces.

Théorie des probabilités

La théorie des probabilités en mathématiques est l'étude des phénomènes caractérisés par le hasard et l'incertitude. Elle forme avec la statistique les deux sciences du hasard qui sont partie intégrante des mathématiques. Les débuts de l'étude des probabilités correspondent aux premières observations du hasard dans les jeux ou dans les phénomènes climatiques par exemple. Bien que le calcul de probabilités sur des questions liées au hasard existe depuis longtemps, la formalisation mathématique n'est que récente.

Loi de probabilité à plusieurs variables

vignette|Représentation d'une loi normale multivariée. Les courbes rouge et bleue représentent les lois marginales. Les points noirs sont des réalisations de cette distribution à plusieurs variables. Dans certains problèmes interviennent simultanément plusieurs variables aléatoires. Mis à part les cas particuliers de variables indépendantes (notion définie ci-dessous) et de variables liées fonctionnellement, cela introduit la notion de loi de probabilité à plusieurs variables autrement appelée loi jointe.

Paradoxe d'Ellsberg

vignette|Daniel Ellseberg, à l'origine du paradoxe, en 2006 Le paradoxe d'Ellsberg est un phénomène connu de la théorie de la décision. Lorsque des gens ont à choisir entre deux options, la majorité se décide pour celle dont la loi de probabilité est connue. Cela se trouve en contradiction avec le principe de la chose sûre de la théorie de la décision. Daniel Ellsberg a décrit l'expérience suivante en 1961 : Dans une urne, on place 90 boules, dont 30 sont rouges. Les boules restantes sont jaunes ou noires, leur distribution est inconnue.