Publication

Robust Generalization via $\alpha$-Mutual Information

Concepts associés (32)

Dans la théorie des probabilités et la théorie de l'information, l'information mutuelle de deux variables aléatoires est une quantité mesurant la dépendance statistique de ces variables. Elle se mesure souvent en bit. L'information mutuelle d'un couple de variables représente leur degré de dépendance au sens probabiliste. Ce concept de dépendance logique ne doit pas être confondu avec celui de causalité physique, bien qu'en pratique l'un implique souvent l'autre.

Loi de probabilité

thumb|400px 3 répartitions.png En théorie des probabilités et en statistique, une loi de probabilité décrit le comportement aléatoire d'un phénomène dépendant du hasard. L'étude des phénomènes aléatoires a commencé avec l'étude des jeux de hasard. Jeux de dés, tirage de boules dans des urnes et jeu de pile ou face ont été des motivations pour comprendre et prévoir les expériences aléatoires. Ces premières approches sont des phénomènes discrets, c'est-à-dire dont le nombre de résultats possibles est fini ou infini dénombrable.

Divergence de Kullback-Leibler

En théorie des probabilités et en théorie de l'information, la divergence de Kullback-Leibler (ou divergence K-L ou encore entropie relative) est une mesure de dissimilarité entre deux distributions de probabilités. Elle doit son nom à Solomon Kullback et Richard Leibler, deux cryptanalystes américains. Selon la NSA, c'est durant les années 1950, alors qu'ils travaillaient pour cette agence, que Kullback et Leibler ont inventé cette mesure. Elle aurait d'ailleurs servi à la NSA dans son effort de cryptanalyse pour le projet Venona.

Théorie de l'information

La théorie de l'information, sans précision, est le nom usuel désignant la théorie de l'information de Shannon, qui est une théorie utilisant les probabilités pour quantifier le contenu moyen en information d'un ensemble de messages, dont le codage informatique satisfait une distribution statistique que l'on pense connaître. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le père fondateur avec son article A Mathematical Theory of Communication publié en 1948.

Espace probabilisé

Un espace de probabilité(s) ou espace probabilisé est construit à partir d'un espace probabilisable en le complétant par une mesure de probabilité : il permet la modélisation quantitative de l'expérience aléatoire étudiée en associant une probabilité numérique à tout événement lié à l'expérience. Formellement, c'est un triplet formé d'un ensemble , d'une tribu sur et d'une mesure sur cette tribu tel que . L'ensemble est appelé l'univers et les éléments de sont appelés les événements.

Divergence (statistiques)

En statistiques, une divergence est une fonction ou une fonctionnelle qui mesure la dissimilarité d'une loi de probabilité par rapport à une autre. Selon le contexte, elles peuvent être définies pour des lois, des mesures positives (non-normalisées), des vecteurs (par exemple sur l'espace des paramètres si l'on considère un modèle paramétrique), ou encore des matrices. Les divergences sont analogues à des distances au carré et permettent de généraliser la notion de distance aux variétés statistiques, mais il s'agit d'une notion plus faible dans la mesure où elles ne sont en général pas symétriques et ne vérifient pas l'inégalité triangulaire.

Loi de probabilité à plusieurs variables

vignette|Représentation d'une loi normale multivariée. Les courbes rouge et bleue représentent les lois marginales. Les points noirs sont des réalisations de cette distribution à plusieurs variables. Dans certains problèmes interviennent simultanément plusieurs variables aléatoires. Mis à part les cas particuliers de variables indépendantes (notion définie ci-dessous) et de variables liées fonctionnellement, cela introduit la notion de loi de probabilité à plusieurs variables autrement appelée loi jointe.

Generalization error

For supervised learning applications in machine learning and statistical learning theory, generalization error (also known as the out-of-sample error or the risk) is a measure of how accurately an algorithm is able to predict outcome values for previously unseen data. Because learning algorithms are evaluated on finite samples, the evaluation of a learning algorithm may be sensitive to sampling error. As a result, measurements of prediction error on the current data may not provide much information about predictive ability on new data.

Théorie des probabilités

La théorie des probabilités en mathématiques est l'étude des phénomènes caractérisés par le hasard et l'incertitude. Elle forme avec la statistique les deux sciences du hasard qui sont partie intégrante des mathématiques. Les débuts de l'étude des probabilités correspondent aux premières observations du hasard dans les jeux ou dans les phénomènes climatiques par exemple. Bien que le calcul de probabilités sur des questions liées au hasard existe depuis longtemps, la formalisation mathématique n'est que récente.

Probabilité

vignette|Quatre dés à six faces de quatre couleurs différentes. Les six faces possibles sont visibles. Le terme probabilité possède plusieurs sens : venu historiquement du latin probabilitas, il désigne l'opposé du concept de certitude ; il est également une évaluation du caractère probable d'un événement, c'est-à-dire qu'une valeur permet de représenter son degré de certitude ; récemment, la probabilité est devenue une science mathématique et est appelée théorie des probabilités ou plus simplement probabilités ; enfin une doctrine porte également le nom de probabilisme.

Interaction information

The interaction information is a generalization of the mutual information for more than two variables. There are many names for interaction information, including amount of information, information correlation, co-information, and simply mutual information. Interaction information expresses the amount of information (redundancy or synergy) bound up in a set of variables, beyond that which is present in any subset of those variables. Unlike the mutual information, the interaction information can be either positive or negative.

Probabilité conditionnelle

vignette|Illustration des probabilités conditionnelles avec un diagramme d'Euler. On a la probabilité a priori et les probabilités conditionnelles , et .|320x320px En théorie des probabilités, une probabilité conditionnelle est la probabilité d'un événement sachant qu'un autre événement a eu lieu. Par exemple, si une carte d'un jeu est tirée au hasard, on estime qu'il y a une chance sur quatre d'obtenir un cœur ; mais si on aperçoit un reflet rouge sur la table, il y a maintenant une chance sur deux d'obtenir un cœur.

Divergence de Bregman

En mathématiques, la divergence de Bregman est une mesure de la différence entre deux distributions dérivée d'une fonction potentiel U à valeurs réelles strictement convexe et continûment différentiable. Le concept a été introduit par en 1967. Par l'intermédiaire de la transformation de Legendre, au potentiel correspond un potentiel dual et leur différentiation donne naissance à deux systèmes de coordonnées duaux. Soit une fonction à valeurs réelles, strictement convexe et continûment différentiable définie sur un domaine convexe fermé .

Variation of information

In probability theory and information theory, the variation of information or shared information distance is a measure of the distance between two clusterings (partitions of elements). It is closely related to mutual information; indeed, it is a simple linear expression involving the mutual information. Unlike the mutual information, however, the variation of information is a true metric, in that it obeys the triangle inequality. Suppose we have two partitions and of a set into disjoint subsets, namely and .

F-divergence

In probability theory, an -divergence is a function that measures the difference between two probability distributions and . Many common divergences, such as KL-divergence, Hellinger distance, and total variation distance, are special cases of -divergence. These divergences were introduced by Alfréd Rényi in the same paper where he introduced the well-known Rényi entropy. He proved that these divergences decrease in Markov processes.

Mesure de probabilité

vignette|300x300px| Dans de nombreux cas, la physique statistique utilise des mesures de probabilité, mais toutes les mesures qu'elle utilise ne sont pas des mesures de probabilité. En mathématiques, une mesure de probabilité est une fonction à valeurs réelles définie sur un ensemble d'événements dans un espace de probabilité qui satisfait les propriétés de mesure telles que la -additivité. La différence entre une mesure de probabilité et la notion plus générale de mesure (qui inclut des concepts tels que l'aire ou le volume) est qu'une mesure de probabilité doit attribuer la valeur 1 à tout l'espace de probabilité.

Interprétations de la probabilité

Le mot probabilité a été utilisé dans une variété de domaines depuis qu'il a été appliqué à l'étude mathématique des jeux de hasard. Est-ce que la probabilité mesure la tendance réelle physique de quelque chose de se produire, ou est-ce qu'elle est une mesure du degré auquel on croit qu'elle se produira, ou faut-il compter sur ces deux éléments ? Pour répondre à ces questions, les mathématiciens interprètent les valeurs de probabilité de la théorie des probabilités.

Conditional mutual information

In probability theory, particularly information theory, the conditional mutual information is, in its most basic form, the expected value of the mutual information of two random variables given the value of a third. For random variables , , and with support sets , and , we define the conditional mutual information as This may be written in terms of the expectation operator: . Thus is the expected (with respect to ) Kullback–Leibler divergence from the conditional joint distribution to the product of the conditional marginals and .

Quantum mutual information

In quantum information theory, quantum mutual information, or von Neumann mutual information, after John von Neumann, is a measure of correlation between subsystems of quantum state. It is the quantum mechanical analog of Shannon mutual information. For simplicity, it will be assumed that all objects in the article are finite-dimensional. The definition of quantum mutual entropy is motivated by the classical case.

Entropie de Shannon

En théorie de l'information, l'entropie de Shannon, ou plus simplement entropie, est une fonction mathématique qui, intuitivement, correspond à la quantité d'information contenue ou délivrée par une source d'information. Cette source peut être un texte écrit dans une langue donnée, un signal électrique ou encore un fichier informatique quelconque (suite d'octets). Elle a été introduite par Claude Shannon. Du point de vue d'un récepteur, plus la source émet d'informations différentes, plus l'entropie (ou incertitude sur ce que la source émet) est grande.