Model selectionModel selection is the task of selecting a model from among various candidates on the basis of performance criterion to choose the best one. In the context of learning, this may be the selection of a statistical model from a set of candidate models, given data. In the simplest cases, a pre-existing set of data is considered. However, the task can also involve the design of experiments such that the data collected is well-suited to the problem of model selection.
Régularisation (mathématiques)vignette|Les courbes bleues et vertes correspondent à deux modèles differents, tous les deux étant des solutions possibles du problème consistant à décrire les coordonnées de tous les points rouges. L'application d'une régularisation favorise le modèle moins complexe correspondant à la courbe verte. Dans le domaine des mathématiques et des statistiques, et plus particulièrement dans le domaine de l'apprentissage automatique, la régularisation fait référence à un processus consistant à ajouter de l'information à un problème, s'il est mal posé ou pour éviter le surapprentissage.
Inférence statistiquevignette|Illustration des 4 principales étapes de l'inférence statistique L'inférence statistique est l'ensemble des techniques permettant d'induire les caractéristiques d'un groupe général (la population) à partir de celles d'un groupe particulier (l'échantillon), en fournissant une mesure de la certitude de la prédiction : la probabilité d'erreur. Strictement, l'inférence s'applique à l'ensemble des membres (pris comme un tout) de la population représentée par l'échantillon, et non pas à tel ou tel membre particulier de cette population.
Modèle statistiqueUn modèle statistique est une description mathématique approximative du mécanisme qui a généré les observations, que l'on suppose être un processus stochastique et non un processus déterministe. Il s’exprime généralement à l’aide d’une famille de distributions (ensemble de distributions) et d’hypothèses sur les variables aléatoires X1, . . ., Xn. Chaque membre de la famille est une approximation possible de F : l’inférence consiste donc à déterminer le membre qui s’accorde le mieux avec les données.
Modèle linéaire généraliséEn statistiques, le modèle linéaire généralisé (MLG) souvent connu sous les initiales anglaises GLM est une généralisation souple de la régression linéaire. Le GLM généralise la régression linéaire en permettant au modèle linéaire d'être relié à la variable réponse via une fonction lien et en autorisant l'amplitude de la variance de chaque mesure d'être une fonction de sa valeur prévue, en fonction de la loi choisie.
Multilevel modelMultilevel models (also known as hierarchical linear models, linear mixed-effect model, mixed models, nested data models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped.
Sélection de caractéristiqueLa sélection de caractéristique (ou sélection d'attribut ou de variable) est un processus utilisé en apprentissage automatique et en traitement de données. Il consiste, étant donné des données dans un espace de grande dimension, à trouver un sous-sensemble de variables pertinentes. C'est-à-dire que l'on cherche à minimiser la perte d'information venant de la suppression de toutes les autres variables. C'est une méthode de réduction de la dimensionnalité. Extraction de caractéristique Catégorie:Apprentissage
Régression linéaireEn statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
Ridge regressionRidge regression is a method of estimating the coefficients of multiple-regression models in scenarios where the independent variables are highly correlated. It has been used in many fields including econometrics, chemistry, and engineering. Also known as Tikhonov regularization, named for Andrey Tikhonov, it is a method of regularization of ill-posed problems. It is particularly useful to mitigate the problem of multicollinearity in linear regression, which commonly occurs in models with large numbers of parameters.
Local diffeomorphismIn mathematics, more specifically differential topology, a local diffeomorphism is intuitively a map between Smooth manifolds that preserves the local differentiable structure. The formal definition of a local diffeomorphism is given below. Let and be differentiable manifolds. A function is a local diffeomorphism, if for each point there exists an open set containing such that is open in and is a diffeomorphism.
Statistical model validationIn statistics, model validation is the task of evaluating whether a chosen statistical model is appropriate or not. Oftentimes in statistical inference, inferences from models that appear to fit their data may be flukes, resulting in a misunderstanding by researchers of the actual relevance of their model. To combat this, model validation is used to test whether a statistical model can hold up to permutations in the data.
Regularized least squaresRegularized least squares (RLS) is a family of methods for solving the least-squares problem while using regularization to further constrain the resulting solution. RLS is used for two main reasons. The first comes up when the number of variables in the linear system exceeds the number of observations. In such settings, the ordinary least-squares problem is ill-posed and is therefore impossible to fit because the associated optimization problem has infinitely many solutions.
G-structure on a manifoldIn differential geometry, a G-structure on an n-manifold M, for a given structure group G, is a principal G-subbundle of the tangent frame bundle FM (or GL(M)) of M. The notion of G-structures includes various classical structures that can be defined on manifolds, which in some cases are tensor fields. For example, for the orthogonal group, an O(n)-structure defines a Riemannian metric, and for the special linear group an SL(n,R)-structure is the same as a volume form.
Generalized linear mixed modelIn statistics, a generalized linear mixed model (GLMM) is an extension to the generalized linear model (GLM) in which the linear predictor contains random effects in addition to the usual fixed effects. They also inherit from GLMs the idea of extending linear mixed models to non-normal data. GLMMs provide a broad range of models for the analysis of grouped data, since the differences between groups can be modelled as a random effect. These models are useful in the analysis of many kinds of data, including longitudinal data.
Variété différentielleEn mathématiques, les variétés différentielles ou variétés différentiables sont les objets de base de la topologie différentielle et de la géométrie différentielle. Il s'agit de variétés, « espaces courbes » localement modelés sur l'espace euclidien de dimension n, sur lesquelles il est possible de généraliser une bonne part des opérations du calcul différentiel et intégral. Une variété différentielle se définit donc d'abord par la donnée d'une variété topologique, espace topologique localement homéomorphe à l'espace R.
Fonction objectifvignette|comparaison de certains substituts de la fonction de perte Le terme fonction objectif ou fonction économique, est utilisé en optimisation mathématique et en recherche opérationnelle pour désigner une fonction qui sert de critère pour déterminer la meilleure solution à un problème d'optimisation. Elle associe une valeur à une instance d'un problème d'optimisation. Le but du problème d'optimisation est alors de minimiser ou de maximiser cette fonction jusqu'à l'optimum, par différents procédés comme l'algorithme du simplexe.
Application linéaireEn mathématiques, une application linéaire (aussi appelée opérateur linéaire ou transformation linéaire) est une application entre deux espaces vectoriels qui respecte l'addition des vecteurs et la multiplication scalaire, et préserve ainsi plus généralement les combinaisons linéaires. L’expression peut s’utiliser aussi pour un morphisme entre deux modules sur un anneau, avec une présentation semblable en dehors des notions de base et de dimension. Cette notion étend celle de fonction linéaire en analyse réelle à des espaces vectoriels plus généraux.
Modèle mixteUn modèle mixte est un modèle statistique qui comporte à la fois des effets fixes et des effets aléatoires. Ce type de modèle est utile dans une grande variété de domaines, tels que la physique, la biologie ou encore les sciences sociales. Les modèles mixtes sont particulièrement utiles dans les situations où des mesures répétées sont effectuées sur les mêmes variables (étude longitudinale). Ils sont souvent préférés à d'autres approches telle que rANOVA, dans la mesure où ils peuvent être utilisés dans le cas où le jeu de données présente des valeurs manquantes.
Régularisation (physique)En physique théorique, la régularisation est une procédure ad-hoc qui consiste à modifier une grandeur physique qui présente une singularité afin de la rendre régulière. La régularisation est par exemple abondamment utilisée en théorie quantique des champs en relation avec la procédure de renormalisation, ainsi qu'en relativité générale pour le calcul du problème à deux corps en paramétrisation post-newtonienne. Le potentiel newtonien en coordonnées sphériques s'écrit : où k est une constante.
Ambient space (mathematics)In mathematics, especially in geometry and topology, an ambient space is the space surrounding a mathematical object along with the object itself. For example, a 1-dimensional line may be studied in isolation —in which case the ambient space of is , or it may be studied as an object embedded in 2-dimensional Euclidean space —in which case the ambient space of is , or as an object embedded in 2-dimensional hyperbolic space —in which case the ambient space of is .