Données manquantesEn statistiques, les données manquantes ou les valeurs manquantes se produisent lorsqu’aucune valeur de données n’est représentée pour une variable pour une observation donnée. Les données manquantes sont courantes et peuvent avoir un effet significatif sur l'inférence, les performances de prédiction ou toute autre utilisation faite avec les données. Des données manquantes peuvent exister dans les données en raison d'une « omission de réponse » pour l'observation donnée.
Imputation (statistique)En statistique, l’imputation désigne le processus de remplacement des données manquantes avec des valeurs substituées. Quand un point de données est substitué, on parle d’imputation unitaire ; quand une composante de point de données est substituée, on parle d’imputation d'items. Des données manquantes peuvent être à l'origine de trois types de problèmes : elles peuvent introduire une quantité importante de biais statistiques ; elles peuvent rendre le traitement et l'analyse des données plus laborieux ; elles peuvent réduire l'efficacité des méthodes statistiques.
ARMAEn statistique, les modèles ARMA (modèles autorégressifs et moyenne mobile), ou aussi modèle de Box-Jenkins, sont les principaux modèles de séries temporelles. Étant donné une série temporelle , le modèle ARMA est un outil pour comprendre et prédire, éventuellement, les valeurs futures de cette série. Le modèle est composé de deux parties : une part autorégressive (AR) et une part moyenne-mobile (MA). Le modèle est généralement noté ARMA(,), où est l'ordre de la partie AR et l'ordre de la partie MA.
Processus autorégressifUn processus autorégressif est un modèle de régression pour séries temporelles dans lequel la série est expliquée par ses valeurs passées plutôt que par d'autres variables. Un processus autorégressif d'ordre p, noté AR(p) est donné par : où sont les paramètres du modèle, est une constante et un bruit blanc. En utilisant l'opérateur des retards, on peut l'écrire : Un processus autorégressif d'ordre 1 s'écrit : On peut formuler le processus AR(1) de manière récursive par rapport aux conditions précédentes : En remontant aux valeurs initiales, on aboutit à : Il est à noter que les sommes vont ici jusqu'à l'infini.
Moving-average modelIn time series analysis, the moving-average model (MA model), also known as moving-average process, is a common approach for modeling univariate time series. The moving-average model specifies that the output variable is cross-correlated with a non-identical to itself random-variable. Together with the autoregressive (AR) model, the moving-average model is a special case and key component of the more general ARMA and ARIMA models of time series, which have a more complicated stochastic structure.
Hydrogéologievignette|droite|redresse=1.2|Bloc-diagramme d'un karst recoupé par une rivière. Lhydrogéologie (de hydro-, eau et géologie, étude de la terre), également nommée hydrologie souterraine et plus rarement géohydrologie, est la science qui étudie l'eau souterraine. Son domaine d'étude repose essentiellement sur deux branches des sciences de la Terre, la géologie et l'hydrologie, mais aussi sur de nombreuses autres branches comme la géostatistique, la physique, la chimie, la biologie, la géochimie, l'hydrochimie, la géophysique, l'hydrodynamique, l'hydraulique souterraine, l'analyse numérique ainsi que des techniques de modélisation.
Analyse spatialevignette|200px|Carte de cas de choléra pendant l'épidémie de 1854 à Londres L'analyse spatiale est une approche géographique qui étudie les localisations et les interactions spatiales en tant que composantes actives des fonctionnements sociétaux. Elle part du postulat selon lequel l'espace est acteur organisé. C'est une science nomothétique donc elle vise à proposer une approche modélisée de l'espace géographique en mettant en évidence des formes récurrentes d'organisation spatiales et des théories, notamment à travers diverses notions-clés : distance, réseaux, structure, .
Autoregressive integrated moving averageIn statistics and econometrics, and in particular in time series analysis, an autoregressive integrated moving average (ARIMA) model is a generalization of an autoregressive moving average (ARMA) model. To better comprehend the data or to forecast upcoming series points, both of these models are fitted to time series data. ARIMA models are applied in some cases where data show evidence of non-stationarity in the sense of mean (but not variance/autocovariance), where an initial differencing step (corresponding to the "integrated" part of the model) can be applied one or more times to eliminate the non-stationarity of the mean function (i.
Vecteur Autoregressif (VAR)Le modèle à Vecteur Autoregressif (VAR) est un modèle économique qui permet de capturer les interdépendances entre plusieurs séries temporelles. Il s'agit de la principale catégorie de modèle statistique. Dans un modèle VAR, les variables sont traitées symétriquement de manière que chacune d'entre elles soit expliquée par ses propres valeurs passées et par les valeurs passées des autres variables. De ce fait, les modèles VAR mobilisent des bases de données importantes.
Spline interpolationIn the mathematical field of numerical analysis, spline interpolation is a form of interpolation where the interpolant is a special type of piecewise polynomial called a spline. That is, instead of fitting a single, high-degree polynomial to all of the values at once, spline interpolation fits low-degree polynomials to small subsets of the values, for example, fitting nine cubic polynomials between each of the pairs of ten points, instead of fitting a single degree-ten polynomial to all of them.
Eau souterrainevignette|LŒil du Néez (Rébénacq, Pyrénées-Atlantiques) est une émergence karstique captée par la ville de Pau. Les eaux souterraines sont toutes les eaux se trouvant sous la surface du sol, dans la zone de saturation et en contact direct avec le sol ou le sous-sol. En tant que ressource naturelle vitale et plus ou moins renouvelable et parfois transfrontalières, ces eaux posent des questions juridiques particulières. C'est parfois une source de conflit inter ethnique ou entre pays.
Série temporellethumb|Exemple de visualisation de données montrant une tendances à moyen et long terme au réchauffement, à partir des séries temporelles de températures par pays (ici regroupés par continents, du nord au sud) pour les années 1901 à 2018. Une série temporelle, ou série chronologique, est une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps. De telles suites de variables aléatoires peuvent être exprimées mathématiquement afin d'en analyser le comportement, généralement pour comprendre son évolution passée et pour en prévoir le comportement futur.
Interpolation numériqueEn analyse numérique (et dans son application algorithmique discrète pour le calcul numérique), l'interpolation est une opération mathématique permettant de remplacer une courbe ou une fonction par une autre courbe (ou fonction) plus simple, mais qui coïncide avec la première en un nombre fini de points (ou de valeurs) donnés au départ. Suivant le type d'interpolation, outre le fait de coïncider en un nombre fini de points ou de valeurs, il peut aussi être demandé à la courbe ou à la fonction construite de vérifier des propriétés supplémentaires.
MarginalismeLe marginalisme est un mouvement intellectuel économique qui promeut une méthode d'analyse économique basée sur le raisonnement à la marge, résultant de « l'utilité marginale » (l'utilité de la dernière unité consommée). Il façonne le courant de l'école néoclassique à la fin du XIXe siècle. Cette théorie résulte de travaux menés dans la seconde moitié du de façon indépendante par des chercheurs comme Léon Walras, Carl Menger et William Stanley Jevons.
Modèle linéairevignette|Données aléatoires sous forme de points, et leur régression linéaire. Un modèle linéaire multivarié est un modèle statistique dans lequel on cherche à exprimer une variable aléatoire à expliquer en fonction de variables explicatives X sous forme d'un opérateur linéaire. Le modèle linéaire est donné selon la formule : où Y est une matrice d'observations multivariées, X est une matrice de variables explicatives, B est une matrice de paramètres inconnus à estimer et U est une matrice contenant des erreurs ou du bruit.
Ensemble statistiqueEn physique statistique, un ensemble statistique est une abstraction qui consiste à considérer une collection de copies virtuelles (ou répliques) d'un système physique dans l'ensemble des états accessibles où il est susceptible de se trouver, compte tenu des contraintes extérieures qui lui sont imposées, telles le volume, le nombre de particules, l'énergie et la température. Cette notion, introduite par le physicien américain Josiah Willard Gibbs en 1902, est un concept central de la physique statistique.
Grand modèle de langageUn grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus). Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé.
Splinevignette|Exemple de spline quadratique. En mathématiques appliquées et en analyse numérique, une spline est une fonction définie par morceaux par des polynômes. Spline est un terme anglais qui, lorsqu'il est utilisé en français, est généralement prononcé , à la française. Il désigne une réglette de bois souple appelée cerce en français. Toutefois, dans l'usage des mathématiques appliquées, le terme anglais spline est généralisé et le mot français cerce ignoré.
Interpolation multivariéeEn analyse numérique, linterpolation multivariée ou linterpolation spatiale désigne l'interpolation numérique de fonctions de plus d'une variable. Le problème est similaire à celui de l'interpolation polynomiale sur un intervalle réel : on connait les valeurs d'une fonction à interpoler aux points et l'objectif consiste à évaluer la valeur de la fonction en des points . L'interpolation multivariée est notamment utilisée en géostatistique, où elle est utilisée pour reconstruire les valeurs d'une variable régionalisée sur un domaine à partir d'échantillons connus en un nombre limité de points.
Utilité marginaleL'utilité marginale est un concept économique. Elle désigne l'utilité qu'un agent économique tire de la consommation d'une quantité supplémentaire d'un bien. Le raisonnement est dit à la marge parce que l'utilité marginale consiste en l'utilité par unité supplémentaire consommée. Comme l'a observé l'ingénieur Dupuit dès 1844, l'utilité marginale décroît marginalement, ce qui signifie qu'il arrive un moment où une unité supplémentaire de consommation d'un bien apporte moins d'utilité ou de plaisir que la consommation de l'unité précédente.