Nonlinear dimensionality reductionNonlinear dimensionality reduction, also known as manifold learning, refers to various related techniques that aim to project high-dimensional data onto lower-dimensional latent manifolds, with the goal of either visualizing the data in the low-dimensional space, or learning the mapping (either from the high-dimensional space to the low-dimensional embedding or vice versa) itself. The techniques described below can be understood as generalizations of linear decomposition methods used for dimensionality reduction, such as singular value decomposition and principal component analysis.
Espace localement convexeEn mathématiques, un espace localement convexe est un espace vectoriel topologique dont la topologie peut être définie à l'aide d'une famille de semi-normes. C'est une généralisation de la notion d'espace normé. Un espace vectoriel topologique E est dit localement convexe s'il vérifie l'une des deux propriétés équivalentes suivantes : il existe une famille de semi-normes telle que la topologie de E est initiale pour l'ensemble d'applications ; le vecteur nul possède une base de voisinages formée de convexes.
Continuous linear operatorIn functional analysis and related areas of mathematics, a continuous linear operator or continuous linear mapping is a continuous linear transformation between topological vector spaces. An operator between two normed spaces is a bounded linear operator if and only if it is a continuous linear operator. Continuous function (topology) and Discontinuous linear map Bounded operator Suppose that is a linear operator between two topological vector spaces (TVSs). The following are equivalent: is continuous.
Nettoyage de donnéesLe nettoyage de données est l'opération de détection et de correction (ou suppression) d'erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers. Le nettoyage de données est un des problèmes majeurs des entrepôts de données. Les données présentes dans les bases de données peuvent avoir plusieurs types d'erreurs comme des erreurs de frappe, des informations manquantes, des imprécisions etc. La partie impropre de la donnée traitée peut être remplacée, modifiée ou supprimée.
Forme linéaireEn algèbre linéaire, une forme linéaire sur un espace vectoriel est une application linéaire sur son corps de base. En dimension finie, elle peut être représentée par une matrice ligne qui permet d’associer à son noyau une équation cartésienne. Dans le cadre du calcul tensoriel, une forme linéaire est aussi appelée covecteur, en lien avec l’action différente des matrices de changement de base.
Consolidation informatiqueLa consolidation est en informatique le regroupement cohérent de données. Elle concerne généralement des données organisées logiquement ou liées entre elles. Plus spécifiquement pour les tableurs, il s’agit du regroupement de plusieurs tableaux issus de feuilles différentes (les feuilles sont des composantes des tableurs) voire de classeurs différents. La consolidation de données consiste à rassembler plusieurs données semblables afin d’obtenir un rapport plus facile à consulter que l’information brute présente sur le serveur, avec le moins de perte d’information possible.
Discontinuous linear mapIn mathematics, linear maps form an important class of "simple" functions which preserve the algebraic structure of linear spaces and are often used as approximations to more general functions (see linear approximation). If the spaces involved are also topological spaces (that is, topological vector spaces), then it makes sense to ask whether all linear maps are continuous. It turns out that for maps defined on infinite-dimensional topological vector spaces (e.g.
Réduction de la dimensionnalitévignette|320x320px|Animation présentant la projection de points en deux dimensions sur les axes obtenus par analyse en composantes principales, une méthode populaire de réduction de la dimensionnalité La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension.
Opérateur bornéEn mathématiques, la notion d'opérateur borné est un concept d'analyse fonctionnelle. Il s'agit d'une application linéaire L entre deux espaces vectoriels normés X et Y telle que l'image de la boule unité de X est une partie bornée de Y. On montre qu'ils s'identifient aux applications linéaires continues de X dans Y. L'ensemble des opérateurs bornés est muni d'une norme issue des normes de X et de Y, la norme d'opérateur. Une application linéaire L entre les espaces vectoriels normés X et Y est appelée opérateur borné quand l'ensemble est borné.
Analyse en composantes principalesL'analyse en composantes principales (ACP ou PCA en anglais pour principal component analysis), ou, selon le domaine d'application, transformation de Karhunen–Loève (KLT) ou transformation de Hotelling, est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites « corrélées » en statistique) en nouvelles variables décorrélées les unes des autres. Ces nouvelles variables sont nommées « composantes principales » ou axes principaux.
Data PreprocessingData preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data collection methods are often loosely controlled, resulting in out-of-range values, impossible data combinations, and missing values, amongst other issues. Analyzing data that has not been carefully screened for such problems can produce misleading results.
Analyse discriminante linéaireEn statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives. Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son édéage (partie des organes génitaux mâles de l'insecte.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.
Combinaison linéaireEn mathématiques, une combinaison linéaire est une expression construite à partir d'un ensemble de termes en multipliant chaque terme par une constante et en ajoutant le résultat. Par exemple, une combinaison linéaire de x et y serait une expression de la forme ax + by, où a et b sont des constantes. Le concept de combinaison linéaire est central en algèbre linéaire et dans des domaines connexes des mathématiques. La majeure partie de cet article traite des combinaisons linéaires dans le contexte d'espace vectoriel sur un corps commutatif, et indique quelques généralisations à la fin de l'article.
Algèbre linéairevignette|R3 est un espace vectoriel de dimension 3. Droites et plans qui passent par l'origine sont des sous-espaces vectoriels. L’algèbre linéaire est la branche des mathématiques qui s'intéresse aux espaces vectoriels et aux transformations linéaires, formalisation générale des théories des systèmes d'équations linéaires. L'algèbre linéaire est initiée dans son principe par le mathématicien perse Al-Khwârizmî qui s'est inspiré des textes de mathématiques indiens et qui a complété les travaux de l'école grecque, laquelle continuera de se développer des siècles durant.
Espace affineEn géométrie, la notion d'espace affine généralise la notion d'espace issue de la géométrie euclidienne en omettant les notions d'angle et de distance. Dans un espace affine, on peut parler d'alignement, de parallélisme, de barycentre. Sous la forme qui utilise des rapports de mesures algébriques, qui est une notion affine, le théorème de Thalès et le théorème de Ceva sont des exemples de théorèmes de géométrie affine plane réelle (c'est-à-dire n'utilisant que la structure d'espace affine du plan réel).
Exposant critiqueLors d'une transition de phase de deuxième ordre, au voisinage du point critique, les systèmes physiques ont des comportements universels en lois de puissances caractérisées par des exposants critiques. Au point critique, un fluide est caractérisé par une température critique et une densité critique . Pour une température légèrement supérieure à (à nombre de particules et volume constants), le système est homogène avec une densité . Pour une température légèrement inférieure à , il y a une séparation de phase entre une phase liquide (de densité ) et une phase gazeuse (de densité ).
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Modélisation des donnéesDans la conception d'un système d'information, la modélisation des données est l'analyse et la conception de l'information contenue dans le système afin de représenter la structure de ces informations et de structurer le stockage et les traitements informatiques. Il s'agit essentiellement d'identifier les entités logiques et les dépendances logiques entre ces entités.