Correlation clusteringClustering is the problem of partitioning data points into groups based on their similarity. Correlation clustering provides a method for clustering a set of objects into the optimum number of clusters without specifying that number in advance. Cluster analysis In machine learning, correlation clustering or cluster editing operates in a scenario where the relationships between the objects are known instead of the actual representations of the objects.
Random effects modelIn statistics, a random effects model, also called a variance components model, is a statistical model where the model parameters are random variables. It is a kind of hierarchical linear model, which assumes that the data being analysed are drawn from a hierarchy of different populations whose differences relate to that hierarchy. A random effects model is a special case of a mixed model.
Mesure (mathématiques)En mathématiques, une mesure positive (ou simplement mesure quand il n'y a pas de risque de confusion) est une fonction qui associe une grandeur numérique à certains sous-ensembles d'un ensemble donné. Il s'agit d'un important concept en analyse et en théorie des probabilités. Intuitivement, la mesure d'un ensemble ou sous-ensemble est similaire à la notion de taille, ou de cardinal pour les ensembles discrets. Dans ce sens, la mesure est une généralisation des concepts de longueur, aire ou volume dans des espaces de dimension 1, 2 ou 3 respectivement.
Intraclass correlationIn statistics, the intraclass correlation, or the intraclass correlation coefficient (ICC), is a descriptive statistic that can be used when quantitative measurements are made on units that are organized into groups. It describes how strongly units in the same group resemble each other. While it is viewed as a type of correlation, unlike most other correlation measures, it operates on data structured as groups rather than data structured as paired observations.
MaquetteUne maquette est une représentation partielle ou complète d'un système ou d'un objet (existant ou en projet) afin d'en tester et valider certains aspects et/ou le comportement (maquette fonctionnelle), ou simplement à des fins ludiques (maquette de jeu) ou informatives (présentation pédagogique ou commerciale d'une réalisation ou d'un projet). La maquette peut être réalisée en deux ou trois dimensions, à une échelle donnée, le plus souvent réduite ou agrandie pour en faciliter la visualisation ou la manipulation.
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
Forêt d'arbres décisionnelsvignette|Illustration du principe de construction d'une forêt aléatoire comme agrégation d'arbre aléatoires. En apprentissage automatique, les forêts d'arbres décisionnels (ou forêts aléatoires de l'anglais random forest classifier) forment une méthode d'apprentissage ensembliste. Ils ont été premièrement proposées par Ho en 1995 et ont été formellement proposées en 2001 par Leo Breiman et Adele Cutler. Cet algorithme combine les concepts de sous-espaces aléatoires et de bagging.
Entrepôt de donnéesvignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.
Gestion des donnéesLa gestion des données est une discipline de gestion qui tend à valoriser les données en tant que ressources numériques. La gestion des données permet d'envisager le développement d'architectures, de réglementations, de pratiques et de procédures qui gèrent correctement les besoins des organismes sur le plan de tout le cycle de vie des données. Les données sont, avec les traitements, l'un des deux aspects des systèmes d'information traditionnellement identifiés, et l'un ne peut aller sans l'autre pour un management du système d'information cohérent.
Multilevel modelMultilevel models (also known as hierarchical linear models, linear mixed-effect model, mixed models, nested data models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped.
Coefficient de variationvignette|CV (coefficient de variation) = l'écart-type sur la moyenne En théorie des probabilités et statistiques, le coefficient de variation également nommé écart type relatif, est une mesure de dispersion relative. Le RSD (relative standard deviation en anglais) est défini comme la valeur absolue du coefficient de variation et est souvent exprimé en pourcentage. Le coefficient de variation est défini comme le rapport entre l'écart-type et la moyenne : L'écart-type seul ne permet le plus souvent pas de juger de la dispersion des valeurs autour de la moyenne.
Mesure de LebesgueLa mesure de Lebesgue est une mesure qui étend le concept intuitif de volume à une très large classe de parties de l'espace. Comme l'a immédiatement perçu son inventeur, Henri Lebesgue, elle permet de bâtir une théorie de l'intégration très performante et fondamentale en analyse moderne : la théorie de l'intégrale de Lebesgue. Plusieurs constructions bien différentes de la mesure de Lebesgue sont connues. Chacune d'entre elles peut naturellement être prise pour définition ; dans le cadre d'un article où il faut toutes les évoquer, il est prudent de fournir en ouverture une définition plus unificatrice.