DonnéeUne donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.
Analyse des donnéesL’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.
Big dataLe big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Entrepôt de donnéesvignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.
GNU OctaveGNU Octave est un logiciel libre de calcul numérique comparable à MATLAB et à Scilab. Ce n'est pas un logiciel de calcul formel. Le logiciel est développé puis maintenu pour le projet GNU par John W. Eaton. Le projet a été conçu aux alentours de 1988. Le véritable développement est commencé par John W. Eaton en 1992. La première version (alpha) sort le . La version 1.0 est rendue disponible le . La version 2 a été publiée en 1995, la version 3 en décembre 2007 et la version 4 le 29 mai 2015.
Gestion des donnéesLa gestion des données est une discipline de gestion qui tend à valoriser les données en tant que ressources numériques. La gestion des données permet d'envisager le développement d'architectures, de réglementations, de pratiques et de procédures qui gèrent correctement les besoins des organismes sur le plan de tout le cycle de vie des données. Les données sont, avec les traitements, l'un des deux aspects des systèmes d'information traditionnellement identifiés, et l'un ne peut aller sans l'autre pour un management du système d'information cohérent.
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
ZIP (format de fichier)Le ZIP est un format de fichier permettant l'archivage (utilisation d'un seul fichier pour stocker plusieurs fichiers) et la compression de données (diminution de l'espace occupé sur le support numérique) sans perte de qualité. On peut donc le comparer à la combinaison de tar (archivage) et gzip (compression) dans le cadre d'une archive compressée .tgz. Le format a été inventé par Phil Katz pour le logiciel PKZIP. Il a été conçu en réponse à un problème de droits entre le programme PKARC et le format ARC lancé par la Software Enhancement Associates.
Calcul intensifLe terme Calcul intensif (ou Calcul Haute Performance) - en anglais : High-performance computing (HPC) - désigne les activités de calculs réalisés sur un supercalculateur, en particulier à des fins de simulation numérique et de pré-apprentissage d'intelligences artificielles. Le calcul intensif rassemble l'administration système (réseau et sécurité) et la programmation parallèle en un champ multidisciplinaire qui combine l'électronique numérique, le développement d'architectures informatiques, la programmation système, les langages informatiques, l'algorithmique et les techniques de calcul.
Particule matérielleLe terme « particule matérielle » (material particle en anglais) désigne une petite portion d'un corps, de matière solide ou fluide, constituée d'un nombre suffisamment grand de particules élémentaires. La matière est pleine de vide. Un corps de matière solide ou fluide est un domaine discontinu de particules composites (protons, neutrons), elles-mêmes composées de particules élémentaires. Les dimensions des particules élémentaires sont très petites devant les distances qui les séparent.
MATLABMATLAB (« matrix laboratory ») est un langage de script émulé par un environnement de développement du même nom ; il est utilisé à des fins de calcul numérique. Développé par la société The MathWorks, MATLAB permet de manipuler des matrices, d'afficher des courbes et des données, de mettre en œuvre des algorithmes, de créer des interfaces utilisateurs, et peut s’interfacer avec d’autres langages comme le C, C++, Java, et Fortran.
Modèle de donnéesEn informatique, un modèle de données est un modèle qui décrit la manière dont sont représentées les données dans une organisation métier, un système d'information ou une base de données. Le terme modèle de données peut avoir deux significations : Un modèle de données théorique, c'est-à-dire une description formelle ou un modèle mathématique. Voir aussi modèle de base de données Un modèle de données instance, c'est-à-dire qui applique un modèle de données théorique (modélisation des données) pour créer un modèle de données instance.
Données brutesLes données brutes (aussi connu comme données primaires) sont les données non interprétées émanant d'une source primaire, ayant des caractéristiques liées à celle-ci et qui n'ont été soumises à aucun traitement ou toute autre manipulation. Les données brutes peuvent être entrées dans un programme informatique ou utilisées dans des procédures manuelles telles que l'analyse statistique d'une enquête. Il peut s'agir des données binaires des périphériques de stockage électroniques comme les lecteurs de disque dur.
7-Zip7-Zip est un logiciel de compression de données et d’archivage de fichiers fonctionnant sous Windows développé par Igor Pavlov. Il peut également être utilisé avec d’autres systèmes d’exploitation (GNU/Linux...) grâce, par exemple, au projet Wine ou au portage de sa version console sous GNU/Linux, nommé p7zip. C’est un logiciel libre distribué sous licence LGPL, le code LZMA est dans le domaine public, le code AES est sous licence BSD et le code unRAR est sous licence mixte (LGPL + des restrictions unRAR).
Centre de donnéesvignette|Centre de traitement de données. Un centre de données (en anglais data center ou data centre), ou centre informatique est un lieu (et un service) où sont regroupés les équipements constituants d'un système d'information (ordinateurs centraux, serveurs, baies de stockage, équipements réseaux et de télécommunications). Ce regroupement permet de faciliter la sécurisation, la gestion (notamment l'exécution de calculs et le refroidissement) et la maintenance des équipements et des données stockées.
Particules indiscernablesLes particules indiscernables ou particules identiques sont des particules qui ne peuvent être différenciées l'une de l'autre, même en principe. Ce concept prend tout son sens en mécanique quantique, où les particules n'ont pas de trajectoire bien définie qui permettrait de les distinguer l'une de l'autre. Les particules indiscernables peuvent être soit des particules élémentaires telles que l'électron ou le photon, ou des particules composites - neutron, proton - ayant le même état interne.
Explorateur de fichiersExplorateur de fichiers (), précédemment l'Explorateur Windows () est le gestionnaire de fichiers fourni avec le système d'exploitation Microsoft Windows. Le gestionnaire permet, notamment, d'afficher et de modifier le nom des fichiers et des dossiers, de manipuler les fichiers et les dossiers (copier, déplacer, effacer), d'ouvrir les fichiers de données, et de lancer les programmes. L'Explorateur Windows est également le programme qui affiche le bureau de Microsoft Windows, notamment la barre des tâches et le menu Démarrer.
Surapprentissagevignette|300x300px|La ligne verte représente un modèle surappris et la ligne noire représente un modèle régulier. La ligne verte classifie trop parfaitement les données d'entrainement, elle généralise mal et donnera de mauvaises prévisions futures avec de nouvelles données. Le modèle vert est donc finalement moins bon que le noir. En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données.
Lac de donnéesUn lac de données (en anglais data lake) est une méthode de stockage de données massives utilisée par le big data (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées. Le lac de données donne la priorité au stockage rapide et volumineux de données hétérogènes en adoptant une architecture en cluster. Il n'est pas optimisé pour les requêtes SQL comme les SGBD relationnels classiques, et s'écarte des Propriétés ACID traditionnelles. On parle depuis 2010 de SGBD NoSQL.
RAW (format d'image)thumb|Fonctionnement de la matrice de Bayer. Raw est la désignation générique d'un type de fichier d' issues d’appareils photo numériques ou de scanners. Un fichier Raw contient les données brutes du capteur et les paramètres nécessaires à la transformation en fichier image visible sur écran. Le fichier est plus volumineux que celui au format JPEG, servant le plus souvent à la communication des images, mais il n'a pas subi de transformations irréversibles, ce qui permet de retravailler sans dommage.