Lac de donnéesUn lac de données (en anglais data lake) est une méthode de stockage de données massives utilisée par le big data (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées. Le lac de données donne la priorité au stockage rapide et volumineux de données hétérogènes en adoptant une architecture en cluster. Il n'est pas optimisé pour les requêtes SQL comme les SGBD relationnels classiques, et s'écarte des Propriétés ACID traditionnelles. On parle depuis 2010 de SGBD NoSQL.
Science des donnéesLa science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.
NumériqueOn dit numérique une information qui se présente sous forme de nombres associés à une indication de la grandeur physique à laquelle ils s'appliquent, permettant les calculs, les statistiques, la vérification des modèles mathématiques. Numérique s'oppose en ce sens à « analogique » et, pour le calcul, à « algébrique ». On a pris l'habitude de désigner comme numériques les données informatiques. Elles sont traitées par les ordinateurs, développés depuis la seconde moitié du à partir de machines à calculer programmables.
Compression de donnéesLa compression de données ou codage de source est l'opération informatique consistant à transformer une suite de bits A en une suite de bits B plus courte pouvant restituer les mêmes informations, ou des informations voisines, en utilisant un algorithme de décompression. C'est une opération de codage qui raccourcit la taille (de transmission, de stockage) des données au prix d'un travail de compression. Celle-ci est l'opération inverse de la décompression.
Sociologie informatiqueLa sociologie informatique ou sociologie computationnelle (en anglais computational sociology) est une branche de la sociologie qui consiste à utiliser le calcul pour analyser des phénomènes sociaux. Il s'agit d'utiliser la technique de la simulation sur ordinateur pour la construction de modèles sociaux. Cela implique un certain arrangement des agents sociaux, et des interactions entre eux. Enfin, on examine l'effet de ces interactions sur un agrégat social.
Data LineageData Lineage en français "lignée des données" est un processus qui vise à fournir une cartographie du système d'information. Il permet une visualisation du cycle de vie de la donnée en vue de répondre aux questions suivantes : de quelle source provient cette donnée, et quelles transformations a-t-elle subies. Cette thématique prend de l'importance avec l'arrivée du RGPD. Le data Lineage comprend l’origine des données, ce qui leur arrive et où elles se déplacent au fil du temps.