Publication

An Analysis of Load Imbalance in Scale-out Data Serving

Concepts associés (21)

Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure. La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité.

Analyse des données

L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.

Big data

Le big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.

Science des données

La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.

Gestion des données

La gestion des données est une discipline de gestion qui tend à valoriser les données en tant que ressources numériques. La gestion des données permet d'envisager le développement d'architectures, de réglementations, de pratiques et de procédures qui gèrent correctement les besoins des organismes sur le plan de tout le cycle de vie des données. Les données sont, avec les traitements, l'un des deux aspects des systèmes d'information traditionnellement identifiés, et l'un ne peut aller sans l'autre pour un management du système d'information cohérent.

Entrepôt de données

vignette|redresse=1.5|Vue d'ensemble d'une architecture entrepôt de données. Le terme entrepôt de données ou EDD (ou base de données décisionnelle ; en anglais, data warehouse ou DWH) désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l'aide à la décision en entreprise. Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise.

Réplication (informatique)

En informatique, la réplication est un processus de partage d'informations pour assurer la cohérence de données entre plusieurs sources de données redondantes, pour améliorer la fiabilité, la tolérance aux pannes, ou la disponibilité. On parle de réplication de données si les mêmes données sont dupliquées sur plusieurs périphériques. La réplication n'est pas à confondre avec une sauvegarde : les données sauvegardées ne changent pas dans le temps, reflétant un état fixe des données, tandis que les données répliquées évoluent sans cesse à mesure que les données sources changent.

Asymétrie (statistiques)

En théorie des probabilités et statistique, le coefficient d'asymétrie (skewness en anglais) correspond à une mesure de l’asymétrie de la distribution d’une variable aléatoire réelle. C’est le premier des paramètres de forme, avec le kurtosis (les paramètres basés sur les moments d’ordre 5 et plus n’ont pas de nom attribué). En termes généraux, l’asymétrie d’une distribution est positive si la queue de droite (à valeurs hautes) est plus longue ou grosse, et négative si la queue de gauche (à valeurs basses) est plus longue ou grosse.

Modèle de données

En informatique, un modèle de données est un modèle qui décrit la manière dont sont représentées les données dans une organisation métier, un système d'information ou une base de données. Le terme modèle de données peut avoir deux significations : Un modèle de données théorique, c'est-à-dire une description formelle ou un modèle mathématique. Voir aussi modèle de base de données Un modèle de données instance, c'est-à-dire qui applique un modèle de données théorique (modélisation des données) pour créer un modèle de données instance.

Réplication de l'ADN

redresse=1.2|vignette La réplication de l'ADN, aussi appelée duplication de l'ADN ou synthèse de l'ADN, est le processus au cours duquel l'ADN est synthétisé. Ce mécanisme permet d'obtenir, à partir d'une molécule d'ADN, deux molécules identiques à la molécule initiale. L'ADN dupliqué sera par la suite divisé entre les deux cellules filles lors de la division cellulaire (mitose et méiose). Cela permet de maintenir l'information génétique et de produire deux cellules filles avec un matériel génétique identique.

Centre de données

vignette|Centre de traitement de données. Un centre de données (en anglais data center ou data centre), ou centre informatique est un lieu (et un service) où sont regroupés les équipements constituants d'un système d'information (ordinateurs centraux, serveurs, baies de stockage, équipements réseaux et de télécommunications). Ce regroupement permet de faciliter la sécurisation, la gestion (notamment l'exécution de calculs et le refroidissement) et la maintenance des équipements et des données stockées.

Réponse à la demande

La réponse à la demande (demand response) comprend, de manière générale, tous les moyens mis en place pour changer le profil de consommation de l'électricité par les utilisateurs et donc la consommation totale électrique. D'après la Federal Energy Regulatory Commission américaine, elle est le changement d'utilisation de l'électricité par le consommateur final par rapport à l'usage habituel en réponse aux changements de prix de l'électricité au cours du temps, ou des remboursements destinés à diminuer l'usage de l'électricité lors de maxima des prix dans le marché de gros ou lors d'instabilité du réseau électrique.

Table de hachage distribuée

Une table de hachage distribuée (ou DHT pour Distributed Hash Table), est une technique permettant la mise en place d’une table de hachage dans un système réparti. Une table de hachage est une structure de données de type clé → valeur. Chaque donnée est associée à une clé et est distribuée sur le réseau. Les tables de hachage permettent de répartir le stockage de données sur l’ensemble des nœuds du réseau, chaque nœud étant responsable d’une partie des données.

Système de fichiers distribué

En informatique, un système de fichiers distribués ou système de fichiers en réseau est un système de fichiers qui permet le partage de fichiers à plusieurs clients au travers du réseau informatique. Contrairement à un système de fichiers local, le client n'a pas accès au système de stockage sous-jacent, et interagit avec le système de fichiers via un protocole adéquat. CephFS Coda GlusterFS GPFS Hadoop Distributed File System (HDFS) Lustre OrangeFS SheepDog Unity, du logiciel Perfect Dark Catégorie:Systèm

Répartition de charge

thumb|Répartition de charge entre deux serveurs accédés par 4 postes clients, ici le switch et le répartiteur sont deux points de panne potentiels, aucun des deux n'est doublé.En informatique, la répartition de charge () désigne le processus de répartition d’un ensemble de tâches sur un ensemble de ressources, dans le but d’en rendre le traitement global plus efficace. Les techniques de répartition de charge permettent à la fois d’optimiser le temps de réponse pour chaque tâche, tout en évitant de surcharger de manière inégale les nœuds de calcul.

Invariance d'échelle

Il y a invariance d'échelle lorsqu'aucune échelle ne caractérise le système. Par exemple, dans un ensemble fractal, les propriétés seront les mêmes quelle que soit la distance à laquelle on se place. Une fonction g est dite invariante d'échelle s'il existe une fonction telle que pour tout x et y : Alors, il existe une constante et un exposant , tels que : En physique, l'invariance d'échelle n'est valable que dans un domaine de taille limité — par exemple, pour un ensemble fractal, on ne peut pas se placer à une échelle plus petite que celle des molécules, ni plus grande que la taille du système.

Serveur informatique

thumb|Des serveurs empilés. Un serveur informatique est un dispositif informatique (matériel et logiciel) qui offre des services à un ou plusieurs clients (parfois des milliers). Les services les plus courants sont : l'accès aux informations du World Wide Web ; le courrier électronique ; le partage de périphériques (imprimantes, disque durs) ; le commerce électronique ; le stockage en base de données ; la gestion de l'authentification et du contrôle d'accès ; le jeu et la mise à disposition de logiciels applicatifs.

Loi de probabilité à queue lourde

vignette|Long tail. Dans la théorie des probabilités, une loi de probabilité à queue lourde est une loi de probabilité dont les queues ne sont pas exponentiellement bornées, ce qui signifie qu'elles ont des queues plus « lourdes » que la loi exponentielle. Dans de nombreuses applications, c'est la queue droite de la distribution qui est intéressante, mais une distribution peut avoir une queue lourde à gauche, ou les deux queues peuvent être lourdes.

Optimistic replication

Optimistic replication, also known as lazy replication, is a strategy for replication, in which replicas are allowed to diverge. Traditional pessimistic replication systems try to guarantee from the beginning that all of the replicas are identical to each other, as if there was only a single copy of the data all along. Optimistic replication does away with this in favor of eventual consistency, meaning that replicas are guaranteed to converge only when the system has been quiesced for a period of time.

Longue traîne

En statistique, la queue ou traîne d'une loi de probabilité correspond à la portion éloignée de la « tête » ou valeur centrale de la loi. Une loi de probabilité est dite à longue traîne si une plus grande partie de la loi est contenue dans sa traîne par rapport à celle de la loi normale. Une loi à longue traîne est un cas particulier de lois à queue lourde. Benoît Mandelbrot a été surnommé le « père des longues traînes » pour son article de 1951 dans ce domaine.