Publication

Rock You like a Hurricane: Taming Skew in Large Scale Analytics

Concepts associés (32)

Le big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.

Loi stable

La loi stable ou loi de Lévy tronquée, nommée d'après le mathématicien Paul Lévy, est une loi de probabilité utilisée en mathématiques, physique et analyse quantitative (finance de marché). On dit qu'une variable aléatoire réelle est de loi stable si elle vérifie l'une des 3 propriétés équivalentes suivantes : Pour tous réels strictement positifs et , il existe un réel strictement positif et un réel tels que les variables aléatoires et aient la même loi, où et sont des copies indépendantes de .

Récupération de données

vignette|Un laboratoire de récupération de données La récupération de données (ou restauration de données) est une opération informatique qui consiste à retrouver les données perdues à la suite d'une erreur humaine, une défaillance matérielle, une défaillance logicielle d'un programme ou d'un système d'exploitation, un accident ou au moment opportun d'un test de récupération de données défini dans une procédure de stratégie de sauvegarde et d'archive (également appelé plan de sauvegarde).

Ajustement de loi de probabilité

Lajustement de la loi de probabilité ou simplement lajustement de la loi est l'ajustement d'une loi de probabilité à une série de données concernant la mesure répétée d'un phénomène aléatoire. L'ajustement de la loi a pour but de prédire la probabilité ou de prévoir la fréquence d'occurrence de l'ampleur du phénomène dans un certain intervalle. Il existe de nombreuses lois de probabilité, dont certaines peuvent être ajustées plus étroitement à la fréquence observée des données que d'autres, selon les caractéristiques du phénomène et de la loi.

Fonction de Pearson

Les fonctions de Pearson ont été créées pour représenter des distributions unimodales. Il en existe douze. Elles ont été inventées par Karl Pearson à la fin du et au début du . Le système de Pearson a été originellement conçu afin de modéliser des observations visiblement asymétriques. Les méthodes pour ajuster un modèle théorique aux deux premiers cumulants ou moments de données observées : toute distribution peut être étendue directement une famille de distributions adaptée.

Analyse prédictive

L'analyse (ou logique) prédictive englobe une variété de techniques issues des statistiques, d'extraction de connaissances à partir de données et de la théorie des jeux qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des événements futurs. Dans le monde des affaires, des modèles prédictifs exploitent des schémas découverts à l'intérieur des ensembles de données historiques et transactionnelles pour identifier les risques et les opportunités.

Asymétrie (statistiques)

En théorie des probabilités et statistique, le coefficient d'asymétrie (skewness en anglais) correspond à une mesure de l’asymétrie de la distribution d’une variable aléatoire réelle. C’est le premier des paramètres de forme, avec le kurtosis (les paramètres basés sur les moments d’ordre 5 et plus n’ont pas de nom attribué). En termes généraux, l’asymétrie d’une distribution est positive si la queue de droite (à valeurs hautes) est plus longue ou grosse, et négative si la queue de gauche (à valeurs basses) est plus longue ou grosse.

Loi normale généralisée

En théorie des probabilités et en statistique, la loi normale généralisée ou loi gaussienne généralisée désigne deux familles de lois de probabilité à densité dont les supports sont l'ensemble des réels. Cette loi rajoute un paramètre de forme à la loi normale. Pour les différencier, les deux familles seront appelées « version 1 » et « version 2 », ce ne sont cependant pas des appellations standards. La densité de probabilité des lois de cette famille est donnée par la formule : où est la fonction gamma, est un paramètre de position, est un paramètre d'échelle et est un paramètre de forme.

Loi bêta

Dans la théorie des probabilités et en statistiques, la loi bêta est une famille de lois de probabilités continues, définies sur , paramétrée par deux paramètres de forme, typiquement notés (alpha) et (bêta). C'est un cas spécial de la loi de Dirichlet, avec seulement deux paramètres. Admettant une grande variété de formes, elle permet de modéliser de nombreuses distributions à support fini. Elle est par exemple utilisée dans la méthode PERT. Fixons les deux paramètres de forme α, β > 0.

Distribution multimodale

vignette|Exemple de distribution bimodale de minerais d'or. X : teneur en g/t ; Y : production en tonnes. Le caractère bimodal définit deux groupes de populations statistiques résultant de deux phénomènes différents. En probabilités et statistique, une distribution multimodale est une distribution statistique présentant plusieurs modes. vignette| Histogramme bimodal vignette|Dans ce cas précis, une distribution bimodale un mélange de deux distributions normales avec la même variance mais des moyennes différentes.

Consolidation informatique

La consolidation est en informatique le regroupement cohérent de données. Elle concerne généralement des données organisées logiquement ou liées entre elles. Plus spécifiquement pour les tableurs, il s’agit du regroupement de plusieurs tableaux issus de feuilles différentes (les feuilles sont des composantes des tableurs) voire de classeurs différents. La consolidation de données consiste à rassembler plusieurs données semblables afin d’obtenir un rapport plus facile à consulter que l’information brute présente sur le serveur, avec le moins de perte d’information possible.

Kepler (architecture de carte graphique)

L'architecture Kepler a été développée par NVidia pour ses cartes graphiques. Elle est censée doubler les performances par watt par rapport à Fermi, l'architecture précédente, ce qui permet de l'utiliser dans des cartes graphiques mobiles. La première carte graphique utilisant cette architecture est la GTX 680, utilisant le processeur graphique GK 104.

Single instruction multiple data

Single Instruction on Multiple Data (signifiant en anglais : « instruction unique, données multiples »), ou SIMD, est une des quatre catégories d'architecture définies par la taxonomie de Flynn en 1966 et désigne un mode de fonctionnement des ordinateurs dotés de capacités de parallélisme. Dans ce mode, la même instruction est appliquée simultanément à plusieurs données pour produire plusieurs résultats.

General-purpose processing on graphics processing units

GPGPU est l'abréviation de general-purpose computing on graphics processing units, c'est-à-dire calcul générique sur processeur graphique. L'objectif de tels calculs est de bénéficier de la capacité de traitement parallèle des processeurs graphiques. Avant l'arrivée des GPGPU, le CPU, processeur central de l'ordinateur, traitait la plupart des opérations lourdes en calcul comme les simulations physiques, le rendu hors-ligne pour les films, les calculs de risques pour les institutions financières, la prévision météorologique, l'encodage de fichier vidéo et son Intel avec ses 80 % de parts de marché sur les CPU dominait donc très largement tous les besoins en calcul et pouvait en extraire de substantielles marges.

Prescriptive analytics

Prescriptive analytics is a form of business analytics which suggests decision options for how to take advantage of a future opportunity or mitigate a future risk, and shows the implication of each decision option. It enables an enterprise to consider "the best course of action to take" in the light of information derived from descriptive and predictive analytics. Prescriptive analytics is the third and final phase of business analytics, which also includes descriptive and predictive analytics.

Message Passing Interface

Message Passing Interface (MPI) est un outil pour le calcul scientifique à haute performance qui permet d'utiliser plusieurs ordinateurs. C'est une norme conçue en 1993-94 pour le passage de messages entre ordinateurs distants ou dans un ordinateur multiprocesseur. Elle est devenue de facto un standard de communication pour des nœuds exécutant des programmes parallèles sur des systèmes à mémoire distribuée. Elle définit une bibliothèque de fonctions, utilisable avec les langages C, C++ et Fortran.

Data transformation (computing)

In computing, data transformation is the process of converting data from one format or structure into another format or structure. It is a fundamental aspect of most data integration and data management tasks such as data wrangling, data warehousing, data integration and application integration. Data transformation can be simple or complex based on the required changes to the data between the source (initial) data and the target (final) data. Data transformation is typically performed via a mixture of manual and automated steps.

Microprocesseur multi-cœur

vignette|Un processeur quad-core AMD Opteron. vignette|L’Intel Core 2 Duo E6300 est un processeur double cœur. Un microprocesseur multi-cœur (multi-core en anglais) est un microprocesseur possédant plusieurs cœurs physiques fonctionnant simultanément. Il se distingue d'architectures plus anciennes (360/91) où un processeur unique commandait plusieurs circuits de calcul simultanés. Un cœur (en anglais, core) est un ensemble de circuits capables d’exécuter des programmes de façon autonome.

Parallélisme (informatique)

vignette|upright=1|Un des éléments de Blue Gene L cabinet, un des supercalculateurs massivement parallèles les plus rapides des années 2000. En informatique, le parallélisme consiste à mettre en œuvre des architectures d'électronique numérique permettant de traiter des informations de manière simultanée, ainsi que les algorithmes spécialisés pour celles-ci. Ces techniques ont pour but de réaliser le plus grand nombre d'opérations en un temps le plus petit possible.

Courant continu

Le courant continu ou CC (DC pour direct current en anglais) est un courant électrique dont l'intensité est indépendante du temps (constante). C'est, par exemple, le type de courant délivré par les piles ou les accumulateurs. Par extension, on nomme courant continu un courant périodique dont l'intensité est toujours assez proche de sa valeur moyenne ou dont la composante continue (sa valeur moyenne) est d'importance primordiale, ou encore un courant électrique qui circule continuellement (ou très majoritairement) dans le même sens (dit aussi unidirectionnel).