Publication

Drynx: Decentralized, Secure, Verifiable System for Statistical Queries and Machine Learning on Distributed Datasets

Concepts associés (32)

thumb|Exemple de deux échantillons ayant la même moyenne (100) mais des écarts types différents illustrant l'écart type comme mesure de la dispersion autour de la moyenne. La population rouge a un écart type (SD = standard deviation) de 10 et la population bleue a un écart type de 50. En mathématiques, l’écart type (aussi orthographié écart-type) est une mesure de la dispersion des valeurs d'un échantillon statistique ou d'une distribution de probabilité.

Valeur absolue des écarts

En statistique, la déviation absolue moyenne (ou simplement déviation moyenne) d'un ensemble est la moyenne (ou valeur prévue) des déviations absolues par rapport à un point central d'une série statistique. C'est une statistique sommaire de dispersion ou de variabilité statistique, et elle peut être associée à toute mesure à une tendance centrale (moyenne, médiane, mode...). La déviation absolue d'un élément a d'un ensemble de données x par rapport à un réel est a – x.

Deviation (statistics)

In mathematics and statistics, deviation is a measure of difference between the observed value of a variable and some other value, often that variable's mean. The sign of the deviation reports the direction of that difference (the deviation is positive when the observed value exceeds the reference value). The magnitude of the value indicates the size of the difference. Errors and residuals A deviation that is a difference between an observed value and the true value of a quantity of interest (where true value denotes the Expected Value, such as the population mean) is an error.

Median absolute deviation

In statistics, the median absolute deviation (MAD) is a robust measure of the variability of a univariate sample of quantitative data. It can also refer to the population parameter that is estimated by the MAD calculated from a sample. For a univariate data set X1, X2, ..., Xn, the MAD is defined as the median of the absolute deviations from the data's median : that is, starting with the residuals (deviations) from the data's median, the MAD is the median of their absolute values. Consider the data (1, 1, 2, 2, 4, 6, 9).

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Régression logistique

En statistiques, la régression logistique ou modèle logit est un modèle de régression binomiale. Comme pour tous les modèles de régression binomiale, il s'agit d'expliquer au mieux une variable binaire (la présence ou l'absence d'une caractéristique donnée) par des observations réelles nombreuses, grâce à un modèle mathématique. En d'autres termes d'associer une variable aléatoire de Bernoulli (génériquement notée ) à un vecteur de variables aléatoires . La régression logistique constitue un cas particulier de modèle linéaire généralisé.

Decentralized application

A decentralised application (DApp, dApp, Dapp, or dapp) is an application that can operate autonomously, typically through the use of smart contracts, that run on a decentralized computing, blockchain or other distributed ledger system. Like traditional applications, DApps provide some function or utility to its users. However, unlike traditional applications, DApps operate without human intervention and are not owned by any one entity, rather DApps distribute tokens that represent ownership.

Erreur type

Lerreur type d'une statistique (souvent une estimation d'un paramètre) est l'écart type de sa distribution d'échantillonnage ou l'estimation de son écart type. Si le paramètre ou la statistique est la moyenne, on parle d'erreur type de la moyenne. La distribution d'échantillonnage est générée par tirage répété et enregistrements des moyennes obtenues. Cela forme une distribution de moyennes différentes, et cette distribution a sa propre moyenne et variance.

Grille informatique

Une grille informatique (en anglais, grid) est une infrastructure virtuelle constituée d'un ensemble de ressources informatiques potentiellement partagées, distribuées, hétérogènes, délocalisées et autonomes. Une grille est en effet une infrastructure, c'est-à-dire des équipements techniques d'ordres matériel et logiciel. Cette infrastructure est qualifiée de virtuelle car les relations entre les entités qui la composent n'existent pas sur le plan matériel mais d'un point de vue logique.

Multinomial logistic regression

In statistics, multinomial logistic regression is a classification method that generalizes logistic regression to multiclass problems, i.e. with more than two possible discrete outcomes. That is, it is a model that is used to predict the probabilities of the different possible outcomes of a categorically distributed dependent variable, given a set of independent variables (which may be real-valued, binary-valued, categorical-valued, etc.).

Calcul distribué

Un calcul distribué, ou réparti ou encore partagé, est un calcul ou un traitement réparti sur plusieurs microprocesseurs et plus généralement sur plusieurs unités centrales informatiques, et on parle alors d'architecture distribuée ou de système distribué. Le calcul distribué est souvent réalisé sur des clusters de calcul spécialisés, mais peut aussi être réalisé sur des stations informatiques individuelles à plusieurs cœurs. La distribution d'un calcul est un domaine de recherche des sciences mathématiques et informatiques.

Unbiased estimation of standard deviation

In statistics and in particular statistical theory, unbiased estimation of a standard deviation is the calculation from a statistical sample of an estimated value of the standard deviation (a measure of statistical dispersion) of a population of values, in such a way that the expected value of the calculation equals the true value. Except in some important situations, outlined later, the task has little relevance to applications of statistics since its need is avoided by standard procedures, such as the use of significance tests and confidence intervals, or by using Bayesian analysis.

Architecture distribuée

L’architecture distribuée ou l'informatique distribuée désigne un système d'information ou un réseau pour lequel l'ensemble des ressources disponibles ne se trouvent pas au même endroit ou sur la même machine. Ce concept, dont une version peut être une combinaison de transmissions du type client-serveur, s'oppose à celui d'informatique centralisée. Internet est un exemple de réseau distribué puisqu'il ne possède aucun nœud central.

Système de fichiers distribué

En informatique, un système de fichiers distribués ou système de fichiers en réseau est un système de fichiers qui permet le partage de fichiers à plusieurs clients au travers du réseau informatique. Contrairement à un système de fichiers local, le client n'a pas accès au système de stockage sous-jacent, et interagit avec le système de fichiers via un protocole adéquat. CephFS Coda GlusterFS GPFS Hadoop Distributed File System (HDFS) Lustre OrangeFS SheepDog Unity, du logiciel Perfect Dark Catégorie:Systèm

Finance décentralisée

La finance décentralisée ou DeFi (Decentralized Finance) est un moyen d'échanger, d'acheter et de vendre avec peu d'intermédiaires et donc par théorie, d'éviter les fonds bloqués ou des frais non prévus à la base ou toute autre action qui impacterait les finances des propriétaires de fonds (comme la crise des subprimes). Cela est accessible grâce en particulier à la blockchain d'Ethereum, en utilisant le peer to peer entre particulier et grâce aux protocoles Uniswap, Polygon et autres.

Coefficient de variation

vignette|CV (coefficient de variation) = l'écart-type sur la moyenne En théorie des probabilités et statistiques, le coefficient de variation également nommé écart type relatif, est une mesure de dispersion relative. Le RSD (relative standard deviation en anglais) est défini comme la valeur absolue du coefficient de variation et est souvent exprimé en pourcentage. Le coefficient de variation est défini comme le rapport entre l'écart-type et la moyenne : L'écart-type seul ne permet le plus souvent pas de juger de la dispersion des valeurs autour de la moyenne.

Régression linéaire

En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.

Fournisseur d'accès à Internet

Un fournisseur d'accès à Internet ou FAI (aussi appelé fournisseur de services Internet ou FSI) est un organisme (généralement une entreprise mais parfois aussi une association) offrant une connexion à Internet, le réseau informatique mondial. Beaucoup d'entreprises de télécommunications sont également des FAI. Avec l'explosion de la bulle Internet au début des années 2000, de nombreux FAI ont fait faillite, ou ont dû s'adapter pour survivre (restructuration, fusion, rachat).

Ordered logit

In statistics, the ordered logit model (also ordered logistic regression or proportional odds model) is an ordinal regression model—that is, a regression model for ordinal dependent variables—first considered by Peter McCullagh. For example, if one question on a survey is to be answered by a choice among "poor", "fair", "good", "very good" and "excellent", and the purpose of the analysis is to see how well that response can be predicted by the responses to other questions, some of which may be quantitative, then ordered logistic regression may be used.

Adversarial machine learning

Adversarial machine learning is the study of the attacks on machine learning algorithms, and of the defenses against such attacks. A survey from May 2020 exposes the fact that practitioners report a dire need for better protecting machine learning systems in industrial applications. To understand, note that most machine learning techniques are mostly designed to work on specific problem sets, under the assumption that the training and test data are generated from the same statistical distribution (IID).