Publication

Unsupervised machine learning in atomistic simulations, between predictions and understanding

Concepts associés (28)

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Apprentissage non supervisé

Dans le domaine informatique et de l'intelligence artificielle, l'apprentissage non supervisé désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées (par exemple étiquetées comme « balle » ou « poisson »). Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.

Coarse-grained modeling

Coarse-grained modeling, coarse-grained models, aim at simulating the behaviour of complex systems using their coarse-grained (simplified) representation. Coarse-grained models are widely used for molecular modeling of biomolecules at various granularity levels. A wide range of coarse-grained models have been proposed. They are usually dedicated to computational modeling of specific molecules: proteins, nucleic acids, lipid membranes, carbohydrates or water.

Modélisation moléculaire

thumb|Animation d'un modèle compact d'ADN en forme B|327x327px|alt=Modèle de l'ADN en forme B La modélisation moléculaire est un ensemble de techniques pour modéliser ou simuler le comportement de molécules. Elle est utilisée pour reconstruire la structure tridimensionnelle de molécules, en particulier en biologie structurale, à partir de données expérimentales comme la cristallographie aux rayons X. Elle permet aussi de simuler le comportement dynamique des molécules et leur mouvements internes.

Apprentissage de représentations

En apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

Dynamique moléculaire

La dynamique moléculaire est une technique de simulation numérique permettant de modéliser l'évolution d'un système de particules au cours du temps. Elle est particulièrement utilisée en sciences des matériaux et pour l'étude des molécules organiques, des protéines, de la matière molle et des macromolécules. En pratique, la dynamique moléculaire consiste à simuler le mouvement d'un ensemble de quelques dizaines à quelques milliers de particules dans un certain environnement (température, pression, champ électromagnétique, conditions aux limites.

Algorithme d'apprentissage incrémental

En informatique, un algorithme d'apprentissage incrémental ou incrémentiel est un algorithme d'apprentissage qui a la particularité d'être online, c'est-à-dire qui apprend à partir de données reçues au fur et à mesure du temps. À chaque incrément il reçoit des données d'entrées et un résultat, l'algorithme calcule alors une amélioration du calcul fait pour prédire le résultat à partir des données d'entrées.

Apprentissage supervisé

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

Modèle moléculaire

Un modèle moléculaire est un modèle physique qui représente des molécules et leurs processus. Dans cet article, le "modèle moléculaire" fera principalement référence aux systèmes contenant plus d'un atome et où la structure nucléaire est négligée. La structure électronique est également souvent omise ou représentée de manière très sophistiquée. Les modèles physiques des systèmes atomistiques ont joué un rôle important dans la compréhension de la chimie et dans la génération et la vérification d'hypothèses.

Apprentissage auto-supervisé

L'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d'apprentissage automatique. Il apprend à partir d'échantillons de données non étiquetés. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. Il est basé sur un réseau de neurones artificiels. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau.

Réduction de la dimensionnalité

vignette|320x320px|Animation présentant la projection de points en deux dimensions sur les axes obtenus par analyse en composantes principales, une méthode populaire de réduction de la dimensionnalité La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension.

Analyse des données

L’analyse des données (aussi appelée analyse exploratoire des données ou AED) est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Dans l'acception française, la terminologie « analyse des données » désigne donc un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données.

Amarrage (moléculaire)

vignette|Petite molécule amarrée à une protéine. Dans le domaine de la modélisation moléculaire, l’amarrage (en anglais docking) est une méthode qui calcule l'orientation préférée d'une molécule vers une seconde lorsqu'elles sont liées pour former un complexe stable. Connaître l'orientation préférée sert à prévoir la solidité de l'union entre deux molécules. Les associations entre des molécules d'importance biologique, telles que les protéines, les acides nucléiques, les glucides et les matières grasses jouent un rôle essentiel dans la transduction de signal.

Représentation d'algèbre de Lie

En mathématiques, une représentation d'une algèbre de Lie est une façon d'écrire cette algèbre comme une algèbre de matrices, ou plus généralement d'endomorphismes d'un espace vectoriel, avec le crochet de Lie donné par le commutateur. Algèbre de Lie Soit K un corps commutatif de caractéristique différente de 2. Une algèbre de Lie sur K est un espace vectoriel muni d'une application bilinéaire de dans qui vérifie les propriétés suivantes : Tout espace vectoriel peut être muni d'une structure d'algèbre de Lie, en posant .

Biais (distorsion)

Dans diverses disciplines, un biais est une erreur systématique ou une simplification abusive. vignette|L'interprétation des formes aléatoires apparaissant à la surface de la Lune constitue un exemple courant de biais perceptuel causé par la paréidolie (processus tendant à discerner une forme familière parmi des formes aléatoires). Les biais peuvent être transmis implicitement avec le contexte culturel.

Science des données

La science des données est l'étude de l’extraction automatisée de connaissance à partir de grands ensembles de données. Plus précisément, la science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de nombreuses données structurées ou non . Elle est souvent associée aux données massives et à l'analyse des données.

Théorie des représentations d'un groupe fini

vignette|Ferdinand Georg Frobenius, fondateur de la théorie de la représentation des groupes. En mathématiques et plus précisément en théorie des groupes, la théorie des représentations d'un groupe fini traite des représentations d'un groupe G dans le cas particulier où G est un groupe fini. Cet article traite de l'aspect mathématique et, de même que l'article de synthèse « Représentations d'un groupe fini », n'aborde que les représentations linéaires de G (par opposition aux représentations projectives ou ).

Nonlinear dimensionality reduction

Nonlinear dimensionality reduction, also known as manifold learning, refers to various related techniques that aim to project high-dimensional data onto lower-dimensional latent manifolds, with the goal of either visualizing the data in the low-dimensional space, or learning the mapping (either from the high-dimensional space to the low-dimensional embedding or vice versa) itself. The techniques described below can be understood as generalizations of linear decomposition methods used for dimensionality reduction, such as singular value decomposition and principal component analysis.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Théorie des représentations

La théorie des représentations est une branche des mathématiques qui étudie les structures algébriques abstraites en représentant leurs éléments comme des transformations linéaires d'espaces vectoriels, et qui étudie les modules sur ces structures algébriques abstraites. Essentiellement, une représentation concrétise un objet algébrique abstrait en décrivant ses éléments par des matrices et les opérations sur ces éléments en termes d'addition matricielle et de produit matriciel.