Publication

Reinforcement learning approach to control an inverted pendulum: A general framework for educational purposes

Concepts associés (32)

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Apprentissage par renforcement

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Simulation de phénomènes

La simulation de phénomènes est un outil utilisé dans le domaine de la recherche et du développement. Elle permet d'étudier les réactions d'un système à différentes contraintes pour en déduire les résultats recherchés en se passant d'expérimentation. Les systèmes technologiques (infrastructures, véhicules, réseaux de communication, de transport ou d'énergie) sont soumis à différentes contraintes et actions. Le moyen le plus simple d'étudier leurs réactions serait d'expérimenter, c'est-à-dire d'exercer l'action souhaitée sur l'élément en cause pour observer ou mesurer le résultat.

Training simulation

In business, training simulation is a virtual medium through which various types of skills can be acquired. Training simulations can be used in a variety of genres; however they are most commonly used in corporate situations to improve business awareness and management skills. They are also common in academic environments as an integrated part of a business or management course. The word simulation implies an imitation of a real-life process, usually via a computer or other technological device, in order to provide a lifelike experience.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Théorie du contrôle

En mathématiques et en sciences de l'ingénieur, la théorie du contrôle a comme objet l'étude du comportement de systèmes dynamiques paramétrés en fonction des trajectoires de leurs paramètres. On se place dans un ensemble, l'espace d'état sur lequel on définit une dynamique, c'est-à-dire une loi mathématiques caractérisant l'évolution de variables (dites variables d'état) au sein de cet ensemble. Le déroulement du temps est modélisé par un entier .

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Simulation informatique

vignette|upright=1|Une simulation informatique, sur une étendue de , de l'évolution du typhon Mawar produite par le Modèle météorologique Weather Research and Forecasting La simulation informatique ou numérique est l'exécution d'un programme informatique sur un ordinateur ou réseau en vue de simuler un phénomène physique réel et complexe (par exemple : chute d’un corps sur un support mou, résistance d’une plateforme pétrolière à la houle, fatigue d’un matériau sous sollicitation vibratoire, usure d’un roulem

Reinforcement learning from human feedback

In machine learning, reinforcement learning from human feedback (RLHF) or reinforcement learning from human preferences is a technique that trains a "reward model" directly from human feedback and uses the model as a reward function to optimize an agent's policy using reinforcement learning (RL) through an optimization algorithm like Proximal Policy Optimization. The reward model is trained in advance to the policy being optimized to predict if a given output is good (high reward) or bad (low reward).

Plan d'expériences

On nomme plan d'expériences (en anglais, design of experiments ou DOE) la suite ordonnée d'essais d'une expérimentation, chacun permettant d'acquérir de nouvelles connaissances en maîtrisant un ou plusieurs paramètres d'entrée pour obtenir des résultats validant un modèle avec une bonne économie de moyens (nombre d'essais le plus faible possible, par exemple). Un exemple classique est le « plan en étoile » où en partant d'un jeu de valeurs choisi pour les paramètres d'un essai central, on complète celui-ci par des essais où chaque fois un seul des facteurs varie « toutes choses égales par ailleurs ».

Méthode expérimentale

Les méthodes expérimentales scientifiques consistent à tester la validité d'une hypothèse, en reproduisant un phénomène (souvent en laboratoire) et en faisant varier un paramètre. Le paramètre que l'on fait varier est impliqué dans l'hypothèse. Le résultat de l'expérience valide ou non l'hypothèse. La démarche expérimentale est appliquée dans les recherches dans des sciences telles que, par exemple, la biologie, la physique, la chimie, l'informatique, la psychologie, ou encore l'archéologie.

Réalité virtuelle

vignette|250x250px|Personnel de l'U.S. Navy utilisant un simulateur de parachute. L'expression « réalité virtuelle » (ou multimédia immersif ou réalité simulée par ordinateur) renvoie typiquement à une technologie informatique qui simule la présence physique d'un utilisateur dans un environnement artificiellement généré par des logiciels. La réalité virtuelle crée un environnement avec lequel l'utilisateur peut interagir. La réalité virtuelle reproduit donc artificiellement une expérience sensorielle, qui peut inclure la vue, le toucher, l'ouïe et l'odorat (visuelle, sonore ou haptique).

Cave automatic virtual environment

A cave automatic virtual environment (better known by the recursive acronym CAVE) is an immersive virtual reality environment where projectors are directed to between three and six of the walls of a room-sized cube. The name is also a reference to the allegory of the Cave in Plato's Republic in which a philosopher contemplates perception, reality, and illusion. The CAVE was invented by Carolina Cruz-Neira, Daniel J. Sandin, and Thomas A. DeFanti at the University of Illinois, Chicago Electronic Visualization Laboratory in 1992.

Commande optimale

La théorie de la commande optimale permet de déterminer la commande d'un système qui minimise (ou maximise) un critère de performance, éventuellement sous des contraintes pouvant porter sur la commande ou sur l'état du système. Cette théorie est une généralisation du calcul des variations. Elle comporte deux volets : le principe du maximum (ou du minimum, suivant la manière dont on définit l'hamiltonien) dû à Lev Pontriaguine et à ses collaborateurs de l'institut de mathématiques Steklov , et l'équation de Hamilton-Jacobi-Bellman, généralisation de l'équation de Hamilton-Jacobi, et conséquence directe de la programmation dynamique initiée aux États-Unis par Richard Bellman.

Web-based simulation

Web-based simulation (WBS) is the invocation of computer simulation services over the World Wide Web, specifically through a web browser. Increasingly, the web is being looked upon as an environment for providing modeling and simulation applications, and as such, is an emerging area of investigation within the simulation community. Web-based simulation is used in several contexts: In e-learning, various principles can quickly be illustrated to students by means of interactive computer animations, for example during lecture demonstrations and computer exercises.

Social simulation

Social simulation is a research field that applies computational methods to study issues in the social sciences. The issues explored include problems in computational law, psychology, organizational behavior, sociology, political science, economics, anthropology, geography, engineering, archaeology and linguistics . Social simulation aims to cross the gap between the descriptive approach used in the social sciences and the formal approach used in the natural sciences, by moving the focus on the processes/mechanisms/behaviors that build the social reality.

Modèle mathématique

vignette|Un automate fini est un exemple de modèle mathématique. Un modèle mathématique est une traduction d'une observation dans le but de lui appliquer les outils, les techniques et les théories mathématiques, puis généralement, en sens inverse, la traduction des résultats mathématiques obtenus en prédictions ou opérations dans le monde réel. Un modèle se rapporte toujours à ce qu’on espère en déduire.

Monde virtuel

vignette|Un sous-marin jaune dans le monde virtuel de Second Life. Un monde virtuel est un monde créé artificiellement par un logiciel informatique et pouvant héberger une communauté d'utilisateurs présents sous forme d'avatars ayant la capacité de s'y déplacer et d'y interagir. La représentation de ce monde et de ses habitants est en deux ou en trois dimensions. Ce monde peut simuler le monde réel, avec ses lois physiques telles que la gravité, le temps, le climat, la géographie ou tout au contraire être régie par d'autres.

Jeu de simulation

vignette|FlightGear 3.0 Boeing 777-200 cockpit.png FlightGear 3.0, screenshot from cockpit view using low specs. Un jeu de simulation est un jeu (de société ou vidéo) qui reproduit une activité ou une action dans divers environnements. Les plus populaires sont les jeux économiques ou de gestion et les jeux de rôle. Lorsque la simulation porte sur une guerre ou une bataille réelle ou fictive, on parle plutôt de jeu de stratégie ou jeu de guerre dont le jeu de figurines est une forme de représentation.

Business simulation

Business simulation or corporate simulation is simulation used for business training, education or analysis. It can be scenario-based or numeric-based. Most business simulations are used for business acumen training and development. Learning objectives include: strategic thinking, decision making, problem solving, financial analysis, market analysis, operations, teamwork and leadership. The business gaming community seems lately to have adopted the term business simulation game instead of just gaming or just simulation.