Publication

A prescriptive Dirichlet power allocation policy with deep reinforcement learning

Concepts associés (32)

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Reinforcement learning from human feedback

In machine learning, reinforcement learning from human feedback (RLHF) or reinforcement learning from human preferences is a technique that trains a "reward model" directly from human feedback and uses the model as a reward function to optimize an agent's policy using reinforcement learning (RL) through an optimization algorithm like Proximal Policy Optimization. The reward model is trained in advance to the policy being optimized to predict if a given output is good (high reward) or bad (low reward).

Multi-agent reinforcement learning

Multi-agent reinforcement learning (MARL) is a sub-field of reinforcement learning. It focuses on studying the behavior of multiple learning agents that coexist in a shared environment. Each agent is motivated by its own rewards, and does actions to advance its own interests; in some environments these interests are opposed to the interests of other agents, resulting in complex group dynamics. Multi-agent reinforcement learning is closely related to game theory and especially repeated games, as well as multi-agent systems.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Accumulateur lithium-ion

vignette|Une batterie d'accumulateurs lithium-ion Varta au Museum Autovision au Bade-Wurtemberg (Allemagne). vignette|Une batterie de petite taille pour appareil portable. Une batterie lithium-ion, ou accumulateur lithium-ion, est un type d'accumulateur lithium. Ses principaux avantages sont une énergie massique élevée (deux à cinq fois plus que le nickel-hydrure métallique par exemple) ainsi que l'absence d'effet mémoire. Enfin, l'auto-décharge est relativement faible par rapport à d'autres accumulateurs.

Système de contrôle des batteries d'accumulateurs

Le système de contrôle des batteries d'accumulateurs (battery management system ou BMS en anglais, ou encore Boitier État de Charge Batterie ou BECB en français) est un système électronique permettant le contrôle et la charge des différents éléments d'une batterie d'accumulateurs. Un BMS est un élément indispensable sur tous les packs batteries.

Accumulateur électrique

vignette|Accumulateur électrochimique au Ni-MH Un accumulateur électrique est un système destiné au stockage de l'énergie électrique sous une forme différente. Il repose sur une technique de conversion réversible d'énergie. Tous les processus de conversion d'énergie sont complexes et entraînent des pertes. Le rapport entre l'énergie initiale et l'énergie restituée donne le rendement de conversion-accumulation, qui atteint au mieux 80 % dans le cas des barrages.

Self-play

Self-play is a technique for improving the performance of reinforcement learning agents. Intuitively, agents learn to improve their performance by playing "against themselves". In multi-agent reinforcement learning experiments, researchers try to optimize the performance of a learning agent on a given task, in cooperation or competition with one or more agents. These agents learn by trial-and-error, and researchers may choose to have the learning algorithm play the role of two or more of the different agents.

Accumulateur lithium-air

Un accumulateur lithium-air, aussi appelé accumulateur lithium-oxygène, est un type d'accumulateur lithium. La particularité de cette technique est qu'elle utilise l'oxygène contenu dans l'air de l'atmosphère pour fonctionner, ce qui a pour avantage d'alléger le poids de l'accumulateur ainsi que son encombrement. Conçues dès les années 1970 pour les véhicules, elles ont rencontré un regain d'intérêt dans les années 2000, grâce à des progrès techniques et un besoin croissant de stockage de l'électricité, notamment dans les véhicules et l'informatique embarquée.

Chargeur (électricité)

thumb|Chargeurs et différents types et format de batteries. Un chargeur est un appareil permettant de recharger un ou plusieurs accumulateurs électriques, groupés ou non en batterie, en injectant un courant électrique inverse au sens d'utilisation (décharge). Le circuit le plus simple est une source électrique continue et stabilisée en tension, limitée en courant ou l'inverse. thumb|upright=1.2|Chargeur simple de type mural (sortie : / ). thumb|Chargeur pour piles rechargeables en lithium 1.5V, et son câble USB-C.

Accumulateur lithium-soufre

Un accumulateur lithium-soufre, batterie lithium-soufre ou batterie Li-S, est un type d'accumulateur lithium. Son intérêt principal est sa densité énergétique importante en raison de la faible masse atomique du lithium, de la masse modérée de l'octa-soufre et de sa capacité à échanger jusqu'à 16 électrons. Le soufre est de plus un matériau bon marché et abondant naturellement contrairement au cobalt, utilisé dans les batteries lithium-ion dites "classiques".

Alimentation sans interruption

Une alimentation sans interruption (ASI), ou alimentation statique sans coupure (ASSC), ou encore un onduleur (du nom d'un de ses composants), est un dispositif de l'électronique de puissance qui permet de fournir un courant alternatif stable et dépourvu de coupures ou de micro-coupures, quoi qu'il se produise sur le réseau électrique. Les ASI de dernières générations permettent également de maximiser le facteur de puissance vu du réseau, et de délivrer une haute qualité d'énergie en sortie, tout ceci indépendamment du réseau d'entrée (fréquence et tension RMS fixes, taux de distorsion harmonique faible).

Batterie à flux redox

Une batterie à flux redox, batterie redox flow ou pile d'oxydoréduction est un type de batterie d'accumulateurs, dans lequel l'énergie est stockée dans deux solutions électrolytiques, pompées à travers la cellule électrochimique et stockées dans des réservoirs. L'innovation principale de ces systèmes en comparaison des batteries classiques réside dans le découplage entre la capacité énergétique et la puissance de la pile. Ces dispositifs sont en revanche assez encombrants (aussi bien en masse qu'en volume) et sont donc plutôt destinés à des applications stationnaires.

Google DeepMind

Google DeepMind est une entreprise spécialisée dans l'intelligence artificielle appartenant à Google. L'entreprise est remarquée notamment pour son programme de jeu de Go AlphaGo, et son logiciel AlphaFold, qui permet de prédire la structure des protéines à partir de leurs séquences en acides aminés. Originellement appelée DeepMind Technologies Limited et fondée en 2010 par Demis Hassabis, Mustafa Suleyman et Shane Legg, elle est rachetée le 26 janvier 2014, par Google pour plus de 628 millions de dollars américains.

Espace Lp

En mathématiques, un espace L est un espace vectoriel de classes des fonctions dont la puissance d'exposant p est intégrable au sens de Lebesgue, où p est un nombre réel strictement positif. Le passage à la limite de l'exposant aboutit à la construction des espaces L de fonctions bornées. Les espaces L sont appelés espaces de Lebesgue. Identifiant les fonctions qui ne diffèrent que sur un ensemble négligeable, chaque espace L est un espace de Banach lorsque l'exposant est supérieur ou égal à 1.

Action de groupe (mathématiques)

En mathématiques, une action d'un groupe sur un ensemble est une loi de composition externe du groupe sur l'ensemble, vérifiant des conditions supplémentaires. Plus précisément, c'est la donnée, pour chaque élément du groupe, d'une permutation de l'ensemble, de telle manière que toutes ces bijections se composent de façon compatible avec la loi du groupe. Étant donné un ensemble E et un groupe G, dont la loi est notée multiplicativement et dont l'élément neutre est noté e, une action (ou opération) de G sur E est une application : vérifiant chacune des 2 propriétés suivantes : On dit également que G opère (ou agit) sur l'ensemble E.

Decision analysis

Decision analysis (DA) is the discipline comprising the philosophy, methodology, and professional practice necessary to address important decisions in a formal manner. Decision analysis includes many procedures, methods, and tools for identifying, clearly representing, and formally assessing important aspects of a decision; for prescribing a recommended course of action by applying the maximum expected-utility axiom to a well-formed representation of the decision; and for translating the formal representation of a decision and its corresponding recommendation into insight for the decision maker, and other corporate and non-corporate stakeholders.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.