Publication

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

Concepts associés (32)

En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome ( robot, agent conversationnel, personnage dans un jeu vidéo), à apprendre les actions à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. L'agent est plongé au sein d'un environnement et prend ses décisions en fonction de son état courant. En retour, l'environnement procure à l'agent une récompense, qui peut être positive ou négative.

Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal. vignette|151x151px|Diagramme backup.

Modèles du neurone biologique

vignette|390x390px|Fig. 1. Dendrites, soma et axone myélinisé, avec un flux de signal des entrées aux dendrites aux sorties aux bornes des axones. Le signal est une courte impulsion électrique appelée potentiel d'action ou impulsion. vignette|Figure 2. Évolution du potentiel postsynaptique lors d'une impulsion. L'amplitude et la forme exacte de la tension peut varier selon la technique expérimentale utilisée pour acquérir le signal.

Plasticité synaptique

La plasticité synaptique, en neurosciences, désigne la capacité des synapses à moduler, à la suite d'un événement particulier - une augmentation ou une diminution ponctuelle et significative de leur activité - l'efficacité de la transmission du signal électrique d'un neurone à l'autre et à conserver, à plus ou moins long terme, une "trace" de cette modulation. De manière schématique, l'efficacité de la transmission synaptique, voire la synapse elle-même, est maintenue et modulée par l'usage qui en est fait.

Apprentissage par renforcement profond

L'apprentissage par renforcement profond (en anglais : deep reinforcement learning ou deep RL) est un sous-domaine de l'apprentissage automatique (en anglais : machine learning) qui combine l'apprentissage par renforcement et l'apprentissage profond (en anglais : deep learning). L'apprentissage par renforcement considère le problème d'un agent informatique (par exemple, un robot, un agent conversationnel, un personnage dans un jeu vidéo, etc.) qui apprend à prendre des décisions par essais et erreurs.

Apprentissage automatique

L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.

Contrôle moteur

En neurosciences, le contrôle moteur est la capacité de faire des ajustements posturaux dynamiques et de diriger le corps et les membres dans le but de faire un mouvement déterminé. Le mouvement volontaire est initié par le cortex moteur primaire et le cortex prémoteur. Le signal est ensuite transmis aux circuits du tronc cérébral et de la moelle épinière qui activent les muscles squelettiques qui, en se contractant, produisent un mouvement. Le mouvement produit renvoie des informations proprioceptives au système nerveux central (SNC).

Q-learning

vignette|400x400px|Dans le Q-learning, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue. En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement.

Non-spiking neuron

Non-spiking neurons are neurons that are located in the central and peripheral nervous systems and function as intermediary relays for sensory-motor neurons. They do not exhibit the characteristic spiking behavior of action potential generating neurons. Non-spiking neural networks are integrated with spiking neural networks to have a synergistic effect in being able to stimulate some sensory or motor response while also being able to modulate the response.

Neurone

thumb|537x537px|Schéma complet d’un neurone. Un neurone, ou une cellule nerveuse, est une cellule excitable constituant l'unité fonctionnelle de la base du système nerveux. Les neurones assurent la transmission d'un signal bioélectrique appelé influx nerveux. Ils ont deux propriétés physiologiques : l'excitabilité, c'est-à-dire la capacité de répondre aux stimulations et de convertir celles-ci en impulsions nerveuses, et la conductivité, c'est-à-dire la capacité de transmettre les impulsions.

Réseau de neurones à impulsions

Les réseaux de neurones à impulsions (SNNs : Spiking Neural Networks, en anglais) sont un raffinement des réseaux de neurones artificiels (ANNs : Artificial Neural Networks, en anglais) où l’échange entre neurones repose sur l’intégration des impulsions et la redescente de l’activation, à l’instar des neurones naturels. L’encodage est donc temporel et binaire. Le caractère binaire pose une difficulté de continuité au sens mathématique (cela empêche notamment l’utilisation des techniques de rétropropagation des coefficients - telle que la descente de gradient - utilisées classiquement dans les méthodes d'apprentissage).

Homeostatic plasticity

In neuroscience, homeostatic plasticity refers to the capacity of neurons to regulate their own excitability relative to network activity. The term homeostatic plasticity derives from two opposing concepts: 'homeostatic' (a product of the Greek words for 'same' and 'state' or 'condition') and plasticity (or 'change'), thus homeostatic plasticity means "staying the same through change". Homeostatic synaptic plasticity is a means of maintaining the synaptic basis for learning, respiration, and locomotion, in contrast to the Hebbian plasticity associated with learning and memory.

Dopamine

La dopamine (DA) est un neurotransmetteur, une molécule biochimique qui permet la communication au sein du système nerveux, et l'une de celles qui influent directement sur le comportement. La dopamine renforce les actions habituellement bénéfiques telles que manger un aliment sain en provoquant la sensation de plaisir ce qui active ainsi le système de récompense/renforcement. Elle est donc indispensable à la survie de l'individu. Plus généralement, elle joue un rôle dans la motivation et la prise de risque chez les mammifères, donc chez l'être humain aussi.

Chemical synapse

Chemical synapses are biological junctions through which neurons' signals can be sent to each other and to non-neuronal cells such as those in muscles or glands. Chemical synapses allow neurons to form circuits within the central nervous system. They are crucial to the biological computations that underlie perception and thought. They allow the nervous system to connect to and control other systems of the body. At a chemical synapse, one neuron releases neurotransmitter molecules into a small space (the synaptic cleft) that is adjacent to another neuron.

Labyrinthe de Morris

Le labyrinthe de Morris, ou piscine de Morris (du nom de Richard G. Morris qui l'a conçu en 1984), est un dispositif aquatique circulaire très utilisé en neurosciences comportementales pour évaluer la mémoire du rongeur. Il est divisible virtuellement en quadrants et une plateforme immergée (invisible) est localisée dans l'un de ceux-ci. Le principe de son utilité réside dans la motivation de l'animal à échapper à l'aversion causée par l'eau, celui-ci devant trouver et grimper le plus rapidement possible sur la plateforme.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Motor skill

A motor skill is a function that involves specific movements of the body's muscles to perform a certain task. These tasks could include walking, running, or riding a bike. In order to perform this skill, the body's nervous system, muscles, and brain have to all work together. The goal of motor skill is to optimize the ability to perform the skill at the rate of success, precision, and to reduce the energy consumption required for performance. Performance is an act of executing a motor skill or task.

Medium spiny neuron

Medium spiny neurons (MSNs), also known as spiny projection neurons (SPNs), are a special type of GABAergic inhibitory cell representing 95% of neurons within the human striatum, a basal ganglia structure. Medium spiny neurons have two primary phenotypes (characteristic types): D1-type MSNs of the direct pathway and D2-type MSNs of the indirect pathway. Most striatal MSNs contain only D1-type or D2-type dopamine receptors, but a subpopulation of MSNs exhibit both phenotypes.

Système de récompense

Le système de récompense / renforcement aussi appelé système hédonique, est un système fonctionnel fondamental des mammifères, situé dans le cerveau, le long du faisceau médian du télencéphale. Ce système de « récompenses » est indispensable à la survie, car il fournit la motivation nécessaire à la réalisation d'actions ou de comportements adaptés, permettant de préserver l'individu et l'espèce (prise de risque nécessaire à la survie, recherche de nourriture, reproduction, évitement des dangers, etc.).

Cerveau

vignette|Cerveau d'un chimpanzé. Le cerveau est le principal organe du système nerveux des animaux bilatériens. Ce terme tient du langage courant (non scientifique) et chez les chordés, comme les humains, il peut désigner l'encéphale, ou uniquement une partie de l'encéphale, le prosencéphale (télencéphale + diencéphale), voire seulement le télencéphale. Néanmoins, dans cet article, le terme « cerveau » prend son sens le plus large. Le cerveau des chordés est situé dans la tête, protégé par le crâne chez les craniés, et son volume varie grandement d'une espèce à l'autre.