Publication

Learning to Find Good Correspondences

Concepts associés (25)

En , l'opération de calibration de caméra revient à modéliser le processus de formation des s, c'est-à-dire trouver la relation entre les coordonnées spatiales d'un point de l'espace avec le point associé dans l'image prise par la caméra. Le terme calibration est un anglicisme dont l'équivalent français est étalonnage. On note aussi que le terme calibrage est couramment utilisé. Plusieurs modèles décrivant le processus de formation des images existent. Le plus simple est le modèle du sténopé ou modèle pin-hole dans la littérature anglo-saxonne.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Correspondence problem

The correspondence problem refers to the problem of ascertaining which parts of one image correspond to which parts of another image, where differences are due to movement of the camera, the elapse of time, and/or movement of objects in the photos.

Réseau neuronal convolutif

En apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.

Neurone formel

thumb|Représentation d'un neurone formel (ou logique). Un neurone formel, parfois appelé neurone de McCulloch-Pitts, est une représentation mathématique et informatique d'un neurone biologique. Le neurone formel possède généralement plusieurs entrées et une sortie qui correspondent respectivement aux dendrites et au cône d'émergence du neurone biologique (point de départ de l'axone). Les actions excitatrices et inhibitrices des synapses sont représentées, la plupart du temps, par des coefficients numériques (les poids synaptiques) associés aux entrées.

Essential matrix

In computer vision, the essential matrix is a matrix, that relates corresponding points in stereo images assuming that the cameras satisfy the pinhole camera model. More specifically, if and are homogeneous in image 1 and 2, respectively, then if and correspond to the same 3D point in the scene. The above relation which defines the essential matrix was published in 1981 by H. Christopher Longuet-Higgins, introducing the concept to the computer vision community.

Décomposition d'une matrice en éléments propres

En algèbre linéaire, la décomposition d'une matrice en éléments propres est la factorisation de la matrice en une forme canonique où les coefficients matriciels sont obtenus à partir des valeurs propres et des vecteurs propres. Un vecteur non nul v à N lignes est un vecteur propre d'une matrice carrée A à N lignes et N colonnes si et seulement si il existe un scalaire λ tel que : où λ est appelé valeur propre associée à v. Cette dernière équation est appelée « équation aux valeurs propres ».

Matrice (mathématiques)

thumb|upright=1.5 En mathématiques, les matrices sont des tableaux d'éléments (nombres, caractères) qui servent à interpréter en termes calculatoires, et donc opérationnels, les résultats théoriques de l'algèbre linéaire et même de l'algèbre bilinéaire. Toutes les disciplines étudiant des phénomènes linéaires utilisent les matrices. Quant aux phénomènes non linéaires, on en donne souvent des approximations linéaires, comme en optique géométrique avec les approximations de Gauss.

Exponentielle d'une matrice

En mathématiques, et plus particulièrement en analyse, l'exponentielle d'une matrice est une fonction généralisant la fonction exponentielle aux matrices et aux endomorphismes par le calcul fonctionnel. Elle fait en particulier le pont entre un groupe de Lie et son algèbre de Lie. Pour n = 1, on retrouve la définition de l'exponentielle complexe. Sauf indication contraire, X, Y désignent des matrices n × n complexes (à coefficients complexes).

Matrice orthogonale

Une matrice carrée A (n lignes, n colonnes) à coefficients réels est dite orthogonale si A A = I, où A est la matrice transposée de A et I est la matrice identité. Des exemples de matrices orthogonales sont les matrices de rotation, comme la matrice de rotation plane d'angle θ ou les matrices de permutation, comme Une matrice réelle A est orthogonale si et seulement si elle est inversible et son inverse est égale à sa transposée : A = A. Une matrice carrée est orthogonale si et seulement si ses vecteurs colonnes sont orthogonaux deux à deux et de norme 1.

Perceptron

Le perceptron est un algorithme d'apprentissage supervisé de classifieurs binaires (c'est-à-dire séparant deux classes). Il a été inventé en 1957 par Frank Rosenblatt au laboratoire d'aéronautique de l'université Cornell. Il s'agit d'un neurone formel muni d'une règle d'apprentissage qui permet de déterminer automatiquement les poids synaptiques de manière à séparer un problème d'apprentissage supervisé. Si le problème est linéairement séparable, un théorème assure que la règle du perceptron permet de trouver une séparatrice entre les deux classes.

Pose (computer vision)

In the fields of computing and computer vision, pose (or spatial pose) represents the position and orientation of an object, usually in three dimensions. Poses are often stored internally as transformation matrices. The term “pose” is largely synonymous with the term “transform”, but a transform may often include scale, whereas pose does not. In computer vision, the pose of an object is often estimated from camera input by the process of pose estimation.

Grand modèle de langage

Un grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus). Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé.

Homography (computer vision)

In the field of computer vision, any two images of the same planar surface in space are related by a homography (assuming a pinhole camera model). This has many practical applications, such as , , or camera motion—rotation and translation—between two images. Once camera resectioning has been done from an estimated homography matrix, this information may be used for navigation, or to insert models of 3D objects into an image or video, so that they are rendered with the correct perspective and appear to have been part of the original scene (see Augmented reality).

Réseau de neurones artificiels

Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un système dont la conception est à l'origine schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes statistiques. Les réseaux de neurones sont généralement optimisés par des méthodes d'apprentissage de type probabiliste, en particulier bayésien.

Stéréoscopie

La stéréoscopie (du grec stéréo- : solide, -scope : vision) est l'ensemble des techniques mises en œuvre pour reproduire une perception du relief à partir de deux s planes. La stéréoscopie se base sur le fait que la perception humaine du relief se forme dans le cerveau lorsqu'il reconstitue une seule image à partir de la perception des deux images planes et différentes provenant de chaque œil. Il existe, pour réaliser ces images, aussi bien que pour les observer, une grande variété de moyens, à la description desquels plusieurs centaines de livres ont été consacrés.

Transformeur

vignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).

Connexionnisme

Le connexionnisme est une approche utilisée en sciences cognitives, neurosciences, psychologie et philosophie de l'esprit. Le connexionnisme modélise les phénomènes mentaux ou comportementaux comme des processus émergents de réseaux d'unités simples interconnectées. Le plus souvent les connexionnistes modélisent ces phénomènes à l'aide de réseaux de neurones. Il s'agit d'une théorie qui a émergé à la fin des années 1980 en tant qu'alternative au computationnalisme (Putnam, Fodor) alors dominant.

Scale-invariant feature transform

[[Fichier:Matching of two images using the SIFT method.jpg|thumb|right|alt=Exemple de mise en correspondance de deux images par la méthode SIFT : des lignes vertes relient entre eux les descripteurs communs à un tableau et une photo de ce même tableau, de moindre qualité, ayant subi des transformations. |Exemple de résultat de la comparaison de deux images par la méthode SIFT (Fantasia ou Jeu de la poudre, devant la porte d’entrée de la ville de Méquinez, par Eugène Delacroix, 1832).

Recherche automatique d'architecture neuronale

La recherche automatique d'architecture neuronale (Neural Architecture Search, NAS) est un ensemble de techniques visant à découvrir automatiquement de nouveaux modèles de réseaux de neurones artificiels. Les principales méthodes employées dans la littérature sont basées soit sur de l'apprentissage par renforcement, sur de la descente de gradient ou bien sur des algorithmes génétiques. Plusieurs méthodes NAS parviennent à obtenir des architectures qui atteignent ou surpassent les performances des modèles créés à la main.