Publication

The SUMMA Platform Prototype

Concepts associés (23)

La reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. À titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC: Henri a acheté 300 actions de la société AMD en 2006 Henri a acheté 300 actions de la société AMD en 2006.

Annotation sémantique

L'annotation sémantique est l'opération consistant à relier le contenu d'un texte à des entités dans une ontologie. Par exemple, pour la phrase «Paris est la capitale de la France.», l'annotation correcte de Paris serait Paris et non Paris Hilton. L'annotation sémantique est une variante plus détaillée mais moins exacte de la méthode des entitiés nommées, car ces dernières décrivent seulement la catégorie de l'entité (Paris est une ville, sans la relier à la bonne page Wikipédia).

Traduction automatique

La traduction automatique désigne la traduction brute d'un texte entièrement réalisée par un ou plusieurs programmes informatiques. Dans le cas de la traduction d'une conversation audio, en direct ou en différé, on parle de transcription automatique. Un traducteur humain n’intervient pas pour corriger les erreurs du texte durant la traduction, mais seulement avant et/ou après. On la distingue de la traduction assistée par ordinateur où la traduction est en partie manuelle, éventuellement de façon interactive avec la machine.

Statistical machine translation

Statistical machine translation (SMT) was a machine translation approach, that superseded the previous, rule-based approach because it required explicit description of each and every linguistic rule, which was costly, and which often did not generalize to other languages. Since 2003, the statistical approach itself has been gradually superseded by the deep learning-based neural network approach. The first ideas of statistical machine translation were introduced by Warren Weaver in 1949, including the ideas of applying Claude Shannon's information theory.

Neural machine translation

Neural machine translation (NMT) is an approach to machine translation that uses an artificial neural network to predict the likelihood of a sequence of words, typically modeling entire sentences in a single integrated model. They require only a fraction of the memory needed by traditional statistical machine translation (SMT) models. Furthermore, unlike conventional translation systems, all parts of the neural translation model are trained jointly (end-to-end) to maximize the translation performance.

Example-based machine translation

Example-based machine translation (EBMT) is a method of machine translation often characterized by its use of a bilingual corpus with parallel texts as its main knowledge base at run-time. It is essentially a translation by analogy and can be viewed as an implementation of a case-based reasoning approach to machine learning. At the foundation of example-based machine translation is the idea of translation by analogy.

Traduction assistée par ordinateur

La traduction assistée par ordinateur ou TAO (en anglais, computer-aided translation ou CAT) est un domaine qui est à cheval entre la traduction et l’informatique. Elle est un sous-domaine de la traductique, qui regroupe l'ensemble des outils informatiques utilisées par un traducteur (traitement de textes, outils terminologiques, traduction automatique...). Elle ne doit pas être confondue avec la traduction automatique par ordinateur : dans la traduction assistée par ordinateur, c’est bien un humain qui traduit, mais avec un soutien informatique pour lui faciliter la tâche.

Analyse syntaxique

L' consiste à mettre en évidence la structure d'un texte, généralement une phrase écrite dans une langue naturelle, mais on utilise également cette terminologie pour l'analyse d'un programme informatique. L' (parser, en anglais) est le programme informatique qui réalise cette tâche. Cette opération suppose une formalisation du texte, qui est vue le plus souvent comme un élément d'un langage formel, défini par un ensemble de règles de syntaxe formant une grammaire formelle.

Semantic role labeling

In natural language processing, semantic role labeling (also called shallow semantic parsing or slot-filling) is the process that assigns labels to words or phrases in a sentence that indicates their semantic role in the sentence, such as that of an agent, goal, or result. It serves to find the meaning of the sentence. To do this, it detects the arguments associated with the predicate or verb of a sentence and how they are classified into their specific roles. A common example is the sentence "Mary sold the book to John.

Environnement de développement

En programmation informatique, un environnement de développement est un ensemble d'outils qui permet d'augmenter la productivité des programmeurs qui développent des logiciels. Il comporte un éditeur de texte destiné à la programmation, des fonctions qui permettent, par pression sur un bouton, de démarrer le compilateur ou l'éditeur de liens ainsi qu'un débogueur en ligne, qui permet d'exécuter ligne par ligne le programme en cours de construction. Certains environnements sont dédiés à un langage de programmation en particulier.

Langage de programmation de bas niveau

vignette|Language de programmation Un langage de programmation de bas niveau ne fournit que peu d'abstraction par rapport au jeu d'instructions du processeur de la machine. Les langages de bas niveau sont à opposer aux langages de haut niveau, qui permettent de créer un programme sans tenir compte des caractéristiques particulières (registres, etc) de l'ordinateur censé exécuter le programme. Le langage machine et le langage d'assemblage sont les archétypes de langages de bas niveau, puisqu'ils permettent de manipuler explicitement des registres, des adresses mémoires, des instructions machines.

Prototype

vignette|Photographie d'un prototype BMW : la BMW Nazca C2 Dans le domaine de l'industrie et plus généralement de la recherche et développement (R&D), un prototype est selon la définition de l'OCDE , mais il s'agit aussi parfois d'un exemplaire incomplet (et non définitif) de ce que pourra être un produit (éventuellement de type logiciel, ou de type « service »Djellal, F., Gallouj, C., Gallouj, F., Francoz, D., & Jacquin, Y. (2001).

Classement automatique

vignette|La fonction 1-x^2-2exp(-100x^2) (rouge) et les valeurs déplacées par un bruit de 0,1*N(0,1). Le classement automatique ou classification supervisée est la catégorisation algorithmique d'objets. Elle consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se fondant sur des données statistiques. Elle fait couramment appel à l'apprentissage automatique et est largement utilisée en reconnaissance de formes. En français, le classement fait référence à l'action de classer donc de « ranger dans une classe ».

Parsing expression grammar

In computer science, a parsing expression grammar (PEG) is a type of analytic formal grammar, i.e. it describes a formal language in terms of a set of rules for recognizing strings in the language. The formalism was introduced by Bryan Ford in 2004 and is closely related to the family of top-down parsing languages introduced in the early 1970s. Syntactically, PEGs also look similar to context-free grammars (CFGs), but they have a different interpretation: the choice operator selects the first match in PEG, while it is ambiguous in CFG.

Combinateur d'analyseurs

En programmation informatique, un combinateur d'analyseurs est une fonction d'ordre supérieur qui accepte plusieurs analyseurs en entrée et renvoie un nouvel analyseur en sortie. Dans ce contexte, un analyseur est une fonction acceptant des chaînes en entrée et renvoyant une structure en sortie, généralement un arbre d'analyse ou un ensemble d'indices représentant les emplacements dans la chaîne où l'analyse s'est arrêtée avec succès.

Present value

In economics and finance, present value (PV), also known as present discounted value, is the value of an expected income stream determined as of the date of valuation. The present value is usually less than the future value because money has interest-earning potential, a characteristic referred to as the time value of money, except during times of zero- or negative interest rates, when the present value will be equal or more than the future value. Time value can be described with the simplified phrase, "A dollar today is worth more than a dollar tomorrow".

Logiciel multiplateforme

Un logiciel multiplateforme est un logiciel conçu pour fonctionner sur plusieurs plateformes informatiques. De nombreux langages de programmation sont considérés être multiplateformes . En effet, il suffit de développer un compilateur destiné à générer un code exécutable compréhensible par chacun des processeurs qu’on désire utiliser. On aurait donc : un seul langage de programmation et un compilateur par type de processeur (des processeurs seraient considérés de même type s'ils sont identiquement structurés).

Classification en classes multiples

In machine learning and statistical classification, multiclass classification or multinomial classification is the problem of classifying instances into one of three or more classes (classifying instances into one of two classes is called binary classification). While many classification algorithms (notably multinomial logistic regression) naturally permit the use of more than two classes, some are by nature binary algorithms; these can, however, be turned into multinomial classifiers by a variety of strategies.

Réseau sémantique

Un réseau sémantique est un graphe marqué destiné à la représentation des connaissances, qui représente des relations sémantiques entre concepts. Le graphe est orienté ou non orienté. Ses sommets représentent les concepts, et les liens entre les sommets (nœuds) représentent les relations sémantiques, reliant les champs lexicaux. Un réseau sémantique peut être instancié, par exemple,dans une base de données orientée graphes ou un schéma conceptuel. Les réseaux sémantiques normalisés sont exprimés sous forme de triplets RDF.

Biais médiatique

Un biais médiatique est une tendance des médias à présenter involontairement les informations, idées ou évènements d'une façon altérée par un apriori ou une conviction. Le phénomène de biais médiatique est connu des attachés de presse, des états-majors du monde politique, et bien entendu des médias eux-mêmes. Il s'ensuit une course au positionnement. Une étude de 2014 analyse l’envergure et les différentes formes de biais médiatiques.