Publication

Idiap Submission to Swiss-German Language Detection Shared Task

Concepts associés (27)

In computer science, the syntax of a computer language is the rules that define the combinations of symbols that are considered to be correctly structured statements or expressions in that language. This applies both to programming languages, where the document represents source code, and to markup languages, where the document represents data. The syntax of a language defines its surface form. Text-based computer languages are based on sequences of characters, while visual programming languages are based on the spatial layout and connections between symbols (which may be textual or graphical).

Traitement automatique du langage naturel

Le traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.

Famille de langues

Une famille de langues est un ensemble de langues apparentées qui ont évolué par transmission de génération en génération de locuteurs à partir d'une langue ancestrale commune. On parle de parenté généalogique ou génétique pour désigner ce type de relation ; le terme n'implique pas de parenté biologique entre les locuteurs des langues en question. La notion repose sur une analogie de l'évolution des langues avec celle des organismes vivants, selon le modèle de l'arbre généalogique.

Langues italiques

Les langues italiques sont une branche de la famille des langues indo-européennes. Elles regroupent les langues sabelliques et les langues latino-falisques. Le vénète et le sicule sont souvent rattachés aux langues italiques. Les langues italiques doivent leur nom à la région où ces langues étaient parlées, l'Italie. Les peuples parlant ces langues sont eux-mêmes dénommés Italiques. La langue italique la plus importante historiquement fut le latin, langue du Latium et de la Rome antique devenue celle de l'Empire romain, et dont l'évolution produisit le groupe des langues romanes.

Langage de programmation

thumb|Fragment de code écrit dans le langage de programmation JavaScript. Un langage de programmation est un langage informatique destiné à formuler des algorithmes et produire des programmes informatiques qui les appliquent. D'une manière similaire à une langue naturelle, un langage de programmation est composé d'un alphabet, d'un vocabulaire, de règles de grammaire, de significations, mais aussi d'un environnement de traduction censé rendre sa syntaxe compréhensible par la machine.

Auto-encodeur variationnel

En apprentissage automatique, un auto-encodeur variationnel (ou VAE de l'anglais variational auto encoder), est une architecture de réseau de neurones artificiels introduite en 2013 par D. Kingma et M. Welling, appartenant aux familles des modèles graphiques probabilistes et des méthodes bayésiennes variationnelles. Les VAE sont souvent rapprochés des autoencodeurs en raison de leur architectures similaires. Leur utilisation et leur formulation mathématiques sont cependant différentes.

Fouille de textes

La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.

Corpus

Un corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.

Langues aborigènes d'Australie

Les langues aborigènes d'Australie regroupent de nombreuses familles de langues et isolats d'Australie et des îles alentour, exception faite de la Tasmanie. La plupart des langues aborigènes sont regroupées dans la famille des langues pama-nyungan, présente dans 90 % de l'Australie continentale. Les autres se répartissent en 27 autres familles, présentes seulement dans l'extrême nord. Ces langues, plusieurs centaines il y a trois siècles, sont pour la plupart disparues ou en voie de disparition.

Apprentissage de représentations

En apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

Éditeur de texte

Un éditeur de texte est un logiciel destiné à la création et l'édition de fichiers textes. Chaque système d'exploitation fournit un éditeur, tant son usage est courant, voire indispensable pour certaines tâches informatiques de base comme l'administration de système et le développement de logiciels. thumb|Une chasse fixe conduit à un alignement vertical des caractères, où le i est aussi large que le w.

Fichier texte

En informatique, un fichier texte ou fichier texte brut ou fichier texte simple est un fichier dont le contenu représente uniquement une suite de caractères ; il utilise nécessairement une forme particulière de codage des caractères qui peut être une variante ou une extension du standard local des États-Unis, l'ASCII. Il n'existe aucune définition officielle, et les différentes interprétations de ce qu'est un fichier texte partagent des propriétés essentielles.

Réseaux antagonistes génératifs

En intelligence artificielle, les réseaux antagonistes génératifs (RAG) parfois aussi appelés réseaux adverses génératifs (en anglais generative adversarial networks ou GANs) sont une classe d'algorithmes d'apprentissage non supervisé. Ces algorithmes ont été introduits par . Ils permettent de générer des images avec un fort degré de réalisme. Un GAN est un modèle génératif où deux réseaux sont placés en compétition dans un scénario de théorie des jeux. Le premier réseau est le générateur, il génère un échantillon (ex.

Texte brut

Le texte brut, ou pur ou simple, traduction de l'anglais plain text, est une notion liée à la représentation du texte utilisée entre dispositifs électroniques.

Apprentissage auto-supervisé

L'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d'apprentissage automatique. Il apprend à partir d'échantillons de données non étiquetés. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. Il est basé sur un réseau de neurones artificiels. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau.

Langues chamito-sémitiques

Les langues chamito-sémitiques — appelées aussi langues afro-asiatiques — sont une famille de langues parlées principalement en Afrique du Nord, dans la Corne de l'Afrique, au Moyen-Orient, dans le Sahara et dans une partie du Sahel. Ces quelques 350 langues sont parlées actuellement par environ 410 millions de personnes. En nombre de locuteurs c'est la quatrième famille de langues (après les langues indo-européennes, sino-tibétaines et nigéro-congolaises).

Deep belief network

In machine learning, a deep belief network (DBN) is a generative graphical model, or alternatively a class of deep neural network, composed of multiple layers of latent variables ("hidden units"), with connections between the layers but not between units within each layer. When trained on a set of examples without supervision, a DBN can learn to probabilistically reconstruct its inputs. The layers then act as feature detectors. After this learning step, a DBN can be further trained with supervision to perform classification.

Types of artificial neural networks

There are many types of artificial neural networks (ANN). Artificial neural networks are computational models inspired by biological neural networks, and are used to approximate functions that are generally unknown. Particularly, they are inspired by the behaviour of neurons and the electrical signals they convey between input (such as from the eyes or nerve endings in the hand), processing, and output from the brain (such as reacting to light, touch, or heat). The way neurons semantically communicate is an area of ongoing research.

Logiciel de traitement de texte

thumb|Écran du traitement de texte LibreOffice Writer. thumb|Écran du traitement de texte KWord. Un logiciel de traitement de texte permet d'utiliser un ordinateur pour rédiger, corriger et imprimer des documents écrits tels que des lettres, des articles de presse, des factures, des contrats ou encore de la publicité. Le traitement de texte est une des applications les plus populaires. Dans sa forme la plus simple, un programme permet de faire exactement ce qui est fait avec une machine à écrire.

Conversion du binaire en texte

Une conversion du binaire en texte est un encodage de données en texte brut. Plus précisément, il s'agit d'un encodage de données binaires en une suite de caractères imprimables. Ces encodages sont nécessaires pour la transmission des données lorsque le canal n'autorise pas les données binaires (telles que les e-mails ou NNTP ) ou n'est pas en .