Publication

Post-correction of Historical Text Transcripts with Large Language Models: An Exploratory Study

Concepts associés (25)

La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.

Critique textuelle

La critique textuelle est une science, à l’intersection de l’histoire, de la philologie, de la critique littéraire et de la littérature, qui étudie la rédaction et les circonstances de rédaction, ainsi que la tradition de textes anciens jusqu’à nous. Discipline des , elle se distingue de la (étude critique d'un texte dans le but de connaître les différentes sources ayant permis à l'auteur de la composer ou, selon une définition plus extensive, examen de sources telles que des textes, des documents iconographiques ou épigraphiques).

Analyse de contenu

L’analyse de contenu est une des méthodologies qualitatives utilisées dans les sciences sociales et humaines. On retrouve par exemple des approches en analyse de contenu en sociologie, en communication, en linguistique, en psychologie. Une analyse de contenu consiste en un examen systématique et méthodique de documents textuels ou visuels. Dans une analyse de contenu le chercheur tente de minimiser les éventuels biais cognitifs et culturels en s’assurant de l’objectivité de sa recherche.

Document processing

Document processing is a field of research and a set of production processes aimed at making an analog document digital. Document processing does not simply aim to photograph or a document to obtain a , but also to make it digitally intelligible. This includes extracting the structure of the document or the layout and then the content, which can take the form of text or images. The process can involve traditional computer vision algorithms, convolutional neural networks or manual labor.

Méthodes qualitatives

En sciences sociales, les méthodes qualitatives regroupent un ensemble de méthodes de recherche utilisées dans les études qualitatives. Elles trouvent leur utilité notamment en sciences humaines et sociales. Elles laissent délibérément de côté l'aspect quantitatif pour gagner en profondeur dans l'analyse de l'objet d'étude. Pour cela diverses techniques, fondées sur l'administration de questions ouvertes et l'exploration du langage, sont mises en œuvre : les entretiens (notamment de type semi-directifs), les observations participantes et les « focus groupes » (ou entretien collectif), sont les plus utilisés.

Exégèse historico-critique de la Bible

L'exégèse historico-critique de la Bible, ou méthode historico-critique, étudie l'histoire de la réception des Écritures, leur contexte historique, le processus et les étapes de leur production ainsi que leurs destinataires. C'est initialement une branche de l'exégèse biblique apparue au milieu du , notamment en Allemagne, même si elle eut des précurseurs à partir du . Elle est au la méthode la plus employée par les biblistes. Parfois nommée « critique haute », elle est qualifiée de « critique radicale » ou d’« historico-criticisme » par ses détracteurs.

Reconnaissance automatique de la parole

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Texte massorétique

Le texte massorétique (abrégé TM) est le texte biblique hébreu transmis par la Massorah, produit du travail des massorètes. Il trouve probablement son origine dans un texte dit « proto-massorétique » datant de la fin du , qui sert de base à de nombreuses traductions de la Bible. thumb|350px|Les principaux manuscrits du texte biblique d'après l'Encyclopaedia Biblica. Les lignes pointillées bleues indiquent les textes utilisés pour les modifications. MT = texte massorétique. LXX = version originale de la Septante.

Résumé automatique de texte

Un résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.

Reconnaissance optique de caractères

vignette|Vidéo montrant un processus de reconnaissance optique de caractères effectué en direct grâce à un scanner portable. La reconnaissance optique de caractères (ROC, ou OCR pour l'anglais optical character recognition), ou océrisation, désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte. Un ordinateur réclame pour l'exécution de cette tâche un logiciel d'OCR.

Classification et catégorisation de documents

La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information.

Corpus

Un corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.

Computational complexity

In computer science, the computational complexity or simply complexity of an algorithm is the amount of resources required to run it. Particular focus is given to computation time (generally measured by the number of needed elementary operations) and memory storage requirements. The complexity of a problem is the complexity of the best algorithms that allow solving the problem. The study of the complexity of explicitly given algorithms is called analysis of algorithms, while the study of the complexity of problems is called computational complexity theory.

Reconnaissance de l'écriture manuscrite

La reconnaissance de l’écriture manuscrite (en anglais, handwritten text recognition ou HTR) est un traitement informatique qui a pour but de traduire un texte écrit en un texte codé numériquement. Il faut distinguer deux reconnaissances distinctes, avec des problématiques et des solutions différentes : la reconnaissance en-ligne ; la reconnaissance hors-ligne. La reconnaissance de l’écriture manuscrite fait appel à la reconnaissance de forme, mais également au traitement automatique du langage naturel.

Diplomatique

La diplomatique (du grec ancien / díplôma, passeport, papier plié en deux) est une science auxiliaire de l'histoire qui étudie la structure, la classification, la valeur, la tradition et l'authenticité des documents officiels (les « diplômes » au sens historique du terme). Son histoire remonte au , et à l'examen critique des chartriers monastiques et ecclésiastiques médiévaux, souvent pleins de chartes et de diplômes d'authenticité douteuse.

Modèle de langage

En traitement automatique des langues, un modèle de langage ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots. Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents.

Tourisme de mémoire

vignette|Les sites du mémorial et du village martyr d'Oradour-sur-Glane en Haute-Vienne, est un exemple de sites du tourisme de mémoire. Le tourisme de mémoire, aussi appelé tourisme mémoriel, est une forme de tourisme qui consiste à mettre en avant le patrimoine historique d'un lieu, en particulier quand le site en question a été marqué par un évènement ponctuel, marquant en ce qu'il peut être fondateur ou potentiellement douloureux. Ce peut être une bataille, un acte politique, un massacre ou une catastrophe.

Classe de complexité

En informatique théorique, et plus précisément en théorie de la complexité, une classe de complexité est un ensemble de problèmes algorithmiques dont la résolution nécessite la même quantité d'une certaine ressource. Une classe est souvent définie comme l'ensemble de tous les problèmes qui peuvent être résolus sur un modèle de calcul M, utilisant une quantité de ressources du type R, où n, est la taille de l'entrée. Les classes les plus usuelles sont celles définies sur des machines de Turing, avec des contraintes de temps de calcul ou d'espace.

Postproduction

vignette|Studio d'édition audio-visuelle, où peuvent s'effectuer certaines étapes de la post-production. La postproduction est l'ensemble des opérations qui finalisent la fabrication d’un film : montage, mixage audio, conformation et étalonnage. Durant ces opérations, la projection du film dans une salle de vision privée sert alors de référence au réalisateur. La postproduction succède à la phase de production qui comprend les préparations, financière et artistique, du projet, et le tournage lui-même.

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.