NumérisationLa numérisation est la conversion des informations d'un support (texte, image, audio, vidéo) ou d'un signal électrique en données numériques que des dispositifs informatiques ou d'électronique numérique pourront traiter. Les données numériques se définissent comme une suite de caractères et de nombres qui représentent des informations. On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais). La numérisation, dans le contexte de l'administration des archives, est la conversion en masse des documents en fichiers informatiques.
Information extractionInformation extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
Book scanningBook scanning or book digitization (also: magazine scanning or magazine digitization) is the process of converting physical books and magazines into digital media such as , electronic text, or electronic books (e-books) by using an . Large scale book scanning projects have made many books available online. Digital books can be easily distributed, reproduced, and read on-screen. Common file formats are DjVu, Portable Document Format (PDF), and (TIFF).
Extraction de connaissancesL'extraction de connaissances est le processus de création de connaissances à partir d'informations structurées (bases de données relationnelles, XML) ou non structurées (textes, documents, images). Le résultat doit être dans un format lisible par les ordinateurs. Le groupe RDB2RDF W3C est en cours de standardisation d'un langage d'extraction de connaissances au format RDF à partir de bases de données. En français on parle d'« extraction de connaissances à partir des données » (ECD).
Extraction terminologiqueL'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes. Les termes extraits par l'extracteur de termes peuvent être utilisés de plusieurs façons : Terminologie assistée par ordinateur : Dans ce cas, l'extracteur de termes aide le terminologue dans sa tâche en lui "prémâchant" le travail.
Internet ArchiveInternet Archive (ou IA) est un organisme à but non lucratif consacré à l’archivage du Web qui agit aussi comme bibliothèque numérique. Ces archives électroniques sont constituées de clichés instantanés (copie de pages prises à différents moments) de pages web, de logiciels, de films, de livres et d’enregistrements audio. Pour assurer la stabilité et la sécurité des données archivées, un site miroir fonctionnel est conservé à la Bibliotheca Alexandrina en Égypte.
Résumé automatique de texteUn résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.
MétadonnéeUne métadonnée (mot composé du préfixe grec meta, indiquant l'auto-référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une donnée servant à définir ou décrire une autre donnée, quel qu'en soit le support (papier, électronique ou autre). Un exemple type est d'associer à une donnée la date à laquelle elle a été produite ou enregistrée, ou à une photo les coordonnées géographiques du lieu où elle a été prise. Les métadonnées sont à la base des techniques du Web sémantique.
Conservation des documentsLe principe de conservation des documents en archivistique ou en sciences de l'information et des bibliothèques est l'un des piliers essentiels de ces disciplines, avec la collecte des documents, le classement des archives ou les classifications décimales ou documentaires des bibliothèques ou centres de ressources. Les mesures appliquées par les bibliothécaires et les archivistes, notamment, pour conserver les documents (livres, archives, objets) ont pour but initial de leur assurer une « durée de vie » maximale.
HistoireL’histoire est à la fois l'étude et l'écriture des faits et des événements passés quelles que soient leur variété et leurs complexités. Ce mot est souvent écrit avec la première lettre en majuscule. L'histoire est également une science humaine et sociale. On désigne aussi couramment sous le terme dhistoire (par synecdoque) le passé lui-même, comme dans les leçons de l'histoire. L'histoire est un récit écrit par lequel les êtres humains, et plus particulièrement les historiens, s'efforcent de faire connaître les temps révolus.
Histoire de l'artL'histoire de l'art est la discipline qui a pour objet l'étude des œuvres dans l'histoire, et du sens qu'elles peuvent prendre. Elle étudie également les conditions de création des artistes, la reconnaissance du fait artistique par un public, ainsi que le contexte spirituel, culturel, anthropologique, idéologique et théorique, économique et social de l'art. Cette discipline universitaire est fondée sur la recherche, l'actualisation et la transposition de problématiques historiques, scientifiques, autour de phénomènes artistiques et culturels.
Google LivresGoogle Livres, ou Google Books en anglais (anciennement Google Print), est un service en ligne de numérisation et de mise en ligne de livres fourni par Google. Lancé en , il dispose de moyens financiers et techniques considérables, et a vu son champ d'activité s'élargir progressivement. En 2017, c'est à la fois un outil de recherche intra-texte, de consultation de livres en ligne ou sur appareil mobile, de constitution de collections personnelles, et de téléchargement d'ouvrages libres de droits.
Recherche d'informationLa recherche d'information (RI) est le domaine qui étudie la manière de retrouver des informations dans un corpus. Celui-ci est composé de documents d'une ou plusieurs bases de données, qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées, telles celles mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet et les intranets. Le contenu des documents peut être du texte, des sons, des images ou des données.
Registre de métadonnéesUn registre de métadonnées est, selon la définition qu’en donne le Dublin Core dans l’ébauche finale du , un « Système de gestion des métadonnées «, c’est-à-dire un système formel qui fournit l’information d’autorité sur la sémantique et la structure de chaque élément. Pour chaque élément, le registre en donne la définition, les qualificatifs qui lui sont associés, ainsi que les correspondances avec des équivalents dans d’autres langues ou d’autres schémas.
Search engineA search engine is a software system that finds web pages that match a web search. They search the World Wide Web in a systematic way for particular information specified in a textual web search query. The search results are generally presented in a line of results, often referred to as search engine results pages (SERPs). The information may be a mix of hyperlinks to web pages, images, videos, infographics, articles, and other types of files. Some search engines also mine data available in databases or open directories.
Science de l'informationLa science de l'information (ou les sciences de l'information) est un champ disciplinaire ayant pour objet scientifique l'information, lequel est principalement concerné par l'analyse, la collecte, la classification, la manipulation, le stockage, la récupération, la circulation, la diffusion et la protection de l'information. Les praticiens, qu'ils travaillent ou non sur le terrain, étudient l'application et l'utilisation des connaissances dans les organisations, ainsi que l'interaction entre les personnes, les organisations et tout système d'information existant, dans le but de créer, remplacer, améliorer ou comprendre les systèmes d'information.
Informationvignette|redresse=0.6|Pictogramme représentant une information. L’information est un de la discipline des sciences de l'information et de la communication (SIC). Au sens étymologique, l'« information » est ce qui donne une forme à l'esprit. Elle vient du verbe latin « informare », qui signifie « donner forme à » ou « se former une idée de ». L'information désigne à la fois le message à communiquer et les symboles utilisés pour l'écrire. Elle utilise un code de signes porteurs de sens tels qu'un alphabet de lettres, une base de chiffres, des idéogrammes ou pictogrammes.
Moteur de recherchealt=Capture d'écran d'une page de résultat de recherche|vignette|340x340px|Capture d'écran d'une page de résultat de recherche Un moteur de recherche est une application permettant à un utilisateur d'effectuer une recherche locale ou en ligne, c'est-à-dire de trouver des ressources à partir d'une requête composée de termes. Les ressources peuvent notamment être des pages web, des articles de forums Usenet, des , des vidéos, des fichiers, des ouvrages, des sites pédagogiques, des applications, des logiciels open source.
Standards et normes de métadonnéesUn standard ou une norme de métadonnées est une exigence qui est destinée à établir une compréhension commune de la signification ou de la sémantique des données, afin d'assurer un usage correct et approprié, et une interprétation des données par ses propriétaires et utilisateurs. Pour parvenir à cette compréhension commune, on doit définir un certain nombre de caractéristiques ou attributs des données, encore appelés métadonnées. En anglais, on utilise un seul mot, standard, pour décrire un standard ou une norme, ce qui est source de confusion.
Histoire intellectuelleLhistoire intellectuelle est une des branches de la recherche historique. Elle est d'apparition récente et est agitée par diverses controverses; elle s'apparente à l'histoire des idées. Alors que cette dernière s’intéresse aux idées en elles-mêmes, l’histoire intellectuelle se penche sur les idées dans leur contexte: elles émanent d'auteurs et sont situées dans un espace-temps. L’histoire intellectuelle remet donc en question des pratiques telles que l'utilisation d'un texte uniquement pour ses critères internes.