Publication

Adaptive video delivery using semantics

Concepts associés (32)

Adaptive bitrate streaming is a technique used in streaming multimedia over computer networks. While in the past most video or audio streaming technologies utilized streaming protocols such as RTP with RTSP, today's adaptive streaming technologies are based almost exclusively on HTTP, and are designed to work efficiently over large distributed HTTP networks. Adaptive bitrate streaming works by detecting a user's bandwidth and CPU capacity in real time, adjusting the quality of the media stream accordingly.

Segmentation d'image

La segmentation d'image est une opération de s consistant à détecter et rassembler les pixels suivant des critères, notamment d'intensité ou spatiaux, l'image apparaissant ainsi formée de régions uniformes. La segmentation peut par exemple montrer les objets en les distinguant du fond avec netteté. Dans les cas où les critères divisent les pixels en deux ensembles, le traitement est une binarisation. Des algorithmes sont écrits comme substitut aux connaissances de haut niveau que l'homme mobilise dans son identification des objets et structures.

Video quality

Video quality is a characteristic of a video passed through a video transmission or processing system that describes perceived video degradation (typically, compared to the original video). Video processing systems may introduce some amount of distortion or artifacts in the video signal that negatively impacts the user's perception of a system. For many stakeholders in video production and distribution, assurance of video quality is an important task. Video quality evaluation is performed to describe the quality of a set of video sequences under study.

Espace d'échelle

La théorie de lEspace d'échelle () est un cadre pour la représentation du signal développé par les communautés de la vision artificielle, du , et du traitement du signal. C'est une théorie formelle pour manipuler les structures de l'image à différentes échelles, en représentant une image comme une famille d'images lissées à un paramètre, la représentation d'espace échelle, paramétrée par la taille d'un noyau lissant utilisé pour supprimer les structures dans les petites échelles. Soit un signal.

Object co-segmentation

In computer vision, object co-segmentation is a special case of , which is defined as jointly segmenting semantically similar objects in multiple images or video frames. It is often challenging to extract segmentation masks of a target/object from a noisy collection of images or video frames, which involves object discovery coupled with . A noisy collection implies that the object/target is present sporadically in a set of images or the object/target disappears intermittently throughout the video of interest.

Motion compensation

Motion compensation in computing, is an algorithmic technique used to predict a frame in a video, given the previous and/or future frames by accounting for motion of the camera and/or objects in the video. It is employed in the encoding of video data for video compression, for example in the generation of MPEG-2 files. Motion compensation describes a picture in terms of the transformation of a reference picture to the current picture. The reference picture may be previous in time or even from the future.

Résumé automatique de texte

Un résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.

Réseau de diffusion de contenu

Un réseau de diffusion de contenu (RDC) ou en anglais content delivery network (en) est constitué d’ordinateurs reliés en réseau à travers Internet et qui coopèrent afin de mettre à disposition du contenu ou des données à des utilisateurs. Ce réseau est constitué : de serveurs d'origine, d'où les contenus sont « injectés » dans le RDC pour y être répliqués ; de serveurs périphériques, typiquement déployés à plusieurs endroits géographiquement distincts, où les contenus des serveurs d'origine sont répliqués ; d'un mécanisme de routage permettant à une requête utilisateur sur un contenu d'être servie par le serveur le « plus proche », dans le but d’optimiser le mécanisme de transmission / livraison.

Comparison of video codecs

Α video codec is software or a device that provides encoding and decoding for digital video, and which may or may not include the use of video compression and/or decompression. Most codecs are typically implementations of video coding formats. The compression may employ lossy data compression, so that quality-measurement issues become important. Shortly after the compact disc became widely available as a digital-format replacement for analog audio, it became feasible to also store and use video in digital form.

Opinion mining

En informatique, l'opinion mining (aussi appelé sentiment analysis) est l'analyse des sentiments à partir de sources textuelles dématérialisées sur de grandes quantités de données (big data). Ce procédé apparait au début des années 2000 et connait un succès grandissant dû à l'abondance de données provenant de réseaux sociaux, notamment celles fournies par Twitter. L'objectif de l’opinion mining est d'analyser une grande quantité de données afin d'en déduire les différents sentiments qui y sont exprimés.

H.265

H.265, ou « MPEG-H HEVC » (High Efficiency Video Coding), est une norme de codage/compression vidéo ISO/CEI 23008-2 et UIT-T H.265, publiée le . Elle est développée conjointement par les groupes Video Coding Experts Group (VCEG) et Moving Picture Experts Group (MPEG) et doit succéder au H.264 (ISO/CEI 14496-10 et UIT-T H.264). Ses applications concernent aussi bien la compression des vidéos en ultra-haute définition que la diminution du débit de transmission sur les réseaux pour les vidéos en définition standard avec des applications pour la vidéo sur mobile et pour l'extension de l'éligibilité aux services audiovisuels (TV, VoD.

Multimedia information retrieval

Multimedia information retrieval (MMIR or MIR) is a research discipline of computer science that aims at extracting semantic information from multimedia data sources. Data sources include directly perceivable media such as audio, and video, indirectly perceivable sources such as text, semantic descriptions, biosignals as well as not perceivable sources such as bioinformation, stock prices, etc. The methodology of MMIR can be organized in three groups: Methods for the summarization of media content (feature extraction).

Video content analysis

Video content analysis or video content analytics (VCA), also known as video analysis or video analytics (VA), is the capability of automatically analyzing video to detect and determine temporal and spatial events. This technical capability is used in a wide range of domains including entertainment, video retrieval and video browsing, health-care, retail, automotive, transport, home automation, flame and smoke detection, safety, and security. The algorithms can be implemented as software on general-purpose machines, or as hardware in specialized video processing units.

Video coding format

A video coding format (or sometimes video compression format) is a content representation format for storage or transmission of digital video content (such as in a data file or bitstream). It typically uses a standardized video compression algorithm, most commonly based on discrete cosine transform (DCT) coding and motion compensation. A specific software, firmware, or hardware implementation capable of compression or decompression to/from a specific video coding format is called a video codec.

Visual temporal attention

Visual temporal attention is a special case of visual attention that involves directing attention to specific instant of time. Similar to its spatial counterpart visual spatial attention, these attention modules have been widely implemented in video analytics in computer vision to provide enhanced performance and human interpretable explanation of deep learning models.

Streaming

vignette|Une configuration de pour la télédiffusion. Le (du verbe anglais transitif , « transférer en mode continu »), flux, lecture en continu, lecture en transit, diffusion en continu ou diffusion en mode continu, est un procédé de diffusion d'un flux audio ou vidéo en « direct » ou en léger différé. Très utilisé sur Internet et sur les réseaux de téléphonie mobile, le permet la lecture d'un flux audio ou vidéo (cas de la vidéo à la demande) à mesure qu'il est diffusé.

Téléphone mobile

Un téléphone mobile, téléphone portable ou téléphone cellulaire est un appareil électronique de télécommunication, normalement portatif, offrant une fonction de téléphonie mobile et pouvant être utilisé sur de grandes distances sous réserve d'une couverture réseau. En Belgique, en Nouvelle-Calédonie et à La Réunion, le terme « GSM » (pour Global System for Mobile Communications, un standard de communication de téléphonie mobile) est couramment utilisé pour désigner un téléphone mobile.

Réseau de téléphonie mobile

Un réseau de téléphonie mobile est un réseau téléphonique qui permet l'utilisation simultanée de millions de téléphones sans fil, immobiles ou en mouvement, y compris lors de déplacements à grande vitesse et sur une grande distance. Pour atteindre cet objectif, toutes les technologies d'accès radio doivent résoudre un même problème : partager et répartir aussi efficacement que possible une bande de fréquences hertzienne unique entre de très nombreux utilisateurs.

Scale space implementation

In the areas of computer vision, and signal processing, the notion of scale-space representation is used for processing measurement data at multiple scales, and specifically enhance or suppress image features over different ranges of scale (see the article on scale space). A special type of scale-space representation is provided by the Gaussian scale space, where the image data in N dimensions is subjected to smoothing by Gaussian convolution.

Capture de mouvement

La capture de mouvement (motion capture en anglais, parfois abrégé en mocap) est une technique permettant d'enregistrer les positions et rotations d'objets ou de membres d'êtres vivants, pour en contrôler une contrepartie virtuelle sur ordinateur (caméra, modèle 3D, ou avatar). Une restitution visuelle de ces mouvements en temps réel est faite via le moteur de rendu 3D de l'application interfacée avec le matériel utilisé qui peut les stocker dans un fichier d'animation de type BVH pour être traités ultérieurement dans un logiciel 3D classique (Maya, 3dsMax, XSI, Cinema4d, etc.