À la recherche des images et des sons

Leonardo Chiariglione, Président du groupe MPEG

 

Depuis la plus haute antiquité, poussés par le besoin de transmettre l’information, les hommes ont cherché à surmonter les barrières du temps et de l’espace en inventant toutes sortes de techniques. Des formes les plus anciennes de communication visuelle telles que le dessin, la peinture et l’écriture, on est passé à la photographie, au téléphone, à la radio et à la télévision, pour parvenir aux dernières inventions audiovisuelles que sont le disque compact, les jeux vidéo et le World Wide Web.

Très récemment encore, les technologies utilisées pour transmettre le son et l’image avaient ceci de particulier qu’elles avaient très peu de choses en commun. L’imprimerie typographique fut certainement inspirée de la gravure sur bois, mais il fallut un Gutenberg pour l’inventer, et la première était certes plus complexe que la seconde. La cinématographie avait bel et bien besoin de la photographie comme point de départ, mais il fallut l’ingéniosité des frères Lumière pour passer de l’image fixe aux images animées. De même, le son gravé sur disque en vinyle utilise des principes très différents de ceux de la cinématographie ou du disque laser.

À chaque technologie a correspondu la formation de communautés d'affaires distinctes. Ainsi, l'exploitation des radios F.M. requiert un réseau émetteur qui aurait très bien pu être pris en charge par le réseau téléphonique, mais la plupart des pays ont préféré développer des réseaux ad hoc.

Les technologies de la transmission du son et de l’image, d’abord physiques puis électriques et magnétiques, commencèrent par la télégraphie et se poursuivirent par le téléphone, la radio, l’enregistrement magnétique puis la télévision. Ces nouvelles technologies offraient de nouveaux moyens de représenter des données audiovisuelles indépendantes du mode de transmission : une chanson pouvait être transmise par la radio ou enregistrée sur une cassette, c’était toujours la même chanson. Dans certains domaines, on parvenait à une certaine uniformité des matériels : le même téléphone, la même radio et le même magnétophone pouvaient être utilisés dans le monde entier. Dans d’autres domaines, cela ne se pouvait pas : il en est ainsi des téléviseurs et des magnétoscopes qui ont des standards différents selon les pays.

Les technologies numériques ajoutaient encore une distance entre la couche de représentation de l’information et l’enregistrement physique ou la couche de transmission. Si l’information est présentée sous forme binaire, ce qui importe n’est plus ni le disque ou la bande magnétique sur lesquels sont enregistrées les données, ni l’écran ou le haut-parleur qui restituent l’image ou le son, mais le fichier. Livré à lui-même, le processus de conversion de l’analogique au numérique aurait pu conduire aux mêmes clivages entre systèmes hérités du passé analogique, rejetant toute possibilité d’interopérabilité.

Il revient à MPEG le mérite d’avoir créé un environnement unique qui prévoyait, dans des conditions techniques satisfaisantes, le passage de l’analogique au numérique pour la transmission du son et de l’image, tout en maximisant l’interopérabilité entre les différentes communautés d’utilisateurs.

MPEG-1 et MPEG-2 sont les deux premières normes produites par MPEG. Ils offrent aux services existants de radio et de télévision des équivalents numériques économiques. Le standard MPEG-4, encore en phase de développement, propose une extension du paradigme du Web permettant d’intégrer en temps réel les supports son et image, naturels et synthétiques. Le standard MPEG-7, dont le développement vient de commencer, fournira une représentation des sons et des images permettant la recherche d’un contenu.

 

L’environnement normatif du monde analogique

Pour être sûr qu’un message est correctement interprété à l’autre bout d’un canal de transmission, il faut s’entendre sur la sémantique. En d’autres termes, il faut des normes. La voix fut d’abord utilisée dans le système téléphonique et, comme la téléphonie donnait aux usagers la possibilité de parler à tout moment, à n’importe qui et n’importe où dans le monde, on aboutit à la normalisation de la bande passante à 3,1 kHz (de 0,3 kHz à 3,4 kHz), la fonction de transfert étant dictée par l’existence du microphone à cartouche de carbone. Lorsqu’il fut possible de communiquer par radio, on utilisa une plus large bande passante sans considération aucune pour ce que la téléphonie avait déjà apporté. Les fréquences radio utilisées à l’origine (les dites ondes courtes et moyennes) ayant une large couverture, la normalisation internationale du système de radiodiffusion ne tarda pas à se faire. Cette approche clairvoyante fut malheureusement abandonnée au cours des étapes suivantes. La télévision était un système dans lequel les fréquences radio utilisées contraignaient la diffusion télévisée à rester locale : l’occasion rêvée de définir des systèmes de télévision nationaux. Quelque chose de semblable s’est passé pour la télévision câblée. Ces réseaux ayant un dimension encore plus locale, leurs spécifications avaient, entre elles, un degré de variation encore plus grand jusqu’à être, dans certains cas, spécifiques à un seul câblo-opérateur. L’enregistrement des cassettes vidéo était l’affaire de fabricants, en concurrence sur le marché, qui inventèrent des gammes de matériels incompatibles entre elles.

En résumé, chaque pays ou chaque entreprise qui souhaitait définir un système audiovisuel pour une application particulière se contentait de faire des choix technologiques indépendants. Si l’application était non réglementée, comme c’était le cas du magnétoscope, on pouvait trouver plusieurs standards sur le marché. Si l’application ou le service était réglementé, on trouvait une seule solution, comme en téléphonie, ou des solutions différentes selon le pays, comme pour la télévision. Dans tous les cas, l’interopérabilité des différents services ou applications était rarement, sinon jamais, envisagée dans le choix des paramètres des systèmes.

Cette liberté ne se limita pas à l’analogique. Lorsque les technologies numériques firent leur apparition pour le codage MIC (modulation par impulsions codées) de la voix, une seule fréquence d’échantillonnage (8 kHz) fut utilisée, mais le Canada, les Etats-Unis et le Japon choisirent une quantification logarithmique de 7 bits (dite loi µ) tandis que le reste du monde (l’Europe à l’époque) retenait 8 bits (dite loi A). Le codage MIC de la musique se faisait aux fréquences d’échantillonnage de 32 kHz et 48 kHz pour l’Union internationale des télécommunications (IUT), mais Philips et Sony utilisaient 44,1 kHz pour leurs disques compacts et Microsoft avait suivi cette valeur, l’étendant aux sous-multiples 22,5 kHz et 11,25 kHz pour des applications moins exigeantes en qualité.

 

Les premières tentatives de normalisation des données audiovisuelles numériques

Dès la fin des années 1980, les investissements réalisés par les différentes communautés d’affaires et techniques avaient déjà convaincu de nombreux chercheurs que les techniques de traitement du signal disponibles pouvaient être étendues afin de préserver la qualité originelle des signaux vidéo numériques après un facteur de compression de 15 à 20, et d’environ 1/3 de ces valeurs pour les signaux audio (musique). Les techniques de modulation utilisables pour la majorité des supports de débits analogiques existants était capables de compresser environ 4 bit/s/Hz. Que cette conviction eût du mal à passer les portes des laboratoires était dû à certaines causes qu’il serait trop long d’étudier ici.

En associant la compression et la modulation du signal, on obtient une meilleure exploitation de la bande passante par rapport au système de bande analogique existant. En fait, en numérisant les 5 Mhz utilisés par le signal analogique de la télévision à l’aide des dernières techniques de modulation, on obtient un canal de 20 Mbit/s (5 Mhz x 4 bit/s/Hz). En compressant un signal TV d’environ 166 Mbit/s à l’aide de techniques relativement simples, on obtient un flux d’environ 10 Mbit/s. L’application directe des technologies numériques permettaient de doubler le nombre de programmes de télévision et d’obtenir une meilleure qualité sans changer la bande passante. (...)

À la fin des années quatre-vingt, furent lancés des projets largement indépendants les uns des autres ; certains exploraient les extensions numériques de systèmes analogiques existants, d’autres tentaient de définir des systèmes totalement nouveaux. Le groupe MPEG s’est constitué dans un double but : d’abord trouver une méthode pour convaincre les industries de l’avantage technologique d'une solution commune pour passer ensemble au numérique ; ensuite et surtout, définir une syntaxe unique capable de représenter l’information audiovisuelle et de devenir la plate-forme commune qui permettra l’interopérabilité entre les applications.

 

Les débuts de MPEG

Le Moving Picture Coding Expert Group (MPEG) est né en 1988 dans le cadre du JTC 1, Comité technique conjoint ISO/IEC sur la technologie de l’information, avec pour mission le développement de normes pour la représentation codée des images et du son en vue de leur enregistrement et de leur extraction sur DSM (Digital Storage Media). Il devint le Groupe de travail 11 (WG 11) du JTC 1/SC 29, en novembre 1991.

Le groupe MPEG commença par le codage des images animées pour l’enregistrement sur support numérique (DSM). Il fut évident, dès le début, que les fonctionnalités requises pour l’enregistrement englobaient en réalité les fonctionnalités des autres domaines d’applications. C’est pourquoi, la spécification DSM fut abandonnée en faveur du terme générique, qui signifie, indépendant de l’application. Quelques mois après son établissement, le titre codage des images animées fut complété par : et du son associé. En effet, on se rendit compte que même si, dans l’industrie comme dans les organismes de normalisation, pour des raisons historiques, le son et l’image étaient traités par des groupes souvent distincts, les utilisateurs avaient besoin d’un ensemble audiovisuel intégré. Il était donc primordial que l’expression et leur association fût ajoutée au titre de la mission afin de signifier que le son et l’image codés ont besoin d’une infrastructure capable de faire transiter à la fois les signaux audio et vidéo et leurs relations temporelles.

La normalisation était à l’époque un processus lent, survenant dans de nombreux cas a posteriori, c’est-à-dire qu’elle avalisait une solution déjà adoptée par le marché. Au lieu de cela, l’objectif de MPEG fut de faire intervenir la normalisation a priori, anticipant les besoins du marché avant que les industries ne soient engagées trop avant dans d’importants investissements.

Une réunion MPEG est un ensemble très complexe de groupes en interaction. En plus des trois sous-groupes Audio, Vidéo et Systèmes, chargés de développer des standards audio, vidéo et multiplexage, trois autres sous-groupes ont un rôle de conseil important : Spécifications, (à savoir, ce que la norme doit faire) Études de l’implémentation et Essais de qualité. Le premier doit développer l’ensemble des fonctionnalités qu’une norme est sensée implémenter ; le deuxième est chargé d’évaluer les possibilités d’implémentation des solutions logicielles et/ou matérielles au moment prévu de l’application de la norme ; le troisième est chargé d’évaluer les performances des solutions proposées et de la norme dans sa version finale. Le groupe DSM est chargé des relations entre la source d’informations et le terminal qui y accède, y compris la fonction du réseau qui les relie.

Comme MPEG entend procéder à la normalisation en amont, les entreprises et les organisations doivent pouvoir soumettre leurs propres propositions. Des appels à proposition ont été lancés dans les phases initiales du développement des standards MPEG-1, MPEG-2, et MPEG-4 et on vise a suivre la même approche pour la norme MPEG-7.

 

Visite guidée de MPEG-1

Le premier standard développé par le groupe, MPEG-1, visait le codage du signal audiovisuel à un débit de 1,5 Mbit/s. Ce standard était motivé par la perspective d’enregistrer des signaux vidéo sur disque compact avec une qualité comparable à celle des cassettes VHS.

En 1988, l’encodage vidéo à des débits aussi faibles était devenu possible grâce aux dizaines d’années de recherche sur les algorithmes d’encodage vidéo. Ces algorithmes durent toutefois être appliqués à des images sous-échantillonnées - une seule trame par image et seulement la moitié des échantillons en ligne par rapport à la bande passante utilisée par la télévision - pour montrer leur efficacité. De même, le codage du son, par opposition à la voix, reposait sur un travail de recherche et de développement qui permettait une réduction de 1/6 du débit MIC, qui était de 256 kbit/s pour une source stéréo, avec transparence virtuelle du processus d’encodage. Les flux audio et vidéo codés, partageant une base temps commune, sont associés en un seul flux par la couche système du standard MPEG-1.

Le standard MPEG-1, ou ISO/IEC 11172, comporte 5 parties. Les trois premiers sont Systèmes, Vidéo et Audio, dans cet ordre, les deux derniers étant :

• Essais de conformité, qui spécifie la méthodologie permettant de vérifier les déclarations de conformité au standard par les constructeurs de matériels et les producteurs de flux binaires ;

• Logiciel de simulation, une implémentation en langage C du standard MPEG-1 (codeur et décodeur).

Les implémentations de MPEG-1 sont multiples, des applications logicielles tournant sur PC en temps réel, aux monocartes pour PC, en passant par le DAB, les CD Vidéo, etc. Ce dernier produit a remporté un grand succès sur certains marchés : en Chine, 2 millions de décodeurs de vidéo disques ont été vendus en 1996 et ce chiffre devrait doubler en 1997.

 

Visite guidée de MPEG-2

Le deuxième standard développé par MPEG, appelé MPEG-2, a pour titre Codage générique des images animées et du son associés. Les travaux sur ce standard ont commencé dès juillet 1990 :

• à l’époque, les fondements techniques de MPEG-1 étaient déjà fixés ;

• les extrapolations des résultats de MPEG-1 promettaient une qualité comparable à la télévision composite, à environ 4 fois le débit de transmission de MPEG-1 ;

• on prévoyait que la technologie VLSI permettrait la mise en œuvre d’un décodeur vidéo qui traiterait des images pleines à des débits binaires allant jusqu’à 10 Mbit/s.

Contrairement à MPEG-1, qui était essentiellement une normepour l’enregistrement à débit faible d’images animées sur disque, le plus grand nombre d’applications de MPEG-2 conduisit le groupe MPEG à adopter une approche trousse à outils. Plusieurs ensembles d’outils de codage - appelés profiles - ont été conçus et normalisés pour répondre à différents besoins. Chaque profile comporte généralement plusieurs niveaux pour chaque paramètre (par exemple la taille des images).

MPEG-2 Audio est une extension compatible de MPEG-1 Audio qui traite les transmissions multi-canaux. Ainsi, un décodeur MPEG-1 peut décoder deux canaux du flux MPEG-2 et un décodeur MPEG-2 Audio peut décoder un flux audio MPEG-1 aussi bien qu’un décodeur Audio MPEG-1.

Comme pour MPEG-1, la partie système du standard MPEG-2 traite l’association d’un ou de plusieurs flux élémentaires audio et vidéo ainsi que d’autres données en flux simples ou multiples convenant à l’enregistrement ou à la transmission. Deux de ces associations sont définies : flux des programmes et flux de transport.

 

Autres parties de MPEG-2

Le standard MPEG-2, ou ISO/IEC 13818, est aussi composé de plusieures parties. On retrouve dans les cinq premiers les mêmes fonctions que dans MPEG-1. MPEG-2 comprend trois autres parties :

Partie 6, ou Protocole DSM-CC (Digital Storage Media Command and Control). Il s’agit d’un protocole pour permettre le dialogue entre un terminal MPEG-2 et un serveur à travers des reseaux de nature différente

Partie 7, ou codage audio AAC (Advanced Audio Coding). Il s’agit d’un algorithme de codage non compatible à l’envers qui permet de réduire à moitié le débit necessaire pour produire la même qualité qu’avec MPEG-2 compatible (partie 3).

Partie 9, ou interface RTI (Real Time Interface). Il s’agit de la spécification du jitter toléré à l’entrée d’un décodeur MPEG-2.

MPEG-2 a rencontré beaucoup de succès. Des matériels qui revendiquent la conformité à ce standard ont été produits par millions, les récepteurs de diffusion numérique par satellite étant les plus répandus. D’autres domaines d’application sont prévus, tels que les récepteurs numériques pour les systèmes câblés (CATV) ou les DVD, nouvelle génération de disques compacts capables de lire les flux binaires MPEG-2 à un débit supérieur ou variable et d'une plus longue durée que les CD actuels.

L’ITU-T a collaboré avec MPEG au développement des systèmes et de la vidéo MPEG-2 qui sont devenus les recommandations de l’ITU-T pour les liaisons vidéo large bande. Cela signifie que le même document physique répond à la fois à la norme ISO et aux recommandations ITU-T.

 

Autres fonctionnalités de MPEG-2

MPEG-2 gère une certain nombre de caractéristiques techniques dont les plus importantes sont l’adressage du contenu, l’encryptage et l’identification du droit d'auteur (copyright).

Le flux de transport des systèmes MPEG-2 est conçu de manière à acheminer un grand nombre de programmes télévisés. C’est pourquoi le flux comporte un marqueur qui signale le contenu des programmes au moyen de tables qui les décrivent et indiquent leur localisation. Cette spécification a été étendue, dans certains cas, afin d’identifier d’autres caractéristiques, telles que la nature des programmes, les grilles prévues, les intervalles entre les débuts d’émissions, etc.

La protection et la gestion des copyrights sont des questions importantes qu’un système de transport des informations audiovisuelles se doit de prendre en charge. Le système MPEG-2 définit deux flux spéciaux appelé ECM et EMM qui portent les données nécessaires pour décrypter l'information, si celle-ci a été encryptée. Le système d’encryptage n’est pas spécifié par MPEG.

Le système MPEG-2 permet la gestion des copyrights des œuvres audiovisuelles. Cela se fait au moyen d’un descripteur de copyright identifiant la société qui gère les droits suivi d'un champ donnant le numéro d’identification de l’œuvre. Ces informations permettent le contrôle des œuvres protégées, diffusées sur un réseau.

MPEG-2 fournit des technologies qui ouvrent la voie à une diversité d’applications pour la télévision, telles que les diffusions par satellite ou par câble, comportant, en moyenne, cinq fois plus de programmes que la diffusion classique, grâce à l'encodage MPEG-2 et à la modulation des débits.

 

Des standards en chantier

MPEG-4, la norme de communication multimédia

Le multimédia est l’un des mots les plus malmené de cette décennie. Avant de parler des normes de communication multimédia (MMC), il convient d'en donner une définition. C’est un moyen de communiquer les informations audiovisuelles qui possèdent les caractéristiques suivantes :

1. les sons et les images peuvent être naturels, de synthèse ou les deux à la fois ;

2. la transmission se fait en temps réel ou non ;

3. les données peuvent transiter entre différents lieux simultanément ;

4. l’utilisateur peut avoir une interaction sur les éléments individuels d’information présents dans la transmission ;

5. l’utilisateur peut présenter le résultat de son interaction sur le contenu, comme il lui convient ;

MPEG-4, actuellement à l’étude, est destiné à fournir la technologie correspondant à ces critères. Amorcé en juillet 1993, le calendrier des travaux prévoit une première version (working draft) livrée en novembre 1996, une seconde (Committee Draft), pour novembre 1997, et la version définitive de la norme internationale, pour novembre 1998.

Bien que le projet MPEG-4 ait démarré avant la grande vogue du multimédia, en particulier de l'Internet, il traite des sujets majeurs devenus d'actualité.

Indépendance des réseaux physiques. Malgré le mot net, Internet n’a rien à voir avec un réseau, du moins dans le sens classique d’infrastructure physique de télécommunications. Dès qu’une liaison est numérisée, on peut utiliser le Protocole Internet (IP) et au dessus de celui-ci, les protocoles TCP ou UDP, et d’autres protocoles d’Internet comme SMTP pour le courrier, HTTP pour le Web, FTP pour le transfert de fichiers, etc. Pour l’utilisateur final, peu importe la nature physique du réseau : paire torsadée, câble, fibre optique ou hertzien (naturellement cela importe au fournisseur d’accès à Internet et à l’opérateur de réseau). Déjà dans MPEG-1 et MPEG-2, l’indépendance des couches physiques était assurée ; dans MPEG-4, cela se confirme. Indépendance ne signifie pas que l’on fasse abstraction des particularités du réseau, la norme MPEG-4 devant être capable de les prendre en charge.

Interactivité. Le phénomène du Web a montré que la capacité de surfer sur le réseau et d’interagir avec le contenu est une caractéristique particulièrement recherchée par les utilisateurs. Le Web n’est pas capable de fournir des images animées et du son en temps réel. MPEG-4 doit pouvoir fournir l’image et le son avec les fonctionnalités d’interactivité que les utilisateurs ont pris l’habitude de trouver sur le Web. L’interactivité est possible au niveau d’objets visuels et de leurs formes, sans imposer le paradigme de la fenêtre vidéo. MPEG-4 fournit non seulement de multiples objets visuels de forme arbitraire mais aussi des canaux distincts pour le son associé aux objets. Une fois qu’il y a segmentation explicite des objets, les développeurs de contenu ont à leur disposition un champ bien plus vaste, pour produire des applications à des niveaux d’interactivité inaccessibles jusque là.

Téléchargement des terminaux. Si Internet est présent partout et si la bande passante utilisable est en constante expansion, pourquoi encombrerais-je mon ordinateur de mega-octets de logiciels dont je me sert rarement ? Ne serait-ce pas plus efficace de télécharger le logiciel dont j’ai besoin, à la demande ? Bien avant le battage que l’on fait maintenant autour du network computer, MPEG s’était rendu compte que, pour de nombreuses applications, un décodeur programmable contenant des outils de décodage téléchargés est une solution préférable. MPEG-4 gère donc le téléchargement des outils.

 

L’architecture de MPEG-4

Dans l’architecture MPEG-4, un ou plusieurs objets audiovisuels (AV) composant une scène, y compris leurs relations spatio-temporelles, sont transmis à un décodeur MPEG-4, comme indiqué en figure 1.

Figure 1. - Architecture générale de MPEG-4

À la source, les objets AV individuels sont codés (avec protection d'erreurs), multiplexés et transmis en aval. La transmission peut se faire via plusieurs canaux offrant différentes qualités de services. Au niveau du décodeur, les objets AV sont démultiplexés (les erreurs sont corrigées si les données sont protégées à la source) décompressés, recomposés et présentés à l’utilisateur final. Ce dernier peut, s’il le veut, modifier la présentation, en changeant la composition ou la présentation. Les données d’interaction peuvent être traitées localement ou transmises au codeur, pour être prises en compte, en amont.

Avant transmission des objets AV, la source et le décodeur doivent échanger des informations de configuration. La source détermine les classes d’algorithmes, d’outils et d’autres objets nécessaires au décodeur pour traiter les objets AV. Les définitions de toutes les classes manquantes lui sont transmises et viennent compléter ou supplanter les définitions de classes existantes, installées ou pré-définies. Pendant l’exécution des tâches, le décodeur peut avoir besoin de nouvelles définitions de classes pour répondre aux interactions de l’utilisateur. Il demande alors à la source de télécharger des définitions de classes spécifiques supplémentaires, en parallèle avec les données transmises.

La figure 2 montre le fonctionnement du codeur décodeur MPEG-4 du point de vue des blocs fonctionnels.

Figure 2 - Structure d’un terminal MPEG-4

 

Les données représentant des objets AV arrivent via la couche de transmission ou de stockage et sont démultiplexées, traitées (analysées et décodées) par les décodeurs concernés. Les objets AV sont décodés et la scène est recomposée afin d’être affichée sur le terminal.

 

Multiplexeur

Le multiplexeur est un bloc fonctionnel particulièrement important. MPEG-4 définit un multiplexage à deux couches. La première couche (MUX1) offre un intercalage solide des données. La couche de protection qui l’accompagne contient des outils assurant différents niveaux de qualité de services (QoS). Exigée par MPEG-4, la gestion dynamique des canaux logiques contenus dans le flux de données multiplexées est prise en compte dans la deuxième couche de multiplexage (Mux2). Elle fournit un moyen souple d’imbriquer des données et un minimum d’outils pour identifier les unités d’accès contenues dans les flux de données. Elle n’est pas très résistante aux erreurs, mais elle peut être doublée d’une couche Mux1 robuste. Le multiplexage à deux couches est présenté en figure 3.

Figure 3 - Multiplexage à deux couches

 

Mux2 prend en charge la fonction d’association de tous les flux de données élémentaires en un flux de données unique, en sortie, et définit les fonctionnalités nécessaires pour rétablir une base de temps du système, synchroniser les multiples flux de données compressées pour le décodage, imbriquer les multiples flux compressés en un seul, initialiser et gérer en permanence les tampons du décodeur.

 

La Vidéo

L’approche adoptée par MPEG-4 repose sur une représentation des données visuelles basée sur le contenu. A l’inverse des standards MPEG-1 et MPEG-2, où les données vidéo sont rectangulaires, de taille fixe et affichées à intervalle fixes, MPEG-4 considère qu’une scène est une composition d’objets vidéo (VO) possédant des propriétés intrinsèques telles que la forme, l’animation et la texture. En plus du concept d’objet vidéo, les concepts de couche d’objets vidéo (VOL) et de plan d’objets vidéo (VOP) sont introduits. Le VOP représente un VO à un moment donné. VO et VOP correspondent à des entités dans le flux binaire auxquelles un utilisateur peut accéder et qu’il peut manipuler, au moyen des opérations couper et coller. Cette représentation, basée sur le contenu, est fondamentale pour l’interactivité avec les objets dans diverses applications multimédias ; l’utilisateur peut accéder à ces objets arbitrairement formés dans la scène pour les manipuler.

Les objets vidéo surmontent les limites bien connues des algorithmes d’encodage vidéo quand les images, fixes ou animées, sont représentées par des matrices rectangulaires et compressées à ce format. Dans MP@ML de MPEG-2, la vidéo est représentée par des images animées de chacune 720 x 576 pixels. Ce type de représentation empêche de distinguer les différents éléments ou objets composant l’image. Néanmoins, pour les applications qui ne requièrent pas d’interactivité au niveau du contenu et de l’objet, ce type de représentation et d’encodage s’est révélé très efficace. Si, par exemple, on veut plus d’informations sur un personnage particulier dans une scène, il faut la représenter en parties distinctes que l’on appelle objets. Un objet n’est pas nécessairement un personnage, cela peut être un premier plan, un fond de scène ou une partie de l’image contenant une publicité.

Les principales fonctionnalités prises en charge par le standard vidéo MPEG-4, concernent le choix des échelles de temps et d’espace et la résistance aux erreurs au niveau VOL et VOP. Le choix d’échelles est une caractéristique importante lorsque les mêmes objets audiovisuels sont fournis, par plusieurs canaux de différents débits, à des récepteurs ayant des capacités de traitement différentes ; ou quand ces objets doivent répondre à des exigences spécifiques des utilisateurs. La résistance aux erreurs est également une caractéristique déterminante, car MPEG-4 devrait s'appliquer aux communications transitant sur les canaux radio.

 

Le son

Le standard AAC (partie 7 de MPEG-2) a ramené à 64 kbit/s la transparence d’un canal musique que le standard Audio MPEG-1 avait placé à 128 kbit/s. La norme Audio MPEG-4 apportera des performances intéressantes à des débits encore inférieurs à 64 kbit/s. AAC fournit donc déjà une partie du standard Audio MPEG-4.

MPEG-4 normalise le codage audio à des débits allant de 2 kbit/s à 64 kbit/s. Le standard AAC prévoira la compression à des débits de 64 kbit/s et plus. En outre, certaines fonctionnalités faciliteront une grande diversité d’applications, de la voix artificielle de basse qualité au son multi-canal de haute qualité. Parmi ces fonctionnalités, il y a le contrôle de la vitesse, le changement de tonalité, la résistance aux erreurs, et la variabilité des échelles concernant le débit binaire, la complexité, etc. (...)

 

Codage SNHC

Jusqu’à présent, les contenus de synthèse étaient considérés comme des sous-ensembles de contenus naturels. Ainsi, les graphiques étaient transmis en tant qu’images. Il n’existe donc pas de standard particulier régissant la représentation et la compression de ce type de données.

Le codage SNHC (Synthetic-Natural Hybrid Coding) vise à traiter les contenus de synthèse comme un nouveau type de données du point de vue de la transmission, et à normaliser leur représentation efficacement. Comme il s’agit d’une première tentative de normalisation, à mener dans le court délai qui nous sépare de novembre 1998, MPEG-4 conduira des études préliminaires et les besoins qui se feront jour seront traités dans les phases ultérieures de MPEG-4 ou par d’autres standards.

On s’est d’abord intéressé à l’extension des modèles disponibles en VRML. Dans ce langage, il est relativement facile de créer des modèles d’objets inanimés (table, chaise, etc.). Mais il est tout à fait impossible de créer un bon modèle de visage ou de corps humain. Pour la prochaine génération de communication multimédia, c’est donc une fonctionnalité très importante qui manque à VRML.

Le groupe MPEG-4 travaille d’abord à développer la capacité de créer des représentations et des modèles de visages et de corps humains. Il œuvre sur un ensemble de paramètres normalisés requis pour la modélisation faciale et pour la synchronisation des expressions faciales, des mouvements des lèvres et du son. Cela, ajouté à VRML ou à un langage de ce type, permettra de créer des scènes réalistes. (...)

 

Composition et rendu

 

Pour composer les objets audiovisuel (AV) dans la scène, leurs relations spatio-temporelles doivent être transmises. Les objets AV comportent à la fois une extension spatiale et une extension temporelle. D’un point de vue temporel, tous les objets AV ont une dimension unique, le temps (T). Dans l’espace, chaque objet AV appartient à un système de coordonnées locales dans lequel il a une échelle et une localisation spatio-temporelle fixe. Le système de coordonnées locales sert à manipuler l’objet AV dans le temps et dans l’espace comme illustré en figure 4.

Figure 4 - Composition de scène et présentation des objets AV

 

La transformation des coordonnées qui localise un objet AV dans la scène ne fait pas partie de l’objet AV mais plutôt de la scène. C’est pourquoi la description doit être transmise dans un flux séparé. Il s’agit d’une caractéristique importante de l’édition du flux des données ; une des fonctionnalités basées sur le contenu, dans MPEG-4.

 

Implémentation logicielle du standard

L’utilisation répandue de MPEG-1 et MPEG-2 se faisait déjà par des programmes de simulation en langage C pour l’implémentation de modèles de simulation de MPEG-1 et de modèles de test de MPEG-2. Les chapitres 5 des deux standards donnent des implémentations logicielles des encodeurs et décodeurs. Dans MPEG-4, une innovation importante intervient avec la définition d’une implémentation de référence du modèle de vérification (VM) système, vidéo, audio MPEG-4, écrite en C ou en C++.

 

MPEG-7

Les standards MPEG-1 et MPEG-2 ont été conçus et largement utilisés pour encoder un contenu clairement identifié (film, documentaire, etc.). Dans l’actuelle utilisation de MPEG-2, ledit service information décrit chaque élément de contenu selon des catégories bien définies, de manière à permettre la recherche par un utilisateur.

Cette solution sert l’objectif pour lequel elle a été conçue : trouver une information d’intérêt dans un nombre de programmes important qu’il est possible de gérer. Mais la norme serait difficilement applicable à la recherche d’un contenu sur le Web, par exemple. C’est pourtant le paradigme, sinon l’environnement, dans lequel MPEG-4 sera le plus utilisé.

Le manque de technologies de recherche appropriées est une des raisons pour lesquelles, malgré la croissance explosive du Web, beaucoup s'interrogent sur sa valeur économique. Le problème est exacerbé par le fait que HTML fut conçu comme un langage pour encoder les textes et les liens, sans aucune considération pour la fonction de recherche d’informations. La recherche d’informations est toutefois impossible pour les contenus audiovisuels car il n’en existe aucune description généralement reconnue. Il est impossible de procéder à une recherche efficace sur le Web pour trouver par exemple la moto de Terminator II. Dans certains cas, il existe des solutions. Les bases de données multimédias que l’on trouve aujourd’hui sur le marché permettent de chercher des images à l’aide de caractéristiques telles que la couleur, la texture et diverses informations sur la forme des objets de l’image.

Il est clair que cette limitation doit être évitée dans MPEG-4. Un nouveau projet MPEG-7 vient de démarrer, dénommé : Interface de description des contenus multimédia, qui étendra les capacités de recherche limitées, aujourd’hui, à d’autres types d’informations. Autrement dit, MPEG-7 concevra un standard pour décrire divers types d’informations multimédias. Cette description sera associée au contenu lui-même, afin de permettre une recherche rapide et efficace.

Parmi ces types d’informations on recense : des images fixes, des graphiques, des sons, des images en mouvement ; et des informations sur la manière dont ces éléments sont associés dans une présentation multimédia (scénario, composition). Ces formats généraux peuvent être ramenés à des caractéristiques particulières telles que des expressions faciales, des caractéristiques personnelles, etc.

La description peut être jointe à tout type de matériel multimédia, quel que soit le format de la représentation. Tout matériel enregistré qui possédera ce type d’information pourra être recherché et repéré. Même si la description MPEG-7 ne dépend pas de la représentation codée du matériel, d’une certaine manière, les standards se basent sur MPEG-4 ; il fournit les moyens d’encoder le matériel audiovisuel, comme des objets ayant certaines relations dans l’espace (sur l’écran) et dans le temps.

Les descriptions standard de plusieurs types d’information peuvent exister à différents niveaux sémantiques. Prenons l’exemple d’un matériel visuel : à un niveau d’abstraction bas, on peut décrire la forme, les dimensions, la texture, la couleur et la composition. Le niveau le plus élevé donne des informations sémantiques : C’est une scène avec un chien noir à gauche et un ballon bleu qui tombe à droite - codées de manière efficace. Il peut aussi exister des niveaux intermédiaires.

Hormis la description du contenu, il peut également y avoir d’autres informations sur les données multimédias :

 

• la forme : le schéma de codage (voir JPEG), ou la taille. Cette information aide à déterminer si le matériel peut être lu par l’utilisateur ;

• conditions d’accès au matériel, copyright, prix ;

• liaison avec d’autres matériels correspondants.

Pour exploiter pleinement les possibilités d’une telle description, une extraction automatique des caractéristiques sera extrêmement utile. L’algorithme correspondant à cette caractéristique sortirait toutefois du champ du standard. De même, les moteurs de recherche ne seront pas spécifiés par MPEG-7. Le schéma ci-dessous indique le champ spécifique couvert par le standard MPEG-7.