À la recherche des images et des sons
Leonardo Chiariglione, Président du groupe MPEG
Depuis la plus haute antiquité, poussés par le besoin de transmettre linformation, les hommes ont cherché à surmonter les barrières du temps et de lespace en inventant toutes sortes de techniques. Des formes les plus anciennes de communication visuelle telles que le dessin, la peinture et lécriture, on est passé à la photographie, au téléphone, à la radio et à la télévision, pour parvenir aux dernières inventions audiovisuelles que sont le disque compact, les jeux vidéo et le World Wide Web.
Très récemment encore, les technologies utilisées pour transmettre le son et limage avaient ceci de particulier quelles avaient très peu de choses en commun. Limprimerie typographique fut certainement inspirée de la gravure sur bois, mais il fallut un Gutenberg pour linventer, et la première était certes plus complexe que la seconde. La cinématographie avait bel et bien besoin de la photographie comme point de départ, mais il fallut lingéniosité des frères Lumière pour passer de limage fixe aux images animées. De même, le son gravé sur disque en vinyle utilise des principes très différents de ceux de la cinématographie ou du disque laser.
À chaque technologie a correspondu la formation de communautés d'affaires distinctes. Ainsi, l'exploitation des radios F.M. requiert un réseau émetteur qui aurait très bien pu être pris en charge par le réseau téléphonique, mais la plupart des pays ont préféré développer des réseaux ad hoc.
Les technologies de la transmission du son et de limage, dabord physiques puis électriques et magnétiques, commencèrent par la télégraphie et se poursuivirent par le téléphone, la radio, lenregistrement magnétique puis la télévision. Ces nouvelles technologies offraient de nouveaux moyens de représenter des données audiovisuelles indépendantes du mode de transmission : une chanson pouvait être transmise par la radio ou enregistrée sur une cassette, cétait toujours la même chanson. Dans certains domaines, on parvenait à une certaine uniformité des matériels : le même téléphone, la même radio et le même magnétophone pouvaient être utilisés dans le monde entier. Dans dautres domaines, cela ne se pouvait pas : il en est ainsi des téléviseurs et des magnétoscopes qui ont des standards différents selon les pays.
Les technologies numériques ajoutaient encore une distance entre la couche de représentation de linformation et lenregistrement physique ou la couche de transmission. Si linformation est présentée sous forme binaire, ce qui importe nest plus ni le disque ou la bande magnétique sur lesquels sont enregistrées les données, ni lécran ou le haut-parleur qui restituent limage ou le son, mais le fichier. Livré à lui-même, le processus de conversion de lanalogique au numérique aurait pu conduire aux mêmes clivages entre systèmes hérités du passé analogique, rejetant toute possibilité dinteropérabilité.
Il revient à MPEG le mérite davoir créé un environnement unique qui prévoyait, dans des conditions techniques satisfaisantes, le passage de lanalogique au numérique pour la transmission du son et de limage, tout en maximisant linteropérabilité entre les différentes communautés dutilisateurs.
MPEG-1 et MPEG-2 sont les deux premières normes produites par MPEG. Ils offrent aux services existants de radio et de télévision des équivalents numériques économiques. Le standard MPEG-4, encore en phase de développement, propose une extension du paradigme du Web permettant dintégrer en temps réel les supports son et image, naturels et synthétiques. Le standard MPEG-7, dont le développement vient de commencer, fournira une représentation des sons et des images permettant la recherche dun contenu.
Lenvironnement normatif du monde analogique
Pour être sûr quun message est correctement interprété à lautre bout dun canal de transmission, il faut sentendre sur la sémantique. En dautres termes, il faut des normes. La voix fut dabord utilisée dans le système téléphonique et, comme la téléphonie donnait aux usagers la possibilité de parler à tout moment, à nimporte qui et nimporte où dans le monde, on aboutit à la normalisation de la bande passante à 3,1 kHz (de 0,3 kHz à 3,4 kHz), la fonction de transfert étant dictée par lexistence du microphone à cartouche de carbone. Lorsquil fut possible de communiquer par radio, on utilisa une plus large bande passante sans considération aucune pour ce que la téléphonie avait déjà apporté. Les fréquences radio utilisées à lorigine (les dites ondes courtes et moyennes) ayant une large couverture, la normalisation internationale du système de radiodiffusion ne tarda pas à se faire. Cette approche clairvoyante fut malheureusement abandonnée au cours des étapes suivantes. La télévision était un système dans lequel les fréquences radio utilisées contraignaient la diffusion télévisée à rester locale : loccasion rêvée de définir des systèmes de télévision nationaux. Quelque chose de semblable sest passé pour la télévision câblée. Ces réseaux ayant un dimension encore plus locale, leurs spécifications avaient, entre elles, un degré de variation encore plus grand jusquà être, dans certains cas, spécifiques à un seul câblo-opérateur. Lenregistrement des cassettes vidéo était laffaire de fabricants, en concurrence sur le marché, qui inventèrent des gammes de matériels incompatibles entre elles.
En résumé, chaque pays ou chaque entreprise qui souhaitait définir un système audiovisuel pour une application particulière se contentait de faire des choix technologiques indépendants. Si lapplication était non réglementée, comme cétait le cas du magnétoscope, on pouvait trouver plusieurs standards sur le marché. Si lapplication ou le service était réglementé, on trouvait une seule solution, comme en téléphonie, ou des solutions différentes selon le pays, comme pour la télévision. Dans tous les cas, linteropérabilité des différents services ou applications était rarement, sinon jamais, envisagée dans le choix des paramètres des systèmes.
Cette liberté ne se limita pas à lanalogique. Lorsque les technologies numériques firent leur apparition pour le codage MIC (modulation par impulsions codées) de la voix, une seule fréquence déchantillonnage (8 kHz) fut utilisée, mais le Canada, les Etats-Unis et le Japon choisirent une quantification logarithmique de 7 bits (dite loi µ) tandis que le reste du monde (lEurope à lépoque) retenait 8 bits (dite loi A). Le codage MIC de la musique se faisait aux fréquences déchantillonnage de 32 kHz et 48 kHz pour lUnion internationale des télécommunications (IUT), mais Philips et Sony utilisaient 44,1 kHz pour leurs disques compacts et Microsoft avait suivi cette valeur, létendant aux sous-multiples 22,5 kHz et 11,25 kHz pour des applications moins exigeantes en qualité.
Les premières tentatives de normalisation des données audiovisuelles numériques
Dès la fin des années 1980, les investissements réalisés par les différentes communautés daffaires et techniques avaient déjà convaincu de nombreux chercheurs que les techniques de traitement du signal disponibles pouvaient être étendues afin de préserver la qualité originelle des signaux vidéo numériques après un facteur de compression de 15 à 20, et denviron 1/3 de ces valeurs pour les signaux audio (musique). Les techniques de modulation utilisables pour la majorité des supports de débits analogiques existants était capables de compresser environ 4 bit/s/Hz. Que cette conviction eût du mal à passer les portes des laboratoires était dû à certaines causes quil serait trop long détudier ici.
En associant la compression et la modulation du signal, on obtient une meilleure exploitation de la bande passante par rapport au système de bande analogique existant. En fait, en numérisant les 5 Mhz utilisés par le signal analogique de la télévision à laide des dernières techniques de modulation, on obtient un canal de 20 Mbit/s (5 Mhz x 4 bit/s/Hz). En compressant un signal TV denviron 166 Mbit/s à laide de techniques relativement simples, on obtient un flux denviron 10 Mbit/s. Lapplication directe des technologies numériques permettaient de doubler le nombre de programmes de télévision et dobtenir une meilleure qualité sans changer la bande passante. (...)
À la fin des années quatre-vingt, furent lancés des projets largement indépendants les uns des autres ; certains exploraient les extensions numériques de systèmes analogiques existants, dautres tentaient de définir des systèmes totalement nouveaux. Le groupe MPEG sest constitué dans un double but : dabord trouver une méthode pour convaincre les industries de lavantage technologique d'une solution commune pour passer ensemble au numérique ; ensuite et surtout, définir une syntaxe unique capable de représenter linformation audiovisuelle et de devenir la plate-forme commune qui permettra linteropérabilité entre les applications.
Les débuts de MPEG
Le Moving Picture Coding Expert Group (MPEG) est né en 1988 dans le cadre du JTC 1, Comité technique conjoint ISO/IEC sur la technologie de linformation, avec pour mission le développement de normes pour la représentation codée des images et du son en vue de leur enregistrement et de leur extraction sur DSM (Digital Storage Media). Il devint le Groupe de travail 11 (WG 11) du JTC 1/SC 29, en novembre 1991.
Le groupe MPEG commença par le codage des images animées pour lenregistrement sur support numérique (DSM). Il fut évident, dès le début, que les fonctionnalités requises pour lenregistrement englobaient en réalité les fonctionnalités des autres domaines dapplications. Cest pourquoi, la spécification DSM fut abandonnée en faveur du terme générique, qui signifie, indépendant de lapplication. Quelques mois après son établissement, le titre codage des images animées fut complété par : et du son associé. En effet, on se rendit compte que même si, dans lindustrie comme dans les organismes de normalisation, pour des raisons historiques, le son et limage étaient traités par des groupes souvent distincts, les utilisateurs avaient besoin dun ensemble audiovisuel intégré. Il était donc primordial que lexpression et leur association fût ajoutée au titre de la mission afin de signifier que le son et limage codés ont besoin dune infrastructure capable de faire transiter à la fois les signaux audio et vidéo et leurs relations temporelles.
La normalisation était à lépoque un processus lent, survenant dans de nombreux cas a posteriori, cest-à-dire quelle avalisait une solution déjà adoptée par le marché. Au lieu de cela, lobjectif de MPEG fut de faire intervenir la normalisation a priori, anticipant les besoins du marché avant que les industries ne soient engagées trop avant dans dimportants investissements.
Une réunion MPEG est un ensemble très complexe de groupes en interaction. En plus des trois sous-groupes Audio, Vidéo et Systèmes, chargés de développer des standards audio, vidéo et multiplexage, trois autres sous-groupes ont un rôle de conseil important : Spécifications, (à savoir, ce que la norme doit faire) Études de limplémentation et Essais de qualité. Le premier doit développer lensemble des fonctionnalités quune norme est sensée implémenter ; le deuxième est chargé dévaluer les possibilités dimplémentation des solutions logicielles et/ou matérielles au moment prévu de lapplication de la norme ; le troisième est chargé dévaluer les performances des solutions proposées et de la norme dans sa version finale. Le groupe DSM est chargé des relations entre la source dinformations et le terminal qui y accède, y compris la fonction du réseau qui les relie.
Comme MPEG entend procéder à la normalisation en amont, les entreprises et les organisations doivent pouvoir soumettre leurs propres propositions. Des appels à proposition ont été lancés dans les phases initiales du développement des standards MPEG-1, MPEG-2, et MPEG-4 et on vise a suivre la même approche pour la norme MPEG-7.
Visite guidée de MPEG-1
Le premier standard développé par le groupe, MPEG-1, visait le codage du signal audiovisuel à un débit de 1,5 Mbit/s. Ce standard était motivé par la perspective denregistrer des signaux vidéo sur disque compact avec une qualité comparable à celle des cassettes VHS.
En 1988, lencodage vidéo à des débits aussi faibles était devenu possible grâce aux dizaines dannées de recherche sur les algorithmes dencodage vidéo. Ces algorithmes durent toutefois être appliqués à des images sous-échantillonnées - une seule trame par image et seulement la moitié des échantillons en ligne par rapport à la bande passante utilisée par la télévision - pour montrer leur efficacité. De même, le codage du son, par opposition à la voix, reposait sur un travail de recherche et de développement qui permettait une réduction de 1/6 du débit MIC, qui était de 256 kbit/s pour une source stéréo, avec transparence virtuelle du processus dencodage. Les flux audio et vidéo codés, partageant une base temps commune, sont associés en un seul flux par la couche système du standard MPEG-1.
Le standard MPEG-1, ou ISO/IEC 11172, comporte 5 parties. Les trois premiers sont Systèmes, Vidéo et Audio, dans cet ordre, les deux derniers étant :
Essais de conformité, qui spécifie la méthodologie permettant de vérifier les déclarations de conformité au standard par les constructeurs de matériels et les producteurs de flux binaires ;
Logiciel de simulation, une implémentation en langage C du standard MPEG-1 (codeur et décodeur).
Les implémentations de MPEG-1 sont multiples, des applications logicielles tournant sur PC en temps réel, aux monocartes pour PC, en passant par le DAB, les CD Vidéo, etc. Ce dernier produit a remporté un grand succès sur certains marchés : en Chine, 2 millions de décodeurs de vidéo disques ont été vendus en 1996 et ce chiffre devrait doubler en 1997.
Visite guidée de MPEG-2
Le deuxième standard développé par MPEG, appelé MPEG-2, a pour titre Codage générique des images animées et du son associés. Les travaux sur ce standard ont commencé dès juillet 1990 :
à lépoque, les fondements techniques de MPEG-1 étaient déjà fixés ;
les extrapolations des résultats de MPEG-1 promettaient une qualité comparable à la télévision composite, à environ 4 fois le débit de transmission de MPEG-1 ;
on prévoyait que la technologie VLSI permettrait la mise en uvre dun décodeur vidéo qui traiterait des images pleines à des débits binaires allant jusquà 10 Mbit/s.
Contrairement à MPEG-1, qui était essentiellement une normepour lenregistrement à débit faible dimages animées sur disque, le plus grand nombre dapplications de MPEG-2 conduisit le groupe MPEG à adopter une approche trousse à outils. Plusieurs ensembles doutils de codage - appelés profiles - ont été conçus et normalisés pour répondre à différents besoins. Chaque profile comporte généralement plusieurs niveaux pour chaque paramètre (par exemple la taille des images).
MPEG-2 Audio est une extension compatible de MPEG-1 Audio qui traite les transmissions multi-canaux. Ainsi, un décodeur MPEG-1 peut décoder deux canaux du flux MPEG-2 et un décodeur MPEG-2 Audio peut décoder un flux audio MPEG-1 aussi bien quun décodeur Audio MPEG-1.
Comme pour MPEG-1, la partie système du standard MPEG-2 traite lassociation dun ou de plusieurs flux élémentaires audio et vidéo ainsi que dautres données en flux simples ou multiples convenant à lenregistrement ou à la transmission. Deux de ces associations sont définies : flux des programmes et flux de transport.
Autres parties de MPEG-2
Le standard MPEG-2, ou ISO/IEC 13818, est aussi composé de plusieures parties. On retrouve dans les cinq premiers les mêmes fonctions que dans MPEG-1. MPEG-2 comprend trois autres parties :
Partie 6, ou Protocole DSM-CC (Digital Storage Media Command and Control). Il sagit dun protocole pour permettre le dialogue entre un terminal MPEG-2 et un serveur à travers des reseaux de nature différente
Partie 7, ou codage audio AAC (Advanced Audio Coding). Il sagit dun algorithme de codage non compatible à lenvers qui permet de réduire à moitié le débit necessaire pour produire la même qualité quavec MPEG-2 compatible (partie 3).
Partie 9, ou interface RTI (Real Time Interface). Il sagit de la spécification du jitter toléré à lentrée dun décodeur MPEG-2.
MPEG-2 a rencontré beaucoup de succès. Des matériels qui revendiquent la conformité à ce standard ont été produits par millions, les récepteurs de diffusion numérique par satellite étant les plus répandus. Dautres domaines dapplication sont prévus, tels que les récepteurs numériques pour les systèmes câblés (CATV) ou les DVD, nouvelle génération de disques compacts capables de lire les flux binaires MPEG-2 à un débit supérieur ou variable et d'une plus longue durée que les CD actuels.
LITU-T a collaboré avec MPEG au développement des systèmes et de la vidéo MPEG-2 qui sont devenus les recommandations de lITU-T pour les liaisons vidéo large bande. Cela signifie que le même document physique répond à la fois à la norme ISO et aux recommandations ITU-T.
Autres fonctionnalités de MPEG-2
MPEG-2 gère une certain nombre de caractéristiques techniques dont les plus importantes sont ladressage du contenu, lencryptage et lidentification du droit d'auteur (copyright).
Le flux de transport des systèmes MPEG-2 est conçu de manière à acheminer un grand nombre de programmes télévisés. Cest pourquoi le flux comporte un marqueur qui signale le contenu des programmes au moyen de tables qui les décrivent et indiquent leur localisation. Cette spécification a été étendue, dans certains cas, afin didentifier dautres caractéristiques, telles que la nature des programmes, les grilles prévues, les intervalles entre les débuts démissions, etc.
La protection et la gestion des copyrights sont des questions importantes quun système de transport des informations audiovisuelles se doit de prendre en charge. Le système MPEG-2 définit deux flux spéciaux appelé ECM et EMM qui portent les données nécessaires pour décrypter l'information, si celle-ci a été encryptée. Le système dencryptage nest pas spécifié par MPEG.
Le système MPEG-2 permet la gestion des copyrights des uvres audiovisuelles. Cela se fait au moyen dun descripteur de copyright identifiant la société qui gère les droits suivi d'un champ donnant le numéro didentification de luvre. Ces informations permettent le contrôle des uvres protégées, diffusées sur un réseau.
MPEG-2 fournit des technologies qui ouvrent la voie à une diversité dapplications pour la télévision, telles que les diffusions par satellite ou par câble, comportant, en moyenne, cinq fois plus de programmes que la diffusion classique, grâce à l'encodage MPEG-2 et à la modulation des débits.
Des standards en chantier
MPEG-4, la norme de communication multimédia
Le multimédia est lun des mots les plus malmené de cette décennie. Avant de parler des normes de communication multimédia (MMC), il convient d'en donner une définition. Cest un moyen de communiquer les informations audiovisuelles qui possèdent les caractéristiques suivantes :
1. les sons et les images peuvent être naturels, de synthèse ou les deux à la fois ;
2. la transmission se fait en temps réel ou non ;
3. les données peuvent transiter entre différents lieux simultanément ;
4. lutilisateur peut avoir une interaction sur les éléments individuels dinformation présents dans la transmission ;
5. lutilisateur peut présenter le résultat de son interaction sur le contenu, comme il lui convient ;
MPEG-4, actuellement à létude, est destiné à fournir la technologie correspondant à ces critères. Amorcé en juillet 1993, le calendrier des travaux prévoit une première version (working draft) livrée en novembre 1996, une seconde (Committee Draft), pour novembre 1997, et la version définitive de la norme internationale, pour novembre 1998.
Bien que le projet MPEG-4 ait démarré avant la grande vogue du multimédia, en particulier de l'Internet, il traite des sujets majeurs devenus d'actualité.
Indépendance des réseaux physiques. Malgré le mot net, Internet na rien à voir avec un réseau, du moins dans le sens classique dinfrastructure physique de télécommunications. Dès quune liaison est numérisée, on peut utiliser le Protocole Internet (IP) et au dessus de celui-ci, les protocoles TCP ou UDP, et dautres protocoles dInternet comme SMTP pour le courrier, HTTP pour le Web, FTP pour le transfert de fichiers, etc. Pour lutilisateur final, peu importe la nature physique du réseau : paire torsadée, câble, fibre optique ou hertzien (naturellement cela importe au fournisseur daccès à Internet et à lopérateur de réseau). Déjà dans MPEG-1 et MPEG-2, lindépendance des couches physiques était assurée ; dans MPEG-4, cela se confirme. Indépendance ne signifie pas que lon fasse abstraction des particularités du réseau, la norme MPEG-4 devant être capable de les prendre en charge.
Interactivité. Le phénomène du Web a montré que la capacité de surfer sur le réseau et dinteragir avec le contenu est une caractéristique particulièrement recherchée par les utilisateurs. Le Web nest pas capable de fournir des images animées et du son en temps réel. MPEG-4 doit pouvoir fournir limage et le son avec les fonctionnalités dinteractivité que les utilisateurs ont pris lhabitude de trouver sur le Web. Linteractivité est possible au niveau dobjets visuels et de leurs formes, sans imposer le paradigme de la fenêtre vidéo. MPEG-4 fournit non seulement de multiples objets visuels de forme arbitraire mais aussi des canaux distincts pour le son associé aux objets. Une fois quil y a segmentation explicite des objets, les développeurs de contenu ont à leur disposition un champ bien plus vaste, pour produire des applications à des niveaux dinteractivité inaccessibles jusque là.
Téléchargement des terminaux. Si Internet est présent partout et si la bande passante utilisable est en constante expansion, pourquoi encombrerais-je mon ordinateur de mega-octets de logiciels dont je me sert rarement ? Ne serait-ce pas plus efficace de télécharger le logiciel dont jai besoin, à la demande ? Bien avant le battage que lon fait maintenant autour du network computer, MPEG sétait rendu compte que, pour de nombreuses applications, un décodeur programmable contenant des outils de décodage téléchargés est une solution préférable. MPEG-4 gère donc le téléchargement des outils.
Larchitecture de MPEG-4
Dans larchitecture MPEG-4, un ou plusieurs objets audiovisuels (AV) composant une scène, y compris leurs relations spatio-temporelles, sont transmis à un décodeur MPEG-4, comme indiqué en figure 1.
Figure 1. - Architecture générale de MPEG-4
À la source, les objets AV individuels sont codés (avec protection d'erreurs), multiplexés et transmis en aval. La transmission peut se faire via plusieurs canaux offrant différentes qualités de services. Au niveau du décodeur, les objets AV sont démultiplexés (les erreurs sont corrigées si les données sont protégées à la source) décompressés, recomposés et présentés à lutilisateur final. Ce dernier peut, sil le veut, modifier la présentation, en changeant la composition ou la présentation. Les données dinteraction peuvent être traitées localement ou transmises au codeur, pour être prises en compte, en amont.
Avant transmission des objets AV, la source et le décodeur doivent échanger des informations de configuration. La source détermine les classes dalgorithmes, doutils et dautres objets nécessaires au décodeur pour traiter les objets AV. Les définitions de toutes les classes manquantes lui sont transmises et viennent compléter ou supplanter les définitions de classes existantes, installées ou pré-définies. Pendant lexécution des tâches, le décodeur peut avoir besoin de nouvelles définitions de classes pour répondre aux interactions de lutilisateur. Il demande alors à la source de télécharger des définitions de classes spécifiques supplémentaires, en parallèle avec les données transmises.
La figure 2 montre le fonctionnement du codeur décodeur MPEG-4 du point de vue des blocs fonctionnels.
Figure 2 - Structure dun terminal MPEG-4
Les données représentant des objets AV arrivent via la couche de transmission ou de stockage et sont démultiplexées, traitées (analysées et décodées) par les décodeurs concernés. Les objets AV sont décodés et la scène est recomposée afin dêtre affichée sur le terminal.
Multiplexeur
Le multiplexeur est un bloc fonctionnel particulièrement important. MPEG-4 définit un multiplexage à deux couches. La première couche (MUX1) offre un intercalage solide des données. La couche de protection qui laccompagne contient des outils assurant différents niveaux de qualité de services (QoS). Exigée par MPEG-4, la gestion dynamique des canaux logiques contenus dans le flux de données multiplexées est prise en compte dans la deuxième couche de multiplexage (Mux2). Elle fournit un moyen souple dimbriquer des données et un minimum doutils pour identifier les unités daccès contenues dans les flux de données. Elle nest pas très résistante aux erreurs, mais elle peut être doublée dune couche Mux1 robuste. Le multiplexage à deux couches est présenté en figure 3.
Figure 3 - Multiplexage à deux couches
Mux2 prend en charge la fonction dassociation de tous les flux de données élémentaires en un flux de données unique, en sortie, et définit les fonctionnalités nécessaires pour rétablir une base de temps du système, synchroniser les multiples flux de données compressées pour le décodage, imbriquer les multiples flux compressés en un seul, initialiser et gérer en permanence les tampons du décodeur.
La Vidéo
Lapproche adoptée par MPEG-4 repose sur une représentation des données visuelles basée sur le contenu. A linverse des standards MPEG-1 et MPEG-2, où les données vidéo sont rectangulaires, de taille fixe et affichées à intervalle fixes, MPEG-4 considère quune scène est une composition dobjets vidéo (VO) possédant des propriétés intrinsèques telles que la forme, lanimation et la texture. En plus du concept dobjet vidéo, les concepts de couche dobjets vidéo (VOL) et de plan dobjets vidéo (VOP) sont introduits. Le VOP représente un VO à un moment donné. VO et VOP correspondent à des entités dans le flux binaire auxquelles un utilisateur peut accéder et quil peut manipuler, au moyen des opérations couper et coller. Cette représentation, basée sur le contenu, est fondamentale pour linteractivité avec les objets dans diverses applications multimédias ; lutilisateur peut accéder à ces objets arbitrairement formés dans la scène pour les manipuler.
Les objets vidéo surmontent les limites bien connues des algorithmes dencodage vidéo quand les images, fixes ou animées, sont représentées par des matrices rectangulaires et compressées à ce format. Dans MP@ML de MPEG-2, la vidéo est représentée par des images animées de chacune 720 x 576 pixels. Ce type de représentation empêche de distinguer les différents éléments ou objets composant limage. Néanmoins, pour les applications qui ne requièrent pas dinteractivité au niveau du contenu et de lobjet, ce type de représentation et dencodage sest révélé très efficace. Si, par exemple, on veut plus dinformations sur un personnage particulier dans une scène, il faut la représenter en parties distinctes que lon appelle objets. Un objet nest pas nécessairement un personnage, cela peut être un premier plan, un fond de scène ou une partie de limage contenant une publicité.
Les principales fonctionnalités prises en charge par le standard vidéo MPEG-4, concernent le choix des échelles de temps et despace et la résistance aux erreurs au niveau VOL et VOP. Le choix déchelles est une caractéristique importante lorsque les mêmes objets audiovisuels sont fournis, par plusieurs canaux de différents débits, à des récepteurs ayant des capacités de traitement différentes ; ou quand ces objets doivent répondre à des exigences spécifiques des utilisateurs. La résistance aux erreurs est également une caractéristique déterminante, car MPEG-4 devrait s'appliquer aux communications transitant sur les canaux radio.
Le son
Le standard AAC (partie 7 de MPEG-2) a ramené à 64 kbit/s la transparence dun canal musique que le standard Audio MPEG-1 avait placé à 128 kbit/s. La norme Audio MPEG-4 apportera des performances intéressantes à des débits encore inférieurs à 64 kbit/s. AAC fournit donc déjà une partie du standard Audio MPEG-4.
MPEG-4 normalise le codage audio à des débits allant de 2 kbit/s à 64 kbit/s. Le standard AAC prévoira la compression à des débits de 64 kbit/s et plus. En outre, certaines fonctionnalités faciliteront une grande diversité dapplications, de la voix artificielle de basse qualité au son multi-canal de haute qualité. Parmi ces fonctionnalités, il y a le contrôle de la vitesse, le changement de tonalité, la résistance aux erreurs, et la variabilité des échelles concernant le débit binaire, la complexité, etc. (...)
Codage SNHC
Jusquà présent, les contenus de synthèse étaient considérés comme des sous-ensembles de contenus naturels. Ainsi, les graphiques étaient transmis en tant quimages. Il nexiste donc pas de standard particulier régissant la représentation et la compression de ce type de données.
Le codage SNHC (Synthetic-Natural Hybrid Coding) vise à traiter les contenus de synthèse comme un nouveau type de données du point de vue de la transmission, et à normaliser leur représentation efficacement. Comme il sagit dune première tentative de normalisation, à mener dans le court délai qui nous sépare de novembre 1998, MPEG-4 conduira des études préliminaires et les besoins qui se feront jour seront traités dans les phases ultérieures de MPEG-4 ou par dautres standards.
On sest dabord intéressé à lextension des modèles disponibles en VRML. Dans ce langage, il est relativement facile de créer des modèles dobjets inanimés (table, chaise, etc.). Mais il est tout à fait impossible de créer un bon modèle de visage ou de corps humain. Pour la prochaine génération de communication multimédia, cest donc une fonctionnalité très importante qui manque à VRML.
Le groupe MPEG-4 travaille dabord à développer la capacité de créer des représentations et des modèles de visages et de corps humains. Il uvre sur un ensemble de paramètres normalisés requis pour la modélisation faciale et pour la synchronisation des expressions faciales, des mouvements des lèvres et du son. Cela, ajouté à VRML ou à un langage de ce type, permettra de créer des scènes réalistes. (...)
Composition et rendu
Pour composer les objets audiovisuel (AV) dans la scène, leurs relations spatio-temporelles doivent être transmises. Les objets AV comportent à la fois une extension spatiale et une extension temporelle. Dun point de vue temporel, tous les objets AV ont une dimension unique, le temps (T). Dans lespace, chaque objet AV appartient à un système de coordonnées locales dans lequel il a une échelle et une localisation spatio-temporelle fixe. Le système de coordonnées locales sert à manipuler lobjet AV dans le temps et dans lespace comme illustré en figure 4.
Figure 4 - Composition de scène et présentation des objets AV
La transformation des coordonnées qui localise un objet AV dans la scène ne fait pas partie de lobjet AV mais plutôt de la scène. Cest pourquoi la description doit être transmise dans un flux séparé. Il sagit dune caractéristique importante de lédition du flux des données ; une des fonctionnalités basées sur le contenu, dans MPEG-4.
Implémentation logicielle du standard
Lutilisation répandue de MPEG-1 et MPEG-2 se faisait déjà par des programmes de simulation en langage C pour limplémentation de modèles de simulation de MPEG-1 et de modèles de test de MPEG-2. Les chapitres 5 des deux standards donnent des implémentations logicielles des encodeurs et décodeurs. Dans MPEG-4, une innovation importante intervient avec la définition dune implémentation de référence du modèle de vérification (VM) système, vidéo, audio MPEG-4, écrite en C ou en C++.
MPEG-7
Les standards MPEG-1 et MPEG-2 ont été conçus et largement utilisés pour encoder un contenu clairement identifié (film, documentaire, etc.). Dans lactuelle utilisation de MPEG-2, ledit service information décrit chaque élément de contenu selon des catégories bien définies, de manière à permettre la recherche par un utilisateur.
Cette solution sert lobjectif pour lequel elle a été conçue : trouver une information dintérêt dans un nombre de programmes important quil est possible de gérer. Mais la norme serait difficilement applicable à la recherche dun contenu sur le Web, par exemple. Cest pourtant le paradigme, sinon lenvironnement, dans lequel MPEG-4 sera le plus utilisé.
Le manque de technologies de recherche appropriées est une des raisons pour lesquelles, malgré la croissance explosive du Web, beaucoup s'interrogent sur sa valeur économique. Le problème est exacerbé par le fait que HTML fut conçu comme un langage pour encoder les textes et les liens, sans aucune considération pour la fonction de recherche dinformations. La recherche dinformations est toutefois impossible pour les contenus audiovisuels car il nen existe aucune description généralement reconnue. Il est impossible de procéder à une recherche efficace sur le Web pour trouver par exemple la moto de Terminator II. Dans certains cas, il existe des solutions. Les bases de données multimédias que lon trouve aujourdhui sur le marché permettent de chercher des images à laide de caractéristiques telles que la couleur, la texture et diverses informations sur la forme des objets de limage.
Il est clair que cette limitation doit être évitée dans MPEG-4. Un nouveau projet MPEG-7 vient de démarrer, dénommé : Interface de description des contenus multimédia, qui étendra les capacités de recherche limitées, aujourdhui, à dautres types dinformations. Autrement dit, MPEG-7 concevra un standard pour décrire divers types dinformations multimédias. Cette description sera associée au contenu lui-même, afin de permettre une recherche rapide et efficace.
Parmi ces types dinformations on recense : des images fixes, des graphiques, des sons, des images en mouvement ; et des informations sur la manière dont ces éléments sont associés dans une présentation multimédia (scénario, composition). Ces formats généraux peuvent être ramenés à des caractéristiques particulières telles que des expressions faciales, des caractéristiques personnelles, etc.
La description peut être jointe à tout type de matériel multimédia, quel que soit le format de la représentation. Tout matériel enregistré qui possédera ce type dinformation pourra être recherché et repéré. Même si la description MPEG-7 ne dépend pas de la représentation codée du matériel, dune certaine manière, les standards se basent sur MPEG-4 ; il fournit les moyens dencoder le matériel audiovisuel, comme des objets ayant certaines relations dans lespace (sur lécran) et dans le temps.
Les descriptions standard de plusieurs types dinformation peuvent exister à différents niveaux sémantiques. Prenons lexemple dun matériel visuel : à un niveau dabstraction bas, on peut décrire la forme, les dimensions, la texture, la couleur et la composition. Le niveau le plus élevé donne des informations sémantiques : Cest une scène avec un chien noir à gauche et un ballon bleu qui tombe à droite - codées de manière efficace. Il peut aussi exister des niveaux intermédiaires.
Hormis la description du contenu, il peut également y avoir dautres informations sur les données multimédias :
la forme : le schéma de codage (voir JPEG), ou la taille. Cette information aide à déterminer si le matériel peut être lu par lutilisateur ;
conditions daccès au matériel, copyright, prix ;
liaison avec dautres matériels correspondants.
Pour exploiter pleinement les possibilités dune telle description, une extraction automatique des caractéristiques sera extrêmement utile. Lalgorithme correspondant à cette caractéristique sortirait toutefois du champ du standard. De même, les moteurs de recherche ne seront pas spécifiés par MPEG-7. Le schéma ci-dessous indique le champ spécifique couvert par le standard MPEG-7.