MPEG

1 引　言　　

在“多媒体”进入技术词汇10年之后,关于“会聚”(convergence)的宣传5年之后,数字视频问世两年半之后,大家仍然在为多媒体通信的实现而奋斗。这种僵持局面的原因是多方面的,下面是其中的几方面原因。

.　“会聚”方面的术语并没有适当摆正位置。它并不是指电信业、娱乐业和计算机业务的“各种事业”(businesses)正在逐渐会聚,而是指出节目内容的制作和转换为数据包、信息的传送和处理、以及各种用户设备领域中,由这三个事业领域继承的各种传统障碍(barriers)正在逐渐消失。如果是指节目内容、传送和设备等的工业进行会聚,这是有技术和事业的意义的;如果是指上述三个部门的会聚,那末其意义是不大的。那些传统障碍越早挪开,则多媒体通信将越早实现。

.　“数字电视”是一种技术,在应用于传输电视信号时可以更好地利用频带宽度。MPEG-1和MPEG-2当前的应用限于数字电视。嵌入(embedded)在该标准中有助于多媒体通信的少数空地(openings),已经被某个特定工业采用了技术上的全力抢占(all-out hijacking)所阉割(emasculated)。

.　已经出现由下述两方面建立的一个对立物:电信业务经营者们特有的、传统的、低速的、按钮式的、通用的、宽带的、网络的、“业务”(service)驱动模型;以及互联网络(In-ternet)特有的、快速的、有实效的、专用的、窄带的、“应用”(application)驱动的处置方法。信息比特传送的工业已对前者进行投资,但后者看来可以提供前者曾试图支持的很多应用。

通信意味着标准,但对多媒体通信制定标准,受到下述问题的困扰,在其中具有利害关系的很多工业,对待标准化持有根本不同的态度。

对该问题的一个解答是由MPEG提供的,因为它成功地制定了多重工业的MPEG-1和MPEG-2标准,即使已经认识到这个新任务要比前两个标准显著地复杂得多。所讨论的这些MPEG建立之标准化原则,例如,“不是系统而是工具”,“一种功能……一种工具”,“各种工具的可重新定位性(relocatability)”,“规定最低的技术要求”,“演绎的(apriori)标准化过程”,“坚持截止日期(dead-line)”等等(如果在实际中尚未被其他标准化团体采纳的话,至少也成为非常著名的),其正面的含义正在被标准化同行们逐步欣赏。补充了上述各种原则的档次/等级(profile/level)的处置方法,将通用(generic)技术各种规范的需求,与不同工业的特殊应用(application-specific)的需求两者组合起来。

MPEG当前标准化的项目MPEG-4,是将其他MPEG标准的某些典型特征,与来自多媒体的现存之或预期之表现方式的新特征两者组合起来。

.　来自低层(lower-layer)细节的各种应用的独立性,如同在互联网络中;

.　技术上注意到低层的各种特性〔可分级性(scalability),对差错的坚韧性(error robustness),等等〕;

.　应用软件的“可下载性”(download-ability),如同在Java语言和网络计算机中;

.　各种信源编码工具和数据的“可重复使用性”(reusability);.　不仅与一个综合的音频/视频的(audio-visual)数码流具有交互性(interactivity),而且与其中的个别信息片断(pieces)具有交互性,如同国际网络(Web)中的称为“各种音频/视频的(AV)对象(objects)”;

.　与多重信息源同时进行“超链接”(hyperlink)和交互的可能性,如同在国际网络中,但在AV对象的等级(level);

.　能够以综合的(integrated)型式来处置自然的/合成的(synthetic)和实时的(realtime)/非实时的信息;

.　能够根据用户的各种需求组织和表达信息,如同VRML或通常的计算机图形学。

与MPEG-1和MPEG-2的向后兼容性,是由该标准的工具箱(toolkit)特性所保证。

MPEG-4将在1998年11月成为“国际标准”。可以预期:MPEG-4将成为多媒体通信的可实用技术,正如MPEG-2已经成为数字电视的可实用技术完全一样。

下面第2节将试图澄清来自会聚的宣传之基本问题,并且将鉴别来自工业界的哪些部分,在公共的多重工业通信标准之存在条件下,可以是会聚的候选者。第3节则在考虑到不同工业对待标准化的不同态度情况下,对于制定这种公共标准的任务的艰难性进行评价。第4节和第5节将说明:MPEG在制定了多重工业的MPEG-1和MPEG-2标准以后,是唯一有资格进行此项任务的,并将简要概述上述两个标准的技术内容。第6节和第7节将阐明MPEG-1和MPEG-2的应用范围,即数字电视;并将认定一种新标准MPEG-4的需求,以满足来自新的信息交互/消费(interaction/consumption)之各种范例(paradigms)。第8节进入MPEG-4标准的某些技术细节,而第9节则列出一些附加的特征,以便MPEG-4必须避免由某些特定工业对MPEG-2的特殊定制(customisation)而遇到的某些问题。

2 关于多媒体

经过几年的多媒体宣传,目前还没有任何迹象表明:多媒体通信将要如同各种媒体领袖们曾期望的那种方式出现,也即:电信业、娱乐业和计算机业全部都集中采用数字技术而会聚。这种情况并没有出现,这正如几千年来理发师、屠夫和皮匠虽然全都共同使用普通的“小刀”技术,而未曾向某个会聚点挪动仅仅一英寸,是完全一样的。正在出现的是:电影制片厂购买广播公司,电信公司购买有线电视公司,消费电子公司购买电影制片厂,等等。进行这种数字技术的会聚是多余的,因为需要自鸣得意的董事会以及有耐心的股份持有者,都具有肥厚的皮夹子(钱包)。

数字技术有很多优点,但其真正的优越性是能够以一种较为经济而紧凑的方式,复制不同系统的各种分量,正如某个特定领域的技术目前能够做到的。下面是几个例子:

.　乙烯基的盘,包括它的前辈:硬盘和留声机圆筒,已有100多年的历史;但激光唱盘目前已被几亿人民使用。

.　模拟制的语音已有100多年的历史,但A律/μ律的PCM目前已被几十亿人民在网络中使用。

.　模拟制的卫星电视已经运行了20多年,但数字制卫星电视目前已有几百万人民观看。

现在,试图向一个门外汉提问,由他来回答你:模拟制方式与数字制方式之间有何区别!问者并不是“会聚”的一个不信任者,因为“会聚”与“发散”(divergence)一样,都是生活的一部分,但“会聚”肯定不是上面提及的那些“事业”。如果希望有点机会来理解、预报和塑造(shape)(若可能的话)正要发生的是什么,那末首先必须做的是,要承认娱乐业、电信业和计算机业等三个工业并没有提供研究这种现象的正确尺度(dimensions)。

“娱乐业”通常表示一种纵向的事业(例如地面广播),制作信息内容(content)并照管将它们发送直至消费者家庭;“电信业”是另一个纵向事业,横跨所有通信层次;“计算机”是硬件和软件的一种相互纠缠之混合物,是一种在通信系统以及各种用户设备到处使用的基础技术。

更好的坐标轴可由“信息内容”(Content),“传送”(Transport)和“设备”(Equipment)来提供。“信息内容”(消息)关系到支付全部帐单的用户之目的是什么,因而从财力上保证了整个系统的生存;“传送”是发送“信息内容”到需要它们的人们那里;而“设备”(用户设备)是能够使人类用户与系统交互(interact),并将“信息内容”转换为人类可消费的形式。“信息内容”有不同的类型:电影、电视节目、新闻、电话通话以及很多方式,可将信息内容包装为使用户方便消费的形式;“传送”有不同类型:在物理层如无线电信道、电缆、双绞线等,以及正在出台的一些如“中间件”(middleware);而“设备”则有几乎是无穷的种类。

使系统工作中发挥一份作用的这些事业(“工业”),在这三个领域中的一个或几个出现。例如:广播工业综合了信息内容和传送;有线电视(CATV)工业综合了传送和设备;而视频游戏工业则综合了信息内容和设备。

下述以表1给出某些例子(其运行环境可能互不相同)来说明:不同工业(第一列)在其内部综合了信息内容、传送和设备三个分量。

会聚的情况可能形成,即使个人并不认为这些事业将会聚,而且也没有对它的一种迫切需要。但是,各种工业将决定放弃属于他们的事业特有的各种技术,并转换到数字技术的这种情况不会出现;而这种事情他们已进行了很长时间(见上述例子),并同时寻找他们发展事业的合理化途径;而且因为他们决定以下述方式进行转换:一种工业的各种通信标准将与其它工业的各种通信标准兼容。

而审阅了在下节描述的不同工业对待标准化的态度后,该项工作是一项有纪念意义的工作。

3 多媒体和标准化

各种通信需要各种标准,以便定义信息在到达信宿(destination)时,它在信源(source)处给出的意义。从Morse电码以来,各种通信标准变得愈来愈复杂,而在这过程中创建的不同工业具有非常不同的态度。

.　“电信工业”建立其各种标准所依据的原始考虑是:从一个电话公司的线路通往另一个电话公司的线路发生阻抗不匹配,不是促进通信(即电话公司的事业)的正确途径,即使是著名的A律/μ律(数字语音)之二叉分支(dichotomy)也能够证明(如果不赞扬其远见性);考虑到在当时(60年代),数字语音仅仅是使网络中的传输能够优化的一种手段,而不是向用户提供的终端至终端的业务的某种东西。

.　电影工业曾设置少数电影格式(for-mats),其中某个由不同的音频/视频(audio/vi-sual)的性能等级所表征。硬件和软件的电影工业都同意:能够在世界任何地方放映电影,对于每个人的事业都是极好的。

.“无线电工业”采用值得赞扬的方法来定义可以到达世界各地的各种标准,但其女儿“电视工业”用下述方式来定义其各种标准,用户们只能收看来自某个固定信源的各种节目。尽管30年代后期在英国曾采用一个405行/50Hz的优良电视系统;在40年代初美国建立其525/60系统,对英国的系统改进了约20%;而几年后欧洲建立其自己的625/50电视系统,并未对NTSC制扩展其带宽(625×25≌525×30)。将彩色信号加入黑白信号,并采用NTSC、PAL、SECAM以及其几乎无法计数的各种变种,使得对电视的“各种国家通道”之数目急剧增长。

.　坐在电视和电信之间的“有线电视工业”,由定义来看,是一种局域性的事业,因而他们对待标准具有精神分裂症似的态度(取决于其运行的国家)。.　“消费类电子工业”(主要是记录)已经使用各种标准的定义之最直接应用:一个制造商和一个用户之间的某种自由加入的协议,而去出售/购买某件特定设备;用户们采用该设备可以从所购买的设备类型专用的(“格式”)媒体,重放音频或视频;而该媒体来自同意以那种格式制作信息内容的第三集团(third party)。

.　“计算机工业”采取与消费类电子非常相似的态度,但更容易表达清楚。购买一台计算机是一个制造商和一个用户之间自由加入的协议,以提供硬件以及寄于该硬件之上的某种层次之软件,以便能够开发更高层次的应用,或从制造商或一个第三集团购买它们。

.　在“电子游戏工业”中,购买电子游戏是一个制造商和一个用户之间的一种自由加入的协议,用以出售/购买硬件和软件(后者很可能来自第三集团),而该软件只能在该专用的硬件上运行。

由于不同工业已经在发散过程中,而“多媒体通信”必须要求某种会聚地带,并且后者可以通过在各个关键领域内的标准化过程来完成。把每个利益持有者集合在一起,并制定所有人都能接受的通信标准,是一项艰巨的任务,尽管这样,MPEG已经用其第一代的两个标准MPEG-1和MPEG-2(特别是后者,后面将用于表示两者)成功地完成了此项工作。

4 MPEG对标准化的处置方法

有了MPEG-2,MPEG已制定了公共的音频/视频编码之各种标准,它们可以被第3节提到的所有工业界所采用。这就使得费用的分担(sharing)、数字音频/视频技术发展的加速进行、以及对于用户们更为基本的是,不受已构成的各种技术障碍的信息内容之流动,才成为可能。如果会聚出现的话,它将是由于所有工业界都愿意接受这类单一的信息表达方法,可以由所有工业所共享的。

现在值得回顾一下MPEG在其8年的运行中所采用的方法,并试图合理地说明为什么MPEG已成为标准化的一个成功处置方法,以服务于多重工业对于通用的多媒体通信情况的各种需求。

4.1 坚持最后期限(deadline)

一个事业如果其工作是每日更新的,那末它是无法生存的。不幸的是,这正是某些标准化委员会的实际情况。他们负责制定某些东西(这些东西本身就是松散定义的),而没有规定一个日期来发布一个输出(标准),或仅有一个作为参考的日期。这正如某个公司向其用户们许诺在某时要交付什么东西。

各种标准都是商品(goods)一样,由各个委员会向其用户们出售的。对于一个公司而言,商品当然必须是高质量的,必须是符合用户们提出的技术要求的,而且首要的是,它们必须在约定的日期交付的。

标准不是小说,标准是技术,使各个公司能够制造产品(卖给最终用户们的那些)。如果某个公司制定一个计划,将某种确定产品(需要某种确定技术)在某个确定日期推向市场,并且对此事进行必要的投资,那末如果标准化委员会(面对公司的供货者)在约定的日期报告:他们已“落后于日程表”,该公司(面对标准化委员会的买方)是不会高兴的。

MPEG有一个严格的工作计划,对一个标准的所有部分规定何时达到“工作草案”(Working Draft)、“委员会草案”(Committee Draft)、“国际标准草案”(Draft International Standards)以及“国际标准”(International Standards)等的不同层次,迄今为止曾偶然在“中间”阶段出现过次要的挪动,但与计划的日期相比,在到达“国际标准”的状态没有延迟。

4.2 演绎的(a-priori)标准化过程

每个人都会同意,各种标准应该由标准化团体来颁布,而后者存在的目的就是制定标准,然而,很多标准化委员会无能力按时交付标准,以迫使很多公司采取走捷径的办法,所谓“各种工业标准”。这些专用的技术规定(很可能由一些其他公司一起签署)通常提交到一个标准化委员会,以获得批准认可。

这种处置方法的主要问题是,各个标准化委员会逐渐变成不再是讨论技术问题(也即某种技术的定义)的场所,而变成讨论商业问题的场所。所讨论的问题不再是瞄准那些拟定一个优秀的标准,而是一些有利于私利的术语之定义,各个公司当前计划的技术适应性等。当然,在各个公司之间讨论技术问题是没有任何错误的,但是如果在一个标准化委员会中也是这样做,那就是错误的。MPEG与此不同而采取非常明确的态度:

.　在各个工业界拟定商业约定之前,先论证某种技术已成熟到可以制定标准;

.　通常要拟定一个“征求建议”,而感兴趣的各个公司都可以自由地响应;

.　在所有情况下,各种技术都由MPEG专家们进行标准化。

MPEG迄今为止已成功地应用了这些原则。由于不断地令人满意地论证了一些标准化项目,因而可以宣布:MPEG标准没有签署为某个“工业标准”。但头脑里必须有一个概念:MPEG标准并没有对完整的系统做技术规定。因此,在制造完整的各种产品时,伴随着MPEG标准,很可能还需要“各种工业标准”。

4.3 不是系统而是各种工具(tools)

上面介绍的可以应用于一般的标准化过程的各种原则,当他们应用于拟定各种服务于多重工业之标准时,还需要有进一步的独创性。

工业界根据定义需要拟定一些纵向综合的技术规定,以便制造出能够满足某种需求的各种产品。音频/视频的解码过程可以是一小部分能够与其他团体分享的技术,但是当工业界需要出售一台卫星接收机或一台数字激光视盘(VideoCD)放象机时,这些设备需要一个综合的标准。然而,如果不同的工业界需要同一的标准时,它们在头脑中很可能会有不同的终端系统。因此,只有某个标准的各个分量,如在MPEG中称之为“工具”时,才能以共同的努力而作技术规定。

这个原则的实施要求把各种标准的特性由“系统”的各种标准改变为“分量”的各种标准。工业界可以从标准化团体收集各种工具的技术规定,并构造它们自己的产品技术规定。

既然“各种工具”是标准化过程的对象,就必须设计一个新的步骤来拟定有意义的标准。已经找到下述顺序的步骤是实际上可实施的,并可获得所需的结果。

.　选取若干目标应用,而通用的技术准备对它们作技术规定;

.　列出每种应用所需的各种功能;

.　把各种功能分类为复杂性尽量降低的各种分量,以便它们在不同的应用中可以被鉴别;

.　论证各种功能性分量,使它们在感兴趣的各种系统中是公共的;

.　对于支持已论证的功能性分量(特别是对于不同的应用为公共的那些)的各种工具作技术规定;.验证这些已作技术规定的各种工具能够实际用于组合各种目标系统,并提供所需的各种功能。

工业界仍然需要某些指导,因此,值得推荐的是,某些重要的工具组合可以规定为规范性的(normative),但要确认:这些不是应用专有的(application-specific),而是功能性专有的(functionality-specific)。这些标准化的工具集在“MPEG-2视频部分”中称为“各种档次”(profiles)。

4.4 规定最低要求

在某些环境中很容易对一个标准增加那些美妙的小东西,使一个标准更接近某个产品的技术要求。例如,这正是各种工业标准的情况,或者当这些标准被用于增强“有保证的质量”,由于这些标准的“公共业务”特性而变得对广播业者们和电信运行者们更为亲切。

但当一个标准被多重工业采用时,这种做法必须被抛弃。只能对互操作性所必需的那些最低要求作出规定。不能超出这个界限要求一个独立的涉及所有参与的工业界之协议。

4.5 一种功能 —— 一种工具

一个标准是以某种确定的方式和以抽象的术语来实现某些事情的一种协议,因而大家都会同意,各种工具都应该是唯一的。然而不幸的是,当参加某个标准委员会的人是为某个公司工作时,如果他们看到与他们公司的技术相竞争的技术在委员会的支持中取胜时,标准的确定便拖延了。一场到处持续一小时至三年的论证战斗之通常成果是,相互让步而理智地接受一个原则,一种功能——一种工具,而同时让“各种选择项”进入。欧洲综合业务数字网络(ISDN)由于过多的信令选择项,花费了10年来完成在不同电信运行者之间以及在同一运行者内不同制造商的设备之间,进行像样的互操作性。由于过多的选择项,很多标准已经流产,因为,并未能达到应该由工业界证实进行必须的投资之“临界大批量”(criticalmass)。

当然,什么东西能够构成一个工具往往不是很明显的。单频道和多频道的音频或常规电视和高清晰度电视,是很多系统中需要的各种分量。既能对单频道或多频道音频,又能对常规电视或高清晰度电视进行编码工作,而定义一个简单的“工具”可能是不实际的,因为这些技术必须设计并制造为完成某些事情,而其范围在某些情况下是不必需的。由MPEG成功地实施的“档次/等级”(profile/level)哲学可以提供一个解答,在一个简单的工具内,人们可以定义不同的“级别”(grades),在MPEG中称为“等级”。

4.6 各种工具的重新定位(relocation)

当某个标准由单一的工业界所定义,那末通常对某个确定功能存在于系统的何处,规定了协议。在多重工业的环境中,这是不可能的。以加密(encryption)为例,取决于你在音频/视频的链路中究竟起什么作用,你必定会把加密功能放在一个地方,使你在链路中的位置为最佳,因为加密是一个重要的增值(value-added)功能。如果某个标准认可你的事业模型,你必定接受这个标准;而如果不是这样,你必定抵制它。

某种技术不仅必须以一种通用的方式进行定义,而且必须以这样的方式进行定义:该技术可以位于系统中的不同位置。

4.7 标准的检验

标准化的工作一旦接近完成时,重要的是必须确认所进行的工作确实满足原来设定的各种需求(“产品的技术要求”)。MPEG通过一个称为“检验测试”(VerificationTests)的工作过程来完成此项工作时,其工作范围是确定所拟定的标准是否很好地符合技术要求。

5 MPEG-1和MPEG-2简要指南

“活动图象编码专家组”(Moving Picture Coding Experts Group, 简写MPEG)建立于1988年1月,其任务是对各种活动图象、音频及其组合的编码表达式制定各种标准。它是在“信息技术的ISO/IEC联合技术委员会(JTC1)”〔Joint ISO/IEC Technical Committee(JTC1)on Information Technology〕的框架内进行运行的,形式上称为SC29的WG11。

5.1 MPEG-1

该小组拟定的第一个标准(小名为MPEG-1)是组合的音频/视频信号在数码率约1.5Mbit/s之编码。这是由下述前景所推动的,将视频信号存储在数字激光唱盘(compactdisc)上,而具有与VHS盒式磁带可比拟的图象质量,在1988年已经变得很明显。

由于在视频编码算法方面的几十年研究,以这样低的数码率进行视频编码在1988年已成为可能。当然,这些算法只能应用于亚取样的图象(一个图象帧中只取一个图象场;一个扫描行中只取二分之一的取样),才能显示其有效性。另外,音频的编码(独立于语音编码)已能够研究与开发(R&D)的工作,可将PCM数码率降低为其六分之一(一个立体声信源的典型值为256kbit/s),而具有实际的透明性(virtual transparency)。受到一个公共时间基准的约束之已编码的音频和视频数码流,由MPEG的系统层组合为单一的数码流。

MPEG-1(形式上称为ISO/IEC　11172)是一个有5个部分的标准。前三个部分依次为“系统”(Systems),“视频”(Video)和“音频”(Audio)。另外两个标准完成了MPEG-1套组,“符合性测试”(Conformance Testing)规定一些方法学,用于检验各个设备制造商们或数码流制作者们对于符合标准的各种要求;还有“软件模拟”(Software Simulation)是全部用C语言程序实施MPEG-1标准(编码器和解码器)。

MPEG-1标准的实施是多种多样的,从可以在一个微型计算机实时地运行的各种软件实施,到微型计算机使用的各种单个电路板,到所谓Video-CD(VCD,数字激光视盘),等等。后一种产品在某些国家已经有了成功的市场,仅就中国而言,今年已销售200万套VCD解码器,而此数字明年还要翻一番。

5.2 MPEG-2

MPEG制定的第二个标准(小名为MPEG-2),其名称为:“活动图象及其伴随的音频之通用编码”。对于这个标准的工作可以追溯到1990年7月,因为:

.　在当时,MPEG-1的技术基础已经完全确定;

.　由MPEG-1的结果外推出,可以指望在典型的MPEG-1数码率之4倍时,可以指望其图象质量可以与复合电视信号相比拟;

.　可以期望,VLSI技术应该能够实施一个视频解码器,足以处理数码率高达10Mbit/s的全尺寸电视图象。

与MPEG-1(基本上是一个用低数码率把活动图象存储在一个盘上的标准)不同,MPEG-2标准的更为大量的应用,强迫MPEG制定和实施本文前面讨论的MPEG-2视频之“工具处理方法”。制定了和标准化了能够服务于不同目的之不同编码“工具”。不同工具之集合〔称为“档次”(profile)〕也已经标准化了,并且能够用以服务于不同的需求。每种档次一般因某些参数(例如,图象尺寸)的不同而有不同的“等级”(level)。下面的表2给出MPEG-2的“视频的档次和等级”的当前状况。

“MPEG-2音频”是“MPEG-1音频”对多声道情况的一个推广。这说明:一个“MPEG-1音频”解码器可以对MPEG-2的两个声道进行解码;而一个“MPEG-2音频”解码器可以对一个“MPEG-1音频”数码流进行解码,似乎它是一个“MPEG-1音频”解码器。

MPEG-2标准的“系统部分”如同MPEG-1一样,叙述了如何将视频和音频(还有其他数据)的一个或几个基本数码流,组合为单个或多个数码流,便于存储或传输。这种组合规定有两类:“节目数码流”(Program Stream)和“传送数码流”(Transport Stream)。

“节目数码流”类似MPEG-1的“系统复用”(System Multiplex)。它是由一个或多个具有公共时间基准的“数据包化的基本数码流”(Packetized Elementary Stream,简写PES),组合为单个数码流而得出的。“节目数码硫”是为了在相对为无误码的环境中使用而设计的,因而适用于涉及软件处理的各种应用。“传送数码流”把一个或几个具有一个或几个独立时间基准的PES,组合为一个单一的数码流。共享一个公共时间基准的若干基本数码流,形成一个节目。

“传送数码流”设计为在很可能在误码的环境中使用,例如在有信息丢失或有噪声的媒体中的存储或运输。MPEG-2(其正式名称是ISO/IEC13818)也是一个有几个部分组成的标准。其前5个部分具有MPEG-1相应部分的相同功能。

　MPEG-2已经成为一个非常成功的标准,声称符合该标准的各种设备已经生产了几百万套,用于数字卫星广播的接收机正是最大众化的。更多的应用领域也参与进来了,例如,用于有线电视(CATV)或高密度数字激光视盘(DVD)的数字接收机,而DVD则是新一代的激光盘,与标准的激光唱盘(CD)相比能够有更高的可变数码率以及更长的时间,来重放各种MPEG-2数码流。

在制定MPEG-2“系统”和“视频”部分时,ITU-T曾与MPEG合作,使它们已经成为用于宽带视觉通信目的之ITU-T“建议”。这表明:同一个物理文件既有ISO标准的价值,又有ITU-T“建议”的价值。

MPEG-2提供对很多技术特性的支持,其中最重要的是对信息内容的查询(addressing)、加密和版权的鉴别(identification)。

.　MPEG-2“系统传送数码流”已设计为,它可用于携带大量的电视节目。为了这个缘故,它提供采用表格方式(它描述在何处可以找到何种节目)来通报节目内容之支持。这种技术特性已经被地区性的首创者们扩展,用于鉴别更多的特征。例如,节目的特点、节目时间的安排、两个节目起始时刻之间的间隔,等等。

.　版权的保护和管理是重要的特征,是一个设计为携带音频/视频信息的系统必须支持的。

MPEG-2“系统”部分定义了两个特殊的数码流,称为ECM和EMM,它们携带可以用于对MPEG-2“传送数码流”(如果它已经加密的话)携带的信息进行解密所需之信息。加密系统本身不由MPEG做规定。

.　MPEG-2“系统”提供一些支持音频/视频产品(成果)的产权问题之管理。这是用一个版权描述符的方法来实现的,而该描述符可以识别某个管理该特定音频/视频产品(成果)的各种权利之机构,并且后续的一个数据场给出了该产品(成果)的识别编号(由该机构指定的)。举例而言,这个信息可以监视有版权的产品(成果)在一个网络中的流动情况。

正如前面描述的那样,MPEG-2对于很多以电视为基础的各种应用(例如,卫星广播和有线电视)提供一种能够实施的技术。它们现在可以在同一种发送媒体上传送平均5倍多的电视节目(如果这种MPEG-2编码的节目是建立在依赖媒体的调制方案之基础上)。

当然,其他应用需要一个标准化的终端至服务器的协议,来提供一个完整的系统。例如,当用户需要与信源进行交互(interact),以选取他或她所希望看到和听到的信息内容,如“点播电视”(Videoon Demand)和“家庭购物”(Home Shopping)。

MPEG-2的第6部分的名称是“数字存储媒体的命令和控制”(Digital Storage Media Command and Control,简写DSM-CC),1996年7月成为“国际标准”(International Standard),它是一组协议的技术规定,可以提供各种控制的功能和操作,专门用于管理MPEG数码流。这些协议既可以用于支持独立的网络环境,也可以用于支持异类的(heterogeneous)网络环境。在DSM-CC模型中,由一个“服务器”(Server)作为信源而提供的一个数码流将发送到一个“客户”(Client),而服务器和客户都可看成是DSM-CC的“用户”(Users)。DSM-CC定义一个逻辑实体,称为“会晤和资源管理器”(Session and Resource Manager,简写SRM),提供对各种DSM-CC的“会晤”和“资源”进行逻辑上集中化的管理。

MPEG-2的第7部分是所谓“与过去的版本不兼容的音频编码”(Non-Backward Compatible Audio Coding)标准。提出这样一种标准之需求是考虑到MPEG-2“音频”部分固有的与过去版本的兼容性,对于很多应用(例如电视广播)是一个重要的业务特征,但是,这种兼容性要在质量方面付出一定程度的代价,而其他应用不需这样付出。在这个领域中的工作已经拟定了第一个技术规范(委员会草案) (Committee Draft),而各国的“国家机构”(National Bodies)正在进行投票。到1997年4月,它将成为“国际标准”(International Standard)状态(status)。

MPEG-2的第8部分原来计划为视频在输入为10比特时的编码,以提供后处理的空间。当提出要求这种标准的专业视频工业界最后将其兴趣转移到其它领域时,这部分工作已经中断。

MPEG-2的第9部分,标题为“实时接口”(Real-Time Interface, 简写RTI),于1996年7月成为“国际标准”,它对“传送数码流”(Transport Stream)解码器(可以用于适配所有携带“传送数码流”的各种适当网络)提供一个用于实时接口的技术规定。RTI可以在消费类电子、计算机和其他领域中完成设备层(equipment level)的互操作性(interoperability), 因为它能够构成各种网络的自适应层(可以保证提供所需的功能),而且它同时能够构成各种解码器(可以保证具有恰当的缓存器功能和定时信息的复原机制)。

MPEG-2的第10部分是DSM-CC的“符合性测试(Conformance Testing),而且仍在制定之中。

目前MPEG的其他活动涉及其他MPEG-2“视频档次”(VideoProfiles)的定义。1996年1月完成的“4:2:2档次”(4:2:2Profile)是为了响应各种专业视频设备和业务的用户,他们正热衷于开发现存的消费类电子的MPEG-2“视频”技术,以便用于专业应用。将在1996年10月完成的“多视角档次”(MultiviewProfile)采用各种现存的编码工具,其目的是提供一种有效的方法对两个稍有不同的图象(例如由两个稍为分离的摄像机摄取同一景物时所获提的)进行编码。

一个电视节目有时仅仅是线性(linear)音频和视频的一个简单片断,基本上是一个微音器和一个电视摄象机摄取一个室外情景获得的输出,但是有时它要复杂得多。想象一个你自己喜爱的晚间电视新闻:你能看到一个活动的计算机图形(例如一个旋转的地球),一个活动的“晚间新闻”(EveningNews)的文字在屏幕上沿着一条曲线运动,电视台的台标在底部闪烁,等等。接着,你看到电视演播室的一个快照(snapshot),摄象机推近新闻广播员的镜头,然后是一个窗口,其中包含主要新闻项目的简报式文字提要,在屏幕上显示并持续几秒钟。然后,新闻广播员播报第一条新闻项目,例如用原始语种进行演播室报导和评论,而且在屏幕底部则具有翻译的评论之标题,以及一个插入的新闻广播员之小的活动图象。接着跟随的是该新闻涉及的某个人物的相片以及某些简历内容,持续几秒种,等等。

这种晚间新闻节目与来自你的个人微型计算机的交互式多媒体应用或者一个“国际网络”(Web)页面(page)之区别是什么呢?用多媒体演示方式的丰富性来衡量,电视节目就在身边, 而且优越得多。但是,你不能进行当一个“国际网络”页面的内容表格时所做的最普通的事情,选取你需要的项目。在一个电视节目中,你不得不注视和倾听第一个电视项目,而且当你发现某种感兴趣的东西时,你没有机会被显示一个按钮并显示“按此处可获得更多的细节”,你也不能对于你的鼠标器在屏幕上敏感的部分来按一下键。

这有关系吗?取决于你在与谁进行讨论,而你将被告知:休眠的马铃薯并不喜欢交互性(interactivity),但是其中的某些部分可能是一个很美妙的附加物,或者被告知:现在每天有几百万人在网络上漫游,为了寻找那些今日包含很高程度交互性的信息内容(虽然不是视频),而这种附加物将是“国际网络”提供的现存媒体的一个巨大补充。

MPEG-2本身不能对一个广播环境提供交互性,但是它并不需要花费很大的力气来开发某些“挂钩”(hooks,手段)和增强“多媒体外观”,以提供能够看成是交互性的某些功能单元。

.　将一个以上的音频声道在一个节目中进行复用,这样可以向用户们提供一种可能性,例如,在原始语种和翻译语种间进行切换;

.　将一个以上的视频数码流进行复用,这样可以用于,例如,在一个视频新闻报道中接通/断开新闻广播员的头脸像;

.　在MPEG复用层发送各种文字数码流,对于用户而言将给出一个可能性,选取所需的语种之标题;.　发送计算机图形文件并使他们活动起来,可以增强多媒体外观;

.　按分段错开的(staggered)起始时间来发送同一个节目,缩短了用户观看某个所需的节目不得不等待的时间。

有很多技术方法来实现上面列出的事情。因此,如果所有电视接收机希望能够正确地描述不同的媒体,那末需要一个标准。

现在大家正好处于一个分歧点,它正好是对于交互性的两种不同观点之相同分歧点。人们是否希望对于一个“单纯广播”(broadcast-only)的环境来定义这种“多媒体装饰物”(multimedia embellishment), 或者,是否希望将它定义成这种方式,单纯广播的环境仅仅是一种更为普遍的交互性中的“无回传”(zero-return)信道情况?换句话说,是否希望广播“技术”、电信“技术”和计算机“技术”(technologies)进行会聚(convergence),或者不希望?

如果并不希望会聚,那末多媒体外观可以这样来实施,在MPEG-2“系统”部分中开发某些简单的“挂钩”,使你能够将“其它数据”(例如,文字、图形文件等)连同它们的时间和空间信息,一起与音频和视频进行复用。这种处理方法是所有附加信息的各种信源,看成是音频/视频信息的辅助信息。例如:

.　一个完整的计算机图形之页面将作为一个MPEG-1的I-图象帧(I-frame,MPEG-2“视频部分”的一种模式,对于图形进行编码而不依赖于过去的或以后的图象信息);

.　包含计算机图形信息的矩形窗口中之时间域的和空间域的信息,叠加在一幅自然的电视图象上,将按照MPEG-2“系统部分”中规定的各种“挂钩”进行传输;

.　活动的计算机图形之时间域的和空间域的信息,将按照MPEG-2“系统部分”中规定的各种“挂钩”进行扩充而传输;

.　在屏幕上显示的各种文本之属性,将采用某些专门的(ad-hoc)方法进行编码。

很显然的是,计算机界还不曾有代表来接受这种答案,并将它扩展到“非无回传”(non-zero return)信道的情况。他们已经工作了若干年,由“频谱”的另一端开始,“一英寸一英寸地”构造多媒体,例如,文本+计算机图形+静止图象(still pictures)+…,其目的是最终“包括”音频和视频,作为“全多媒体”(full multimedia)的最后一步。

从本文作者〔在1994年年初提出并实施了“数字音频视频协会”(Digital Audio-Visual Council,简写DAVIC)的构想〕看来,DAVIC应该可以提供广播界、电信界和计算机界可以接受的中性答案。遗憾的是,他失败了,未能说服DAVIC的参加者以一种理性的方式(rational way)来表述该问题。具有广播界背景的人们未曾能或不愿意考虑该问题,而不参照某种“文字标题方式”(subtitling)。他们不能同意一种表达计算机图形的二维阵列之压缩方案,导致该问题的进一步恶化,因为他们坚持说:计算机界开发的一百多种计算机图形格式中没有一种适合他们的需求。但后者发明了一种新的文本编码方案,其中HTML的一个很小的子集(这种格式的页面数目在全世界已经有几千万)就应该能够充分满足需要了。具有计算机界背景的人们坚持他们的“应用下载方式(application downloading)范例,一种与广播界不可能的“婚姻”。具有电信界背景的DAVIC的人们聚集在MHEG标准周围,因为它符合他们的多媒体信息表达方式的概念,而它显然需要一种标准化的编码表达方式。在这种情况下,DAVIC采取了双重答案(违反了一种功能——一种工具的原则),采用MPEG-2的各种“挂钩”“以及”MHEG。这就是能够进行工作的娱乐界、电信界和计算机界之会聚!

在构成交互式的和非交互式的多媒体通信所需的技术之间,已经这样地创建了一条分界线,DAVIC已经自动地抬高了前者所需的入门门槛。交互式的多媒体通信将会出现,但是它将不是通过由广播界支持的当前的信息消费(consumption)范例之扩充而得。交互式的多媒体通信将不得不等待一种新的处理方法,它能够克服当前的广播式与交互式之对立。

带着其会聚的狂热(frezy),多媒体的头头们(gurus)已忘记回答一个较为简单的,但又是基本的问题:什么是多媒体通信?请允许作者试图给出自已的定义。多媒体通信是对于音频/视频信息进行通信的可能性,这些信息:

.　并不要求用户受到通信信道的技术规范之困扰,而采用某种技术专门去解决它;

.　使用户可以用适合他的需求之方式,表达他与信息内容进行交互的结果。

MPEG-4是当前正在进行开发的MPEG项目,其目的是提供能够实现上述7项任务之技术。它开始于1993年7月,将于1996年11月达到“工作草案”(Working Draft)等级(level),将于1997年11月达到“委员会草案”(Committee Draft)等级,并将于1998年11月达到“国际标准”等级。

尽管MPEG-4项目在日期上早于“国际互联网络”(Internet)的狂热,作为该项目基础的各种动机,与今日可以作为大标题的某些课题相比,具有高度的相似性。

.　“与物理网络的独立性”。尽管有词汇“网”(net),“国际互联网络”并不直接与“网络”有关,至少它不是传统意义上的物理层电信基础结构(infrastructure)。一个通信链路一旦数字化后,你可以采用“国际互联网络协议”(In-ternetProtocol,简写IP),然后在其顶上是TCP或UDP,再在这些协议的顶上是一组“国际互联网络协议”,例如,用于电子邮件的SMTP,用于“国际网络”的HTTP,用于文件转移的FTP,等等。“国际互联网络”打破了垂直方向集成的(verticallyintegrated)各种通信,一个终端用户不必关心比特流通道的物理特性,不管它是双绞线、同轴电缆、光纤还是微波〔当然,“国际互联网络访问的提供者”(InternetAccessProvider)和“核心网络运行者”(CoreNetworkOperator)必须关心〕。TCP/IP可以看成是特性插接件(socket)的组成部分,在MPEG-1和MPEG-2中早已始终假设成与物理层的独立性,而在MPEG-4中,它再次被确认。当然,独立性并不意味着不需要考虑网络的特殊性,但是这样标准必须能够采用它们进行复制活动(coping)。

.　“交互性”。“国际网络”爆热现象已经表明:在网络中进行搜索〔“冲浪”(surf)〕以及与在网络中发现的信息内容进行交互的可能性,当然是用户迫切希望具有的一种特征。“国际网络”目前还不能提供的乃是实时的活动图象和音频。MPEG是活动图象和音频的专家团体,因而MPEG-4提供的音频和视频,必须能够具有用户们日益熟悉的“国际网络”具有的那种交互性。

.　“解码过程的可下载性”(decoding download ability)。“国际互联网络”的成功提示了一个明显的问题,如果“国际互联网络”是普遍存在的,而频带带宽正在持续地扩展,那末为什么要在个人微型计算机中装载很多兆字节的软件,而其中绝大多数还难得使用它们?在根据需要时再下载那些软件,难道不是效率更高吗?在网络计算机的宣传之前,MPEG早已认识到:在很多应用中,一个可编程的解码器(其各种解码工具都是下载而得的)是一个优选的答案。因此,MPEG-4必须支持可下载性。　　　　　　8　MPEG-4标准

在MPEG-1的体系结构中,一个或几个AV(音频/视频)对象,包括其空间域/时间域的各种关系(如果有的话),将由一个信源传输到一个MPEG-4解码器,如图1所示。在信源端,各种AV对象可以有误码保护(若需要的话),一起复用,然后下行(downstream)传输。而传输可能由多类信道实现,提供不同质量的业务。在解码器端,各种AV对象进行解复用,误码纠正(若需要的话),解压缩,复合起来,并向终端用户演示。而终端用户可能喜欢与演示进行交互。交互作用的信息可以在本地进行处理,当然也可以以上行数码流方式(upstream)传输到编码器,以便作出响应。

在各种AV对象被传输之前,信源和解码器必须交换配置信息。信源要确定该解码器需要哪一类算法、工具和其他对象来处理这些AV对象。每一类对象可以由一个数据结构加上可执行码字来定义。任何缺乏的类别之这种定义,可以下载到解码器,在该处补充或覆盖(override)在解码器中以及安装的预定义的各种分类定义。当解码器进行执行时,可能需要新的分类定义,来响应用户的交互作用。因而,解码器可以请求信源端下载专用的附加的类别定义(很可能与要传输的数据并行进行)。

复用器完成的功能是,将所有基本数据数码流组合为一个输出数据数码流。解复用器定义下述操作所需之功能:恢复一个系统时间基准;使多个压缩数据数码流在解码时进行同步;将多个压缩数码流交织(interleave)为单个数码流;以及初始化并继续管理该解码器的各个缓存器(见图2)。

某些MPEG-4的应用并不涉及串行化(serialisation)的功能,但是数码流同步有关的各种功能仍需使用。

在MPEG-1和MPEG-2中,视频信息假设为固定大小的矩形,并按固定的时间间隔进行显示。在MPEG-4中,引入了“视频对象”(Video Object, 简写VO),“视频对象层”(Video Object Layer, 简写VOL)以及“视频对象平面”(Video Object Plane,简写VOP)等概念(图3)。VOP代表某个给定的VO的某些事例。VO和VOP相当数码流中的某些统一体(entities),它们可以由某个用户进行存取(access)和操纵(manipulate)〔例如进行截取(cut)和粘贴(paste)等操作〕。VOP可以具有任何形状。在编码器端,组成(composition)信息要连同VOP一起发送,用以指示每个VOP应该在何处以及应该在何时进行显示。在解码器端,允许用户通过对于组成信息进行交互,来改变所显示的情景(scene)之组成。

在被支持的各种主要功能中有在VOL和VOP等级的空间域和时间域的可分级性(scalability)以及对误码的坚韧性(robustness)。可分级性是一个重要的特征,因为同一个音频/视频对象要能够通过不同带宽的信道中可以使用,不同处理能力的各种接收机可以使用,或者可以响应不同用户的请求。对误码的坚韧性也是一个重要特征,因为在无线电信道上的各种音频/视频通信,预期为MPEG-4的重要应用。

“与过去版本不兼容的”(Non-BackwardCompatible,简写NBC)标准(MPEG-2的第7部分)将单声道的音乐之真正透明性(virtualtransparency)下降到64kbit/s,而MPEG-1“音频部分”则需要设置为128kbit/s。可以预期:在甚至低于64kbit/s的数码率时,可以获得令人感兴趣的性能。因此,NBC已经提供了MPEG-4“音频部分”标准的一部分。当然,还需要在数码率比起64kbit/s更低的范围内进行很多工作。这是一个领域,其中需要一种通用的技术,以便服务于不同的应用,例如卫星和移动(cel-lular)通信、“国际互联网络”、UMTS等等。图4给出当前讨论到的不同数码率、音频带宽、应用和编码技术之综合分析。

图5给出一个原理框图,它被认为能够处置图4的应用概貌之各种需求。

由于通信界一直把合成的信息内容看成是自然信息内容的一个子集,例如,计算机图形在发送时看成一个视频而进行通信。因此,迄今还没有标准来对应地表达和压缩该类信息。

SNHC代表“合成/自然的混合编码”(Synthetic Natural Hybrid Coding)。SNHC的目标是从通信的角度而言,把合成的信息内容看成是另一种“新的”(NEW)数据类型,并且对于如何表达它和压缩它进行标准化工作。由于这是一个标准化团体进行这方面工作的首次尝试,可以预期MPEG-4将在这个领域进行而获得某些起始的关键工作,而且更多的需求将会出现,使MPEG-4或其它标准在其今后的日程中有可能关注到。

研究焦点的开始领域曾经是扩充在VRML中可使用的各种模型。在VRML中,比较容易建立那些没有生命东西(例如,桌子、椅子等)之模型。但是,建立人们的脸部和身体之好模型,几乎是不可能的。对于下一代的多媒体通信,这是一件在VRML中遗忘的非常重要的事情。

MPEG-4首先进行工作来开发用于建立人们的脸部和身体的各种表达式和模型之可能性。它正在进行工作来开发拟定一个人们的脸部之模型,还有把脸部表情和嘴唇运动与音频同步,所需的标准化之参数集。除了VRML或类似VRML的语言以外,可以建立各种现实情景。在这种努力成功地完成之后,研究重点将是开发用于纹理映射(texture mapping)的各种标准化技术和/或参数集。

在音频方面,开始的研究重点是把一个参数集〔它规定可互操作的(interoperable)“文本至语音”(Text to Speech)之转换〕进行标准化。

一个解码器如果具有所有己描述的特征,将会是不必要的而且是昂贵的。某些解码器可能设计为只支持所有编码工具中的一个子集〔例如,一个移动的电视电话(mobile video- phone)〕,或者它是足够灵活,当它把来自一个信源(例如,一部电影)的信息内容进行解码时,可以获得这些工具的特定子集;而对另一个信源(例如,一个视频游戏)的信息内容进行解码时,可以获得另一个不同的子集。

感谢VLSI技术的进展,因为它正在生产各种速率高得多的强有力的可编程之处理器,因而,这件事正在成为可能。作为一个例子,可以在133 MHz Pentium微型计算机上对1.4Mbit/s的MPEG-1“音频/视频/系统”(Audio- Video-System)的数码流进行实时解码。这种可能性总有一天会成为事实,那时的各种编码工具(不属于标准化的工具集)可以下载到各种充分可编程的处理器。

MPEG-4定义解码器的可编程性有三种可能性,以支持灵活性和可扩充性。

.　Flex—0(非可编程的)是“音频”、“视频”、“系统”等解码器的各种标准化算法的一个有限的子集,它们是由标准化的“音频”、“视频”、“系统”等的各种工具组成。

.　Flex—1(灵活的)是由标准化的“音频”、“视频”、“系统”等的各种工具的一个有限子集,以及它们的各种标准化的接口所构成,它们可以灵活地配置为任意各种算法。

.　Flex—2(可扩充性)是一个标准化的机构,可以描述任意各种工具构成的任意各种算法。

但是,应该清楚的是,目前还不会试图实现Felx—2,而且可以在晚一些时候纳入标准。

Flex—0情况从概念上说类似MPEG-2的“档次/等级”(Profile/Level)的安排。为了实施Flex—1,MPEG已开始工具API〔“应用程序编制的接口”(Application Programming Interface)〕之定义。选取用于这个目的的语言是Java语言,它也可以用于将各种工具链接在一起并提供一个完整的解码器之目的。但是,目前没有约定,Java将是最后保留给这些目的语言。

上面的图6描述这个标准化的工具集如何可以用于汇集各种算法和各种档次。

在MPEG-1和MPEG-2中,已经广泛利用采用C语言书写的各种模拟程序,来实施MPEG-1的“模拟模型”(Simulation Models)和MPEG-2的“测试模型”(Test Models)。这两个标准的第5部分,既给出编码器,也给出解码器的软件实施。在MPEG-4中,已经提出大量的新方法来定义MPEG-4“音频”、“视频”和“系统”的“检验模型”(Verification Model, VM)(用C或C++书写的)的一个“参考实施”(Reference Implementation),认识到实施各种VM之参考程序的好处是,它可以作为一种方法改进相互协作、加速开发,减少不必要的重复工作,并促进在市场上最终接受该标准。

与此同时,MPEG关注到这种参考程序成为事实上的(de facto)MPEG-4的标准技术规定。但是,从ISO的观点来看,一种参考程序的软件之版权不属于ISO的情况,将是不能被接受的。变通的办法是:或者不允许参考的VM存在(丧失了前面提到的各种好处),或者要定义一组规则来避免所提到的各种风险。已经选定后一种解答,它目前可以表述如下:

1. 所有MPEG的成员可以免费使用各种VM模块〔不管是由MPEG中的何人提供的,其目的是为了执行各种核心(core)实验〕中的任何一个;

2. 各种VM模块都是有文件详细说明的(well-documented),与计算机无关的C或C++语言写成的;

3. 解码器源程序码字的模块〔代表各种规范性(normative)单元〕之版权,已经向ISO递交。用硬件或软件来实施VM所需的任何专利仍然适用;

4. ISO对本标准的用户们给予免费的许可证,来使用VM解码器软件的各种规范性单元以及其各种修改项,由此可以在声明符合该标准的各种硬件或软件中使用;

5. 源程序码字的捐献者对于由第三团体(thirdparty)采用其码字而造成的后果,不负任何责任;

6. 扩展上述第3和第4项以包括解码器软件和/或编码器软件的各种非规范性单元,正在考虑之中。

MPEG-4将向多媒体通信的各种应用和各种业务提供一种通用的(generic)技术。在上面讨论的各种问题的清单中,还需要有一些目前尚未在MPEG-4中考虑的单元,来完善整个美景(picture)。其中有:“知识产权”(Intellectual Property Right,简写IPR)管理,安全性,信息内容的搜索,传送协议。

不论由“国际互联网络”(以及特别是WWW)带来的不同消费范例究竟如何,信息内容作为驱动创作者们编制它们或用户们消费它们之驱动器的作用,仍将保持不变,但是,IPR的特性未必需要和今天的完全相同。

在MPEG-2中,IPR管理对于数字电子界今日已经做的事情要互换位置(transposition),因为避免算法已经起着非常表面性的(superficial)作用。信息内容是数字的以及可以用版权描述符来作“标记”之事实,其好处是:在发送链路中有可能由自动处理获得更有效的IPR管理。

.　在MPEG-4中,表达信息内容的方式已经深入到信息本身语义(semantics)。在各种基本分量(例如,一个VOP)内,以及它们在信源端对它们简写编制的过程中,有一个明显的IPR,而随后用户自己可以进行不同的编制过程(compositing)和演示过程(presentation),采用自然的和合成的信源之信息,实时的和非实时的,来自一个或更多的信源。

.　有区别的第二个单元在于各种编码算法的特性。在MPEG-2中,算法是固定的;而在MPEG-4中,它们可以由创作者自己汇集。即使是每个单个编码工具就可能有一个或几个IPR片断与它相联系,那末由某个特定的创作者采用的各种工具之汇集特性是什么?

.　在MPEG-2中,一个解码器是一个固定的芯片,它只能够完成一些固定的运算。这种情况在MPEG-4中将继续存在,但是,与这种情况并存的将有更广泛的不同情况,其最极端的情况是:具有一个通用的可编程的处理器,其解码软件将与信息内容本身一起下载(down-load)。

.　“水印技术(watermarking)”是在模拟领域中今日广泛采用的技术。水印技术也能够在数字领域中使用,并可能取决于编码算法的特征。适当的“挂钩”可能必须放一定的位置,以便对信息内容加上有效的水印。在MPEG-4中需要提供一种稳定的(solid)IPR管理机制。通过信息内容提供界的介入,这将是必须进行的。

以加密的形式(ECM和EMM消息)提供安全性在MPEG-2中已经存在。不幸的是,MPEG-2的技术规定远远满足不了能使加密技术对于用户而言是透明的这种目标。这正成为广泛采用MPEG-2各种业务的一个主要障碍。其次,安全性已设计为,在一个广播的环境中对一个业务提供者主要提供各种加扰功能。

这些限制在MPEG-4中应该避免。安全性是一个通信标准的重要特征,它有几种层次,而加扰仅是其中的一种。

MPEG-1和MPEG-2已设计为和广泛应用于对某种信息内容〔具有明显的个性(identity),例如电影、记录影片等〕进行编码。在MPEG-2的当前使用中,所谓“业务信息”(Service Information)根据可以鉴别的(well-identified)分类方法,描述信息内容的某个片断,这样才便于用户进行搜索。

这个解答能够顺利完成设计时制定的目标,能够在数量很大但仍能管理的数目之节目中,寻找用户感兴趣的信息。作为一个例子而言,将这个解答扩展应用于“国际网络”中的信息内容搜索,这将是笨拙的。当然,这就是一种技术范例,其环境虽然不一定完全与MPEG-4将经常使用的环境相同。

缺乏适当的搜索技术,是很多人对“国际网络”的业务价值提出疑问的一个理由,尽管“国际网络”有爆炸性增长。由于HTML仅仅设计为能够对文本和链接进行编码的一种语言,而没有考虑信息搜索过程之功能,这个问题更加恶化。

已经明确地论证过,这种限制在MPEG-4中必须避免,因而,马上要启动一个新的项目,其小名为MPEG-7。其中将讨论(除了其它问题以外):

.　当需要必须能够搜索到某一个片断的MPEG-4编码信息时,来自不同应用领域之各种需求;

.　用于各种搜索功能的在MPEG-4语法范围内的适当支持之定义;

每个时代都有其“信仰战争”,而目前正在争斗的有两个阵营,称为“异步转移模式”(ATM)和“国际互联网络”。概括而言,争论的各种技术问题如下:

.　ATM已设计为数字宽带网络,能够携带所有类型的信息。各种应用应该采用“异步转移模式”提供的网络业务〔提供一种适当的“异步转移模式自适应层”(ATM Adaptation Layer,简写AAL)〕。

.　Internet已经开发和使用了一套协议,它们可以提供一大类(窄带)应用所需的所有业务,它们可以基于IP之上,而后者可以基于ATM,也可以不。

MPEG-4不需要参与这种争论,正如MPEG-2可以直接在一个数码流的物理层上、或者在ATM上、或者在TCP/IP上携带,因此,MPEG-4应该在三种情况下都可以使用。

讨论了多媒体通信10年来的历史问题,认识到这个新的通信领域的未能实现的各种承诺,以及将各种技术问题从90年代初的“会聚宣传”中清晰地分离出来。

多媒体通信的多重工业之特性,争取跨工业界(cross-industry)的各种标准。已经认识到:与各种工业界(对待标准化已有如此不同的方法)进行讨论的困难。但是,由MPEG在其MPEG-1和MPEG-2标准中成功地采纳的药方,可以再应用到这个新的标准化项目MPEG-4,它承诺将成为可用于多媒体通信的可实现技术。

作者感谢Pil Chou(Xerox), TouradjE-brahimi(EPFL), Ajay Lutha (Tektronix), Geoff Morrison (BT), Pentti Haikonen (Nokia), Rob Koenen (KPN), Kevin O'Connel (Motorola), Sakae Okubo (GCL), Pete Schirling (IBM), Ali Tabatabai (Tektronix) 等,因为他们仔细阅读了文章稿并提出了宝贵意见。

〔1〕 SakaeOkubo, KenMcCann, AndrewLippman.“MPEG-2requirements,profilesandperformanceveri-fication—Framework for developing a generic video codings tandard”.Signal Processing: Image Communi-cation, Vol,7, pp.201～209,1995..