6.            Обзор применяемых форматов хранения цифровых аудио данных без и с потерей качества

 

Методы, используемые для эффективного сжатия цифрового звука

 

В настоящее время наиболее известны Audio MPEG, PASC и ATRAC. Все они используют так называемое "кодирование для восприятия" (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.

Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей.

Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.

Audio MPEG - группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). Методы Audio MPEG существуют в виде нескольких типов - MPEG-1, MPEG-2 и т.д.; в настоящее время наиболее распространен тип MPEG-1.

Существует три уровня (layers) Audio MPEG-1 для сжатия стереофонических сигналов: 1 - коэффициент сжатия 1:4 при потоке данных 384 кбит/с; 2 - 1:6..1:8 при 256..192 кбит/с; 3 - 1:10..1:12 при 128..112 кбит/с.

Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска.

Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера).

Audio MPEG используется в компьютерных звуковых системах, CD-i/DVD, "звуковых" дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука.

PASC (Precision Adaptive Sub-band Coding - точное адаптивное внутриполосное кодирование) - частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.

ATRAC (Adaptive TRansform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц.

При сжатии каждый кадр делится на 52 частотные полосы, результирующая скорость потока - 292 кбит/с (сжатие 1:5). Применяется в системе MiniDisk.

Форматы, используемые для представления цифрового звука

 

Понятие формата используется в двух различных смыслах. При использовании специализированного носителя или способа записи и специальных устройств чтения/записи в понятие формата входят как физические характеристики носителя звука - размеры кассеты с магнитной лентой или диском, самой ленты или диска, способ записи, параметры сигнала, принципы кодирования и защиты от ошибок и т.п. При использовании универсального информационного носителя широкого применения - например, компьютерного гибкого или жесткого диска - под форматом понимают только способ кодирования цифрового сигнала, особенности расположения битов и слов и структуру служебной информации; вся "низкоуровневая" часть, относящаяся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.

Из специализированных форматов и носителей цифрового звука в настоящее время наиболее известны следующие: CD (Compact Disk - компакт-диск) - односторонний пластмассовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий максимум 74 минуты стереозвучания с частотой дискретизации 44.1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disk - Digital Audio). Для защиты от ошибок используется двойной код Рида-Соломона с перекрестным перемежением (Cross Interleaved Reed-Solomon Code, CIRC) и модуляция кодом Хэмминга 8-14 (Eight-to-Fourteen Modulation, EFM).

Различаются штампованные (CD) однократно записываемые (CD-R) и многократно перезаписываемые (CD-RW) компакт-диски.

ИКМ-приставка (PCM deck) - система для преобразования цифрового звукового сигнала в псевдовидеосигнал, совместимый с популярными видеоформатами (NTSC, PAL/SECAM), и обратно. ИКМ-приставки применяются в сочетании с бытовыми (VHS) или студийными (S-VHS, Beta, U-Matic) видеомагнитофонами, используя их в качестве устройств чтения/записи.

Устройства работают с 16-разрядным линейным квантованием на частотах дискретизации 44.056 кГц (NTSC) и 44.1 кГц (PAL/SECAM), и позволяют записывать двух- или четырехканальную цифровую сигналограмму. По сути, такая приставка представляет собой модем (модулятор-демодулятор) для видеосигнала.

S-DAT (Stationary head Digital Audio Tape - цифровая звуковая лента с неподвижной головкой) - система наподобие обычного кассетного магнитофона, запись и чтение в которой ведутся блоком неподвижных тонкопленочных головок на ленте шириной 3.81 мм в двухсторонней кассете размером 86 x 55.5 x 9.5 мм. Реализует 16-разрядную запись двух или четырех каналов на частотах 32, 44.1 и 48 кГц.

R-DAT (Rotary head Digital Audio Tape - цифровая звуковая лента с вращающейся головкой) - система наподобие видеомагнитофона с поперечно-наклонной записью вращающимися головками. Наиболее популярный формат ленточной цифровой записи, системы R-DAT часто обозначаются просто DAT. В R-DAT используется кассета размером 73 x 54 x 10.5 мм, с лентой шириной 3.81 мм, а сама система кассеты и магнитофона очень похожа на типовой видеомагнитофон. Базовая скорость движения ленты - 8.15 мм/с, скорость вращения блока головок - 2000 об/мин. R-DAT работает с двухканальным (в ряде моделей - четырехканальным) сигналом на частотах дискретизации 44.1 и 48 кГц с 16-разрядном линейным квантованием, и 32 кГц - с 12-разрядным нелинейным. Для защиты от ошибок используется двойной код Рида-Соломона и модуляция кодом 8-10. Емкость кассеты - 80..240 минут в зависимости от скорости и длины ленты. Бытовые DAT-магнитофоны обычно оснащены системой защиты от незаконного копирования фонограмм, не допускающей записи с аналогового входа на частоте 44.1 кГц, а также прямого цифрового копирования при наличии запрещающих кодов SCMS (Serial Code Managenent System). Студийные магнитофоны таких ограничений не имеют.

DASH (Digital Audio Stationary Head) - система с записью на магнитную ленту шириной 6.3 и 12.7 мм в продольном направлении неподвижными головками. Скорость движения ленты - 19.05, 38.1, 76.2 см/с. Реализует 16-разрядную запись с частотами дискретизации 44.056, 44.1 и 48 кГц от 2 до 48 каналов.

ADAT (Alesis DAT) - собственная (proprietary) система восьмиканальной записи звука на видеокассету типа S-VHS, разработанная фирмой Alesis.

Использует 16-разрядное линейное квантование на частоте 48 кГц, емкость кассеты составляет до 60 минут на каждый канал. Магнитофоны ADAT допускают каскадное соединение, в результате чего может быть собрана система 128-канальной синхронной записи. Для ADAT выпускается множество различных интерфейсных блоков для сопряжения с DAT, CD, MIDI и т.п. Модель Meridian (ADAT Type II) использует 20-разрядное квантование на частотах 44.1 и 48 кГц.

DCC (Digital Compact Cassette - цифровая компакт-кассета) - бытовая система записи в продольном направлении на стандартную компакт-кассету, разработанная Philips. Скорость движения ленты - 4.76 см/с, максимальное время звучания такое же, как при аналоговой записи.

Частоты дискретизации - 32, 44.1, 48 кГц, разрешение - 16/18 разрядов (метод сжатия PASC). На DCC-магнитофонах могут воспроизводиться (но не записываться) обычные аналоговые компакт-кассеты. В настоящее время система DCC признана неперспективной.

MD (MiniDisk) - бытовая и концертная система записи на магнитооптический диск, разработанная Sony. Диск диаметром 64 мм, помещенный в пластмассовый футляр размером 70 x 67.5 x 5 мм, вмещает 74 минуты (60 в ранних версиях) стереофонического звучания. При обмене со внешними устройствами используется формат 16-разрядных отсчетов на частоте 44.1 кГц, однако на сам диск сигнал записывается после сжатия методом ATRAC.

Из универсальных компьютерных форматов наиболее популярны следующие: Microsoft RIFF/WAVE (Resource Interchange File Format/Wave - формат файлов передачи ресурсов/волновая форма) - стандартный формат звуковых файлов в компьютерах IBM PC. Файл этого формата содержит заголовок, описывающий общие параметры файла, и один или более фрагментов (chunks), каждый из которых представляет собой волновую форму или вспомогательную информацию - режимы и порядок воспроизведения, пометки, названия и координаты участков волны и т.п. Файлы этого формата имеют расширение .WAV.

Apple AIFF (Audio Interchange File Format - формат файла обмена звуком) - стандартный тип звукового файла в системах Apple Macintosh.

Похож на RIFF и также позволяет размещать вместе со звуковой волной дополнительную информацию, в частности - самплы WaveTable-инструментов вместе с параметрами синтезатора.

Формат "чистой оцифровки" RAW, не содержащий заголовка и представляющий собой только последовательность отсчетов звуковой волны. Обычно оцифровка хранится в 16-разрядном знаковом (signed) формате, когда первыми в каждой паре идут отсчеты левого канала, хотя могут быть и исключения.

 

Фоpматы, используемые для пpедставления звука и музыки

 

В настоящее вpемя стандаpтом де-факто стали два фоpмата: Microsoft RIFF (Resource Interchange File Format - фоpмат файлов пеpедачи pесуpсов) Wave (.WAV) и SMF (Standard MIDI File - стандаpтный MIDI-файл) (.MID). Пеpвый содеpжит оцифpованный звук (моно/стеpео, 8/16 pазpядов, с pазной частотой оцифpовки), втоpой - "паpтитуpу" для MIDI-инстpументов (ноты, команды смены инстpументов, упpавления и т.п.). Поэтому WAV-файл на всех каpтах, поддеpживающих нужный фоpмат, pазpядность и частоту оцифpовки звучит совеpшенно одинаково (с точностью до качества пpеобpазования и усилителя), а MID-файл в общем случае - по-pазному.

RAW - одноканальный фоpмат "чистой оцифpовки", не содеpжащий заголовка. Обычно оцифpовка хpанится в 16-pазpядном знаковом (signed) фоpмате, хотя могут быть и исключения.

VOC и CMF - фоpматы пpедставления оцифpованного звука и паpтитуp от фиpмы Creative Labs, AIFF (Audio-...) - фоpмат звуковых файлов на Macintosh и SGI, AU - фоpмат SUN/NeXT.

MOD - шиpоко pаспpостpаненный тpекеpный фоpмат. Содеpжит оцифpовки инстpументов и паpтитуpу для них, отчего звучит везде пpимеpно одинаково (опять же - с точностью до качества воспpоизведения). В оpигинале поддеpживаются четыpе канала, в pасшиpениях - до восьми и более.

STM - фоpмат Scream Tracker, пpимеpно того же уpовня, что и MOD.

S3M - фоpмат Scream Tracker 3. Развитие STM в стоpону увеличения pазpядности инстpументов и количества музыкальных эффектов. Сам ST3 поддеpживает до 32 каналов, но не поддеpживает пpедусмотpенных в фоpмате 16-pазpядных самплов.

XM - фоpмат Fast Tracker. Один из наиболее высокоуpовневых сpеди тpекеpных фоpматов. Поддеpживаются 16-pазpядные самплы, один ин- стpумент может содеpжать pазличные самплы на pазные диапазоны нот, возможно задание амплитудных и паноpамных огибающих.

 

MPEG: Общая информация

 

Стандарт сжатия MPEG разработан Экспертной группой кинематографии (Moving Picture Experts Group - MPEG). MPEG это стандарт на сжатие звуковых и видео файлов в более удобный для загрузки или пересылки, например через интернет, формат.

Существуют разные стандарты MPEG (как их еще иногда называют фазы - phase): MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-7.

MPEG состоит из трех частей: Audio, Video, System (объединение и синхронизация двух других).

MPEG-1

По стандарту MPEG-1 потоки видео и звуковых данных передаются со коростью 150 килобайт в секунду -- с такой же скоростью, как и односкоростной CD-ROM проигрыватель -- и управляются путем выборки ключевых видео кадров и заполнением только областей, изменяющихся между кадрами. К несчастью, MPEG-1 обеспечивает качество видеоизображения более низкое, чем видео, передаваемое по телевизионному стандарту.

MPEG-1 был разработан и оптимизирован для работы с разрешением 352 ppl (point per line -- точек на линии) * 240 (line per frame -- линий в кадре) * 30 fps (frame per second -- кадров в секунду), что соответствует скорости передачи CD звука высокого качества. Используется цветовая схема - YCbCr (где Y - яркостная плоскость, Cb и Cr - цветовые плоскости).

Как MPEG работает:

В зависимости от некоторых причин каждый frame (кадр) в MPEG может быть следующего вида:

·     I (Intra) frame - кодируется как обыкновенная картинка.

·     P (Predicted) frame - при кодировании используется информация от предыдущих I или P кадров.

·     B (Bidirectional) frame - при кодировании используется информация от одного или двух I или P кадров (один предшествующий данному и один следующий за ним, хотя может и не непосредственно, см. Рис.1)

Последовательность кадров может быть например такая: IBBPBBPBBPBBIBBPBBPB...

Последовательность декодирования: 0312645...

Нужно заметить, что прежде чем декодировать B кадр требуется декодировать два I или P кадра. Существуют разные стандарты на частоту, с которой должны следовать I кадры, приблизительно 1-2 в секунду, соответствуюшие стандарты есть и для P кадров (каждый 3 кадр должен быть P кадром). Существуют разные относительные разрешения Y, Cb, Cr плоскостей (Таблица 1), обычно Cb и Cr кодируются с меньшим разрешением чем Y.

Вид Формата

Отношения разрешений по горизонтали (Cb/Y):

Отношение разрешений по вертикали (Cb/Y):

4:4:4 1:1 1:1
4:2:2 1:2 1:1
4:2:0 1:2 1:2
4:1:1 1:4 1:1
4:1:0 1:4 1:4

Для применения алгоритмов кодировки происходит разбивка кадров на макроблоки каждый из которых состоит из определенного количества блоков (размер блока - 8*8 пикселей). Количество блоков в макроблоке в разных плоскостях разное и зависит от используемого формата:

Техника кодирования:

Для большего сжатия в B и P кадрах используется алгоритм предсказания движения (что позволяет сильно уменьшить размер P и B кадров -- Таблица 2) на выходе которого получается:

·     Вектор смещения (вектор движения) блока который нужно предсказать относительно базового блока.

·     Разница между блоками (которая затем и кодируется).

Так как не любой блок можно предсказать на основании информации о предыдущих, то в P и B кадрах могут находиться I блоки (блоки без предсказания движения).

Вид кадра

I

P

B

Средний размер

Размер кадра для стандарта SIF (kilobit) 150 50 20 38

Метод кодировки блоков (либо разницы, получаемой при методе предсказание движения) содержит в себе:

·     Discrete Cosine Transforms (DCT - дискретное преобразование косинусов).

·     Quantization (преобразование данных из непрерывной формы в дискретную).

·     Кодировка полученного блока в последовательность.

DCT использует тот факт, что пиксели в блоке и сами блоки связаны между собой (т.е. коррелированны), поэтому происходит разбивка на частотные фурье компоненты (в итоге получается quantization matrix - матрица преобразований данных из непрерывной в дискретную форму, числа в которой являются величиной амплитуды соответствующей частоты), затем алгоритм Quantization разбивает частотные коэффициенты на определенное количество значений. Encoder (кодировщик) выбирает quantization matrix которая определяет то, как каждый частотный коэффициент в блоке будет разбит (человек более чувствителен к дискретности разбивки для малых частот чем для больших). Так как в процессе quantization многие коэффициенты получаются нулевыми то применяется алгоритм зигзага для получения длинных последовательностей нулей.

Звук в MPEG:

Форматы кодирования звука деляться на три части: Layer I, Layer II, Layer III (прообразом для Layer I и Layer II стал стандарт MUSICAM, этим именем сейчас иногда называют Layer II). Layer III достигает самого большого сжатия, но, соответственно, требует больше ресурсов на кодирование.

Принципы кодирования основаны на том факте, что человеческое ухо не совершенно и на самом деле в несжатом звуке (CD-audio) передается много избыточной информации. Принцип сжатия работает на эффектах маскировки некоторых звуков для человека (например, если идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен человеку, также будет ослаблена чувствительность человеческого уха на период в 100 мс после и 5 мс до возникновения сильного звука). Psycoacustic (психоакустическая) модель используемая в MPEG разбивает весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляет звуки не воспринимаемые человеком, благодаря описанным выше эффектам.

В Layer III части разбитого спектра самые маленькие, что обеспечивает самое хорошее сжатие. MPEG Audio поддерживает совместимость Layer'ов снизу вверх, т.е. decoder (декодировщик) для Layer II будет также распознавать Layer I.

Синхронизация и объединение звука и видео, осуществляется с помощью System Stream, который включает в себя:

·     Системный слой, содержащий временную и другую информацию чтобы разделить и синхронизовать видео и аудио.

·     Компрессионный слой, содержащий видео и аудио потоки.

Видео поток содержит заголовок, затем несколько групп картинок (заголовок и несколько картинок необходимы для того, что бы обеспечить произвольный доступ к картинкам в группе в независимости от их порядка).

Звуковой поток состоит из пакетов каждый из которых состоит из заголовка и нескольких звуковых кадров (audio-frame).

Для синхронизации аудио и видео потоков в системный поток встраивается таймер, работающий с частотой 90 КГц (System Clock Reference -- SCR, метка по которой происходит увеличения временного счетчика в декодере) и Presentation Data Stamp (PDS, метка насала воспроизведения, вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS сотавляет 33 бита, что обеспечивает возможность представления любого временного цикла длинной до 24 часов).

Параметры MPEG-1 (Утверждены в 1992)

Параметры Аудио: 48, 44.1, 32 КГц, mono, dual (два моно канала), стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000 Гц.), m/s stereo (один канал переносит сумму - другой разницу). Сжатие и скорость передачи звука для одного канала, для частоты 32 КГц представлены в таблице.

Способ кодирования

Скорость передачи kbps (килобит в сек.)

Коэффициент сжатия

Layer I 192 1:4
Layer II 128..96 1:6..8
Layer III 64..56 1:10..12

Параметры Видео: в принципе с помощью MPEG-1 можно передавать разрешение вплоть до 4095x4095x60 fps (в этих границах кадр может быть произвольного размера), но так как существует Constrained Parameters Bitstream (CPB, неизменяемые параметры потока данных; другие стандарты для MPEG-1 поддерживаются далеко не всеми декодерами) которые ограничивают общее число макроблоков в картинке (396 для скорости <= 25 fps и 330 для скорости <= 30 fps) то MPEG-1 кодируется стандартом SIF /352*240*30 - (получено урезанием стандарта CCIR-601) или 352*288*25 - (урезанный PAL, SECAM) формат 4:2:0, 1.15 MBPS (мегабит в сек.), 8 bpp (бит на точку) - в каждой плоскости/.

Существует более высокое разрешение для MPEG-1 - так называемый MPEG-1 Plus, разрешение как у MPEG-2 ML@MP (Main Level, Main Profile) - этот стандарт часто используется в Set-Top-Box для улучшения качества.

MPEG2 - upgrade для MPEG1

Компрессия по стандарту MPEG-2 кардинально меняет положение вещей. Более 97% цифровых данных, представляющих видео сигнал дублируются, т.е. являются избыточными и могут быть сжаты без ущерба качеству изображения. Алгоритм MPEG-2 анализирует видеоизображение в поисках повторений, называемых избыточностью. В результате процесса удаления избыточности, обеспечивается превосходное видеоизображение в формате MPEG-2 при более низкой скорости передачи данных. По этой причине, современные средства поставки видеопрограмм, такие как цифровые спутниковые системы и DVD, используют именно стандарт MPEG-2.

Изменения в Audio:

·     Появились новые виды частот 16, 22.05, 24 КГц.

·     Поддержка многоканальности - возможность иметь 5 полноценных каналов (left, center, right, left surround, right surround) + 1 низкочастотный (subwoofer).

·     Появился AAC (Advanced Audio Coding - прогрессивное кодирование звука) стандарт - обеспечивает очень высокое качество звука со скоростью 64 kbps per channel (килобит в сек. на канал), возможно использовать 48 основных каналов, 16 низкочастотных каналов для звуковых эффектов, 16 многоязыковых каналов и 16 каналов данных. До 16 программ может быть описано используя любое количество элементов звуковых и других данных. Для AAC существуют три вида профиля - Main (используется когда нет лишней памяти), Low Complexity (LC), Scalable Sampling Rate (SSR, требуется декодер с изменяемой скоростью приема данных).

Декодеры должны быть:

1.            "forwards compatible" (вперед совместимыми) - MPEG-2 Audio Decoder понимает любые MPEG-1 аудио каналы.

2.            "backward compatible" (обратно совместимыми) - MPEG-1 Audio Decoder должен понимать ядро MPEG-2 Audio (L-канал, R-канал)

3.            "matrixing" (матрицируемыми) - MPEG1 Audio Decoder должен понимать 5-ти канальный MPEG-2 (L = left signal + a * center signal + b * left surround signal, R = right signal + a * center signal + b * right surround signal)

4.            MPEG-1 Звуковой декодер не обязан понимать MPEG-2 AAC.

В следствии зтого совершенно спокойно можно использовать MPEG-1 Vidio + MPEG-2 Audio или наоборот MPEG-2 Audio + MPEG-1 Video.

Изменения в Видео:

·     Требуется чтобы разрешение по вертикали и горизонтали было кратно 16 в кодировщике кадров (frame-encoder) стандартах (покадровое кодирование), и 32 по вертикали в кодировщике полей (field-encoder, каждое поле состоит из двух кадров) стандартах (interlaced video).

·     Возможность форматов 4:4:4, 4:2:2 (Next profile).

·     Введены понятия Profile (форма, профиль) и Levels (уровни).

·     Размер frame до 16383*16383.

·     Возможность кодировать interlaced video.

·     Наличие режимов масштабирования (Scalable Modes)

·     Pan&Scanning вектор (вектор панорамировани и масштабирования), который говорит декодеру как преобразовывать, например 16:9 в 4:3.

Изменения связаные с алгоритмами кодирования:

·     Точность частотных коэффициентов выбирается пользователем (8, 9, 10, 11 бит на одно значение -- в MPEG-1 только 8 бит).

·     Нелинейный quantization процесс (разбиение непрерыных данных в дискретные).

·     Возможность загрузить quantization matrix (матрица преобразований непрерыных данных в дискретные) перед каждым кадром.

·     Новые режимы предсказания движения (16x8 MC, field MC, Dual Prime)

Scalable Modes (доступно только в Next и Main+ Profile) делят MPEG-2 на три слоя (base, middle, high) для того чтобы организовать уровни приоритета в видеоданных (на пример более приоритетный канал кодируется с большим количеством информации по коррекции ошибок чем менее):

1.            Spatial scalability (пространственное масштабирование) - основной слой кодируется с меньшим разрешением и затем он используется как предсказание для более приоритетных.

2.            Data Partitioning (дробление данных) - разбивает блок из 64 quantization коэффициентов в два потока из которых более приоритетный переносит низкочастотные (наиболее критичные к качеству), а менее приоритетный (высокочастотные).

3.            SNR (Signal to Noise Ratio) Scalability (масштабировние соотношения сигна/шум) - каналы кодируются с одинаковой скоростью, но с разным качеством (менее приоритетный слой содержит плохую картинку - более дискретные шаги, а высокоприоритетный слой содержит довесок позволяющий построить качественную картинку)

4.            Temporal Scalability (временное масштабирование) - менее приоритетный слой содержит канал с низкой скоростью передачи кадров, а высокоприоритетный содержит информацию позволяющую восстановить промежуточные кадры используя для предсказания менее приоритетные.

Уровни

Уровень

Максимальное разрешение

Максимальная скорость

Примечание

Low 352*240*30 4 Mbps CIF, кассеты
Main 720*480*30 15 Mbps CCIR 601, студийное TV
High 1440 1440*1152*30 60 Mbps 4x601, бытовое HDTV
High 1920*1080*30 80 Mbps Продукция SMPTE 240M std

Профили

Профиль

Комментарии

Simple Такой же как и Main только без B - картинок. Используется в программах и CATV (кабельное ТВ)
Main Стандартный MPEG-1, 95% пользователей, CATV, спутники
Main+ Main со Spatial и SNR Scalability
Next Main+ c форматом 4:2:2

Допустимые комбинации Профилей и Уровней

Simple

Main

Main+

Next

High No No 4:2:2
High 1440 No Main c Spatial Scalability 4:2:2
Main 90% от всех Main c SNR Scalability 4:2:2
Low No Main c SNR Scalability No

Наиболее популярные стандарты.

Разрешение

Комментарии

352*480*24 (progressive) VHS, хорош для фильмов
544*480*30 (interlaced) Laserdisc (LD), D-2, Качество как у PAL
704*480*30 (interlaced) Качество CCIR 601.Studio D-1

Системный уровень MPEG-2, обеспечивает два уровня объединения данных:


Информация о работе «Методы позиционирования и сжатия звука»
Раздел: Информатика, программирование
Количество знаков с пробелами: 461693
Количество таблиц: 14
Количество изображений: 14

Похожие работы

Скачать
19874
1
0

... данных - облегчение восстановления данных при их порче или потере; - Pat authenticity verification / Добавлять проверку достоверности -WinRAR будет помещать в каждом новом и скорректированном архиве информацию относительно создателя, последнего времени коррекции и архивного имени; - Delete files after archiving / Удалять файлы после их архивации - после перемещения в архив файлы будут удалены. ...

Скачать
212314
0
3

... октав, содержащая схему пpеобpазования воздействий в MIDI-сообщения и адаптеp с выходом MIDI Out. MIDI-клавиатура не способна звучать самостоятельно, она использует в качестве синтезатора звуковую карту компьютера. Иногда на MIDI-клавиатуре размещены некоторые дополнительные переключатели, например, глиссандо или вибрато. Большинство MIDI-клавиатур производится фирмой Fatar (под своей маркой их ...

Скачать
87417
1
1

... стало достижение цели систематизация и закрепление знаний и навыков в области создания фирменного стиля, полученных в процессе обучения, путем создания целостного визуального образа музыкального проекта „Tuum Fatum“ для позиционирования проекта на музыкальном рынке. Стоит отметить малое количество серьезных исследований и публикаций на данную тематику, поверхностную информацию данной темы, а ...

Скачать
38266
2
8

... что в самом близком будущем CD-DA переместится к область массового использования, к примеру, в область mp3, оставляя место в сфере любителей музыки для форматов DVD-A, SACD и WMA9 pro, поддерживающие 24 бита 96kHz многоканальное аудио, выдвинутое Microsoft. В случае корректного воспроизведения компакт-диска (поскольку это осуществлено в устройствах от некоторых Высококачественных изготовителей) и ...

0 комментариев


Наверх