1.            Packetized Elementary Stream (PES) - разбивает звук и видео на пакеты.

2.            Второй уровень делится на:

·     MPEG-2 Program Stream (совместим с MPEG-1 System) - для локальная передача в среде с маленьким уровнем ошибок

·     MPEG-2 Transport Stream (Рис. 6) - внешнее вещание в среде с высоким уровнем ошибок - передает транспортные пакеты (длиной 188 либо 188+16 бит) двух типов (сжатые данные -- PES -- и сигнальную таблицу Program Specific Information -- PSI).

MPEG-3 - ненужный формат

Был разработан для HDTV приложений с параметрами - максимальное разрешение (1920*1080*30), скорость 20 - 40 Mbps. Так как он не давал принципиальных улучшений по сравнению с MPEG-2 (да и к тому же MPEG-2 стал широко использоваться в разных вариантах, в том числе и для HDTV), то он благополучно вымер.

MPEG-4 - очень мощный формат

MPEG-4 - стандарт для низкоскоростной передачи (64 kbps), находящийся еще в стадии разработки. Первую версию планировалось закончить в 1999 году.

Краткое описание:

·     Разделяет картинку на различные элементы, называемые media objects (медиа объекты).

·     Описывает структуру этих объектов и их взаимосвязи чтобы затем собрать их в видеозвуковую сцену.

·     Позволяет изменять сцену, что обеспечивает высокий уровень интерактивности для конечного пользователя.

Видеозвуковая сцена состоит из медиа объектов, которые объеденены в иархическую структуру:

·     Неподвижные картинки (например фон)

·     Видио объекты (говорящий человек).

·     Аудио объекты (голос связанный с этим человеком).

·     Текст связанный с данной сценой.

·     Синтетические объекты - объекты которых не было изначально в записываемой сцене, но которые туда добавляются при демонстрации конечному пользователю (например синтезируется говорящая голова).

·     Текст связанный с головой из которого в конце синтезируется голос.

Такой способ представления данных позволяет:

·     Перемещать и помещать медиа объекты в любое место сцены.

·     Трансформировать объекты, изменять геометрические размеры.

·     Собирать из отдельных объектов составной объект и проводить над ним какие-нибудь операции.

·     Изменять текстуру объекта (например цвет), манипулировать объектом (заставить ящик передвигаться по сцене)

·     Изменять точку наблюдения за сценой.

MPEG-J

MPEG-J - стандартное расширение MPEG-4 в котором используются Java - элементы.

MPEG-7

MPEG-7 - не является продолжение MPEG как такового - стал разрабатываться сравнительно недавно, планируется его закончить к 2001 г. MPEG - 7 будет обеспечивать стандарт для описания различных типов мультимедийной информации (а не для ее кодирования), чтобы обсепечивать эффективный и быстрый ее поиск. MPEG-7 официально называют - "Multimedia Content Description Interface" (Интерфейс описания мультимедиа данных). MPEG-7 определяет стандартный набор дискриптеров для различных типов мультимедиа информации, так же он стандартизует способ определения своих дискриптеров и их взаимосвязи (description schemes). Для этой цели MPEG-7 вводит DDL (Description Definition Language - язык описания определений). Основная цель применения MPEG-7 это поиск мультимедиа информации (так же как сейчас мы можем найти текст по какому-нибудь предложению), например:

·     Музыка. Сыграв несколько нот на клавиатуре можно получить список музыкальных произведений, которые содержат такую последовательность.

·     Графика. Нарисовав несколько линий на экране, получим набор рисунков содержащих данный фрагмент.

·     Картины. Определив объект (задав его форму и текстуру) получим список картин, содержащих оный.

·     Видео. Задав объект и движение получим набор видео или анимации.

·     Голос. Задав фрагмент голоса певца, получим набор песен и видео роликов где он поет.

MHEG

MHEG - (Multimedia & Hypermedia Expert Group -- экспертная группа по мультимедиа и гипермедиа) - определяет стандарт для обмена мультимедийными объектами (видео, звук, текст и другие произвольные данные) между приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и вещания) с использованием MHEG object classes. Он позволяет программным объектам включать в себя любую систему кодирования (например MPEG), которая определена в базовом приложении. MHEG был принят DAVIC (Digital Audio-Visual Council -- совет по цифровому видео и звуку). MHEG объекты делаются мультимедиа приложениями используя multimedia scripting languages.

Утверждается, что MHEG - будущий международный стандарт для интерактивного TV, так как он работает на любых платформах и его документация свободно распространяема.

 

Что такое MP3 ?

MP3 -- сокращение от MPEG Layer3. Это один из потоковых форматов хранения и передачи аудиосигнала в цифровой форме, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирования по сравнению с двумя другими и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio. Полные спецификации формата доступны на сайте http://www.mp3tech.org/.

Детали

MP3 -- потоковый формат. Это означает, что передача данных происходит потоком независимых отдельных блоков данных -- фреймов. Для этого исходный сигнал при кодировании разбивается на равные по продолжительности участки, именуемые фреймами и кодируемые отдельно. При декодировании сигнал формируется из последовательности декодированных фреймов.

Высокая степень компактности MP3 по сравнению с PCM 16Bit Stereo 44.1kHz (CD Audio) и ему подобными форматами при сохранении аналогичного качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать потери качества.

Последнее, в свою очередь, достигается учетом особенностей человеческого слуха, в том числе эффекта маскирования слабого сигнала одного диапазона частот более мощным сигналом соседнего диапазона, когда он имеет место, или мощным сигналом предыдущего фрейма, вызывающего временное понижение чувствительности уха к сигналу текущего фрейма. Также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов.

Подобные техники называются адаптивным кодированием и позволяют экономить на наименее значимых с точки зрения восприятия человеком деталях звучания. Степень сжатия, и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользователем в момент задания параметров кодирования. Ширина потока (bitrate) про кодировании сигнала, аналогичного CD Audio (44.1kHz 16Bit Stereo) варьируется от наибольшего, 320kbs (320 килобит в секунду, также пишут kbs, kbps или kb/s), до 96kbs и ниже.

Термин битрейт в общем случае обозначает общую величину потока, количество передаваемой за единицу времени информации, и поэтому не связан с внутренними тонкостями строения потока, его смысл не зависит от того, содержит ли поток моно или стерео, или пятиканальное аудио с текстом на разных языках, или что-либо еще

На проведенных тестах специально приглашенные опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодированного в MP3 с коэффициентом сжатия 6:1, то есть с битрейтом в 256kbs. Правда, тесты были проведены на небольшом количестве материала, и на самом деле не все столь хорошо, нередко бывает действительно нужно пользоваться 320kbs.

 Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирования, что незаслуженно обеспечило MP3 дурную славу любительского формата. На самом деле, хотя и 256kbs, и даже 320kbs тоже не дают возможности осуществить полностью прозрачное кодирование, но отличия от CD Audio, по которому кодируется тестовый MP3, сравнимы с отличиями самого CD Audio от исходного аналогового сигнала, из которого он был получен путем оцифровки. То есть потери, конечно, есть, но несущественны с точки зрения того, кому качество CD Audio представляется достаточным. Фактически, их обнаружение обычно является задачей нетривиальной на аппаратуре класса Hi-Fi.

Настоящее и будущее MP3

MP3 на сегодня имеет два огромных преимущества перед другими
доступными форматами его рода. Одно из них состоит в том, что ни про один из существующих подобных форматов нельзя пока сказать, что он полностью гарантирует устойчивое сохранение качества звучания на достаточно высоких битрейтах, кроме MP3, который достойно выдержал проверку временем. Пожалуй, единственный известные мне конкурент в этом плане -- последние варианты формата ATRAC, используемый в минидисках.

Для MP3 также написано множество удобного программного обеспечения. Этот факт отражает второе, не менее важное преимущество -- на ближайшие годы, а возможно, и на все десятилетие, MP3 стал стандартом де факто, настолько много сделано в него вложений пользующимися им сторонами, в том числе и цифровыми радиостанциями.

MP3 довольно долго оставался неизвестным, но несколько лет назад начался взрывной рост его популярности, столь же быстро начали появляться
залежи нелегальных MP3 файлов. Сейчас налажено производство аппаратных MP3 плееров, а карманных, и для автомобилей. Таким образом, MP3 стал первым массово признанным форматом хранения аудио после CD-Audio.

Несмотря на то, что MP3 появился достаточно давно, более новые форматы, претендующие на его место, появившиеся к настоящему моменту, все на поверку оказались любительскими. Они могут быть или не быть хороши по сравнению с MP3 на низких битрейтах, это зависит от трека и особенностей слуха конкретного человека, но на место MP3 256kbs... 320kbs претендовать не способны.

Возможно, "монополия" MP3 в сфере компьютеров на низких битрейтах все же будет отчасти сломлена новым форматом от Microsoft -- WMA. Но пока рано говорить об этом. С другой стороны, появление Microsoft на данном рынке со столь сильной разработкой означает быстрое отсеивание оказавшимися неудачными ветвей AAC и VQF. Впрочем, остается надежда, что AAC еще будет доработан.

В завершение упомяну один адрес, по которому расположился проект по созданию свободного от патентных ограничений кодера -- http://www.sulaco.org/mp3/free.html. Правда, патентов вокруг MP3 накопилось столько, что, думаю, проект этот завершен не будет.

(Впрочем, если говорить о свободных от патентах аудиокодерах вообще, то существует и более реальный проект, не являющийся проектом MP3 кодера. Он расположен по адресу http://www.xiph.org/.)

Описание процесса кодирования

Подготовка к кодированию. Фреймовая структура

Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помещается к конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма.

Начало кодирования

Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны, сумма которых эквивалентна исходному сигналу.

Работа психоакустической модели

Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем порога слышимости, то для данного фрейма данный диапазон сигнала не кодируется.

Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 dB.

Завершение кодирования

После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

Замечание

На практике схема несколько сложнее. Например, необходимо согласовываться с требованиями битрейта. В зависимости от кодера это приводит при повышении битрейта к разного рода релаксациям при отборе сохраняемой части исходного сигнала, а при понижении -- наоборот, к ужесточению критериев.

Способы кодирования стерео сигнала

В рамках MP3 кодирование стереосигнала допустимо четырьмя различными методами:

Dual Channel -- Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал -- скажем, текст на разных языках.

Выставляется в некоторых кодерах по требованию.

Stereo -- Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу больше места, чем другому. Это может быть полезно в том случае, когда после отброса части сигнала, лежащей ниже порога слышимости или полностью маскируемой, оказалось, что код не полностью заполняет выделенный для данного канала объем, и кодер имеет возможность использовать это место для кодирования другого канала. В документации к mp3enc замечено, что этим, например, избегается кодирование "тишины" в одном канале, когда в другом есть сигнал.

Данный режим выставлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs... 160kbs.

Joint Stereo (MS Stereo) -- Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD, особенно если CD сам был записан в свое время с аудиоленты. С другой стороны, уже совершена (первая ?) попытка написать программу для автоматической коррекции фазового сдвига, адрес страницы автора -- http://www.chat.ru/~lrsp. Возможно, она немного поможет любителям кодировать оцифровки с аудиокассет с битрейтом порядка 128kbs.

Режим выставлен по умолчанию продукцией FhG IIS, а также кодером Lame, для битрейтов от 112kbs до 192kbs.

Joint Stereo (MS/IS Stereo) -- Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.

В отличие от всех предыдущих, этот метод приводит к потере фазовой информации, но выгоды от экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких битрейтах.

Этот режим по умолчанию используется продукцией FhG IIS для высоких частот на битрейтах от 96kbs и ниже (другими качественными кодерами этот режим практически не используется).

Но, как уже говорилось, при применении данного режима происходит потеря фазовой информации, также теряется любой противофазный сигнал.

Простые заблуждения и ошибки, делаемые пользователями MP3

Вокруг MP3 набралось столько заблуждений, что создается впечатление, что так все и было задумано, что это чей-то заговор. :) Но -- по порядку.

Одно из самых больших заблуждений, связанных с MP3, постоянно проявляется в споре "128kbs vs 256kbs -- с каким битрейтом кодировать". Аргументы сторонников первого варианта исчерпываются напоминанием, что такие MP3 вдвое меньше. Утверждение, что уж лучше держать CD Audio вместо MP3 256kbs, несостоятельно -- качество MP3 256kbs... 320kbs практически сответствует оригиналу, а занимаемый объем в 4.5--6 раз меньше. Заблуждение же состоит в том, что и 128kbs дает достаточно высокое качество. На самом же деле для людей, сознательно выбирающих 128kbs, сохранение близкого к исходному качества просто не является слишком важным, так как их аппаратура обычно не лучше плееров -- "мыльниц;". В то же время многие владельцы CD кодируют их в MP3 даже просто потому, что гораздо реже нужно CD менять - на моем 8Gb винчестере поместится более пятидесяти часов музыки в MP3 битрейта 320kbs. Как говорится, в этом случае мотивы пользователей 128kbs нам непонятны.

Чтобы не суметь отличить MP3 128kbs от оригинала, нужно либо не иметь слуха, либо взять аппаратуру похуже. И то, что на большинстве компьютерных систем с момента покупки стоит ужасно шумная звуковая плата от ESS, известно всем хорошо. Только мне с некоторых пор кажется, что дело еще и в постоянном отравлении некачественным звуком, и, как следствие, временной (но постоянно возобновляемой) потере чувствительности. Мы слишком часто слушаем то, что слушать не стоило бы, и дело не только характеристиками компьютерной техники -- MP3 128kbs при нормальном слухе не понравится и на ESS. Конечно, по сравнению с дребезгом колонок уличного киоска под аккомпанемент трамвая звучание MP3 128kbs может казаться весьма неплохим, но это не нормально.

А что до карты -- простая малошумная карта и относительно приличные наушники стоят не так уж много. Поэтому в обзоре не учитываются шумы компьютера и карты -- эти трудности вполне преодолимы.

Другое небольшое заблуждение состоит в том, что уровень шумов декодированного сигнала сильно связан с уровнем качества MP3. Но это заблуждение развевается очень быстро -- заметить, что качество MP3 зависит от других причин, легче легкого. Как правило, уровень шумов очень низок на любых битрейтах, это скорее характеристика плеера.

Кроме того, в большинстве учебников прямо говорится о неспособности человека слышать частоты выше 16kHz. Но во-первых, это просто неверно, многое зависит от мощности сигнала и от возраста слушателя. Во-вторых, человек -- существо, не лишенное оригинальности. Даже когда он не слышит такие звуки с помощью уха осознанно, он все же ощущает их. И это влияет на восприятие. Поэтому обрезание частот выше 16kHz можно считать обоснованным на низких битрейтах, когда оно позволяет намного лучше закодировать более низкие диапазоны, но нельзя не брать в расчет, когда речь заходит о высоких битрейтах, приближающих качество сигнала к уровню CD Audio. Да, кстати, у детей частотный порог слышимости куда выше 16kHz.

Немного о програмах

Новых пользователей в заблуждение вводит повсеместная реклама очень продаваемых, но в то же время очень по сравнению с другими посредственных кодеров от XingTech. По поводу их недостатков я еще пройдусь ниже.

На втором месте по объему рекламы мы видим кодеры от самого уважаемого производителя, FhG IIS, но они тоже обладают определенными недостатками, к тому же дороги, поэтому дешевые и быстрые кодеры от XingTech сегодня на вершине популярности.

Но недостатки кодеров от FhG IIS в основном связаны со слабыми возможностями настройки и концентрацией усилий разработчиков на низких битрейтах. Если FhG IIS будет с того коммерческая выгода, то специалисты быстро все поправят.

О третьей группе кодеров, основанных на свободно доступном исходном коде написанного в иллюстративных целях кодера от ISO, также будет сказано ниже.

Из плееров же, как не составляет труда заметить, наиболее популярен и раскручен плеер Winamp. Еще недавно он не блистал высоким качеством звука, да и сейчас снова не блещет, но недавно на протяжении нескольких версий в нем использовался декодер от FhG IIS, и при условии его установки ( например, из версии 2.22 ) вопрос с выбором плеера практически отпадает.

Кроме того, есть и другие хорошие плееры, могущие поспорить в Winamp, некоторые из них упомянуты во второй части обзора.

Кроме плееров и кодеров, к программам, связанным с MP3, относят и грабберы -- копировщики треков с CD в WAV-файлы.

Немного о некоторых битрейтах

Чем выше битрейт, тем выше оказывается качество закодированного сигнала. Но каждый битрейт имеет свою сферу применения.

Профессионалы, аудиофилы, а также все, кто заботится о создании качественной копии, вполне соответствующей про качеству оригиналу, применяют только высокие битрейты. С другой стороны, наиболее многочисленная часть любителей MP3 применяет его для кодирования "популярной" музыки, главное отличительное свойство которой -- недолговечность, способность быстро устаревать и становиться неинтересной, поэтому такие MP3 и хранятся недолго, и требования к их качеству гораздо более низкие, что приводит к использованию низких битрейтов.

В Интернет, как правило, можно найти только MP3, закодированные
с битрейтом 128kbs (и/или кодерами от XingTech, о которых ниже). Этот битрейт, являясь "любимым" битрейтом FhG IIS, был признан также оптимальным для использования в Интернет. В принципе, на эту роль больше подошел бы битрейт 112kbs по разным соображениям, но он оказался маловат для достаточно качественного кодирования, и дополнительно закрепился битрейт 128kbs, несколько превышающий по качеству 112kbs, и который позже стал основным в Интернет.

Если отвлечься ненадолго от кодирования собственно CD Audio, то можно заметить, что поток величиной порядка 112kbs довольно удобен, например, для прямых трансляций на большие расстояния. В этом случае MP3 хорошо окупается, по сравнению с передачей того же сигнала другими способами. На странице FhG IIS можно почитать более подробно об этом. Также MP3 используется на цифровых радиостанциях, но там требования к качеству на полпорядка выше.

Вернемся к кодированию CD Audio.

Выбирать основной для себя битрейт вам самим, в зависимости от потребностей. Я сам, когда начинал разбираться с MP3, изначально искал именно и только полноценную замену CD Audio, с меньшим объемом, но с как минимум не меньшим качеством, и такую возможность MP3 в общем-то дает.

Дело в том, что в уже упоминавшихся тестах с участием профессиональных прослушивателей, в которых для всех использованных тестовых композиций не было найдено различий в звучании MP3 256kbs и оригинала, было на самом деле использовано весьма ограниченное число композиций. На практике же существует довольно много композиций, где приходится переходить на 320kbs, и в то же время я не слышал ни об одной, где результат кодирования на 320kbs оказался бы недостаточно хорош. Отличия, конечно, все же остаются обнаружимы при использовании исключительной аппаратуры, но в целом качество практически то же.

В общем же из результатов всех известных мне тестов можно сделать следующие выводы. Во-первых, битрейт 256kbs для абсолютного большинства пользователей совершенно достаточен.

И, наконец, немного о собственно MP3 128kbs, пользующемся такой популярностью. В свое время он был широко разрекламирован FhG IIS, но при его использовании мы имеем скорее качество аудиокассеты, записанной на подозрительного происхождения магнитофоне, хотя и с очень низким уровнем шумов. Романтически настроенные разработчики даже почти официально назвали это 'CD-качеством', что очень далеко от истины. Впрочем, это давняя традиция -- ADPCM тоже в свое время называли форматом, дающим только неслышимые искажения.

На самом деле различие между качеством звука на битрейтах 128kbs и 256kbs... 320kbs принципиально, так как первый к качеству уровня CD, собственно, никакого отношения не имеет, в отличие от двух последних. Разумеется, для тех, кому качество средней аудиокассеты кажется великолепным, данная оценка неверна, также она не столь категорична для случаев, когда внимание сильно отвлечено. Но в целом, думаю, все ясно.

VBR & XingTech

XingTech -- фирма, производящая наиболее скоростные MP3 кодеры. К сожалению, ее кодеры всегда славились и продолжают славиться невысоким качеством.

В районе конца 98 -- начала 99 года XingTech первая использовала технологию переменного битрейта, VBR. Если в случае постоянного битрейта кодер выбирает наиболее значащие частотные составляющие фрейма, убирающиеся в выделенный битрейт, то в случае VBR задается максимальный допустимый уровень потерь, а кодер выбирает еще и минимальный битрейт, достаточный для выполнения поставленной задачи. Стоящие рядом в конечном потоке фреймы могут оказаться в итоге закодированы с совершенно разными параметрами.

Но для кодеров XingTech качество так и не поднялось на уровень FhG IIS/ISO-based кодеров. Оно безусловно повысилось, но для серьезного кодирования музыки эти кодеры остаются непригодны, да и не для этого они создавались -- в частности, в данных кодерах практикуется искажение сигнала, дающее эффект "лучшей слышимости высоких", что действительно часто может оказаться приятно, но высококачественное кодирование по определению подразумевает отсутствие подобных искажений. И не зря.

Определенный оптимизм вызывает другая реализация VBR, уже на основе исходного кода ISO ( на самом деле от кода ISO он ушел уже очень далеко ). Речь идет о кодере Lame. Несмотря на свое довольно своеобразное название, данный кодер на данный момент является самым многообещающим кодером для высоких и средних битрейтов, при этом он и на низких битрейтах превосходит большинство других кодеров, в том числе все ISO based. Подробнее о Lame -- ниже.

Способы хранения MP3

Стандарт MP3 не определяет никакого точного стандартного математического алгоритма кодирования, его разработка целиком и полностью остается на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последовательности фреймов могут передаваться потоком (процесс передачи такого потока называется streaming) или храниться в файлах.

MP3 файл, как и поток, состоит из последовательно расположеных фреймов, между которыми может содержаться произвольная информация. Основное требование состоит в том, что не должно быть совпадений с сигнатурой начала фрейма.

Часто к последовательности фреймов добавляют стандартный заголовок мета-аудиоформата WAV, и получается то, что называют WAV-MP3. (Немного подробнее о последнем будет сказано ниже, когда будет описываться ACM pro codec.) Еще чаще к MP3-файлу добавляется информационный блок ID3v2, содержащий информацию об исполнителе, жанре, названии композиции, и другую подобную информацию о треке. Он добавляется в конец файла. В середину пока никто ничего ставить не придумал. Хотя, вообще говоря, может представлять некоторый интерес вставка спецтэга для VBR с информацией о том, в какой части трека мы, собственно, находимся.

Характер потерь при кодировании

На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие которых нередко серьезно меняет эмоциональную окраску композиции, придает или лишает ее таких эффектов, как ощущение 'кристальной' чистоты звука (в той мере, в которой она присутствует в CD Audio). Кроме того, в соответствии с психоакустической моделью, высшие (выше 16 кГц) частоты на низких битрейтах кодируются с очень низким приоритетом.

Далее, имеют место разные особенности кодеров. Так, у кодеров от FhG IIS на 128 kbs оказываются 'смазаны' верхние частоты, наблюдается эффект 'шепелявости', в то время как у ISO-based вместо этого -- 'звон'. Скорее всего, это связано с разным отношением к частотам выше 16kHz у данных кодеров. В кодере Lame, кстати, они по умолчанию срезаются, что увеличивает качество кодирования на 128kbs.

На высших битрейтах при последовательном следовании психоакустической модели, разработанной FhG IIS, проблемы могут доставлять только ошибки, внесенные при написании кодера. Впрочем, из-за не слишком большой озабоченности FhG IIS качеством его кодеров на высоких битрейтах уже не раз оказывалось, что новая версия звучит иногда даже несколько хуже старой. Полагаю, причина кроется в недостаточном или неправильном ослаблении ограничений психоакустической модели при повышении битрейта. Опять же, первый серьезный заказчик, и проблема исчезнет.

Тестирование качественности кодеров

Обычно тестирование кодеров проводится по степени сохранения формы АЧХ оригинального сигнала. При этом очевидно, что при битрейтах 256kbs... 320kbs АЧХ исходного файла и файла, полученного после декодирования, должны быть идентичными как на синтетических тестах (сгенерированный белый шум), так и на реальных треках, так как при значительных отличиях они окажутся слышны независимо от того, что говорит психоакустическая модель про каждый конкретный фрейм, если только все эти фреймы не похожи друг на друга. На более низких битрейтах следует в первую очередь следить за сохранением формы АЧХ в области низких и средних частот.

Сами тесты по сохранению формы АЧХ следует проводить не только на белом шуме, как это делается обычно, но и на достаточно сложных композициях, в комплексе это позволяет получить значительно более достоверные результаты.

Тесты АЧХ не универсальны. В силу особенностей MP3 они дают достаточно адекватную оценку его качества, и то не полностью, но к другим форматам они и вовсе не обязаны быть применимыми -- в частности, они непригодны для оценки качественности кодирования в формате VQF.

Относительно точную раскладку качества сигнала по материалам специально проведенного прослушивания можно найти на сайте MP3Tech, а немного вольный ее перевод на русский язык -- у на Mikhail's MP3 Page. Но все же рекомендую посетить и сам сайт MP3 Tech, к тому же в данный момент там лежат более новые и подробные результаты других тестов.

Психоакустическая модель и разные битрейты

Самым важной характеристикой кодера, от которой зависит качество кодирования, является психоакустическая модель, использованная в нем. Но следует заметить, что модель должна варьироваться для разных категорий битрейтов. Аналогично тому, как использование MS/IS стерео приводит к повышению качества на низких битрейтах, но на средних и высоких только понижает его, также и разные составляющие модели могут иметь максимальный битрейт, до которого они полезны, но от использования которых на больших битрейтах следует отказаться.

Кодеры, основанные на исходном коде ISO, чаще всего продолжают использовать довольно слабый вариант психоакустической модели, использованный в нем. Но на высоких битрейтах мы все же получаем очень хороший результат, причем многим он нравится больше, чем результат кодирования кодерами FhG IIS. Видимо, причина кроется как раз в том, что психоакустическая модель в кодерах от FhG IIS неизменна для всех битрейтов и более подходит для битрейтов средних и низких, в то время как на высоких избыточна и нуждается в ослаблении, в то время как модель ISO оказалась неплохо, хотя и не идеально, приспособлена к высоким битрейтам. Но тема противостояния кодеров FhG кодерам ISO-based остается откытой.

В самом развитом из ISO-based кодеров, Lame, модель была значительно улучшена, причем настолько, что кодер и на низких битрейтах незначительно уступает аналогам от FhG IIS. Можно сказать, что в Lame осталась уже относительно небольшая часть исходной модели ISO.

Но на битрейтах 256kbs и 320kbs предыдущий лидер высокобитрейтных кодеров, mpegEnc, все еще спорит с Lame. Но, как оказалось, в mpegEnc модель мало отличается от исходной слабой модели ISO, просто в нем отключены некоторые ее части, что в итоге, как ни странно, привело к значительному повышению качества кодирования... только на высоких битрейтах. Возможно, более подробный анализ исходников покажет и другие изменения, но поверхностный анализ уже показал, что все главные недостатки исходной модели ISO присутствуют. Видимо, их сглаживает высокий битрейт, или же они действительно несущественны на 256kbs... 320kbs.

Текущий руководитель разработкой Lame, Марк Тейлор, не против поработать над кодированием высоких битрейтов в нем, нужно только будет провести определенные тесты. Что до кодеров от FhG IIS -- проблема исчезнет, как только найдется заинтересованная сторона, готовая это оплатить.

Какие, собственно, кодеры у нас в распоряжении

Существуют три линии развития кодеров -- кодеры от XingTech, кодеры от FhG IIS, и кодеры, основанные но исходном иллюстративном коде ISO.

Кодеры от XingTech не отличаются высоким качеством кодирования, но многим нравятся, к тому же вполне подойдут для кодирования разной бросовой электронной музыки или синтезированных семплов. Благодаря своей скорости они остаются идеальными кодерами для музыки, не требующей высокого качества кодирования. Более подробно о них -- на http://www.xingtech.com/.

Кодеры от FhG IIS известны наивысшим качеством кодирования на низких и средних битрейтах благодаря наиболее подходящей для таких битрейтов психоакустичекой модели. Из консольных кодеров данной группы наиболее предпочтителен l3enc 2.61 (не 2.71 и не 2.72, на знаю про 2.74), также пока не отброшен mp3enc 3.1, но последний никто всерьез не тестировал. Другие кодеры, такие, как AudioActive или MP3 Producer, обладают значительными недостатками, правда, в основном это ограничения возможностей настройки и неразвитость интерфейса.

Также существует старый кодек ACM pro codec авторства FhG IIS, и несколько нелегальных кодеков, код для которых выкорчеван из последних кодеров FhG IIS.

Остальные кодеры ведут свое происхождение от исходных кодов ISO. Не считая таких "ошибок эволюции", как SoundLimit, в котором значительно увеличена скорость за счет еще более значительного ухудшения качества, получаем два основных направления развития -- оптимизация кода по скорости и оптимизация алгоритма по качеству.

До недавнего времени первую линию наилучшим образом представлял кодер BladeEnc, в котором используется первоначальная модель ISO, но проведено много оптимизаций кода, а вторую -- mpegEnc, известный также и как самый медленный MP3 кодер.

Но откуда берется высокое качество mpegEnc на высоких битрейтах, я уже упомянул выше. На самом же деле серьезная оптимизация самого алгоритма впервые встречена в кодере Lame, в котором использована самостоятельно разработанная психоакустическая модель GPSYCHO.

Есть все основания считать Lame наилучшим из основанных на коде ISO кодеров. По скорости он давно догнал остальные, а по качеству скоро должен отдать последние позиции и mpegEnc... впрочем, обо всем этом я уже писал выше.

Lame может быть собран практически на любой платформе, на которой есть компилятор языка C. Скомпилированный вариант Lame в виде библиотеки dll входит в состав граббера Cdex, но предпочтительнее использовать вариант, запускаемый из командной строки, он имеет более другие возможности настройки, к тому же работает быстрее. Но его надо собирать самому. Кстати, в состав Cdex входит и свой кодер, но он и раньше никем особенно не тестировался, а сейчас это не представляется нужным.

Что такое front-end?

Front-end -- программа, пpедлагающая оконный интерфейс для повышения комфоpтности pаботы с пpогpаммами, его не имеющими. В слyчае MP3 -- с кодеpами, управляемыми из командной стpоки, или yстановленного в системе кодека.

После подачи команды на кодиpование front-end пеpедает введенные паpаметpы собственно кодеpy и ждет завеpшения его pаботы. Этот процесс может сопpовождаться как попытками пpедсказать оставшееся вpемя, так и выводом скромной таблички "Please wait".

В большинстве грабберов обеспечены средства для подключения внешних кодеров, поэтому любой из них может быть использован как front-end. В частности, при установленном ACM pro codec как таковой может быть использован любой граббер, позволяющий выбирать формат сохранения награбленного.

Что такое ACM pro codec (MP3-кодек)?

Формат WAV является метаформатом для данных любого типа. Имеет стандартный заголовок и описания областей данных, которых может быть несколько, способ же кодирования аудиосигнала может быть каким угодно. Вполне могут содержаться данные, к аудио отношения не имеющие.

Каждый метод кодирования, указываемый в заголовке, имеет собственный идентификатор, в соответствии с которым Windows и определяет, установлен ли кодек для работы с данным файлом, и если установлен -- использует его.

Кодеки, индивидуальные для каждого подформата, регистрируются в системе при их установке, после чего становится возможным использовать WAV-файлы, содержащие аудиоданные в форматах, поддерживаемых данными кодеками.

Тем не менее, хотя для MP3 тоже существует по крайней мере один кодек ACM pro codec от FhG IIS, сам по себе формат из-за потерь при кодировании непригоден на роль промежуточного, поэтому в редакторах с WAV-MP3 работать не рекомендуется. Единственным разумным применением данного кодека можно считать декодирование WAV-MP3, либо их кодирование, когда по каким-либо причинам неудобно сделать это из нормального кодера. При установленном кодеке можно применять WAV-MP3 в качестве стандартных звуков Windows.

Помимо оригинального кодека от FhG IIS, позволяющего кодирование только с битрейтом 128kbs и ниже, существуют несколько нелегальных версий кодека, сделанных группой Radium из кода, выкорчеванного из нового 'Продюсера'. Но первая версия этого кодека была нестабильной, и я не вижу оснований для того, чтобы испытывать доверие к более новым версиям. Лучше сделать еще один кодек из Lame.

Файлы какого формата можно перевести в формат MP3?

Кодирование из формата WAV PCM поддерживают все кодеры. Многими поддерживается AIFF. Mp3enc может принимать исходные данные потоком, без промежуточного файла, в фоpмате PCM. А mpegEnc и Cdex предлагают кодировать прямо с CD-ROM. Lame распространяется в виде исходных кодов и может быть обучен любому формату.

Каков статус MP3 кодеров?

Все продукты Fraunhofer IIS и Xing Tech -- коммерческие, но полные версии обычно можно найти на FTP поисковиках.

BladeEnc, mpegEnc -- freeware, но FhG IIS пожелал сделать их развитие невозможным. Сделано это очень простым методом -- за распространение кодеров нужно платить пеню FhG IIS, даже если кодер распространяется бесплатно. Поэтому свободное распространение mpegEnc невозможно, также могут возникнуть трудности с распространением BladeEnc, несмотря на особую политику страны автора по отношению к патентам на математические алгоритмы.

Lame не угрожает подобная участь, так как он распространяется в виде патча к исходному коду ISO и сам по себе кодером быть признан не может.

Каковы системные требования?

Фактически, единственное требование к системе -- наличие компилятора C. Но производительность MP3 кодеров на слабых системах оставляет желать лучшего, и из процессоров Intel не рекомендуется использовать что-либо ниже 486.

Декодиpование MP3

Cтандаpт MP3 однозначно опpеделяет, какие именно данные содеpжатся в MP3-файле. Hо сам процесс декодирования, процесс перевода аудио из MP3 в PCM, неизбежный при воспроизведении, более корректно будет назвать синтезом, чем декомпрессией. На практике он столь же неоднозначен, как и процесс кодирования.

Многие пpинимают за некий стандаpт самый пеpвый из декодеpов, написанный в FhG IIS -- l3dec. Этот декодер при работе не предпринимает каких-либо попыток "улучшить" звучание и, как правило, дает точную АЧХ сохраненного сигнала. Также в силу корректности его можно считать практически идеальным декодером для MP3 высоких и средних битрейтов.

С другой стороны, на практике иногда обнаруживают себя ньюансы, о которых раньше не задумывались. Например, разные кодеры сохраняют аудио в MP3 немного по-разному, хотя и не выходя за рамки стандарта, но несколько меняя алгоритм оптимального восстановления сохраненной части сигнала. Но если в данном случае отличия оказываются несущественны, то тот простой факт, что при кодировании с битрейтом 128kbs, пользующимся бешенной популярностью, мы значительно теряем в качестве, приводит к более существенным последствиям -- на низких битрейтах становится оправданным применение различных 'улучшающих' звучание алгоритмов, т.е. программных DSP, и более корректный декодер может оказаться менее предпочтителен, чем вносящий дополнительные искажения, но "повышающий" этим качество звучания. К сожалению, выбор не слишком велик.

Когда какой декодер лучше?

За время существования MP3 было написано великое множество самых разных декодеров. Тем не менее, выбор не составляет слишком большой проблемы. Основная сложность в том, что критерии оценки качества декодеров сильно разнятся для низких битрейтов порядка 128kbs и для высоких порядка 256kbs.

К ориентированным на высокие битрейты декодерам предъявляется одно основное требование -- корректное декодирование, то есть корректность примененного алгоритма декодирования и отсутствие ошибок в его реализации. Считается, что высокий уровень качества обеспечивается шириной потока, но тем не менее, разные декодеры дают разные по качеству результаты. Разумеется, высокая скорость работы декодера также желательна.

В данной категории хорошо себя чувствуют декодеры от FhG IIS, к которым обвинений в некорректности пока никто не смог предъявить.

К ориентированным на низкие битрейты декодерам выдвигаются несколько другие требования. Отличие состоит в том, что в силу искажений, вносимых при кодировании MP3 128kbs, требования к корректности декодирования ослабевают, в то время как требование качественности звучания никуда не пропадает. Поэтому не слишком корректные, но приятно звучащие плееры пользуются популярностью.

Большинство декодеров являются плеерами, но не каждый плеер может перенаправлять вывод в файл, что приводит к трудностям в его оценке. Существует мнение, что такие плееры не следует называть декодерами.

В NAD и NADDY на одном из этапов декодирования пpименяется алгоpитм пpедсказания, также сyществyет возможность подстpойки под особенности кодеpов, использованных пpи полyчении MP3. Если говорить конкретно, то возможна подстройка под семейство ISO-based, под кодеры семейства FhG IIS, под старые кодеры XingTech с обрезом частот выше 16kHz и даже под еще не вышедший ко вpемени выхода NAD 0.93 кодеp ARCAM. В наследнике NAD, NADDY, упоминается вместо него "ARCoder v1.2+"; видимо, он все-таки вышел. Но, как уже упоминалось, значительного эффекта эта подстройка не дает.

Хотя NAD долгое время заслуженно считался чемпионом по части качества, в последнее время другой плеер -- Apollo -- мог с ним в этом поспорить. Но в данном случае речь идет о низких битрейтах, к тому же развитие Apollo теперь тоже остановлено. NAD просто более корректен.

Если задаться целью декодирования в WAV-файл, то выбоp сейчас следyет пpоизводить междy NAD, l3dec и Winamp (версии 2.21-2.22), пpичем чем выше битpейт, тем меньше причин пользоваться NAD. Для низких битрейтов можно также попробовать Apollo, но лучше Winamp с соответствующим "улучшающим" звучание плагином.

Hа высших битрейтах выбор производится только между корректными декодерами, и pазница оказывается настолько мала, что выбоp уже пpоизводится, например, междy yдобными интеpфейсами NAD и Winamp и yпpавлением l3dec с помощью ключей командной стpоки. Скорее всего, при серьезной проверке на битрейтах 256kbs-320kbs l3dec/Winamp превзойдут по качеству прочие -- при написании почти всех декодеров думают, к сожалению, главным образом о качестве звучания MP3 128kbs, на корректность тратятся только в FhG IIS. Но это не делает вывод NAD или Sonique непригодным или некачественным -- и в данном случае все отличия снова укладываются в рамки оговорки, сделанной в начале первой части.

L3dec работает только из командной строки и декодирует только в файл, поэтому выбор плеера производится в основном между популярным Winamp, NAD, Apollo и некоторыми другими.

Самые известные плееры

Winamp

Winamp является самым попyляpным на сегодня плееpом.

Winamp -- это мультимедиа плеер с подержкой неограниченного числа форматов. При этом могут используются декодеры, предоставляемые производителями. В целом система напоминает работу Windows с WAV файлами.

В версии 2.20 роль встроенного декодера MP3 наконец начал играть декодер от FhG IIS. После этого в плане проигрывания MP3 к Winamp не осталось серьезных претензий, но начиная с версии 2.23 был возвращен старый декодер, поэтому для качественного воспроизведения необходимо брать декодер из версий 2.21-2.22 ( так как 2.20 отказывается проигрывать некоторые MP3 ).

NAD

Признанным чемпионом по части звyчания, однако, на сегодня все же остается NAD. Его звучание несколько менее корректно на высоких битрейтах, но очень приятно. Превосходят его только декодеры от FhG, отличающиеся корректностью.

Во время своего развития данный плеер почти прямо противостоял Winamp и имел все шансы отобрать у него со временем львиную долю поклонников.

К сожалению, в тот момент, когда дописывались самые важные элементы интрефейса, которые должны были окончательно уравнять NAD по возможностям с Winamp, его развитие было прервано. Последние версии NAD содержат только основные функции, хотя идея плагинов использовалась в свое время и в нем, причем куда раньше того же Winamp.

Наиболее известны следующие веpсии NAD.

NAD 0.80 Стабильная, завеpшенная пpогpамма, но для обеспечения возможности дальнешего pазвития автоp оказался вынyжден пеpеписать весь код с нyля. В отличие от более новых, понимает ключи командной строки.

NAD 0.93 Последняя из завершенных веpсий после 0.80. Hекотоpые втоpостепенные фyнкции, такие, как pедактоp поля ID3-TAG, еще не pеализованы. Местами проявляются баги. Hо качество воспpоизведения не вызывает сомнений, при этом поддеpживается streaming и вывод в WAV-файл, поэтому его можно использовать и как просто декодер.

NAD 0.94 Готовился к выходу, когда весь пpоект неожиданно оказался выкyплен DimensionMusic. Чем и зарублен на корню, так как развитие NAD как плеера прекратилось. На основе 'движка' был создан набоp библиотек Audio Enlightenment ( AE ), но программист занимался его разработкой в свободное время, и первые результаты появились только через полгода.

На основе получившегося набора библиотек в последние дни 98-го была выпущена недоработанная в плане интерфейса первая и последняя бета-версия плеера NADDY, прямого наследника NAD. Скачать NADDY можно на страничке http://ae.dmusic.com. Сам NAD в данный момент есть на его ожившей домашней страничке, http://nad.inept.org.

В настоящий момент AE в очередной раз переименован, теперь уже в STARDUST, и используется в Sonique, а развитие NADDY остановлено, как раньше было остановлено развитие NAD. Но к Sonique есть свои претензии.

Sonique

Из всех полноценных MP3 плееров Sonique обладает самым красивым интерфейсом. Мне (и многим другим) он представляется несколько громоздким, но многочисленные поклонники с этим не согласны, да и после того, как большинство прежде не работавших элементов управления стали правильно функционировать, это почти перестало мешать. Также имеет большое значение производительность машины, на быстром компьютере интерфейс производит более благоприятное впечатление. И тем не менее, в плане интерфейса Sonique требует доработки. Это классический пример посредственного интерфейса со стильным дизайном.

В качестве MP3-декодеpа начиная c версии 0.75 использyется декодер STARDUST, ранее известный как Audio Enlightenment, а еще ранее -- как внутренний декодер плеера NAD. Доступны streaming, декодирование в WAV-файл и декодирование VBR, но в сравнении с Winamp Sonique по функциональности проигрывает.

K-Jofol

K-Jofol является одним из самых быстрых плееров, но на первенство по качеству воспроизведения он претендовать не может. Возможна полная перестройка программируемого интерфейса.

Популярность плееру принесла поддержка формата VQF, но теперь это -- обычное дело, да и сам VQF -- посредственный формат.

Apollo

Просто удобный приятный плеер. Более "высокое" качество звучания на низких битрейтах, чем у других плееров, но и высокая степень некорректности. Мудро организованный плейлист. Поддержка visualization plugins от Winamp. Все.

Другое

Помимо рассмотренных, пользуются определенной популярностью плееры Soritong, C-4. Второй хорош способностью занимать скромное место в любом из четырех углов экрана. Первый начинает прилично выглядеть после установки скина COMPACT. Но наиболее хорош, видимо, WPlay, о нем немного позже тоже будет написано.

Понятно, этим список распространенных плееров не ограничивается. Полный список можно найти на www.mp3.com, но мало какие из них могут конкурировать с выше описанными ( за исключением, возможно, WPlay).

Dolby Digital - Общая информация

Звук Dolby Digital впервые появился в кинотеатрах в 1992 с премьерой фильма Возвращение Бэтмена (Batman Returns), и с тех пор звучит почти в тысяче фильмов по всему миру, и является одной из самых современных разработок от Dolby Laboratories.

Dolby произвела революцию в конце 60-х начале 70-х годов в системах записи на магнитную ленту своей системой шумоподавления Dolby A (для профессионалов) и Dolby B (для обычных пользователей). Позже, в 70-х годах, компания Dolby своей аналоговой системой Dolby Stereo революционизировала звук в фильмах.

Dolby Stereo принесла в фильмы 4 звуковых канала, с тремя спереди (левый и правый для музыки и эффектов и центральный для диалогов) и четвертым "окружающим" (Surround) для создания общей звуковой атмосферы. Позже, в 80-х, благодаря системе Dolby SR ("Spectral Recording - спектральная запись"), было значительно улучшено качество записи на ленту и звука в кинофильмах.

Также, компания Dolby революционизировала в конце 80-х начале 90-х годов бытовые устройства развлечений путем внедрения систем "домашнего театра" Dolby Surround, а позже и Dolby Pro Logic. В бытовых устройствах в основном используется технология Dolby Stereo для воспроизведения с видео лент и лазерных дисков (под лазерными дисками здесь и далее подразумеваются LaserDisc, т.е. "большие" видео лазерные диски). Эти системы позволяли зрителям использовать дома ту же самую 4-х канальную конфигурацию, что и в кинотеатрах.

Современные системы Dolby Digital вышли на новый уровень, предоставляя шесть каналов кристально чистого объемного цифрового звука. Левый, центральный и правый фронтальные каналы позволяют точно определить позицию источника звука на экране. Отдельные "разделенные" левый и правый задние боковые каналы вовлекают вас в фильм своими окружающими и обтекающими звуками. А дополнительный низкочастотный канал добавляет накал действию на экране.

Принципы Dolby Digital ведут свое развитие из разработок Dolby по аналоговому уменьшению шума. Шумоподавление Dolby работает путем ослабления шума, когда нет аудио сигнала, а когда он есть, позволяя более сильному полезному аудио сигналу перекрывать более слабый шум. Таким образом, эта технология использует преимущества психо-акустического феномена известного как слуховое маскирование. Даже если аудио сигнал занимает только часть спектра, шумоподавление Dolby уменьшает уровень шума в тех частях спектра, в который нет полезного сигнала делая шум незаметным. Это делается потому, что аудио сигнал может маскировать только ближний по частотам шум.

При переходе от аналоговой записи сигнала к записи на цифровой носитель такой как компакт-диск, обнаруживается, что цифровое кодирование аудио сигналов используемое в CD производит слишком большие объемы данных для того чтобы их эффективно хранить или передавать в электронном виде, особенно в случаях, когда необходимо кодировать несколько каналов. В результате появились новые формы цифрового кодирования аудио сигналов - известных под общим названием "perceptual coding - чувствительное (восприимчивое) кодирование" - которые были разработаны так чтобы можно было использовать низкоскоростные потоки данных с минимально ощущаемой потерей звукового качества. Примером такого алгоритма кодирования является третье поколение кодеров Dolby - AC-3.

Этот кодер был разработан так, чтобы максимально использовать преимущества человеческой способности к звуковому маскированию, для чего он разбивает спектр аудио сигнала в каждом канале на узкие частотные полоски разного размера оптимизированные с расчетом на частотную избирательность человеческого слуха. Это позволяет очень точно отфильтровывать шум оцифровки так, чтобы он оказался очень близко по частоте к частотным компонентам полезного аудио сигнала. Путем уменьшения или даже полной ликвидации шума там, где нет маскирующего аудио сигнала, качество звука исходного сигнала субъективно не изменяется. По этому ключевому аспекту такое кодирование как AC-3 является формой очень избирательного и качественного шумоподавителя.

Уникальный опыт Dolby Laboratories по устранению аудио шума является критическим для снижения потока данных в технологии AC-3: чем меньше бит используется для описания аудио сигнала, тем больше шумов связанных с самим кодированием.

В киноиндустрии звуковая дорожка Dolby Digital кодируется оптически прямо на киноленту в промежутках между перфорационными отверстиями. Размещение цифровой звуковой дорожки на том же носителе что и фильм позволяет ей сосуществовать вместе с аналоговой дорожкой без привлечения дополнительных носителей данных, таких как CD. Это позволяет упростить производство, а для владельцев кинотеатров использование фильмов, а также позволяет подготовить дорожку Dolby Digital практически без дополнительных затрат. Поскольку часть ленты с перфорированными отверстиями изготавливают с расчетом на высокую сопротивляемость износу и повреждениям, дорожка Dolby Digital не будет подвержена треску и шипению на протяжении всего времени эксплуатации ленты.

В бытовой электронике технологию Dolby Digital можно встретить в последнем поколении лазерных дисков (там где была обычная аналоговая звуковая дорожка), она является стандартной звуковой дорожкой в DVD и используется как аудио формат для телевидения высокой четкости - HDTV, а также в системах кабельного и спутникового телевидения.

Последние несколько лет компания Dolby Laboratories использовала термин Dolby Digital для ссылок на их новую цифровую систему для киноиндустрии, в то время как под термином Dolby Surround AC-3 подразумевала системы домашнего кинотеатра. На практике, эти две системы являются небольшими вариациями (слегка различающимися в скорости потока данных) одной базовой технологии. И для того чтобы больше не вводить пользователей в заблуждение, решили, что и формат Dolby для домашних многоканальных систем также назывался тем же именем, что и в киноиндустрии -- Dolby Digital.

Считается, что это поможет потребителям более легко определять поддерживает ли какой-либо продукт эту технологию, и поможет отличить ее от форматов Dolby Surround и Dolby Pro Logic, которые базируются на аналоговых технологиях. В новом поколении лазерных дисков, и новых форматах использующихся в DVD и телевидении высокой четкости (HDTV), также будут ссылаться на термин Dolby Digital, как это сейчас делают в отношении профессиональных киноприложений. Общее название Dolby Digital также должно помочь прекратить растущие заблуждения пользователей, связанные с термином "AC-3" (Аудио код номер 3), который является техническим обозначением технологии Dolby, разработанной для многоканальных приложений.

Dolby Digital предоставляет в общей сложности шесть раздельных каналов звука. Как и Dolby Surround Pro Logic, она включает в себя левый, центральный и правый каналы во фронтальной части комнаты. Dolby Surround Pro Logic предоставляет дополнительно еще один канал с ограниченной полосой частот (от 100 до 7000Гц) для объемного ("окружающего") звука, который обычно усиливается через два канала усилителя и подается потом на два динамика. Тогда как Dolby Digital предоставляет раздельные левый и правый каналы объемного звука для более точного определения местоположения звуков и более натуральной, реалистичной передачи атмосферы и фона. И ко всему прочему все пять основный каналов передают полный спектр частот (от 3 до 20000 Гц), к которым вы можете добавить низкочастотные динамики (сабвуферы).

Шестой канал - Low Frequency Effects Channel (канал для низкой частоты и эффектов), иногда содержит дополнительную низкочастотную информацию для усиления эффекта от некоторых сцен, например, таких как взрывы, катастрофы и т.д. Из-за того, что этот канал сильно ограничен сверху по частоте (от 3 до 120Гц), его иногда называют ".1" каналом. Если его добавляют к полным 5 каналам Dolby Digital, то про такие системы говорят, как про имеющие "5.1" канала.

Все шесть каналов в системе Dolby Digital полностью цифровые, из чего следует, что на всем пути от пульта звукооператора до вашей домашней системы они передаются без потери качества. Но Dolby Digital еще и упаковывает их все в один канал, который занимает места меньше чем один канал на компакт диске. Именно это позволяет так легко добавлять звуковые дорожки Dolby Digital к обычным лазерным дискам, а также к множеству других источников. Dolby Digital используется уже несколько лет, чтобы вы могли смотреть фильмы с Dolby Digital, а теперь, с появлением Dolby Digital на лазерных дисках, вы можете наслаждаться этой прекрасной технологией и у себя дома. А так как она была разработана фирмой Dolby Laboratories, вы можете быть уверены, что звук будет потрясающим!

Между "обычными" и "новыми" лазерными дисками намного больше общего, чем различий. Новые лазерные диски, включая и диски с Dolby Digital, полностью совместимы с вашим существующим проигрывателем. Две цифровые (PCM) дорожки остаются без изменений, так что вы можете продолжать наслаждаться качеством Dolby Surround Pro Logic и с "новых" дисков. Дорожка Dolby Digital записывается вместо правой аналоговой (FM) дорожки диска. Левая аналоговая дорожка может содержать моно версию, комментарий или любой другой аудио материал.

Последние проигрыватели, которые могли воспроизводить звук только с аналоговых (FM) дорожек, выпускались более чем 10 лет назад. С тех пор практически все проигрыватели могут использовать более качественные цифровые (PCM) дорожки для воспроизведения стерео или Dolby Surround. Конечно же, все новые лазерные проигрыватели с AC-3 будут проигрывать все лазерные диски которые у вас есть, причем как цифровые так и аналоговые звуковые дорожки.

Dolby Surround Pro Logic еще долго останется с нами. Система Dolby Surround Pro Logic "складывает" четыре канала (левый, центральный, правый и частотно ограниченный "объемный" (Surround)) в два канала. В монофонических системах эти два канала складываются для воспроизведения. И конечно вся информация доступна для воспроизведения в стерео системах. Но когда эти два канала поступают на декодер Dolby Pro Logic, звуковая матрица "раскладывается" и становятся доступными все исходные четыре канала ("объемный" канал воспроизводится через отдельные левый и правый "объемные" динамики).

Самая потрясающая часть системы Dolby Surround Pro Logic это то, что исходный сигнал "уложенный" в стерео, может передаваться вместе с ним везде, где есть возможность передать стерео сигнал: телевизионные стерео передачи, через спутник (C-band, DSS или PrimeStar), кабельные передачи, УКВ (FM) радио, лазерные диски, видео ленты, и даже некоторые игровые приставки. Сегодня вы можете слушать звук в системе Dolby Surround во множестве регулярных телевизионных программах, в растущем списке компакт дисков и конечно на VHS и лазерных дисках, на которых записаны тысячи фильмов с системой Dolby Stereo (термин Dolby Stereo означает то же самое что и хорошо вам известный Dolby Surround, но применяемый в киноиндустрии). Поэтому пока у нас есть стерео, то будет и Dolby Surround Pro Logic, и поэтому все декодеры Dolby Digital имеют встроенный декодер Dolby Pro Logic.

В следующей таблице проводится сравнение свойств Dolby Digital и Dolby Surround Pro Logic.

Параметр

Dolby Digital

Dolby Surround Pro Logic

"Объемный" канал Стерео, полночастотный (3-20000 Гц). Монофоничекий, с ограниченным спектром (100-7000 Гц).
Низкочастотный канал Да (3-120 Гц). Нет
Панорамирование Разнообразное Слева направо, справа налево, спереди назад и наоборот.
Каналы 6 отдельных, все каналы могут быть активны одновременно и независимо друг от друга. 4 производных, может воспроизводится только один преобладающий сигнал в каждый момент времени.
Разное Улучшенная картина звука, благодаря "time alignment - выравниванию по времени", т.е. заставляет динамики звучать так, как будто они находятся от слушателя на одинаковом расстоянии. Экономное решение задачи получения высококачественного объемного звука.
При снижении общей громкости в звуковых дорожках динамичных фильмов (например, когда действие происходит поздно ночью), соответствующим образом подстраивается компрессия, так чтобы сохранить качество тихих фрагментов. Объемный звук от любого незакодированного источника стерео звука.
Декодеры могут быть настроены так, чтобы направлять низкочастотный звук в специальные каналы, для систем с сабвуферами. Совместим со всеми существующими и будущими стерео форматами.
Драматический шаг вперед по вовлечению слушателя в мир реальных звуков. Беспрецедентные творческие возможности для производства и управлению звуком. Представляет собой значительный шаг вперед от обычного стерео звука. Является мировым стандартом.

На данный момент существует огромное количество источников звука, поддерживающих Dolby Pro Logic. А как насчет Dolby Digital? На что еще можно записывать Dolby Digital кроме лазерных дисков?

У Dolby Digital есть одна прекрасная вещь - большая гибкость кодирования. Dolby Digital технически допускает огромное разнообразие форматов, а некоторые из них появятся в самое ближнее время:

Телевидение высокой четкости (HDTV). Эта новейшая система одной из первых выбрала Dolby Digital своей основной звуковой подсистемой. Выбор был сделан "Grand Alliance" - организацией устанавливающей все стандарты для систем HDTV в США.

Спутниковое телевидение - Direct Broadcast Satellite (DBS) уже сегодня активно использует такие преимущества системы Dolby Digital как высокое качество и простота передачи. К примеру, служба "DMX for Business" использует Dolby Digital для передачи 120 музыкальных стерео каналов, и все они передаются с одного передатчика. PrimeStar планирует в ближайшее время добавить Dolby Digital к свой службе телевизионной спутниковой передачи.

Кабельное телевидение внедряет системы с Dolby Digital из-за соображений эффективности и для того чтобы быть готовым к стандартам будущих систем телевидения высокой четкости.

В формат Digital Video Disc (DVD) уже входит Dolby Digital.

Остальные форматы, такие как цифровые видеокассеты - Digital Video Cassette (DVC), и цифровая аудио передача - Digital Audio Broadcast (DAB), являются первыми в списке на внедрение уникальной комбинации качественного звука, эффективной передачи всего спектра сигнала и многоканальных возможностей технологии Dolby Digital.

Буквы "AC" в Dolby AC-3, расшифровываются как Audio Coding - кодирование звука. На цифровое кодирование звука часто ссылаются как на "perceptual coding" (кодирование основанное на ощущениях). Проще говоря, это такое кодирование, которое пытается обнаружить и затем удалить ту звуковую информацию, которую мы все равно не может услышать, но сохраняет то, что мы можем услышать. Его назначение уместить как можно больше полезной информации в доступном спектре. Рассмотрим аналогию:

Предположим, что вам необходимо доставить 4000 человек (полезная информация) из одного места в другое в течении часа. По шоссе может проехать только 1000 машин в час. Если разместить все 4000 человек в 1000 автомобилей, то можно избавиться от лишней информации (оставим 3000 машин дома). Это высокоэффективная доставка, и именно для этого предназначена система Dolby Digital.

Одна из причин, почему качество звука на компакт диске так высоко в том, что он содержит огромный объем данных: 16-ти разрядные семплы выбираются 44100 раз в секунду отдельно для каждого канала. Это соответствует потоку в 1411200 бит в секунду. Компакт диск представляет собой настолько большое хранилище информации, что позволяет записать до 74 минут музыки на один диск. Но что делать, если надо записать 2 часа 20-ти разрядного сигнала и ко всему прочему там должно быть шесть каналов? На сегодняшний день такой большой поток данных непрактичен ни для хранения, ни для передачи.

Кодер Dolby Digital является первым кодером разработанным специально для многоканального звука. Уникальный опыт Dolby Laboratories по устранению аудио шума является критическим для снижения потока данных, потому что чем меньше бит используется для описания аудио сигнала, тем больше шум.

Шумоподавление Dolby работает путем уменьшения уровня шума в отсутствии аудио сигнала, а также позволяя более сильному полезному аудио сигналу перекрывать или "маскировать" шум. Но это позволяет замаскировывать только шум, близкий по частотам к полезному сигналу. Поэтому Dolby Digital разбивает звуковой спектр для каждого канала на узкие полоски разного размера, оптимизированные с расчетом на частотную избирательность человеческого слуха. Это позволяет очень точно отфильтровывать шум оцифровки так, чтобы он оказался очень близко по частоте к частоте кодируемого сигнала. Аудио сигнал эффективно заглушает шум, делая его неслышным для уха. Там где отсутствие сигнала не позволяет маскировать шум оцифровки, Dolby Digital прикладывает максимум усилий чтобы его уменьшить. Можно сказать, что Dolby Digital это очень эффективная система шумоподавления, и в результате качество звука субъективно очень близко к оригиналу.

Dolby Digital использует технологию "shared bitpool" ("разделяемых битов"), и также модель маскирования человеческого слуха, чтобы достичь наибольшей эффективности передаваемых данных. Разряды неравномерно распределяются между множеством узких полосок частоты, причем в каждом конкретном случае по-разному, в зависимости от спектра и динамической структуры кодируемого сигнала. Применяя модель слухового маскирования, кодер предоставляет оптимальное количество разрядов для аудио сигнала в каждой полосе. Дополнительно происходит перераспределение разрядов между разными каналами в соответствии с моделью, по которой более насыщенный частотами канал потребует больше данных для передачи, чем другие, слабо заполненные, а также учитывается, что сильный сигнал в одном канале может маскировать появляющийся шум в других каналах. В результате Dolby Digital может использовать пропорционально больше передаваемых данных для кодирования звука, выдавая более качественный сигнал и позволяя кодировать несколько звуковых каналов в более низкоскоростные потоки данных чем требует даже один канал на компакт диске.

 

ТЕХНИЧЕСКИЕ ДАННЫЕ

Кодер Dolby Digital способен обработать входной сигнал с, по крайней мере, 20-ти разрядным динамическим цифровым сигналом с диапазоном частот от 20 до 20000 Гц ±0.5 дБ (-3 дБ на 3 и 20300 Гц). Низкочастотный канал покрывает диапазон от 20 до 120 Гц ±0.5 дБ (-3 дБ на 3 и 121 Гц). Поддерживаются частота дискретизации в 32, 44.1 и 48 кГц. Ширина выходного потока данных может варьироваться от минимума в 32 кбит/сек для одного монофонического канала, до максимума в 640 кбит/сек, удовлетворяя всему возможному диапазону требований. Типичными являются скорости в 384 кбит/сек для "5.1" канального Dolby Digital потребительского формата, и 192 кбит/сек для двух канальной передачи звука.

Комментарии к переводу:

Некоторые термины не поддаются однозначному переводу, так как им нет однозначно соответствующих по смыслу слов в русском языке в употребляемом контексте, а именно "Surround" (окружающий, обтекающий, объемный) и "Perceptual Coding" (имеется в виду кодирование, основанное на психоакустической модели слуха человека, имитационная модель).

Под термином лазерный диск понимается "большой" лазерный диск (Laser Disc), не путайте его с "маленькими" компакт дисками (CD). В настоящее время они вытисняются получающими все большее распространение, более современными, дешевыми и удобными DVD дисками.

Компандеры Dolby, несомненно сыграли роль реактивного двигателя, вынесшего на рынок компакт-кассету и заманившего в кинотеатры зрителя, уже начавшего привыкать к вездесущему телевидению. Работая "зеркально" при записи-воспроизведении, они теоретически должны обеспечивать идентичность (за исключением шумов) сигнала на входе и выходе устройства, что к сожалению, не соответствует действительности. Причина – в наличии на передаточной характеристике точек излома, служащих именно для более эффективного шумоподавления. Без них обеспечить эффективное шумопонижение заложенным в Dolby принципом "скользящей полосы" было бы весьма затруднительно.

Как следствие, оснащенные этими устройствами магнитофоны должны иметь коэффициент передачи сигнала запись-воспроизведение точно равным единице и, что более важно, точки перегиба экспандера и компрессора должны совпадать. Добиться этого можно, но…в дело вступают износ головок, разные характеристики магнитной ленты и ее старение… В общем, все это напоминает тщательно отлаженный ламповый High-End усилитель, который уже через год теряет оптимальность настройки именно в силу старения самих ламп.

Правда, идея сжатия-расширения звукового сигнала нашла замечательное воплощение в уникальном, но малоизвестном в бытовой технике компандере dbx, который, в отличие от Dolby, имеет линейную передаточную характеристику и обладает полной независимостью АЧХ и ФЧХ от уровня обрабатываемого сигнала. А ведь именно они отвечают за локализацию в пространстве источников звука! Да и степень подавления шумов (до – 40 dB, тогда как у Dolby C, к примеру, –20dB) несравненно выше, также как и способность шумопонижения на средних и низких частотах. Именно невозможность совместить подавление шумов и четкую объемность звука толкнула Dolby Laboratories к созданию Dolby Stereo с аж четырьмя каналами и прочих Dolby Surround. Ну а идея оснастить ими кинотеатры вообще оказалась золотой жилой – во-первых, много места и, во-вторых, уровень фоновых шумов зала достаточен для маскировки нехватки динамического диапазона (повышать громкость звука ведь тоже можно только до болевого порога!).

Ну а последующие поколения Dolby – цифровые- реализованы весьма толково и чего-либо добавить к сказанному автором статьи просто не имею возможности. Именно этим системам самое место в кино- и дома – театрах!

Почему звуковые карты не воспроизводят AC-3 звук в играх?

AC-3 звук в настоящее время не используется (и даже не предназначался) для интерактивного 3D звука.

Типичный процесс создания многоканального звука следующий:

Сначала производится запись многоканального звука, который может иметь много индивидуальных дорожек -- инструменты, голоса, звуковые эффекты и т.д. Дорожек этих может быть 24, 36, 48 или гораздо больше, особенно если это звуковое сопровождение фильма. Затем многоканальная запись микшируется ("mixed down", микширование с сокращением числа каналов) на специальной аппаратуре в музыкальной или кино студии инженерами по смешиванию звуков. Во время микширования для каждой звуковой дорожки контролируется, уровень громкости, расположение источника звука, баланс, эффекты и т.д с целью получения требуемого результата.

В случае со стерео звуком, результатом такого микширования являются два канала: левый и правый. Микширование с целью получения многоканального surround звука (multi-channel surround) представляет собой просто использования большего числа выходных каналов. В обоих случае, каждый канал состоит из сигналов, которые предназначены для направления в отдельные колонки при прослушивании пользователем. Каждый из этих сигналов представляет собой результат сложного микширования исходных источников, состоящих из многих звуковых дорожек.

Далее, происходит процесс кодирования каналов, полученных после микширования (например, 6 каналов для формата "5.1" Dolby Digital/AC-3) и в результате получается один цифровой поток (bitstream). Процесс кодирования содержит много интенсивных вычислений, в то время как процесс декодирования (все еще не прогулка по парку) требует гораздо меньшего количества ресурсов для выполнения.

Теперь цифровой поток поступает к пользователю, на DVD диске, в виде MPEG файла или в каком-то другом.

Когда вы начинаете проигрывание, декодер обрабатывает цифровой поток в режиме реального времени, разделяя его на индивидуальные каналы и передавая их для воспроизведения на шести акустических колонках. (Или, декодер может делать еще и простой ремикс, т.е. новое микширование, для создания лишь нескольких выходных каналов. Если у вас имеется меньше чем шесть колонок, например, если у вас всего две колонки, тогда канал сабвуфера (низкочастотный) и центральный (диалогов) добавляются одновременно к обоим выходным каналам. Задний левый канал добавляется к левому выходному каналу, задний правый к правому выходному каналу. 3D звуковой процесс может быть использован для "имитации" наличия реально отсутствующих акустических колонок.)

Звуковое содержание "законсервировано". Где бы инженер по микшированию не решил поместить звук, там вы его и услышите. Точка. В такой же мере, что бы инженер ни сделал по отношению к уровню громкости, балансу или любому студийному эффекту, вы услышите это. Точка. Точно как с CD, он всегда один и тот же, каждый раз, когда вы его проигрываете. В игре, единственный случай, когда вы можете использовать законсервированное содержание, это окружающий звук, т.е. создающий атмосферу игры, музыка, видео клипы и т.д., потому что они не могут быть сделаны так, что бы реагировать на ваши действия, за исключением их запуска и остановки, что естественно.

В случае с интерактивным 3D звуком микширование не производится заранее в студии и не может быть там осуществлено. Микширование происходит в режиме реального времени, в момент, когда вы играете в игру. Отдельные звуки ("дорожки") извлекаются с диска и имеют собственный уровень громкости, расположение в пространстве, тональность и т.д., при этом выбор звука зависит от того, в каком направлении вы сдвинули мышку или джойстик. В сущности, в игру встроен собственный робот-инженер по микшированию.

Итак, если вы хотите использовать при игре внешнюю систему проигрывания Dolby Digital звука (что теоретически возможно), вам понадобится звуковая карта, имеющая возможность производить в режиме реального времени не только многоканальное микширование, но и кодирование на лету в цифровой поток. Эта звуковая карта должна ОЧЕНЬ БЫСТРО СЧИТАТЬ, потому что любая заметная задержка между, скажем, нажатием кнопки выстрела и появлением звука вылетающей ракеты, сделает играбельность удручающей.

Итак, предположим, вы можете сделать все это. Тогда вам нужно будет послать кодированный сигнал на расстояние в три фута от вашей карты до декодера, который должен будет снова разделить цифровой поток на множество каналов. Если такой декодер есть на карте, отлично, но это будет по-настоящему глупо, потому что тогда нет никакого смысла осуществлять кодирование в начале.

Как было бы хорошо иметь такую карту, которая могла бы кодировать на лету, правда единственно, что она сможет обеспечить, это удобная возможность управления внешней системой, воспроизводящей окружающий слушателя звук (surround system). Однако стоимость DSP с требуемой для этого вычислительной мощностью взвинтит цену нашей теоретической звуковой карты до уровня стратосферы. Это не является достоинством. Может быть, когда-нибудь это станет реальностью, но не задерживайте свое дыхание.

По иронии, работающий "на лету" Dolby Pro Logic кодировщик очень прост, потому что он основан на очень простой концепции.

В заключение, заметим, что некоторые разработчики игр используют формат звука AC-3 нестандартным образом для интерактивных звуков, однако, все равно процесс кодирования на лету не применяется. Они просто используют преимущества высокой степени сжатия/высокого качества цифрового формата для упаковки своих звуков на диске.

 

VQF

Термин VQF происходит от расширения (extension) имени файла содержащего звук сжатый при помощи алгоритма TwinVQ. Этот стандарт сжатия более эффективный и качественный MPeg Audio Layer3. Декодирование (расжатие) занимает приблизительно столько же времени, а иногда и меньше, как при МР3 компрессии. Чего нельзя же сказать о процессе кодирования (преобразование WAV в VQF).

Производительность TwinVQ

Алгоритм TwinVQ был разработан для более мощных процессоров чем требовалось для MP3, однако это сказалось только на сжатии данных в TwinVQ. Изготовление VQF файлов происходит очень медленно (даже используя процессор P-II). Примерно в три раза медленнее чем аналогичный процесс для Mpeg Audio Layer3 (используя MMX). Как утверждают разработчики, для реально быстрого процесса сжатия необходим процессор P-II 450MHz XEON или G3-600 (хотя я лично обходился P-II 266MHz)!

Mpeg 3 (128Kbps)

Original (1411Kpbs)

TwinVQ (VQF) 96Kbps

Но нельзя сказать, что VQF файл превосходит или уступает MP3 файлу, это просто различные файлы. Взглянув на эти картинки Вы легко поймете это различие: когда Вы кодируете музыку в MP3, процесс кодирования вносит искажения в звук и вырезается ряд частот. В отличие от этого, когда Вы кодируете музыку в TwinVQ, мелкие незначительные детали теряются и звук "сглаживается" (softened). Так при 96Kbps VQF файл выглядит более близким к оригиналу чем при 128Kbps MP3, но он менее детален. Две другие проблемы - это спатализация (Spatalisation) и пре-эхо.

Как же это все работает?

TwinVQ использует метод кодирования подобно MP3, AAC или Dolby AC-3. Хотя он и использует некоторые классические средства использованные в MP3 (bitstream) или AAC (interframe backward prediction) но кодирование музыки отличается в корне. В этом методе, индивидуальные биты музыкальных данных непосредственно не кодируются, а объединяются в сегменты (вектора). Эти вектора сравниваются со стандартными образцами, которые подготовлены заранее. Выбирается стандартный вектор, который обеспечивает ближайшее соответствие, и количество, связанное с этим образцом передается как код сжатия. Данные упаковывается в длинный фреймовый режим или короткий фреймовый режим (8 subframes) согласно константе bitrate для того, чтобы повысить устойчивость к ошибке. Искажения сводятся к минимуму, так что музыка и другие звуки успешно воспроизводятся с качеством очень близким к оригиналу.

Следует заметить, что технология аудиосжатия TwinVQ включена в стандарт MPEG-4.

Что необходимо для TwinVQ?

 

Encoder (SoundVQ, VVStudio)

Player (Sound VQ, KJofol, VVS Player v.1.3.0)

OS Windows 95/NT4.0 Windows 95/NT4.0
CPU Pentium 66MHz или выше

·     Pentium 90MHz или выше (для режима 44KHz Stereo data)

·     i486 66MHz или выше (для режима 22KHz Mono data)

Memory 16MB и выше 16MB и выше
Audio 16bit (stereo) PCM sound function (стандартный SB)

16bit (stereo) PCM sound function
(стандартный SB)

 

Слухи и заблуждения

1. VQF дает большую нагрузку на CPU чем layer3 (mp3)

 

WinAMP v.1.9.0 (MP3)

K-Jofol Player, VVSPlayer v.1.3.0 (VQF)

Windows'95 (OSR2.1) 2 - 5% 0 - 3%
Windows NT4.0 2 - 5% 1 - 3%

2. Медленный encoder

Да, это так. Но разве можно сидеть на двух стульях? Качество & мощное сжатие... В этом случае время приносится в жертву.

3. Необходимо иметь два плейера для проигрывания MP3 & VQF

Неверно. VVS Player v.1.3.0, Kjofol + огромное коллчиество новых разработок (включая Winamp) могут воспроизводить оба эти стандарта.

 

7. MP3 - время прощаться с ПК

Роман MP3 и CD приносит первые плоды на рынке бытовой электроники.

История с пришествием в мир формата музыкальной компрессии MP3 – отнюдь не из разряlа обыкновенных. То, что новому стандарту суждено коренным образом изменить положение дел на рынке музыкальной продукции, поняли все и сразу. Производители компакт-дисков и концерны звукозаписи хватались за голову, потребительская аудитория бурно ликовала. И все – кто с радостью и предвкушением, а кто с трепетом, ждали того момента, когда новый стандарт компрессии звука шагнет из тесной каморки персоналок в поистине безграничный мир бытовой электроники…

Чтобы понять всю важность происходящего – а мы говорим ни много ни мало, о революции в мире производства и распространения музыкальной продукции – приведу немного статистики и общеизвестных фактов. Количество выпущенных за три последних года MP3-дисков (начиная с памятной всем серии "Рок-Архив" знаменитого "Фаргуса") перевалило за 300 – MP3-коллекции сегодня уверенно занимают третье место в пиратском обороте, после программ и игр. В ассортименте одной лишь серии "Домашняя коллекция" (сайт пиратской фирмы-производителя находится по весьма престижному адресу http://www.cdboom.com) - заявлено не менее 70 дисков (800-1000 альбомов)!

Если учесть, что в среднем на каждом MP3-диске помещается 10-15 альбомов (или 10-12 часов звука), то получается, что в любой момент к услугам российского меломана – более 4000 альбомов по цене 15-20 центов за альбом (2-2,5 доллара за MP3-коллекцию из 10-15 альбомов против 1 доллара за ОДИН альбом на кассете, 2 – на пиратском и 10-15 – на фирменном CD).

Прибавьте к этому еще такое же количество "самопальных" коллекций, составленных любителями в домашних условиях и распространяемых из рук в руки... И получается, что любой меломан может уместить на свободной полке своего книжного шкафа ассортимент небольшого музыкального магазина – 8000 наименований дисков, включая практически полные коллекции ВСЕХ ведущих исполнителей и групп за последние 30 лет! Причем обойдется ему это удовольствие максимум в 800 долларов – стоимость 70-80 фирменных CD! Если смотреть в макромасштабе – зная средний тираж пиратских "релизов" (1000 экземпляров), нетрудно посчитать, что сейчас в России "крутится" не менее 300 тысяч MP3-дисков! Цифра, конечно, по масштабам музыкального бизнеса, не слишком внушительная… но помножьте число дисков на количество альбомов, и вы увидите, что

За последние три года mp3-коллекции "вытеснили" с рынка почти четыре миллиона обычных компакт-дисков!

Революция? Халява галактического масштаба? Несомненно. Но – с двумя оговорками. Во-первых, высокая степень MP3-сжатия, используемая при составлении пиратских коллекций (или, иными словами – низкая "пропускная способность" сжатого звукового потока, именуемая "битрейтом" - bitrate) существенно снижает качество звука. То есть слушать тех же Beatles, Элвиса или бардов в виде MP3-файлов с битрейтом 128 Кб/с еще можно, а King Crimson, Tangerine Dream или ELO – уже нет. Тут нужна меньшая степень сжатия и более высокий битрейт (от 192 Кб/с) – а такую роскошь пираты себе не позволяют. Еще бы – тогда на одном CD угнездится всего лишь 6-8 альбомов вместо 12-15… Ну да Бог с ними, с эстетами – их у нас не так уж много, большинству и кассетного качества хватает вполне. Да и сделать битрейт побольше не проблема – был бы спрос!

Другая закавыка серьезнее. Дело в том, что до недавнего времени стандарт MP3 был намертво привязан к компьютеру. А владельцев ПК у нас покамест меньше, чем счастливых обладателей хотя бы простеньких музыкальных центров или магнитол. Учтите и то, что по качеству звучания 1000-долларовый компьютер, оборудованный 50-долларовыми колонками, существенно уступает 100-долларовой магнитоле…Прибавьте сюда же "фактор мобильности" - компьютер с собой не унесешь, а музыку хочется и можется слушать не токмо развалившись на диване.

Теперь становится понятным, что появление на рынке портативных, независимых от компьютера mp3-проигрывателей - одно из самых ожидаемых событий последних пяти лет.

Нет, мы имеем в виду не MP3-плееры первого поколения, выброшенные на прилавки еще два года назад – красивые и дорогие, но убогие до предела игрушки. Высокая стоимость самих плееров в сочетании с запредельно высокой стоимостью и малой емкостью носителей (максимум час звука даже не кассетного качества на 50-долларовой карточке) напрочь убивали все преимущества MP3…

И все же, при всей своей непрактичности и убогости эти аппаратики вызвали настоящую панику среди олигархов от звукозаписи – все мы прекрасно помним попытки запретить производство MP3- проигрывателей через суд. Чуяло, ох чуяло бизнесменское сердце, что все эти Diamond Rio сотоварищи – лишь предтечи продуктов совсем иного класса, что рынок ждет настоящего MP3-проигрывателя. И того и гляди, дождется. Конечно же, речь идет о портативных CD-проигрывателях, способных воспроизводить наряду с обычными дисками, и компьютерные MP3-коллекции.

И вот наконец мы подходим к изюминке нашего исследования… Да-да, вы не ошибаетесь – уже через 2-3 месяца на прилавках появятся первые образцы этой вожделенной мечты меломанов всего мира! Кстати, история с MP3-плеерами – едва ли не первый случай перехода технологий из компьютерного мира на рынок бытовых устройств. Обычно, происходило наоборот – большинство "примочек" к современному ПК эволюционировали от "бытовых" электронных технологий.

Конечно, это могло бы случиться и раньше, ведь модернизация существующих CD-проигрывателей до CD/MP3 – не шибко сложная задача: как минимум год назад сразу несколько фирм начали производство чипов аппаратного MP3-декодирования, и стоят эти "камешки" весьма недорого. Но крупные фирмы-производители электроники, памятуя скандал вокруг Diamond Rio, не рисковали вступать на "минное поле" MP3-электроники – тяжбы со звукозаписывающими фирмами были неминуемы. А если вспомнить, что многие "электронные гиганты" (например, Sony) имеют свои интересы в традиционной сфере звукозаписи и дискового бизнеса…Как бы то ни было, за дело взялись мелкие фирмы – юркие, нахрапистые и абсолютно лишенные комплексов.

D’Music SM-200C

"Первой ласточкой" и образцом для всех MP3-проигрывателей второго поколения стал плеер D’Music SM-200C от компании Pine (http://www.pineusa.com). Этот агрегат стоимостью около 300 долларов способен читать информацию со стандартных "заводских" компакт-дисков стандарта AudioCD и MP3, а также "самодельных" дисков CD-R и CD-RW объемом до 700 Мб (80 минут в формате AudioCD и 12 часов музыки в формате MP3 128 Кб/с). Правда, места D’Music занимает несколько больше, чем привычные нам "блины"-дискмэны (138х130х31 мм), да и энергии кушает немало (для полноценного функционирования аппарату необходимы аж 4 "пальчиковых" батарейки вместо привычных двух. Остальные "довески" к D’Music достаточно традиционны – 10-секундный буфер памяти "антишок", эквалайзер с 5 предустановками (Flat, Pop, Classic, Jazz and Ex-Bass), опционально – пульт ДУ. Выглядит же плеер весьма стильно и внушительно – кстати, выпускается D’Music в двух исполнениях "мужском" (голубой цвет корпуса), и "женском" (розовый).

Как и положено MP3/CD–проигрывателю, D’Music может работать с дисками, содержащими MP3-файлы и плейлисты M3U в подкаталогах (по крайней мере, так заявляет производитель), а также MP3-тэги (текстовую информацию об исполнителе, жанре и названии композиции и диска). Навигация по MP3-диску осуществляется с помощью специальных кнопок и крохотного жидкокристаллического экранчика. По фотографии трудно определить, сколько строк он содержит (на первый взгляд площадь экрана не превышает стандартный вариант CD-плеера), однако ясно, что для корректного отображения названия композиций и уж тем более структуры диска его явно недостаточно. Отсюда – мораль: работать с MP3-диском с помощью D’Music можно будет только вслепую…

Не совсем ясно, поддерживает ли D’Music весь диапазон "музыкальных" MP3-битрейтов (от 112 до 256 Кб/с), а также столь модный нынче "динамически изменяющийся" битрейт VBR. Думается, что разработчики плеера должны были изначально заложить все эти возможности в свое детище – иначе его ценность как коммерческого продукта резко падает. Хотя в последнее время в Интернет-конференциях, посвященных MP3, и поговаривают, что звукозаписывающие компании намерены "опустить" потолок поддерживаемых битрейтов в портативных MP3/CD-проигрывателях до традиционных 128 Кб/с. То есть вывести тем самым из под "удара" традиционные AudioCD, принеся в жертву и без того отжившие свое кассетники. Дай Бог, чтобы их задумка не прошла… Но в любом случае, прежде, чем покупать MP3-плеер, обратите внимание на поддерживаемые им стандарты битрейтов!

MAMBO-X P300

Персона номер два в нашем рейтинге – плеер MAMBO-X P300 (http://www.mambox.com/p300.htm), который по большинству показателей ничуть не уступает D’Music. Основные характеристики плеера, помимо уже заявленных стандартных: Буфер антишока – 45 секунд (против 10 у продукта Pine) Размеры – 5,5" x 5" x 1" (1 дюйм – 2,5 см) Уменьшенный вес – 256 гр. Инфракрасный пульт дистанционного управления Поддержка Superior Ultra Bass Processing (SUB)EQ/Bass/TrebleПитание – 2 пальчиковых батарейки (до 14 часов работы)

Как видим, преимуществ у MAMBO-X немало – компактность, легкость, меньшие требования к питанию… Что лучше – фиксированные установки эквалайзера у D’Music или раздельный контроль высоких и низких частот у MAMBO-X – каждый пусть решает самостоятельно. Дизайн у MAMBO-X, не спорю, менее изыскан, чем у плеера от Pine, а вот дисплей чуть больше… Кстати, уже заявлено, что имя певца и название композиции Mambo-X будет через этот самый дисплей докладывать - значит, и с ID3-тэгами плеер будет работать нормально.

Но самое главное - авторы MamboX недвусмысленно и категорически заявили о поддержке ВСЕХ существующих битрейтов и модификаций стандарта MP3. То есть работать с VBR и битрейтами вплоть до 320 MamboX однозначно будет! Прояснена и ситуация с подкаталогами на диске - MamboX поддерживает до 16 папок. А больше и вряд ли понадобиться...

Что же касается воспроизведения обычных AudioCD (а заодно - и CDR вкупе с CDRW). Отрадно, что стандартная "музыкальная" часть Mambo-X сделана на весьма достойном уровне, с использованием "начинки" от Philips. Не последнего игрока на рынке дискмэнов. Правда, обещания обещаниями, а как оно будет на самом деле... Тестовых образцов плеера пока что нет. Остается опасность и того, что "раскрутив" Mambo-X, производители поспешат перейти на более дешевый механизм и ЦАП - хотя очень хочется надеяться, что этого не случится.

Я намеренно приберег под конец самый важный для нас фактор – стоимость. Цена, пожалуй, главный козырь Mambo-X – она составляет всего 199 долларов, что на целую сотню "зеленых" меньше, чем у продукта от Pine! По этой цене заказы на Mambo-X (пока - предварительные) принимает виртуальный магазин Direct411.com

Возможность приобрести Mambo-X предоставлена и россиянам: в Интернет-магазине портативной аудиотехники Porta.ru (http://www.porta.ru) можно оставить предварительный заказ на вожделенную железяку. Ну а цена за плеер для первых заказчиков составит 225 долларов.

SHINCO SVD-951

Третий и последний пока что конкрусант на звание "лучшего из первых" - комбинированный плеер SHINCO SVD-951 от тайваньской фирмы Shinko

Тут должна последовать долгая минута молчания…. Ибо плеер от Shinko настолько разительно отличается от своих "коллег", по всем возможным параметрам, что даже не знаешь, за что взяться…

Начнем с того, что плеер этот умеет, помимо банальных звуковых дисков в стандартном и MP3 формате, воспроизводить еще и видеодиски: изображение выводится на 4-дюймовый цветной жидкокристаллический экран. Отсюда – резкое облегчение навигации – экран такого размера, помимо своей прямой обязанности, может служить великолепным меню, на котором подробно будет отражена вся структура вашего MP3-диска, со всеми его подкаталогами и названиями.

Но вернемся к видео. Как и положено современному образчику азиатского искусства, плеер поддерживает замедленное (3 шага) и ускоренное (4 шага), а также покадровое воспроизведение, увеличение фрагмента экрана (Zoom), замедленное и ускоренное воспроизведение. Если вас не устраивает качество картинки на 4-дюймовом "кристаллике" (разрешение – 350 линий) - не беда, имеется видео и S-Video выходы, подключайте хоть к телевизору, хоть к жидкокристаллическому дисплею большего размера. К сожалению, пока что не предусмотрена поддержка SECAM, зато NTSC и PAL – пожалуйста! Плюс – поддержка субтитров и меню на нескольких языках (русский, понятное дело не включен в список). Ах да – плеер поддерживает столь любимый на востоке режим караоке, снабжен микрофончиком и может при необходимости сохранять в памяти ваши голосовые заметки! С аксессуарами дела у плеера от Shinco обстоят и вовсе замечательно – помимо пульта ДУ и микрофона в комплект поставки включен переходник для подключения к гнезду автомобильного прикуривателя и комплект аккумуляторов. Вы спросите – а где же наушники? Есть и они, но и в сам плеер встроены миниатюрные динамики!

Казалось бы, все просто замечательно! Но… куда деться без этих "но"…

Понятно, что "навороченность" Shinco отнюдь не сопутствует миниатюрности. В кармане этот плеер, весящий около килограмма, не потаскаешь (размеры этому тоже не способствуют), да и с питанием напряженка – Shinco требует подпитки от 6 батареек (9 вольт). И хватит их ненадолго – всего на пару часов, если вы не отключите прожорливый дисплей. Для путешественников, бизнесменов и "новых русских" лучшего подарка не придумаешь. Для всех остальных это явно слишком круто… и недостаточно практично.

Кстати, о видео. Что греха таить – нам всегда хочется большего. И если уж встраивать в MP3-проигрыватель то почему бы не сделать базовым стандартом входящий в моду DVD? Ведь в этом случае поддержка VideoCD приложится бесплатно. А покупать такую мощную и дорогую "прибамбасню", ориентированную на вымирающий стандарт, не слишком-то приятно…Впрочем, такой универсальный плеер (модель DVD-180) Shinco тоже выпускает… Но, к сожалению, не в портативном, а в "мини-настольном" исполнении (28х30х9 см).

Ах да, забыли про цену! Стоимость портативного плеера Shinco - 350 долларов (на аукционе eBay (http://www.ebay.com) и даже 399 долларов (в виртуальных магазинах типа AsiaCD (http://www.asiacd.com/html/vcd/dvcdplayer/svd-950mp.html) – конечно, недешево (особенно если учесть, что похожие агрегаты без поддержки MP3 стоят вдвое дешевле)… Цена универсального настольного DVD/VCD/CD/MP3 проигрывателя, кстати, не намного выше – $370-450.

Каков же итог? Трудно, конечно, делать однозначный выбор (и вывод) при столь малом количестве конкурсантов. D’Music красив и доступен сегодня, Mambo-X – демократичнее и дешевле. Но завтра. Но дешевле… Что до творения Shinco, то сделать выбор между функциональностью с одной стороны и стоимостью вкупе с "фактором мобильности" очень непросто, однако, несомненно, и у этого продукта найдется своя ниша на российском рынке.. если, конечно, кто-нибудь из дистрибутеров рискнет связаться со столь экзотичной новинкой.

Но главный вывод уже сделан – MP3/CD плееры "для непосед" не только родились, но и уже успели заявить свои права на симпатию и кошелек меломанов. Не смотря на то, что большинство отзывов в Интернете касаются одного лишь плеера D’Music, а подробного и объективного сравнения плееров этого типа пока и вовсе не существует.

8.            Заключение

Вот и закончена курсовая работа. В такой объем невозможно уместить полное исследование даже такого небольшого раздела мира “высоких технологий”. Можно лишь подвести некоторые итоги:

·     звуковая карта стала неотемлемым атрибутом любого компьютера, используется ли он в качестве мощнейшей игровой станции или как калькулятор для секретаря в офисе.

·     наметилась тенденция слияния компьютера с различной бытовой электроникой (или наоборот), на комьютер стало проникать видео, телефон, телеграф и что только еще, а с компьютера в большой мир – интерактивность, глобальность и всемирная связанность всего со всем.

·     и, наконец, самое главное: звуковые карты проделали огромный путь от жалкой пищалки до настоящего комбайна - HI END монстра, который сам по себе является почти полноценным компьютером, и не думают останавливаться на этом. В прогнозах производителей уже стоят карты, сами создающие музыку под требуемую атмосферу в требуемое место игры, или даже карты, заменяющие музыканта, композитора, редактора и целый симфонический оркестр.

Единственное, на что я не смог ответить достаточно точно, так это то, чем станет компьютер через некоторое время. Например, через 10 лет. Быть может, они перестанут существовать в своем нынешнем виде и сольются с бытовой электроникой, встраиваясь даже в подкассетники и часы. Или разделятся на ветви “чистых вычислений” и “развлечений”, как в свое время разошлись пути компьютеров и приставок. Все может быть. Но, я думаю, что мы сможет увидеть (и услышать) все это своими глазами (и ушами). 10 лет. Не так уж и много. Если уже сейчас возможности современных компьютеров поражают воображение, то, быть может, через 10 лет эта тенденци сохранится?


Информация о работе «Методы позиционирования и сжатия звука»
Раздел: Информатика, программирование
Количество знаков с пробелами: 461693
Количество таблиц: 14
Количество изображений: 14

Похожие работы

Скачать
19874
1
0

... данных - облегчение восстановления данных при их порче или потере; - Pat authenticity verification / Добавлять проверку достоверности -WinRAR будет помещать в каждом новом и скорректированном архиве информацию относительно создателя, последнего времени коррекции и архивного имени; - Delete files after archiving / Удалять файлы после их архивации - после перемещения в архив файлы будут удалены. ...

Скачать
212314
0
3

... октав, содержащая схему пpеобpазования воздействий в MIDI-сообщения и адаптеp с выходом MIDI Out. MIDI-клавиатура не способна звучать самостоятельно, она использует в качестве синтезатора звуковую карту компьютера. Иногда на MIDI-клавиатуре размещены некоторые дополнительные переключатели, например, глиссандо или вибрато. Большинство MIDI-клавиатур производится фирмой Fatar (под своей маркой их ...

Скачать
87417
1
1

... стало достижение цели систематизация и закрепление знаний и навыков в области создания фирменного стиля, полученных в процессе обучения, путем создания целостного визуального образа музыкального проекта „Tuum Fatum“ для позиционирования проекта на музыкальном рынке. Стоит отметить малое количество серьезных исследований и публикаций на данную тематику, поверхностную информацию данной темы, а ...

Скачать
38266
2
8

... что в самом близком будущем CD-DA переместится к область массового использования, к примеру, в область mp3, оставляя место в сфере любителей музыки для форматов DVD-A, SACD и WMA9 pro, поддерживающие 24 бита 96kHz многоканальное аудио, выдвинутое Microsoft. В случае корректного воспроизведения компакт-диска (поскольку это осуществлено в устройствах от некоторых Высококачественных изготовителей) и ...

0 комментариев


Наверх