Введение
Карта Radeon HD 2900 XT ещё только вышла, но уже может похвастаться чередой разных событий. Запуск нового графического процессора DirectX 10 от AMD несколько раз откладывался. В итоге он вышел через семь месяцев после nVidia GeForce 8800.
Подобная задержка со стороны AMD действительно удивляет. Ведь запуск карт для нового поколения DirectX – настоящее событие для производителей. Это как раз тот мотив, который заставляет геймеров расстаться со старыми моделями, вновь купившись на обещания фотореализма. Конечно, компании уверяют, что на этот раз всё совсем не так, как раньше…
DirectX 10 интересен многим, поскольку царствование DirectX 9 длилось целых четыре года! Поэтому от новой версии ждут многого. Тем более что архитектура драйверов изменилась, облегчив жизнь и программистам игр, которые получили многие возможности, доступные раньше только на приставках. Что ещё нужно? Новая ОС от Microsoft.
Да, у DirextX 10 есть ещё одна ключевая особенность: этот API доступен только под Windows Vista. Microsoft объясняет это неспособностью перенести новую модель драйверов под старую ОС. Да, задача просто титаническая, можно подумать. В принципе, новые видеокарты DirectX 10 для Vista вовсе необязательны: поддерживается и старый интерфейс DirectX 9 (9.0Ex), позволяющий играть на новой ОС в старые игры и с существующими видеокартами (если драйвер есть, конечно). Появление Windows Vista пока так и не свершило революции. Многие геймеры и пользователи ждут появления более веских причин, чтобы перейти на новую ОС. В частности, выхода первого пакета обновления, который запланирован на осень. Он должен исправить множество мелких ошибок, которыми славятся первые версии продуктов Microsoft.
Поэтому с выпуском новых видеокарт AMD наблюдается какой-то парадокс. Конечно, R600 безбожно запоздала по сравнению с “зелёным” конкурентом. Но сегодня компьютер с видеокартой DirectX 10 является больше роскошью, нежели чем-то другим. Игры под новую версию DirectX пока ещё не вышли. Даже версии Flight Simulator, детища Microsoft, не появилось. Новостные ленты заполнены сообщениями о Crysis (продолжение Far Cry) и Halo 2, перенесённой с Xbox. Кстати, последняя может стать первой игрой под DX10, доступной широкой публике.
Парадокс заключается ещё и в том, что карта DirectX 10 под Windows Vista, сама по себе, не даёт преимуществ. Новая ОС Microsoft действительно использует 3D-интерфейс Aero, но для него достаточно видеокарты DirectX 9. Кстати, даже у nVidia наблюдались проблемы с выпуском новых драйверов из-за перехода на новую модель. Даже сегодня некоторые функции не работают (скажем, попробуйте вывести под Vista одновременно изображение на 30″ и 24″ мониторы, даже с одинаковым разрешением).
Конечно, мы не пытаемся оправдать задержку появления Radeon HD 2900 XT. Но хотелось бы ещё раз посетовать на медленную работу nVidia касательно драйверов, которые уже не имеют такого уровня качества, к какому привыкли пользователи. Впрочем, не будем отвлекаться и перейдём к обзору нового детища от ATi.
Десять видеокарт?
После выхода GeForce 8 от nVidia все ждали контрудара ATi. Его кодовое название R600 было у всех на слуху, а по просачивающейся информации все считали, что перед нами наследник графического чипа, разработанного ATi для Xbox 360. По первым слухам запуск должен был состояться в начале года. Но, увы, ничего не случилось. AMD даже пригласила нашу редакцию в Амстердам в марте на запуск новых видеокарт, но затем отменила это событие, перенеся его в Тунис на конец апреля. Причина была следующей: карты готовы, но AMD планирует стратегическое изменение позиционирования.
За столь таинственным объяснением стоят несколько последствий. Первое заключается в том, что AMD решила расстаться с практикой выпуска сразу целой линейки карт DirectX. Сначала на рынке появляется топовая модель, затем, чуть позднее, выходят более доступные версии. Впрочем, OEM-партнёры AMD мало интересуются топовыми картами, которые составляют мизерную долю продаж. Поэтому логично было бы сразу представить полную линейку, что, в отличие от ATi X1800, так и не было сделано.
Второе последствие – AMD, по слухам, была разочарована производительностью видеокарты, которую планировалось выставить против GeForce 8800 GTX от nVidia. И планы пришлось изменить. Здесь, опять же, всё дело в оптимизации и отладке чипов. После запуска каждого техпроцесса производитель вынужден отлаживать техпроцесс, чтобы число выхода годных кристаллов было максимальным. Поэтому путь здесь давно проложен: сначала выпускаются мелкие чипы или чипы, чья архитектура была отлажена на старом техпроцессе. Intel и AMD стремятся уменьшить площадь кристалла, поскольку этот шаг увеличивает долю выхода годных чипов и количество получающихся кристаллов с пластины.
Что касается производителей графических процессоров, то здесь для отладки новых техпроцессов чаще всего используются чипы начального уровня, а уже потом производятся топовые процессоры. AMD решила внедрить и отладить два достаточно смелых техпроцесса. Первый, 80-нм техпроцесс, является, по сути, промежуточным этапом между 90 нм, который используется, например, для производства GeForce 8800, и 65 нм. За производство чипов отвечает TSMC (тайваньская компания, которой ATi доверила производство чипов), она отличается качественным производством, позволяющим достигать высоких частот. Собственно, представленные сегодня чипы HD 2900 как раз TSMC и производятся.
Для чипов начального и среднего уровня (HD 2400 и HD 2600) AMD решила выбрать смелый техпроцесс 65 нм, а именно, 65 G+ от TSMC. AMD желала максимально увеличить число получающихся с пластины кристаллов, чтобы удешевить их производство. На самом деле ситуация оказалась хуже, чем прогнозировала AMD, поскольку теперь вышел уже тринадцатый степпинг (версия чипа), а на следующей неделе ожидается четырнадцатый. А уже потом, возможно, финальная версия.
Во время своего мероприятия, прошедшего в конце апреля, AMD объявила о запуске 14 мая целых 10 графических процессоров. На практике же всё опять получилось по-другому, поскольку вышла только топовая модель Radeon HD 2900 XT. Все остальные чипы выпускаются по 65-нм техпроцессу, включая Radeon HD 2400 и 2600, а также мобильные версии, которые должны появиться в начале июля. Впрочем, всё может ещё десять раз измениться.
В любом случае, задержка достойного ответа AMD на GeForce 8 привела к печальным последствиям для компании, тем более что недавно nVidia представила свои модели для среднего рынка GeForce 8500 и 8600.
Семейство карт ATi
ATi Radeon HD 2400 | ATi Radeon HD 2600 | ATi Radeon HD 2900 | |
Число потоковых процессоров | 40 | 120 | 320 |
Тактовая частота | 525-700 МГц | 600-800 МГц | 740 МГц |
Математическая производительность (операции MAD) | 42-56 GigaFLOPS | 144-192 GigaFLOPS | 475 GigaFLOPS |
Скорость обработки пикселей | 4,2-5,6 гигапикселей/с | 14,4-19,2 гигапикселей/с | 47,5 гигапикселей/с |
Скорость обработки треугольников | 262-350 млн. треугольников/с | 600-800 млн. треугольников/с | 740 млн. треугольников/с |
Число текстурных блоков | 4 | 8 | 16 |
Число блоков рендеринга (back-end) | 4 | 4 | 16 |
Типичное энергопотребление | 25 Вт | 45 Вт | 215 Вт |
ATi Radeon HD 2400 | ATi Radeon HD 2600 | ATi Radeon HD 2900 | |
Кадровый буфер | 256 Мбайт GDDR3, 128/256 Мбайт DDR2 | 256 Мбайт GDDR4, 256 Мбайт GDDR3, 256 Мбайт DDR2 | 512 Мбайт GDDR3 |
Ширина шины памяти | 64 бита | 128 бит | 512 бит |
Частота работы памяти | 400-800 МГц | 400-1100 МГц | 825 МГц |
Пропускная способность памяти | 6,4-12,8 Гбайт/с | 12,8-35,2 Гбайт/с | 106 Гбайт/с |
Число транзисторов | 180 млн. | 390 млн. | 700 млн. |
Техпроцесс | 65G+ | 65G+ | 80 нм |
Выходы | SVGA+DDVI+VO (переходник HDMI) | D+DL+DVI (переходник HDMI) | D+DL+DVI с HDCP (переходник HDMI) |
ATi объявила о трёх раздельных графических чипах для настольных ПК и трёх мобильных чипах. У каждого продукта будут версии с идентификаторами, такими, как Pro и XT. В зависимости от версий меняются тактовые частоты и память. Первая карта, которая поступит в розницу, – Radeon HD2900XT на процессоре R600. Мы сфокусируем наше внимание именно на R600, поскольку эта карта обещает дать максимум, да и в продаже она появится в ближайшее время.
Название настольного чипа | Процессор | Название мобильного чипа | Процессор |
HD 2900 | R600 | HD 2600 | M76 |
HD 2600 | RV630 | HD 2400 | M74 / M72 |
HD 2400 | RV610 | HD 2300 | M71 |
Версия RV630 отличается от R600 тем, что она оснащена 120 потоковыми процессорами в трёх массивах SIMD. То есть там используются восемь блоков по пять потоковых процессоров. Кроме того, присутствует только один блок рендеринга и два текстурных блока. Всё это эффективно снижает производительность текстурирования и обработки пикселей. Ниже представлена диаграмма RV630.
Нажмите на картинку для увеличения.
Нажмите на картинку для увеличения.
Архитектура: GeForce 8 и recall
В начале нашей статьи мы уже подчёркивали череду парадоксов, окружающих запуск R600. ATi запоздала с выпуском чипов DirectX 10, но, в то же время, эта компания давно работала над спецификациями совместно с Microsoft. Не будем забывать, что именно ATi разработала для Microsoft чип Xenos, который отвечает за графику в приставке Xbox 360.
И хотя это не чип поколения DirectX 10, графический процессор Xbox 360 можно считать первым шагом в этом направлении. Начнём с унифицированных шейдеров (небольших графических программ, выполняющихся на графическом процессоре). В этом отношении, как известно, DirectX 10 несёт две важные инновации. Первая заключается в добавлении нового типа шейдеров, геометрических. Они занимают промежуточное положение между вершинными (3D-координаты) и пиксельными шейдерами (пиксели экрана) и используются для расчётов геометрии.
Вторая важная инновация касается программирования. Чтобы облегчить работу программистов, Microsoft унифицировала язык программирования трёх типов шейдеров. Теперь он одинаковый. Но это затрагивает не только разработчиков игр. Производители графических процессоров должны принимать унифицированные шейдеры на уровне драйверов.
Хотя Microsoft ничего не требует, компания настоятельно рекомендует производителям выполнять унификацию и на аппаратном уровне. То есть им рекомендуется перейти от модели, когда блоки были выделены специально для какой-либо задачи (вершинные, геометрические и пиксельные шейдеры) к унифицированной модели, когда один тип блоков способен выполнять все задачи. Это позволяет упростить дизайн и сказывается на производительности чипов.
В Xenos, кстати, появился и аппаратный блок тесселяции, который позволяет создавать из сеток с небольшим числом полигонов эффект многополигональных сеток.
В зависимости от игры, графическая нагрузка на уровне шейдеров может меняться. Некоторые игры просчитывают больше геометрии, в то время как другие нагружают блоки пиксельных шейдеров. Но производителям нужно находить компромисс между числом блоков. И в последних видеокартах чаще всего использовалась пропорция 1:3 между блоками вершинных и пиксельных шейдеров. Преимущество унификации как раз и заключается в том, что теперь можно динамически распределять нагрузку блоков в зависимости от потребностей игры. Xenos от ATi стал первым чипом с унифицированной архитектурой. Radeon X1800 тоже сделал несколько шагов в этом направлении, хотя и не стал унифицированным.
Что касается nVidia, то было принято решение перейти к унифицированным шейдерам на аппаратном уровне. Но разработчики пошли чуть дальше.
Нажмите на картинку для увеличения.
Предыдущие достижения ATi хорошо показывают, как и почему дизайн R600 был изменён. В линейке R500 появились динамические ветвления в шейдерах и потоковые вычисления, что связано с работами Майка Ньюстона (Mike Huston) из Стэндфордского университета (2003-2004) и Folding@Home. С выпуском линейки X1000 ATi создала новые полностью ассоциативные кэши. Она добавила Fetch4, новую технику увеличения производительности для выполнения Precision Closer Filtering (PCF). Наконец, появилась новая распределённая кольцевая шина памяти, способная обслуживать 60-70 клиентов.
Векторы и скаляры, recall
Перед тем, как мы пойдём дальше, позвольте немного углубиться в теорию. Графический процессор работает с массивами данных. Например, для каждого пикселя можно составить массив с четырьмя параметрами.
Четыре компонента в одном векторе.
Для каждого пикселя существуют следующие параметры: красный, зелёный, синий и альфа-уровень. Вычислительные блоки GPU могут обрабатывать четыре поля пикселя за одну операцию, поэтому их можно назвать векторными. Конечно, подобная концепция отнюдь не ограничивается миром GPU. Работа над векторами осуществляется с помощью инструкций SSE в процессорах AMD и Intel.
Вместе с тем, многие инструкции в шейдерах не используют все компоненты. Поэтому в GPU до DirectX 9 использовалась так называемая функция recall, которая описывала способ объединения двух инструкций в одну. В нашем примере пикселей можно применять разные операции к значениям цвета (вектор из трёх элементов, vec3) и к альфа-уровню (получается скалярная операция, поскольку она выполняется над одним значением). С появлением DirectX 9 возможность указания на уровне программирования исчезла. Теперь компилятор HLSL сам должен оптимизировать код и справляться с упомянутыми ситуациями.
Вектор из трёх компонентов и скаляр.
Технически GeForce 7 и X1900 используют блоки, которые можно описать как 3+1, то есть векторный блок, умеющий обрабатывать три значения, и скалярный блок, независимо работающий с последним значением. С GeForce 8 nVidia пошла дальше, перейдя на полностью скалярные блоки. Если сохранить нашу терминологию, то их можно описать как 1+1+1+1.
Четыре раздельных скаляра.
Теоретически, такой подход обеспечивает большую гибкость, хотя, опять же, эффективность работы блоков зависит от компилятора шейдеров. В GeForce 8 имеются 32 четвёрки подобных блоков (1+1+1+1).
Архитектура: HD 2900 XT, Xbox 720?
Долго ходили слухи, что новые графические процессоры ATi будут продолжать использовать дизайн “вектор плюс скаляр”. Но так не произошло. ATi перешла на суперскалярный дизайн, в котором инструкции группируются блоками по пять. Один из ведущих инженеров Эрик Демерс (Eric Demers) из AMD сказал: “Мы перешли на суперскалярный дизайн вместо дизайна вектор плюс скаляр, поскольку он более эффективен, позволяя использовать все вычислительные возможности FPU”.
Со своей стороны архитектура R600 весьма специфична, так как она унаследована напрямую от графического чипа для Xbox 360. Она взяла самые важные характеристики: возможность выполнения до 5 операндов на блок (48, организованы в группы 3×16). То есть если уж описывать эти блоки, то можно назвать их vec5. Со своей стороны чип Xbox 360 мог выполнять операцию над типом vec4 одновременно со скалярной операцией. То есть 4+1.
Архитектура 4+1 чипа Xenos у Xbox 360.
В отношении R600 ситуация чуть сложнее, AMD внесла некоторую путаницу. nVidia любит описывать свою архитектуру, как использующую 128 скалярных блоков, поэтому AMD пошла тем же путём, заявив о 320 скалярных блоках. Но на практике всё сложнее.
Если бы R600 использовал полностью скалярную архитектуру, диаграмма была бы такой.
Да, блоки у R600 могут одновременно работать с пятью полями данных, но они не идентичны. Только с одним полем могут выполняться самые сложные инструкции, в то время как у четырёх полей могут выполняться только самые простые инструкции. А именно, MAD: операция умножения плюс сложение (Multiply+Add). В идеальном случае каждый из 64 блоков (организованы 4×16) может выполнять пять операций MAD над скалярами. То есть мы получаем одновременно выполнение 320 операций MAD, в то время как nVidia может выполнять 128 операций (AMD для иллюстрации этого примера прилагает небольшое приложение DirectX 10). Впрочем, на этом сравнение заканчивается, поскольку nVidia может быстро выполнять сложные скалярные операции, а AMD приходится прибегать к разным обходным манёврам. Итог следующий: да, у R600 больше блоков, но они менее гибкие. Впрочем, говорить так тоже слишком просто. Кроме гибкости вычислительных блоков, nVidia оснастила GeForce 8 ещё одним эффективным оружием, о котором чуть ниже.
Пока же завершим обсуждение дизайна. Эффективнее ли дизайн ATi, чем просто скалярный дизайн? А это как посмотреть. Для суперскалярного дизайна ATi необходимо очень тщательно подходить к выдаче инструкций. Поэтому ATi продолжает использовать многопоточный процессор диспетчеризации, который должен загружать вычислительные блоки чипа с максимальной эффективностью. Логика такого дизайна заключается в том, что все потоки работают параллельно, одновременно выполняется много разнообразных шейдеров. Заминки в этом процессе приведут к плохой производительности, потому ATi перешла к виртуализации потоков. В любой момент времени на процессоре работает несколько сотен потоков, поскольку виртуализация позволяет эффективно увеличить их количество.
Архитектура опирается на унифицированные шейдеры. Как мы уже указывали в нашей статье по поводу DX10 прошлогодней осенью и в статье, посвящённой выпуску G80, унифицированный код шейдеров DX10 позволяет повысить эффективность загрузки вычислительных блоков и производительность.
Тактовые частоты: экскурс в историю
Очень любопытно сравнить частоты чипов. ATi заявляет о преимуществе над nVidia: 742 МГц у HD 2900 XT против 575 МГц у 8800 GTX. Да, разница в 30% выглядит на бумаге очень привлекательно. Но если присмотреться внимательнее, то проявляются интересные особенности, поскольку nVidia использует технологию Clock Domain. Принцип работы прост: разные участки чипа используют разные частоты. Действительно, в зависимости от структуры участков чипа и нагрузки транзисторов, можно достичь более высоких частот, например, в вычислительных блоках.
Подобная техника уже упоминалась, скажем, в Rapid Execution Engine у первых Pentium 4 Willamette и Northwood. Их вычислительные блоки работали на удвоенной частоте. Но, с ростом частоты Prescott Intel предпочла удвоить число вычислительных блоков и перевести их работу на вдвое меньшую частоту. Чтобы не усложнять интерфейс с остальной частью чипа, проще всего реализовать “быстрый” компонент через множитель от базовой частоты. При выпуске GeForce 8800 nVidia выбрала фактор 2. Впрочем, на самом деле, отношение оказалось сложнее, поскольку потоковые процессоры GeForce 8800 GTX работают на частоте 1 350 МГц. Что, в теории, компенсирует меньшее число вычислительных блоков nVidia.
Если даже на этом завершить сравнение двух архитектур, то выбор уже сделать нелегко. Да, у R600 есть теоретическая мощь, но в реальности 8800 показывает себя лучше. Конечно, здесь мы имеем в виду мощность для расчёта шейдеров. Но производительность графического чипа зависит и от многих других факторов.
Архитектура: кольцевая шина, текстуры
Что касается интерфейса с памятью, то ATi решила остановиться на разработках, появившихся с R520, а именно, на кольцевой шине памяти. Принцип кольцевой шины можно сравнить с кольцевыми автодорогами в мегаполисах. Шина состоит из двух потоков, идущих навстречу друг другу, с выходами на разные блоки графического процессора. Если обратиться к машинам, то преимущество кольцевой автодороги заключается в том, что можно поехать из одной точки в другую, не пересекая весь город. То же самое касается и полупроводников, только здесь вместо машин передаются данные. Шина соединяет разные чипы памяти, что показано на схеме красными стрелками. Но, используя аналогию дороги, число полос кольцевой дороги (пусть 2×4) не всегда соответствует числу полос, ведущих за город (1 или 2). То есть шина не будет замедляться данными, поступающими извне. У графического процессора принцип такой же, поскольку у него есть шестнадцать 32-битных чипов, что даёт 512-битный интерфейс. Кольцевая шина шире, так как она пропускает два раза по 512 бит (512 бит в каждом направлении). Цель, опять же, в придании максимальной гибкости, чтобы как можно эффективнее устранить проблемы с задержками.
Среди инноваций новой кольцевой шины отметим прямую связку с шиной PCI Express. Это должно улучшить производительность конфигураций CrossFire и, в целом, связь между GPU и системой.
Первая итерация кольцевой шины у ATi была лишь частичной. Запросы данных отправлялись напрямую к чипам, а кольцевая шина использовалась только как канал для ответа. С выпуском R600 AMD перешла на полностью распределённый подход: запросы и ответы проходят по одной и той же шине. Кстати, GeForce 8800 использует традиционную шину с кросс-коммутатором, который напрямую соединяет разные контроллеры чипа с памятью. С точки зрения теоретического потока он работает эффективно, но создавать подобные коммутаторы очень трудоёмко.
Итог здесь будет таков. ATi выбрала элегантное решение, а nVidia оказалась более прагматичной. У ATi есть преимущество в виде 512 бит кольцевой шины против 384 и 320 битов у GeForce 8800 GTX и GTS. К сожалению, ATi поняла, что лучшее часто бывает врагом хорошего. Кольцевая шина очень чувствительна к задержкам. Малейшие изменения могут печально сказаться на производительности. Так и произошло в случае X1800 и X1900, поэтому ATi немало поработала над задержками, и результаты оказались положительными. В некоторых приложениях, требующих высокую пропускную способность, карты демонстрируют свою мощь. Но если использовать кольцевую шину и для запросов, и для результата, то проблема приоритетов встаёт более остро. Каков должен быть приоритет запросов? В каких пропорциях? AMD эта проблема очень волнует. Решить её можно, так что посмотрим на текущее состояние.
Текстуры: больной вопрос
Здесь архитектура 8800 нас удивила больше, поскольку nVidia не стала особо долго думать насчёт числа текстурных блоков, поместив 32 из них на свою топовую модель, причём каждый блок способен адресовать, получать и фильтровать текстуру. Блоки работают очень эффективно. ATi, со своей стороны, использовала четыре крупных текстурных блока, каждый способен обрабатывать восемь текстурных адресов за такт, четыре из которых используются для билинейной выборки, а оставшиеся четыре – для выборки без фильтрации.
Диаграмма работы вершинных/текстурных блоков.
Что касается числа блоков, то AMD, на первый взгляд, проигрывает, но на самом деле главное значение имеет скорость фильтрации текстур. А здесь весь вопрос в формате. Исторически текстуры имели 32-битный формат, по 8 битов на компонент. Что касается HDR, то здесь больше стали использоваться текстуры со значениями с плавающей запятой, формата 64 или 128 битов. А именно, текстуры форматов FP16 и FP32.
Текстурная скорость заполнения, 32 бита.
Как можно видеть, производительность по мультитекстурированию весьма низкая, что, вероятно, будет ограничивать HD 2900 в тестах старых игр, скорость которых не упирается в шейдеры.
Тесселяция, UVD
Но у Radeon HD 2900 XT есть ещё одно оружие: блок тесселяции. Его работа достаточно проста: принцип тесселяции состоит в рекурсивном выполнении операций на сетке полигонов (скажем, на лице). Идея заключается в том, чтобы снизить угловатость полигонов и улучшить плавность объектов.
Пока у разработчиков есть два выбора. Если персонаж находится очень близко, то можно напрямую создавать сетку с высоким числом полигонов. Но это решение становится не оптимальным, если персонаж удаляется: графическая мощь будет тратиться просто так. Поэтому разработчики идут на компромисс, используя среднее число полигонов, пусть детализация вблизи будет и не такой хорошей.
Тесселяция является компромиссным решением, напоминающим mip-уровни для текстур, когда используется менее детализованная версия одной и той же текстуры при её удалении от зрителя. Тесселяция позволяет начать с простой модели и усложнять её по мере приближения к камере.
Идея не нова: блок тесселяции уже присутствует в GPU Xbox 360. Блок мощный, современные системы слабые, но DirectX 10 пока его не поддерживает. С будущей версией DirectX ситуация должна измениться, поскольку блок должен поддерживаться напрямую. AMD пока не детализует методы работы блока, но известно, что он опирается на шейдеры.
Мы не будем подробно останавливаться на новых алгоритмах сглаживания и качества анизотропной фильтрации. Что касается последнего, то здесь мы получили эквивалент “high quality” на Radeon X1900.
Декодирование видео
Наш теоретический экскурс вполне разумно закончить интересной задумкой: декодирование видео с помощью GPU. В принципе, идея не нова. Мы уже знакомились с ней под названием PureVideo на GeForce и AVIVO на картах ATi. Изначально технология задумывалась для того, чтобы разгрузить центральный процессор во время декодирования DVD. Сегодня декодирование DVD отнимает малую толику ресурсов процессора, и брать на себя эту задачу уже бессмысленно. Поэтому производители перешли к улучшению качества картинки.
С появлением HD-DVD и Blu-Ray ситуация изменилась, так как эти задачи вновь требуют немалой вычислительной мощности. В теории. На практике всё очень сильно зависит от того, какие из трёх кодеков используются на диске. Первый, старый добрый MPEG-2, несмотря на переход в высокое разрешение, не составляет проблем даже со старыми процессорами. Второй кодек – Microsoft VC-1. Это производная от MPEG-4, больше известная под названием Windows Media Video. Сложность декодирования средняя, процессора с двумя ядрами обычно достаточно. Единственный кодек, с которым могут возникнуть проблемы, – H.264. Это на сегодня наиболее современный формат сжатия, у которого возникает больше всего проблем даже на нынешних процессорах из-за кодирования CABAC (Context Adaptive Binary Arithmetic Coding). Впрочем, на дисках Blu-ray он встречается редко. В частности, он используется в фильмах X-Men 3 и “Казино Роял” (Casino Royal).
С технологией UVD AMD берёт на себя расчёты CABAC (и другие виды кодирования), как и в случае GeForce 8600. С другой стороны, X1900 и GeForce 8800 этого не позволяют. AMD полностью отвечает за декодирование, что, в теории, позволяет экономить энергию (и продлить время автономной работы от аккумулятора). AMD идёт ещё дальше, поскольку, в отличие от других реализаций, UVD не использует блоки GPU для декодирования, опираясь на отдельный кремниевый блок в чипе (для процессоров начального и среднего уровней. У HD 2900 XT для этих целей используются блоки шейдеров). Это позволяет ещё больше снизить энергопотребление. Впрочем, следует дождаться реальных тестов, поскольку, хотя мы и видели работающую технологию UVD во время презентации AMD в Тунисе, мы не смогли включить её в PowerDVD. Что ж, позднее мы проверим заявления AMD.
HDMI: да, но…
Вся линейка видеокарт Radeon HD распознаётся под Windows ещё и как звуковая карта. После установки драйвера вы получаете в системе вторую звуковую карту. Нарекания касаются поддержки стандарта HDMI 1.2, а не 1.3. Возможности поэтому скромные, на уровне выхода S/PDIF. Не поддерживаются форматы Dolby True HD и дорожки со сжатием без потерь, что плохо.
Перейдём к тестам
Наверное, хватит погружаться в теорию. Пора перейти к практическим тестам. Но перед ними следует сделать несколько комментариев. Нам пришлось возвращаться к некоторым тестам вновь и вновь, поскольку nVidia провела в последний момент контратаку с документацией и драйвером. Драйвер под Vista, который мы использовали, не сертифицирован WHQL, но для Vista подходит лучше всего. Но бесконечно процесс обновления драйверов и тестов длиться не может, поэтому нам пришлось на каких-то этапах “заморозить” конфигурацию и продолжать тесты.
Что ж, предлагаем ознакомиться с цифрами, но следует помнить, что видеокарта HD 2900XT позиционируется против GeForce 8800GTS, но не GTX или Ultra, так как, насколько мы знаем, против этих карт выйдет более интересное решение.
Системное аппаратное обеспечение | |
Процессор | Intel Core 2 Extreme X6800 Conroe, 2,93 ГГц, FSB 1066 МГц, кэш L1 32 кбайт +32 кбайт, кэш L2 4 Мбайт |
Платформа nVidia | eVGA 122-CK-NF68-AR, LGA 775, nVidia nForce 680i SLI, BIOS 2.053.57 |
Платформа ATi | Intel D975XBX, LGA 775, чипсет Intel 975X Express |
Память | Corsair CM2X1024-9136C5D, 2x 1024 Мбайт DDR2 @ 800 МГц (CL5-5-5-15) |
Жёсткий диск | Western Digital Raptor, WD1500ADFD, 150 Гбайт, 10 000 об/мин, кэш 16 Мбайт, SATA150 |
Сеть | Встроенная nForce4 (nVidia), гигабитный Ethernet, Intel 82573E/82573L |
Видеокарты | |
На основе GPU AMD/ATi | AMD Radeon HD 2900 XT, 512 Мбайт GDDR3, ядро 740 МГц, 740 МГц – 320 потоковых процессоров, память 825 МГц (1,65 ГГц DDR) AMD Radeon X1950 XTX, 512 Мбайт GDDR4, ядро 650 МГц, память 1 000 МГц (2,00 ГГц DDR) Sapphire Radeon X1950 Pro Ultimate, 256 Мбайт GDDR3, ядро 580 МГц, память 800 МГц (1,60 ГГц DDR) |
На основе GPU nVidia | Nvidia GeForce 8800GTX, 768 Мбайт GDDR3, 575 МГц ядро, 1,35 ГГц – 128 потоковых процессора, 900 МГц память (1,80 ГГц DDR) XFX GeForce 8800GTS 640 Мбайт GDDR3, 500 МГц ядро, 1,20 ГГц – 96 потоковых процессора, 800 МГц память (1,60 ГГц DDR) Foxconn GeForce 8800GTS 320 Мбайт GDDR3 ONOC, 575 МГц ядро, 1,20 ГГц – 96 потоковых процессора, 900 МГц память (1,80 ГГц DDR) EVGA GeForce 8600GTS SC 256 Мбайт GDDR3, 675 МГц ядро, 1,45 ГГц – 32 потоковых процессора, 1,000 МГц память (2,00 ГГц DDR) Sparkle GeForce 8600 GT 256 Мбайт GDDR3, 540 МГц ядро, 1,19 ГГц – 32 потоковых процессора, 700 МГц память (1,40 ГГц DDR) Nvidia GeForce 7900 GTX, 512 Мбайт GDDR3, 650 МГц ядро, 800 МГц память (1,60 ГГц DDR) |
Блок питания | TopPower Powertrain 900 Вт |
Кулер CPU | Zalman CNPS9700 LED |
Системное ПО и драйверы | |
ОС | Microsoft Windows XP Professional 5.10.2600, Service Pack 2 |
Версия DirectX | 9.0c (4.09.0000.0904) (XP) DX 10 (Vista) |
Графические драйверы | ATI – Catalyst 7.4 WHQL (XP) ATI – Catalyst 7.4 WHQL (Vista) ATI – Catalyst 8-37-4 (Vista – HD2900XT) ATI – Catalyst 8-37-4 (XP – HD2900XT) NVIDIA – Forceware 158.48 (Vista – 8800GTX) NVIDIA – Forceware 158.22 (XP – 8800GTX & GTS) NVIDIA – Forceware 158.22 (XP – 8600GTS & GT) |
3DMark05 – XP Pro
Doom 3 – XP Pro
F.E.A.R. – XP Pro
Oblivion – XP Pro
Тесты Vista
Что ж, теперь мы получили представление о том, как ведёт себя R600 под Windows XP. Мы продолжаем проводить большинство тестов под Windows XP Professional, так как большинство наших читателей по-прежнему используют эту платформу. Ещё до выхода Vista мы провели игровые тесты под Vista Ultimate. Производительность оказалась далеко не радужной на картах обоих лагерей. У ATi тогда ещё не было драйвера OpenGL, а у nVidia были проблемы с производительностью.
Мы посчитали, что новую карту DX10 лучше всего тестировать под той ОС, для которой она изначально планировалась. DX10 – это API Vista, поэтому что может быть лучше? У обеих компаний было шесть месяцев на доработку драйверов. Конечно, у ATi в это время не было коммерческой карты DX10, были технологии и драйверы для существующих видеокарт. У nVidia же всё есть давно, поэтому карты должны прекрасно себя показывать под Windows Vista Ultimate right.
У ATi возникла только одна проблема с производительностью OpenGL в Doom 3. Мы понимаем, что Vista уменьшает производительность на 10% в большинстве приложений из-за драйвера. Но с производительностью движка Doom 3 нужно что-то делать. Будем надеяться, что проблема будет решена в грядущих выпусках Catalyst.
У nVidia, с другой стороны, возникли просто дикие проблемы. Пусть даже система иногда перегружалась по своей прихоти, больше всего “порадовали” две или три минуты ожидания, пока 3DMark05 пытался посчитать результат или загружал следующий уровень. G80 находится на рынке семь месяцев, а Vista доступна разработчикам nVidia весьма давно. Но система упорно перезапускалась по каким-то причинам, два раза просто из рабочего стола и шесть раз в разных приложениях. Подобная нестабильность нам вовсе не понравилась. В Doom 3 наблюдается падение почти на 40 кадров в секунду по сравнению с XP. С другой стороны, результаты в F.E.A.R. оказались очень хороши, так что в этом отношении nVidia можно похвалить.
3DMark05 – Vista Ultimate
3DMark06 – Vista Ultimate
Doom 3 – Vista Ultimate
F.E.A.R. – Vista Ultimate
Oblivion – Vista Ultimate
Цены, комплект поставки, доступность
Как видно по иллюстрации выше, HD 2900 XT будет продаваться по цене меньше $400. То есть перед нами прямой конкурент GeForce 8800 GTS с 640 Мбайт. Что касается доступности на момент публикации и на ближайшие три месяца, то ATi утверждает, что недостатка в картах не будет. HD 2600 и 2400 не появятся на полках магазинов до конца июня, а позже последуют мобильные версии.
В комплект поставки со всеми картами HD 2900 виртуально входят новые игры Valve Software, включая Half-Life 2: Episode 2, Team Fortress 2 и новую игру Portal. Опять же, будет использоваться система ваучеров, так что вам понадобится соединение с Интернетом для подключения к Steam.
Рекомендации
Первой моей реакцией было “ну, наконец-то!”. Шесть месяцев ожидания закончились, но ATi потеряла своё положение. Будем надеяться, что AMD вовремя подоспеет с альтернативами “старшей” GeForce 8800 и средними моделями 8600, но многие рынки уже склонились в пользу nVidia. Эта компания первой вышла на рынок с новыми картами, и теперь у неё очень сильные позиции.
Лично мне нравятся все усовершенствования, которые AMD произвела с R600. Неплохо было бы получить полную аппаратную реализацию AVIVO вместе со встроенной звуковой картой, шифрованием HDCP и переходником HDMI. Да и кольцевая шина памяти кажется решением, ориентированным на будущее. Потоковый дизайн и 512-битная пропускная способность в обоих направлениях – это перспективно. Впрочем, есть и нарекания. В частности, число и мощность текстурных блоков можно было сделать и выше. К тому же, почему не сделать полностью скалярный дизайн? В остальном всё хорошо, но опоздание…
Как нам кажется, 80-нм чип должен был появиться тогда, когда все ждали первого пришествия R600. А сейчас упорно ходят слухи, что вскоре выйдет 65-нм вариант карты. Единственная проблема в том, что к этому моменту nVidia тоже может предложить карту нового аппаратного поколения.
Sapphire Technologies – HD2900XT Toxic с водяным охлаждением.
Что ж, если вы ждали R600, то вы его получили. В новом дизайне HD 2900 XT есть ряд приятных улучшений, да и хотелось бы посмотреть на производительность 1-Гбайт карт GDDR4 под Vista. Цена $400 за карту, которая тестировалась в нашей лаборатории, является хорошей ценой, поскольку она может предложить больше, чем GeForce 8800 GTS. Впрочем, оптимальным вариантом сегодня по-прежнему является 320-Мбайт версия 8800 GTS, но ситуация может измениться, когда появятся другие версии линейки R600. А пока вы можете по-прежнему откладывать покупку или, наконец, решиться потратить деньги. Версии, подобно Sapphire HD2900 XT Toxic, будут поставляться с заводским разгоном и системой водяного охлаждения.
В целом, HD 2900 XT более нацелена на будущее по сравнению с GeForce 8800, но так оно и должно быть, всё же полгода прошло. Если вам нужна карта на перспективу, то R600 кажется более привлекательной благодаря выделенному аппаратному блоку тесселяции, программируемым фильтрам, высоким тактовым частотам и сумасшедшей пропускной способности внутренней шины. Но карта горячая и громкая. Скоро на карты даже ярлыки придётся, наверное, вешать, чтобы их руками не трогали. Можно обжечься. Будем надеяться, что на рынке всё же появятся менее громкие и более холодные решения.
Заключение
Напоследок мы хотели бы остановиться на энергопотреблении видеокарт, поскольку здесь наблюдаются интересные различия между GeForce 8800 GTX и R600. Что интересно, R600 потребляет в тестах в целом меньше энергии, чем GeForce 8800 GTX.
Нет карты – система ATi | HD 2900 XT | HD 2900 XT CF | |
Загрузка | 163 | 243 | 287 |
Загрузка 2 | 311 | 455 | |
Бездействие ОС | 296 | 421 | |
Бездействие ОС 2 | 250 | 428 | |
3DM06 HDR1 – GT3 | 358 | 549 | |
3DM06 HDR2 – GT4 | 343 | 527 | |
Нет карты – система nVidia | 8800 GTX | 8800 GTX SLI | |
Загрузка | 164 | 254 | 292 |
Загрузка 2 | 266 | 296 | |
Бездействие ОС | 217 | 230 | |
Бездействие ОС 2 | 227 | 233 | |
3DM06 HDR1 – GT3 | 343 | 569 | |
3DM06 HDR2 – GT4 | 347 | 519 |
По поводу того, что лучше, R600 или G80/84/86, спорить можно долго. Не повлияет ли ограниченная внутренняя пропускная способность на производительность текстурных блоков nVidia? Что лучше, чисто скалярный процессор или “пятёрки” команд AMD? Когда проявит себя аппаратный блок тесселяции? Выход новых карт, на самом деле, породил больше вопросов, чем ответов. Да и AVIVO не мешает протестировать на деле. Определённо, эта статья о новых чипах AMD далеко не последняя.