Asus AMD Radeon HD7970 - "темный рыцарь" игрового мира. Система охлаждения и её эффективность

Часть 2 — Практическое знакомство
Часть 3 — Результаты игровых тестов (производительность)

В этой части, как обычно, мы изучим саму видеокарту, а также познакомимся с результатами синтетических тестов.

Плата


GPU: Radeon HD 7970 (Tahiti) Интерфейс: PCI Express x16 Частота работы GPU (ROPs): 925 МГц (номинал — 925 МГц) Частота работы памяти (физическая (эффективная)): 1375 (5500) МГц (номинал — 1375 (5500) МГц) Ширина шины обмена с памятью: 384 бит Число вычислительных блоков в GPU/частота работы блоков: 32/925 МГц (номинал — 32/925 МГц) Число операций (ALU) в блоке: 64 Суммарное число операций (ALU): 2048 Число блоков текстурирования: 128 (BLF/TLF/ANIS) Число блоков растеризации (ROP): 32 Размеры: 285×100×33 мм (последняя величина — максимальная толщина видеокарты) Цвет текстолита: красный Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 215/70/3 Вт Выходные гнезда: 1×DVI (Dual-Link/VGA), 1×HDMI 1.4a, 2×Mini-DisplayPort 1.2 Поддержка многопроцессорной работы: CrossFire X (Hardware)

GPU: Radeon HD 7970 (Tahiti)
Интерфейс: PCI Express x16
Частота работы GPU (ROPs): 925 МГц (номинал — 925 МГц)
Частота работы памяти (физическая (эффективная)): 1375 (5500) МГц (номинал — 1375 (5500) МГц)
Ширина шины обмена с памятью: 384 бит
Число вычислительных блоков в GPU/частота работы блоков: 32/925 МГц (номинал — 32/925 МГц)
Число операций (ALU) в блоке: 64
Суммарное число операций (ALU): 2048
Число блоков текстурирования: 128 (BLF/TLF/ANIS)
Число блоков растеризации (ROP): 32
Размеры: 285×100×33 мм (последняя величина — максимальная толщина видеокарты)
Цвет текстолита: красный
Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 215/70/3 Вт
Выходные гнезда: 1×DVI (Dual-Link/VGA), 1×HDMI 1.4a, 2×Mini-DisplayPort 1.2
Поддержка многопроцессорной работы: CrossFire X (Hardware)

AMD Radeon HD 7970 3072 МБ 384-битной GDDR5 PCI-E
Карта имеет 3072 МБ памяти GDDR5 SDRAM, размещенной в 12 микросхемах на лицевой сторонe PCB. За неимением собственных синтетических тестов DirectX 11 мы снова воспользовались примерами из пакетов SDK Microsoft и AMD и демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010) . Также мы взяли приложения обоих производителей: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain , также известная как Island11 (автор — Тимофей Чеблоков, известный специалист по 3D-графике). Синтетические тесты проводились на следующих видеокартах: Radeon HD 7970 HD 7970 ) Radeon HD 6990 со стандартными параметрами (далее HD 6990 ) Radeon HD 6970 со стандартными параметрами (далее HD 6970 ) Radeon HD 5870 со стандартными параметрами (далее HD 5870 ) Geforce GTX 590 со стандартными параметрами (далее GTX 590 ) Geforce GTX 580 со стандартными параметрами (далее GTX 580 ) Для сравнения результатов новейшей видеокарты Radeon HD 7970 именно эти модели были выбраны по разным причинам. Radeon HD 6970 была взята, как прямой предшественник топового сегмента, HD 6990 — как сильнейшее (пусть и двухчиповое) решение на GPU предыдущей архитектуры, HD 5870 мы добавили, чтобы оценить прирост между двумя разными обновлениями архитектур и как GPU ровно вдвое меньшей сложности, чем Tahiti. Выбранные решения Nvidia взяты потому, что Geforce GTX 580 — быстрейшая одночиповая модель этой компании, основанная на GPU последнего поколения. Хотя она не является конкурентом представленной видеокарты AMD по цене, её результаты интересны как максимальные для нынешних одночиповых решений Nvidia. А двухчиповая GTX 590 является экстремальным вариантом этой компании с более высокой ценой. В тестах DirectX 11 мы использовали ещё и Geforce GTX 560 Ti, которая нужна для того, чтобы оценить увеличенную геометрическую производительность нового графического процессора AMD. Direct3D 9: тесты Pixel Filling В этом тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель: В нашем устаревшем тесте фильтрации 32-битных текстур из RightMark большинство видеокарт показывает цифры, далёкие от теоретически возможных. Вот и результаты текстурной синтетики в случае видеоплаты Radeon HD 7970 не дотянули до пикового значения, поэтому мы ещё раз рассмотрим скорость текстурирования по цифрам из теста 3DMark Vantage, в котором всегда получаются более реалистичные цифры. У нас же получилось, что HD 7970 выбирает лишь до 80 текселей за такт из 32-битных текстур при билинейной фильтрации, что значительно ниже теоретической цифры в 128 отфильтрованных текселей. В остальном, всё получилось предсказуемо — все платы производства AMD показали более высокую производительность и опережают видеокарты компании Nvidia. Ведь даже топовая одночиповая Geforce GTX 580 имеет лишь 64 TMU и поэтому сильно уступает модели на базе чипа Tahiti, имеющем 128 TMU, работающих на более высокой частоте. Поэтому и разница более чем двукратная. Ну а двухчиповый GTX 590 в этом тесте показывает явно неадекватный результат. Вариант платы на двух GPU от компании AMD также явно некорректно работает в нашем тесте, ведь HD 7970 обгоняет почти всегда даже его. Ну а своего предшественника новая модель обогнала примерно на 30%, что чуть хуже теоретически возможного значений. Впрочем, в случаях с малым количеством текстур, когда больше всего сказывается пропускная способность памяти, результат ещё ниже — порядка 25%. Рассмотрим эти же результаты в тесте филлрейта: Цифры показывают скорость заполнения, и в них мы видим всё то же самое, разве что с учетом количества записанных в буфер кадра пикселей. Максимальный результат почти всегда остаётся за новой топовой видеокартой из семейства Radeon HD 7900. Она имеет рекордное количество TMU, работающих на более высокой частоте и более эффективных в нашем синтетическом тесте. Переходим к текстам простых пиксельных шейдеров. Direct3D 9: тесты Pixel Shaders Первая группа пиксельных шейдеров, которую мы рассматриваем, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх. Эти тесты слишком просты для современных GPU и в основном ограничены производительностью текстурирования и иногда филлрейтом. Поэтому они показывают далеко не все возможности современных видеочипов, но интересны с точки зрения устаревших игровых приложений. В двух самых простых тестах новый Radeon HD 7970 почти догнал даже двухчиповый HD 6990, но в более сложных занял позицию между HD 6990 и HD 6970. Интересно, как отличается поведение тестов на GPU разных архитектур. И тут Tahiti несколько ближе к GF110, чем к предшественнику. Естественно, не по абсолютным цифрам, разница в них весьма велика — от полутора до двух раз. Производительность в других тестах ограничена по большей части скоростью текстурных модулей и филлрейтом, поэтому новый Radeon HD 7970 получился быстрее предшествующего HD 6970 примерно на 30-40%, что соответствует теории. Все платы AMD опережают обе топовые модели Geforce, разве что в сравнении HD 5870 и GTX 590 всё не так однозначно. В неудачах Nvidia в этих тестах явно виноват недостаток скорости текстурирования. Но даже пиксельный шейдер освещения тремя источниками по Фонгу, больше зависящий от математической производительности GPU, при запуске на GF110 сильно уступает и Cayman и уж тем более Tahiti. Посмотрим на результаты более сложных пиксельных программ промежуточных версий: Вот и в этот раз получилось примерно то же самое, HD 7970 расположился примерно между одночиповой и двухчиповой моделями на базе Cayman из серии HD 6900. Тест Cook-Torrance более интенсивен вычислительно, и разница в нём примерно соответствует разнице в количестве ALU и их частоте. Поэтому данный тест лучше подходит для архитектуры AMD, чипы которой имеют большее количество математических блоков, и Tahiti тут не исключение. Интересно, что в этом тесте HD 5870 обгоняет HD 6970, и похоже, что так получилось из-за худшей эффективности исполнения этого шейдера на более новом чипе с VLIW4 архитектурой. Так что, хотя новый Radeon HD 7970 и обошёл HD 6970, он оказался быстрее HD 5870 в этом тесте лишь на 20%. Во втором, сильнее зависящем от скорости текстурирования, тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и видеокарты в нём располагаются по скорости текстурирования, с поправкой на разную эффективность использования TMU. В этом тесте у решений компании AMD всегда всё прекрасно, и HD 7970 обеспечивает очень хороший результат, хотя и хуже, чем у двухчиповой HD 6990, но гораздо лучший, чем у предшественника на Cayman. Топовая одночиповая плата Nvidia отстала более чем в 2,5 раза! Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0 Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0: Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье . Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами. Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений: Это — универсальные тесты, зависящие и от скорости блоков ALU, и от скорости текстурирования, в них важен общий баланс чипа, а также эффективность исполнения сложных программ. И производительность новой видеокарты AMD в тесте «Frozen Glass» оказалась не просто хорошей, но отличной! Вот что значит повышенная эффективность нового GPU. Radeon HD 7970 в первом тесте оказалась заметно быстрее даже чем двухчиповая HD 6990. А даже двухчиповая плата Nvidia осталась далеко позади, не говоря уже о Geforce GTX 580. Вот во втором тесте «Parallax Mapping» решения Nvidia чувствуют себя немного лучше, и GTX 580 почти достаёт HD 6970. А вот до представленной сегодня HD 7970 очень далеко — новинка AMD опережает лучшую плату Nvidia на 80%, что явно говорит о влиянии и математических расчётов и скорости текстурирования. Интересно, что совсем старая HD 5870 снова быстрее, чем HD 6970. Да и новая HD 7970 обогнала предшественницу на 60%, что явно не оправдать сухими теоретическими цифрами. Тут сказалась заметно большая эффективность скалярной архитектуры, по сравнению с VLIW. Впрочем, в случае видеокарт AMD всё очень сложно из-за PowerTune. Ведь синтетические тесты очень сильно «грузят» GPU расчётами и энергопотребление плат с поддержкой PowerTune в синтетике вполне может выходить за рамки выставленного ограничения. Следовательно, может снижаться и тактовая частота GPU, а вместе с ней и результаты будут показаны ниже, чем ожидалось. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям: Для обеих видеоплат Nvidia ситуация стала ещё печальнее, так как со скоростью текстурирования у всех современных чипов AMD всё намного лучше, и в этих тестах они лишь наращивают своё бесспорное преимущество. Даже двухчиповая GTX 590 не может соперничать с одночиповым HD 6970 в обоих тестах с упором на текстурирование, не говоря о GTX 580. Ну а представленная сегодня плата из семейства Radeon HD 7900 оказалась быстрейшей среди одночиповых карт, уступив только HD 6990. Разница между HD 7970 и HD 6970 оказалась равна 26-28%, что хорошо объяснимо теоретически, так как разница в скорости текстурирования у новинки немногим больше. Но это были устаревшие задачи, в основном с упором в текстурирование, и иногда в филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9 API. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений: Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D-графики . Fur — процедурный шейдер, визуализирующий мех. В самых сложных DX9-тестах из RightMark видеокарты производства Nvidia всегда выступают очень сильно, в противоположность всем предыдущим испытаниям нашего обзора. Эти тесты не ограничены производительностью текстурных выборок, а зависят скорее от эффективности исполнения шейдерного кода. И ранее Radeon HD 6970 явно улучшил позиции AMD в данном тесте, увеличив эффективность при переходе от архитектуры VLIW5 к VLIW4. Ну а сегодня мы увидели очередной скачок в производительности решений компании, Radeon HD 7970 поднял их на недосягаемый уровень — новая одночиповая видеоплата обошла даже двухчиповый HD 6990 в обоих тестах! Эти задачи — отличный пример улучшения реальной производительности сложных вычислений при переходе от VLIW к скалярному исполнению. Итак, в тестах сложных пиксельных шейдеров версии 3.0 новая топовая видеокарта AMD смогла не только догнать конкурентов, но и опередить со значительным запасом, чего не было очень давно. Скорость в обоих тестах PS 3.0 слабо зависит от ПСП и текстурирования, зато код отличается сложностью, с чем очень неплохо справляется и архитектура Nvidia и новейшая скалярная архитектура AMD. Эти тесты одни из первых, где мы отмечаем явное улучшение эффективности и наибольшую положительную разницу между предыдущей и новейшей архитектурами компании AMD по скорости. Но приведём цифры, чтобы не быть голословными. Представленная новинка Radeon HD 7970 быстрее предшественницы более чем вдвое, и на 60-70% быстрее Geforce GTX 580, о чём совсем недавно мы даже и подумать бы не решились. Ведь решения Nvidia всегда были неоспоримыми лидерами в этой паре тестовых задач, но видеокарты на Cayman смогли к ним приблизиться, а быстрейший из Tahiti наконец-то опередил конкурента. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы) Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы. Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере. Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот. Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым. Производительность в этом тесте зависит от количества и эффективности блоков TMU, и от эффективности выполнения сложных программ. В варианте без суперсэмплинга дополнительное влияние на производительность оказывает эффективный филлрейт (производительность ROP) и пропускная способность памяти. Результаты при детализации уровня «High» получаются примерно в полтора раза ниже, чем при «Low», как и должно быть по теории, но для быстрейших решений разница несколько ниже. Ранее в тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia были заметно сильнее, но начиная с предыдущего поколения компании AMD, разница начала сокращаться. Что же получилось у Radeon HD 7970? Отличный результат — новинка AMD снова оказалась быстрее двухчиповой платы предыдущего поколения, а одночиповая HD 6970 отстала вдвое, что явно говорит об увеличении эффективности новой архитектуры Southern Islands. Да и решения компании Nvidia остались позади, даже двухчиповая GTX 590 уступила представленной сегодня топовой модели Radeon HD 7970. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше: Включение суперсэмплинга увеличивает теоретическую нагрузку в четыре раза, и результаты решений Nvidia всегда падают, по сравнению с показателями видеокарт AMD. Теперь разница в эффективности выполнения данной задачи ещё более очевидна, и новая модель HD 7970 быстрее HD 6970 в 2,5 раза! Примерно столько же новинке уступила и Geforce GTX 580. Вполне естественно, что даже HD 6990 осталась далеко позади, а новая плата укрепила лидерство, да какое… Второй шейдерный DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга: Второй пиксель-шейдерный тест Direct3D 10 несколько интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High». Эта диаграмма похожа на предыдущую без включения SSAA, но позиции Nvidia ещё немного ослабли, да и Radeon HD 6990 почти догнала представленную сегодня модель. В обновленном D3D10-варианте теста без суперсэмплинга HD 7970 показывает отличный результат, значительно опережая и HD 6970 и GTX 580 и даже GTX 590. Лидерство делят HD 7970 и HD 6990, а две старые видеокарты производства AMD показывают схожие результаты и сильно (в два и более раза медленнее новой модели) отстают. Посмотрим, что изменит включение суперсэмплинга, он может вызвать сильное падение скорости на платах Nvidia. При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — карты производства AMD улучшили свои показатели относительно решений Nvidia. И теперь Radeon HD 7970 снова становится единоличным лидером сравнения, показывая результаты выше, чем у HD 6990. Более старые одночиповые платы компании далеко позади, вместе с ними и Geforce GTX 580. И лишь более дорогие двухчиповые варианты от AMD и Nvidia способны хоть как-то приблизиться к свежей видеоплате. В общем, по двум шейдерным D3D10 тестам можно сделать вывод, что новая архитектура AMD и её представитель на чипе Tahiti великолепно справляется с «шейдерными» задачами, даже лучше традиционно сильных в них конкурентов от Nvidia. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления) Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере. Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos. Результаты предельных математических тестов обычно соответствуют разнице в частотах и количестве исполнительных блоков, но с некоторым влиянием разной эффективности их использования. Все последние архитектуры AMD в таких случаях имеют подавляющее преимущество перед конкурирующими видеокартами Nvidia, и это объясняет результаты тестов, в которых решения AMD снова оказываются значительно более производительными. Решения расположились примерно соответственно теории, но за некоторыми исключениями. На практике открылись некоторые нюансы, связанные с различной эффективностью. Теоретически, Geforce GTX 580 должна быть более чем вдвое (2,4 раза) медленнее, чем новая модель Radeon HD 7970, на практике же разница составляет лишь 80%, что значительно меньше. Да и при сравнении с HD 6970 возникают вопросы оптимизации новой архитектуры и драйверов для неё к этому тесту. При теоретическом превосходстве по вычислениям в 40%, новая плата AMD лишь на 28% быстрее предыдущей — HD 6970, а ещё меньше дистанция между ней и совсем старой HD 5870, основанной на VLIW5-архитектуре. То ли тест действительно лучше подходит для VLIW (особенно для VLIW5), то ли виноваты ещё сырые драйверы. Есть и ещё одно объяснение — возможно, на результаты плат HD 7970 HD 6970 в этом тесте повлияла технология PowerTune, снизившая частоты при достижении предела энергопотребления. Впрочем, всё это мало что меняет при сравнении с конкурентом, ведь даже дорогущая двухчиповая плата Geforce GTX 590 лишь достигла уровня HD 6970 и HD 5870. А уж одночиповая GTX 580 так и вовсе далеко позади. Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки: Мы видим почти идентичную предыдущей диаграмму, за исключением абсолютных цифр. В этот раз все GPU остались примерно на тех же позициях, ну разве что видеоплаты на базе Cayman и Cypress поменялись местами — теперь чуть-чуть быстрее более новая модель, но совсем незначительно. Хотя строгого соответствия теоретическим цифрам пиковой производительности всё так же нет, но их результаты всё-таки близки к сухой теории. Разница между HD 7990 и HD 6970 немного увеличилась. В остальном, мы не нашли на графике ничего нового. Скорость рендеринга в этом тесте ограничена исключительно производительностью шейдерных блоков и их эффективностью, поэтому двухчиповая HD 6990 снова стала явным лидером, а за ней на приличном отдалении следует сегодняшняя новинка от AMD. Обе платы Geforce уступают даже устаревшей модели из семейства Radeon HD 5800, но и в этот раз преимущество решений AMD остаётся несколько меньшим, чем при сравнении теоретических цифр, и это снова говорит о худшей оптимизации или влиянии PowerTune. Direct3D 10: тесты геометрических шейдеров В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10. Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково. Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности: Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не слишком сложная, и производительность ограничена в основном скоростью обработки геометрии, но ещё и пропускной способностью памяти/филлрейтом (в рамках решений одного производителя). В этом тесте должны были проявиться улучшенные возможности Southern Islands по обработке геометрии, вот они и проявились. Новая видеокарта AMD действительно гораздо быстрее выполняет геометрические расчёты, по сравнению со всеми предыдущими решениями компании. Хотя AMD дала цифры прироста до 4 раз, но в этом тесте геометрическая производительность выросла примерно в 1,5-2 раза. В итоге, одночиповая видеокарта оказалась примерно на том же уровне, что и двухчиповая модель Radeon HD 6990 на GPU предыдущего поколения. Столь значительное улучшение привело к тому, что Tahiti практически догнала топовую видеокарту Nvidia, хотя выполнение геометрических шейдеров у той в некоторых условиях должно быть ещё эффективнее. Ранее видеокарты Nvidia справлялись с работой примерно вдвое быстрее аналогичных видеокарт конкурента, а теперь разницы совсем нет. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер: При изменении нагрузки в этом тесте цифры почти не изменились для решений Nvidia и большинства плат AMD. Лишь новая видеокарта из семейства HD 7900 в данном тесте слабо отреагировала на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер. Поэтому плата показала результат чуть выше, чем на предыдущей диаграмме. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры. «Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек. Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим: Относительные результаты в разных режимах снова примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть менее чем в два раза медленней. В этом тесте скорость рендеринга должна быть ограничена геометрической производительностью, и новая архитектура от компании AMD показывает себя просто отлично, даже немного обгоняя конкурента в лице Geforce GTX 580! Обе двухчиповые платы тут показали некорректные результаты, поэтому с ними сравнения не получится. Зато HD 7970 на 40-50% быстрее своей предшественницы — модели HD 6970, что явно объясняется архитектурными изменениями в GPU. Отличные результаты карты на Tahiti явно свидетельствуют о проведённой оптимизаций в блоках обработки геометрических данных в новом чипе. Цифры должны сильно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy». А вот тут рекорда у Radeon HD 7970 не получилось, всё-таки разница между чипами AMD с традиционным графическим конвейером (в т. ч. и Cayman с Tahiti с двумя растеризаторами) и чипами с архитектурой Fermi, имеющей распараллеленную обработку геометрии, хорошо заметна. И результаты Geforce GTX 580, имеющей в своей основе чип GF110, хороши настолько, что она обгоняет лучшее из решений компании AMD (а это анонсированная сегодня модель) на 35-40%. Хотя возможности новенького топового чипа AMD по обработке геометрии и скорости исполнения геометрических шейдеров явно выросли по сравнению с предыдущими видеокартами компании, и первое решение на чипе Tahiti показывают в этих тестах результаты на 22-28% выше, чем решения на базе Cayman. Вероятно, инженеры AMD решили, что такой оптимизации блоков установки треугольников и обработки геометрии будет вполне достаточно. Direct3D 10: скорость выборки текстур из вершинных шейдеров В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет. Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»: Предыдущие исследования показали, что на результаты этого теста влияет сразу многое: и скорость текстурирования и пропускная способность памяти. И результаты видеокарт часто ограничены некоей преградой — посмотрите хотя бы на сравнение двухчиповой GTX 590 и одночипового аналога — между ними почти нет разницы. Хотя HD 6990 вдвое быстрее HD 6970. Да и новая плата AMD из семейства Radeon HD 7970 показала очень хорошие результаты, почти догнав лидирующую HD 6990. Что касается одночиповых конкурентов, то она лучшая во всех трёх режимах. Преимущество над HD 6970 составило от 25% до 75%, в зависимости от режима. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок: А вот в этот раз взаимное расположение карт на диаграмме заметно изменилось, и особенно это касается тяжёлого режима. При малом количестве полигонов скорость рендеринга в этом тесте упирается в ПСП, поэтому платы AMD и были так сильны на предыдущей диаграмме. А вот в тяжёлых режимах разница между одночиповой картой Nvidia и новинкой AMD сократилась, и они соперничают между собой в довольно плотной борьбе. Старшая двухчиповая видеокарта семейства Radeon HD 6900 обгоняет все остальные решения и является лучшей в сравнении, хотя в тяжёлом режиме к ней подбирается и Geforce GTX 590. Новая же одночиповая HD 7970 выигрывает у предшественницы снова до 70%, что может говорить о сильном влиянии ПСП. Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту. Результаты во втором тесте вершинного текстурирования «Waves» абсолютно не похожи на то, что мы видели на предыдущих диаграммах. В этом тесте видеокарты AMD и Nvidia, кроме HD 6990 и HD 7970, показывают очень близкие результаты, что снова можно списать на ограничение пропускной способностью видеопамяти, так как этот показатель у всех представленных видеокарт близок. А вот новая модель из семейства Southern Islands смогла выделиться, в сложных условиях сравнения почти догнав двухчиповую HD 6990, которая стала лучшей среди всех видеокарт. Разница между картами на базе графических процессоров Cayman и Tahiti снова составила 25-70% в пользу более нового решения. Рассмотрим второй вариант этого же теста: И тут произошли изменения, аналогичные тем, что мы видели ранее — видеокарты Nvidia «просели» только в лёгком режиме, а большинство решений AMD — сразу во всех. Впрочем, это не позволило платам калифорнийской компании догнать новинку семейства Radeon 7900. Которая, кстати, обогнала всех в среднем и тяжёлом режимах, уступив двухчиповой HD 6990 только один раз. В режиме с малым количеством полигонов разница между решениями не такая большая, а вот в среднем и тяжёлом старые решения AMD уступают, затем идут платы Nvidia (двухчиповая лишь немного быстрее одночиповой GTX 580), HD 6990 и HD 7970. Анонсированная сегодня плата семейства HD 7900 в тестах вершинных выборок показала себя отлично, с запасом обогнав и конкурирующие видеокарты Nvidia и предшественников от того же производителя. 3DMark Vantage: тесты Feature Как всегда, синтетические тесты из пакета 3DMark Vantage могут показать нам что-то, что мы ранее упустили. Тесты Feature этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших. При анализе результатов новой видеокарты Radeon HD 7970 в этом пакете мы сможем сделать какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark. Feature Test 1: Texture Fill Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр. Хотя тест компании Futuremark всё так же не показывает теоретически возможного уровня скорости текстурных выборок, но всё же эффективность видеокарт и AMD и Nvidia в нём заметно выше, чем в нашем из RightMark. Поэтому в данном текстурном тесте получается несколько иное соотношение результатов, которое ближе к истине. Первая видеокарта из нового семейства компании AMD показывает результат, близкий к соответствующему теоретическому параметру, и она справляется с работой эффективнее предыдущего поколения. Radeon HD 7970 опережает HD 6970 более чем на 50%, хотя по теории разница составляет лишь 40%. Вероятнее всего, текстурные модули Tahiti используются эффективнее из-за улучшений в системе памяти и кэширования, что и вызвало повышенный результат. Конечно, новая одночиповая модель не дотянула до лидера — двухчиповой HD 6990, но это и не ожидалось. И всё же, хорошо видно, что текстурная производительность графического чипа Tahiti заметно выросла по сравнению с Cayman. Ну а GTX 580 проигрывает новинке по скорости текстурирования целых 2,3 раза. Даже двухчиповая карта Nvidia догоняет лишь HD 6970. Feature Test 2: Color Fill Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным. Ситуация в тесте производительности блоков ROP серьёзно отличается от теста текстурирования. Цифры этого подтеста из 3DMark Vantage показывают производительность блоков ROP, но с влиянием величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»). И тут новая модель HD 7970 показывает отличный результат, отстав лишь от двух топовых видеокарт AMD и Nvidia из предыдущих поколений, имеющих по два GPU на борту. А что же с эффективностью использования блоков ROP, которой хвалились AMD? Действительно, лишь 32 блока ROP в новом чипе Tahiti совсем не ограничивают скорость рендеринга даже в специализированном тесте. И мы отмечаем несколько бо́льшую эффективность блоков ROP и более высокую скорость заполнения у новой видеокарты компании AMD по сравнению со старыми моделями. Разница между HD 7970 и HD 6970 более чем 50%, что явно говорит о большем влиянии уже ПСП, а не чистой производительности блоков ROP. Что касается сравнения с Nvidia, то и тут разница по скорости (35%) соответствует теоретической разнице в ПСП (36%), а не чистой скорости блоков ROP. Получается, что 32 таких блока в Cayman просто были лишними и их возможности никогда не использовались полностью. Feature Test 3: Parallax Occlusion Mapping Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss. Этот тест отличается от других подобных тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от всего понемногу. Для достижения высокой скорости тут важен баланс блоков GPU, также весьма заметно влияет на скорость и эффективность выполнения ветвлений в шейдерах. Сравнительные результаты видеокарт AMD на диаграмме в целом похожи на то, что мы видели в тесте текстурной производительности из 3DMark Vantage, кроме того, что новый Radeon HD 7970 явно эффективнее и в этой задаче, ведь он снова почти догнал двухчиповую HD 6990 — отличный результат! Платы Nvidia в данном случае получили некоторое увеличение производительности, что подтверждает вывод о том, что не только текстурная производительность влияет на результаты этого теста. Итак, новая модель компании AMD отлично выступила, совсем немного уступив двухчиповой плате на базе двух Cayman. Одночипового предшественника она обогнала на 66%. Эта цифра не соответствует ускорению от Cayman к Tahiti ни по одному из теоретических параметров и может означать улучшение эффективности исполнения сложных вычислений с ветвлениями. Даже считавшийся ранее неплохим результат Geforce GTX 580 вдвое хуже, чем у новинки AMD. Собственно, все видеокарты этого производителя оказались быстрее топовой модели линейки Geforce GTX 500 на базе одного чипа. Feature Test 4: GPU Cloth Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out. Скорость рендеринга в этом тесте также зависит от многих параметров, но уже других. Основными факторами тут являются производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Так что вполне логично, что именно видеокарты производства Nvidia чувствуют себя в этом приложении отлично, значительно опережая конкурентов. И даже представленная сегодня Radeon HD 7970, несмотря на явное улучшение производительности, по сравнению с HD 6970, не смогла тут составить конкуренцию одночиповой Geforce GTX 580 и немного уступила ей. Это один из тех геометрических тестов, в которых видно преимущество у недавно видеокарт HD 6900 перед предыдущими линейками, в которых увеличили скорость обработки геометрии и выполнения геометрических шейдеров. Radeon HD 7970 улучшила результат ещё на 35%, но этого оказалось мало — решения Nvidia продолжают лидировать в этом тесте. Хотя отметим, что новая модель всё же значительно улучшила позиции компании AMD в геометрических тестах. Feature Test 5: GPU Particles Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out. Результаты очередного теста из пакета 3DMark Vantage похожи на те, что мы видели на предыдущей диаграмме, но скорость обработки геометрии в нём стала ещё важнее. И поэтому видеокарты Nvidia вывались вперёд ещё дальше, оставив позади даже двухчипового монстра — Radeon HD 6990. Увы, но это факт — даже GTX 580 обогнала все платы AMD, в том числе и новёхонькую модель на базе графического процессора Tahiti. Увы, но хотя плата, основанная на новом чипе, и показала более сильный результат, по сравнению с решениями на базе Cayman и Cypress, но от Geforce отстало. Разница между HD 7970 и HD 6970 в этом сравнении составила чуть больше 30%, что указывает на явное влияние скорости ALU. В синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, решения AMD продолжают отставать от конкурирующих видеокарт соперника, имеющих весьма высокую скорость обработки геометрии. Feature Test 6: Perlin Noise Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует очень много математических расчётов. Интересно, что в математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы увидели совершенно иную картину, по сравнению с аналогичными тестами из нашего тестового пакета. Показанная на диаграмме производительность решений лишь очень примерно соответствует тому, что должно получаться по теории, а также расходится и с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0. Например, явно видно, что новая видеокарта в этом тесте подобралась гораздо ближе к теоретической скорости, по сравнению с картами на GPU с VLIW-архитектурой. Давайте разберёмся в причинах. В своё время, HD 6970 не усилила пиковую производительность математических вычислений по сравнению с HD 5870, но одним этим отставания Cayman не объяснить. Причиной могла быть как меньшая эффективность архитектуры VLIW4, так и умная система управления питанием, «зарезавшая» тактовую частоту и производительность решений при достижении установленного порога энергопотребления. Но ведь на HD 7970 она не сказалась. Скорее всего, причина как раз в скалярной архитектуре нового чипа. Потому что соотношение цифр производительности в тесте и теоретических на это явно указывает. По теории, HD 6970 обладает 0,7 математической мощи новой карты, но по этому тесту получилось лишь 0,56. Примерно такая же разница получилась и для других плат AMD. А вот при сравнении GTX 580 и HD 7970, имеющих скалярные архитектуры, теоретическое соотношение равно 0,42 (Tahiti более чем вдвое быстрее), и практическое тоже 0,42. То есть, эффективность использования имеющихся ALU у этих чипов разных производителей абсолютно одинаковая! В отличие от Cayman и Cypress, имеющих VLIW архитектуру. В любом случае, обеих своих конкурентов от Nvidia новая плата AMD обходит с огромным запасом, и Nvidia явно нужно резко усилить математическую мощь в будущих решениях. А пока что получается привычная картина — видеокарты Geforce показывают низкие результаты в таких случаях, когда простая и интенсивная математика выполняется на платах Radeon значительно быстрее. И выход Southern Island только усугубил ситуацию. Direct3D 11: Вычислительные шейдеры Чтобы протестировать новые решения компании AMD в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD. Сначала рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры. Возможно, это и не самый удачный пример для вычислительных шейдеров, но разницу в производительности показывает довольно чётко. Разницы между расчётами в вычислительном и пиксельном шейдерах для видеокарт AMD почти нет, а на Nvidia немного быстрее выполняется пиксельный. AMD Radeon HD 6970 оказалась быстрее предшественницы HD 5870, и выступила на уровне Geforce GTX 580, но представленная сегодня модель HD 7970 значительно опережает их все и становится лидером (двухчиповые видеокарты в этой синтетике мы решили не использовать). GTX 560 Ti взята в основном для тестов геометрии, ну и для того, чтобы оценить разницу между решениями из разных ценовых сегментов. Итак, анонсированные плата на новом чипе Tahiti опережает аналог на базе Cayman на 40%, что полностью соответствует разнице в теоретической производительности вычислительных блоков. В свою очередь, преимущество над конкурирующей GTX 580 равно 30-40% (в зависимости от типа шейдерной программы), что явно ниже теоретически возможного. GTX 560 Ti отстаёт очень сильно, более чем вдвое. Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация. Результаты в этом тесте весьма необычные, для устаревших решений AMD похожие на цифры из математического теста 3DMark Vantage — Cypress оказался быстрее Cayman. Несмотря на большое теоретическое превосходство в пиковых цифрах, быстрейшая видеокарта AMD — представленная сегодня новинка Radeon HD 7970 — лишь на 21% опережает топовое решение Nvidia. И даже GTX 560 Ti не так уж сильно отстаёт. Старые модели семейств HD 6900 и HD 5800 показывают результаты, близкие к показателям Geforce GTX 580. Больше всего нам интересна разница между результатами решений на Cayman и Tahiti, и в этом случае мы видим преимущество свежей модели, равное 36%. Это чуть меньше теоретической разницы между данными моделями, но всё-таки близко к ней. Почему же обе карты не очень ярко выступили на фоне очень старой HD 5870? Возможно, виновата сниженная PowerTune частота или недостаток оптимизации драйверов под новую архитектуру. Посмотрим, может в тестах тесселяции Tahiti наконец-то покажет значительное ускорение. Direct3D 11: Производительность тесселяции Вычислительные шейдеры очень важны, но главным нововведением в Direct3D 11 всё же считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033, Civilization V, Crysis 2, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта. Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными. Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях: Интересно, что parallax occlusion mapping (средние столбики на диаграмме) на видеокартах от обоих производителей выполняется гораздо менее эффективно, чем тесселяция (нижние столбики), а умеренная тесселяция не даёт большого падения производительности — сравните верхние и нижние столбцы. То есть качественная имитация геометрии при помощи пиксельных расчётов обеспечивает даже меньшую производительность, чем оттесселированная геометрия с displacement mapping. Что касается производительности видеокарт относительно друг друга, то давайте рассмотрим сначала попиксельные техники. В тесте простого бампмаппинга лидирует новая видеокарта AMD, она опережает и HD 6970 и GTX 580 на 27% и 36% соответственно. А вот в подтесте сложных попиксельных расчётов (вспоминаем тесты parallax mapping выше по тексту) до выхода Cayman видеокарты Geforce были быстрее решений AMD, равно как и при включенной тесселяции. С выходом Radeon HD 6970 в подтесте с тесселяцией оказались заметно быстрее HD 5870, и в тесте с небольшим коэффициентом разбиения треугольников HD 6970 обогнала даже GTX 580. Гораздо интереснее то, что мы увидели на графике с меткой Radeon HD 7970. Тесселяция тут не слишком сложная, поэтому новая видеокарта выиграла у предшествующей модели не так уж много — около 30%. Другое дело — тест POM. В этом подтесте новая HD 7970 просто разорвала все остальные решения в клочья. Преимущество перед HD 6970 и GTX 580 лишь немного не дотягивает до двукратного. Очередной суперрезультат в тесте parallax mapping, говорящий о высокой эффективности исполнения сложных шейдерных программ. Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность. А вот в этом примере мы видим уже полноценное сравнение геометрической мощи решений AMD и Nvidia в разных условиях. И оно получилось весьма интересным, на наш взгляд. Сильно выделяется графическая архитектура Fermi, да и чип новой архитектуры Tahiti от AMD. Конечно, это чисто синтетический тест и экстремальные коэффициенты разбиения вряд ли будут использоваться в играх ближайшего времени, особенно учитывая тотальную мультиплатформенность. Нам интересен архитектурный потенциал, для чего и нужна «синтетика». Если в лёгких условиях новая Radeon HD 7970 успешно конкурирует с Geforce GTX 580, опережая её в самых лёгких режимах и идёт наравне в третьем, но в самых тяжёлых условиях с очень большим количеством треугольников с видеокартой Nvidia Geforce на чипе GF110 конкурировать просто невозможно — в задачах экстремальной тесселяции она значительно быстрее даже неоднократно улучшенных чипов AMD. Новый GPU хотя и ещё раз сократил отставание от конкурента в задачах обработки геометрии, но до распараллеленной работы 16 блоков тесселяции в GF110 всё ещё очень далеко. И даже GF114 при максимальном коэффициенте разбиения оказался быстрее Tahiti. Тем не менее, несмотря на проигрыш в наиболее суровых условиях с максимальным коэффициентом разбиения, в остальном HD 7970 на базе Tahiti выступила просто отлично, особенно по сравнению с Cayman и Cypress. Новая модель компании AMD в режимах лёгкой и средней нагрузки показывает впечатляющий прирост в скорости, и разница по сравнению с и так не медленной HD 6970 достигает 2,8 раза. Но такой прирост мы видим только в экстремальном случае, а чаще всего получается от 30 до 70%. Обещанной четырёхкратной разницы мы не увидели, по крайней мере пока. Но максимальная разница между решениями компаний достигается в условиях экстремальной тесселяции, которых не будет в играх и приближённых к ним бенчмарках. Поэтому мы ожидаем, что Tahiti заметно улучшит позиции компании AMD в существующих тестах с применением тесселяции, вроде 3DMark11 и Heaven. Давайте рассмотрим ещё один тест — демонстрационную программу Nvidia Realistic Water Terrain, также известную как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта. Смотрится она просто замечательно, вот чего не хватает в нынешних играх: Island не является чисто синтетическим тестом для измерения геометрической производительности, он содержит и сложные пиксельные и вычислительные шейдеры, и такая нагрузка ближе к реальным играм, в которых используются сразу все блоки GPU, а не только геометрические, как в предыдущем бенчмарке. Мы также протестировали программу при четырёх разных коэффициентах тесселяции, эта настройка называется Dynamic Tessellation LOD. И если при самом низком коэффициенте разбиения впереди оказываются все видеокарты компании AMD, то при усложнении работы платы на основе чипов от Nvidia начинают вырываться вперёд. И при увеличении коэффициента разбиения и сложности сцены производительность абсолютно всех Radeon падает сильно, в отличие от конкурирующих решений. Поведение Radeon HD 7970 в тесте любопытное. Сразу видно, что никаких кардинальных изменений в геометрическом конвейере сделано не было (в общем, это и не обещалось, так что никаких претензий). Если в самом лёгком режиме новая карта быстрее HD 6970 на 35%, а GTX 580 — на 64%, то уже при настройке LOD в значение 25 производительность новинки падает до уровня скорости GTX 560 Ti. Дальше — больше. При максимальном коэффициенте LOD разница между скоростью Geforce GTX 580 и Radeon HD 7970 достигла 3,5 раз! Проверим, получили ли мы обещанную четырёхкратную разницу между HD 7970 и HD 6970. Нет, максимальное отставание графического процессора Cayman составило менее чем два раза. А чаще всего и вовсе лишь полтора. В общем, нам не очень понятно, где искать четырёхкратное ускорение тесселяции, остаётся верить на слово, что где-то оно есть. Пока же констатируем очередную победу видеочипов от Nvidia — уж очень они хороши в геометрических тестах. Выводы по синтетическим тестам По результатам проведённых нами синтетических тестов новейшей видеокарты Radeon HD 7970, основанной на графическом процессоре Tahiti из семейства Southern Islands, а также результатам других моделей видеокарт производства обоих производителей дискретных видеочипов, можно сделать вывод о том, что новинка определённо станет лидером среди одночиповых решений, доступных на рынке. Это просто отличное продолжение удачных линеек Radeon HD 5800 и HD 6900, которое должно серьёзно укрепить позиции компании AMD в ближайшие месяцы. Графический процессор Tahiti выполнен на основе новой архитектуры с применением самого современного техпроцесса 28 нм, и он очень сильно отличается от всех предыдущих чипов компании. Хотя количество некоторых исполнительных блоков в нём выросло не так значительно (вычислительные блоки ALU и блоки ROP), но новый GPU отличается важными архитектурными изменениями, направленными на увеличение эффективности вычислений на GPU, а также на улучшение позиций в производительности обработки геометрических данных. Многие из наших синтетических тестов показали, что эффективность вычислений в сложных задачах и скорость тесселяции и выполнения геометрических шейдеров серьёзно выросли, хотя и не всегда настолько, насколько нами ожидалось. С видеочипами AMD случилось то, что обязано было случиться. То самое, что Nvidia уже прошла чуть раньше. При переносе акцента с графических вычислений на вычисления общего назначения, и соответствующем переходе от VLIW к скалярным архитектурам, а также добавлении других важных для GPGPU функций, вроде продвинутого кэширования и добавления планировщиков в каждый вычислительный блок, рост сложности чипа обязательно превысит рост пиковых показателей производительности. То есть, чисто фактически получается, что предыдущие решения могут быть эффективнее — хотя они менее производительны, но достигается это меньшими силами (в виде сложности чипа). Поясним это на примере. Преимущество Radeon HD 7970 перед тем же Radeon HD 5870 в некоторых синтетических тестах было далеким от разницы в сложности GPU — ведь Cypress имеет ровно вдвое меньше транзисторов (2,15 против 4,3 млрд), а в тестах очень редко отстаёт настолько же сильно. Получается, что старый чип эффективнее нового? Да, но только для устаревающих чисто графических задач! В случае же неграфических вычислений, да и многих сложных 3D-расчётов, Tahiti оказался даже более чем вдвое мощнее Cypress, и это подтверждается соответствующей синтетикой. За GPGPU будущее, и задачи видеочипов будут усложняться и далее, поэтому иного пути у AMD просто не было. Зато, благодаря архитектурным изменениям и своим характеристикам, видеокарта новой серии во многих синтетических тестах, которые ранее были «ахиллесовой пятой» решений AMD, стала более чем конкурентоспособной, особенно по сравнению с прямым конкурентом Geforce GTX 580, даже с учётом большей цены. Это отлично видно почти во всех синтетических тестах пакетов RightMark, Vantage, да и примерах из различных SDK. Но нашлись и потенциально… ну, не то, чтобы слабые, но недостаточно сильные стороны нового GPU. К таким относится не слишком большой рост производительности в некоторых математических тестах, да и по геометрическим возникают вопросы (например, где обещанное четырёхкратное ускорение?). Несмотря на бо́льшую сложность и площадь чипа по сравнению с тем же Cayman, результаты модели HD 7970 иногда ниже ожидаемых, что не всегда можно легко объяснить. Мы предполагаем, что в этом может быть виноват недостаток оптимизации драйверов, ведь для AMD эта архитектура абсолютно новая и требует тщательной и длительной шлифовки. В некоторых тестах могла подвести и система управления питанием PowerTune, которая могла понизить тактовые частоты при достижении максимального энергопотребления в наиболее требовательных синтетических тестах, не позволяя карте показать ожидаемую производительность, исходя из числа исполнительных блоков и их тактовой частоты. Хотя в целом результаты в синтетике были показаны весьма неплохие, и особенно приятно то, что инженеры AMD подтянули некоторые из своих слабых мест. К сожалению, в текущих играх гораздо сложнее будет добиться столь впечатляющих приростов, по сравнению с продвинутой синтетикой. Сразу по нескольким причинам. Даже просто потому, что производительность в игровых приложениях редко ограничена какой-то одной характеристикой видеокарты, в отличие от синтетики, а при такой радикальной смене графической архитектуры драйверы ещё нужно оптимизировать и оптимизировать. Кроме того, даже современные игры редко используют все возможности топовых видеокарт для ПК. Они часто упираются в скорость текстурных выборок и эффективный филлрейт (пропускную способность видеопамяти), а в таких условиях полностью раскрыться столь сложные чипы не могут. Придётся ждать или мощных ПК-эксклюзивов или следующего поколения игровых консолей. Предполагаем, что результаты Radeon HD 7970 в синтетических тестах будут подтверждены соответствующими цифрами и в «игровой» части нашего материала. В играх новая HD 7970 должна выступить сильнее всех конкурентов и опередить Geforce GTX 580 хотя бы на 30%, а то и больше. Вероятно, получится как обычно — в некоторых тестах преимущество будет больше, а в других — его почти не будет. В любом случае, HD 7970 обязана стать лучшей среди всех одночиповых моделей AMD и Nvidia, по крайней мере, все предпосылки к этому мы нашли. Так давайте же перейдём к следующей части материала — исследованию скорости в играх.

AMD Radeon HD 7970 3072 МБ 384-битной GDDR5 PCI-E

Карта имеет 3072 МБ памяти GDDR5 SDRAM, размещенной в 12 микросхемах на лицевой сторонe PCB.

За неимением собственных синтетических тестов DirectX 11 мы снова воспользовались примерами из пакетов SDK Microsoft и AMD и демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010) .

Также мы взяли приложения обоих производителей: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain , также известная как Island11 (автор — Тимофей Чеблоков, известный специалист по 3D-графике).

Синтетические тесты проводились на следующих видеокартах:

Radeon HD 7970 HD 7970 )
Radeon HD 6990 со стандартными параметрами (далее HD 6990 )
Radeon HD 6970 со стандартными параметрами (далее HD 6970 )
Radeon HD 5870 со стандартными параметрами (далее HD 5870 )
Geforce GTX 590 со стандартными параметрами (далее GTX 590 )
Geforce GTX 580 со стандартными параметрами (далее GTX 580 )

Для сравнения результатов новейшей видеокарты Radeon HD 7970 именно эти модели были выбраны по разным причинам. Radeon HD 6970 была взята, как прямой предшественник топового сегмента, HD 6990 — как сильнейшее (пусть и двухчиповое) решение на GPU предыдущей архитектуры, HD 5870 мы добавили, чтобы оценить прирост между двумя разными обновлениями архитектур и как GPU ровно вдвое меньшей сложности, чем Tahiti.

Выбранные решения Nvidia взяты потому, что Geforce GTX 580 — быстрейшая одночиповая модель этой компании, основанная на GPU последнего поколения. Хотя она не является конкурентом представленной видеокарты AMD по цене, её результаты интересны как максимальные для нынешних одночиповых решений Nvidia. А двухчиповая GTX 590 является экстремальным вариантом этой компании с более высокой ценой. В тестах DirectX 11 мы использовали ещё и Geforce GTX 560 Ti, которая нужна для того, чтобы оценить увеличенную геометрическую производительность нового графического процессора AMD.

Direct3D 9: тесты Pixel Filling

В этом тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

В нашем устаревшем тесте фильтрации 32-битных текстур из RightMark большинство видеокарт показывает цифры, далёкие от теоретически возможных. Вот и результаты текстурной синтетики в случае видеоплаты Radeon HD 7970 не дотянули до пикового значения, поэтому мы ещё раз рассмотрим скорость текстурирования по цифрам из теста 3DMark Vantage, в котором всегда получаются более реалистичные цифры.

У нас же получилось, что HD 7970 выбирает лишь до 80 текселей за такт из 32-битных текстур при билинейной фильтрации, что значительно ниже теоретической цифры в 128 отфильтрованных текселей. В остальном, всё получилось предсказуемо — все платы производства AMD показали более высокую производительность и опережают видеокарты компании Nvidia. Ведь даже топовая одночиповая Geforce GTX 580 имеет лишь 64 TMU и поэтому сильно уступает модели на базе чипа Tahiti, имеющем 128 TMU, работающих на более высокой частоте. Поэтому и разница более чем двукратная. Ну а двухчиповый GTX 590 в этом тесте показывает явно неадекватный результат.

Вариант платы на двух GPU от компании AMD также явно некорректно работает в нашем тесте, ведь HD 7970 обгоняет почти всегда даже его. Ну а своего предшественника новая модель обогнала примерно на 30%, что чуть хуже теоретически возможного значений. Впрочем, в случаях с малым количеством текстур, когда больше всего сказывается пропускная способность памяти, результат ещё ниже — порядка 25%.

Рассмотрим эти же результаты в тесте филлрейта:

Цифры показывают скорость заполнения, и в них мы видим всё то же самое, разве что с учетом количества записанных в буфер кадра пикселей. Максимальный результат почти всегда остаётся за новой топовой видеокартой из семейства Radeon HD 7900. Она имеет рекордное количество TMU, работающих на более высокой частоте и более эффективных в нашем синтетическом тесте. Переходим к текстам простых пиксельных шейдеров.

Direct3D 9: тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх.

Эти тесты слишком просты для современных GPU и в основном ограничены производительностью текстурирования и иногда филлрейтом. Поэтому они показывают далеко не все возможности современных видеочипов, но интересны с точки зрения устаревших игровых приложений. В двух самых простых тестах новый Radeon HD 7970 почти догнал даже двухчиповый HD 6990, но в более сложных занял позицию между HD 6990 и HD 6970. Интересно, как отличается поведение тестов на GPU разных архитектур. И тут Tahiti несколько ближе к GF110, чем к предшественнику. Естественно, не по абсолютным цифрам, разница в них весьма велика — от полутора до двух раз.

Производительность в других тестах ограничена по большей части скоростью текстурных модулей и филлрейтом, поэтому новый Radeon HD 7970 получился быстрее предшествующего HD 6970 примерно на 30-40%, что соответствует теории. Все платы AMD опережают обе топовые модели Geforce, разве что в сравнении HD 5870 и GTX 590 всё не так однозначно. В неудачах Nvidia в этих тестах явно виноват недостаток скорости текстурирования. Но даже пиксельный шейдер освещения тремя источниками по Фонгу, больше зависящий от математической производительности GPU, при запуске на GF110 сильно уступает и Cayman и уж тем более Tahiti.

Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

Вот и в этот раз получилось примерно то же самое, HD 7970 расположился примерно между одночиповой и двухчиповой моделями на базе Cayman из серии HD 6900. Тест Cook-Torrance более интенсивен вычислительно, и разница в нём примерно соответствует разнице в количестве ALU и их частоте. Поэтому данный тест лучше подходит для архитектуры AMD, чипы которой имеют большее количество математических блоков, и Tahiti тут не исключение.

Интересно, что в этом тесте HD 5870 обгоняет HD 6970, и похоже, что так получилось из-за худшей эффективности исполнения этого шейдера на более новом чипе с VLIW4 архитектурой. Так что, хотя новый Radeon HD 7970 и обошёл HD 6970, он оказался быстрее HD 5870 в этом тесте лишь на 20%.

Во втором, сильнее зависящем от скорости текстурирования, тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и видеокарты в нём располагаются по скорости текстурирования, с поправкой на разную эффективность использования TMU. В этом тесте у решений компании AMD всегда всё прекрасно, и HD 7970 обеспечивает очень хороший результат, хотя и хуже, чем у двухчиповой HD 6990, но гораздо лучший, чем у предшественника на Cayman. Топовая одночиповая плата Nvidia отстала более чем в 2,5 раза!

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье .
Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это — универсальные тесты, зависящие и от скорости блоков ALU, и от скорости текстурирования, в них важен общий баланс чипа, а также эффективность исполнения сложных программ. И производительность новой видеокарты AMD в тесте «Frozen Glass» оказалась не просто хорошей, но отличной! Вот что значит повышенная эффективность нового GPU. Radeon HD 7970 в первом тесте оказалась заметно быстрее даже чем двухчиповая HD 6990. А даже двухчиповая плата Nvidia осталась далеко позади, не говоря уже о Geforce GTX 580.

Вот во втором тесте «Parallax Mapping» решения Nvidia чувствуют себя немного лучше, и GTX 580 почти достаёт HD 6970. А вот до представленной сегодня HD 7970 очень далеко — новинка AMD опережает лучшую плату Nvidia на 80%, что явно говорит о влиянии и математических расчётов и скорости текстурирования. Интересно, что совсем старая HD 5870 снова быстрее, чем HD 6970. Да и новая HD 7970 обогнала предшественницу на 60%, что явно не оправдать сухими теоретическими цифрами. Тут сказалась заметно большая эффективность скалярной архитектуры, по сравнению с VLIW.

Впрочем, в случае видеокарт AMD всё очень сложно из-за PowerTune. Ведь синтетические тесты очень сильно «грузят» GPU расчётами и энергопотребление плат с поддержкой PowerTune в синтетике вполне может выходить за рамки выставленного ограничения. Следовательно, может снижаться и тактовая частота GPU, а вместе с ней и результаты будут показаны ниже, чем ожидалось. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:

Для обеих видеоплат Nvidia ситуация стала ещё печальнее, так как со скоростью текстурирования у всех современных чипов AMD всё намного лучше, и в этих тестах они лишь наращивают своё бесспорное преимущество. Даже двухчиповая GTX 590 не может соперничать с одночиповым HD 6970 в обоих тестах с упором на текстурирование, не говоря о GTX 580. Ну а представленная сегодня плата из семейства Radeon HD 7900 оказалась быстрейшей среди одночиповых карт, уступив только HD 6990. Разница между HD 7970 и HD 6970 оказалась равна 26-28%, что хорошо объяснимо теоретически, так как разница в скорости текстурирования у новинки немногим больше.

Но это были устаревшие задачи, в основном с упором в текстурирование, и иногда в филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9 API. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений:

Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D-графики .
Fur — процедурный шейдер, визуализирующий мех.

В самых сложных DX9-тестах из RightMark видеокарты производства Nvidia всегда выступают очень сильно, в противоположность всем предыдущим испытаниям нашего обзора. Эти тесты не ограничены производительностью текстурных выборок, а зависят скорее от эффективности исполнения шейдерного кода. И ранее Radeon HD 6970 явно улучшил позиции AMD в данном тесте, увеличив эффективность при переходе от архитектуры VLIW5 к VLIW4.

Ну а сегодня мы увидели очередной скачок в производительности решений компании, Radeon HD 7970 поднял их на недосягаемый уровень — новая одночиповая видеоплата обошла даже двухчиповый HD 6990 в обоих тестах! Эти задачи — отличный пример улучшения реальной производительности сложных вычислений при переходе от VLIW к скалярному исполнению.

Итак, в тестах сложных пиксельных шейдеров версии 3.0 новая топовая видеокарта AMD смогла не только догнать конкурентов, но и опередить со значительным запасом, чего не было очень давно. Скорость в обоих тестах PS 3.0 слабо зависит от ПСП и текстурирования, зато код отличается сложностью, с чем очень неплохо справляется и архитектура Nvidia и новейшая скалярная архитектура AMD. Эти тесты одни из первых, где мы отмечаем явное улучшение эффективности и наибольшую положительную разницу между предыдущей и новейшей архитектурами компании AMD по скорости.

Но приведём цифры, чтобы не быть голословными. Представленная новинка Radeon HD 7970 быстрее предшественницы более чем вдвое, и на 60-70% быстрее Geforce GTX 580, о чём совсем недавно мы даже и подумать бы не решились. Ведь решения Nvidia всегда были неоспоримыми лидерами в этой паре тестовых задач, но видеокарты на Cayman смогли к ним приблизиться, а быстрейший из Tahiti наконец-то опередил конкурента.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит от количества и эффективности блоков TMU, и от эффективности выполнения сложных программ. В варианте без суперсэмплинга дополнительное влияние на производительность оказывает эффективный филлрейт (производительность ROP) и пропускная способность памяти. Результаты при детализации уровня «High» получаются примерно в полтора раза ниже, чем при «Low», как и должно быть по теории, но для быстрейших решений разница несколько ниже.

Ранее в тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia были заметно сильнее, но начиная с предыдущего поколения компании AMD, разница начала сокращаться. Что же получилось у Radeon HD 7970? Отличный результат — новинка AMD снова оказалась быстрее двухчиповой платы предыдущего поколения, а одночиповая HD 6970 отстала вдвое, что явно говорит об увеличении эффективности новой архитектуры Southern Islands. Да и решения компании Nvidia остались позади, даже двухчиповая GTX 590 уступила представленной сегодня топовой модели Radeon HD 7970.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга увеличивает теоретическую нагрузку в четыре раза, и результаты решений Nvidia всегда падают, по сравнению с показателями видеокарт AMD. Теперь разница в эффективности выполнения данной задачи ещё более очевидна, и новая модель HD 7970 быстрее HD 6970 в 2,5 раза! Примерно столько же новинке уступила и Geforce GTX 580. Вполне естественно, что даже HD 6990 осталась далеко позади, а новая плата укрепила лидерство, да какое…

Второй шейдерный DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 несколько интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Эта диаграмма похожа на предыдущую без включения SSAA, но позиции Nvidia ещё немного ослабли, да и Radeon HD 6990 почти догнала представленную сегодня модель. В обновленном D3D10-варианте теста без суперсэмплинга HD 7970 показывает отличный результат, значительно опережая и HD 6970 и GTX 580 и даже GTX 590. Лидерство делят HD 7970 и HD 6990, а две старые видеокарты производства AMD показывают схожие результаты и сильно (в два и более раза медленнее новой модели) отстают. Посмотрим, что изменит включение суперсэмплинга, он может вызвать сильное падение скорости на платах Nvidia.

При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — карты производства AMD улучшили свои показатели относительно решений Nvidia.

И теперь Radeon HD 7970 снова становится единоличным лидером сравнения, показывая результаты выше, чем у HD 6990. Более старые одночиповые платы компании далеко позади, вместе с ними и Geforce GTX 580. И лишь более дорогие двухчиповые варианты от AMD и Nvidia способны хоть как-то приблизиться к свежей видеоплате. В общем, по двум шейдерным D3D10 тестам можно сделать вывод, что новая архитектура AMD и её представитель на чипе Tahiti великолепно справляется с «шейдерными» задачами, даже лучше традиционно сильных в них конкурентов от Nvidia.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов обычно соответствуют разнице в частотах и количестве исполнительных блоков, но с некоторым влиянием разной эффективности их использования. Все последние архитектуры AMD в таких случаях имеют подавляющее преимущество перед конкурирующими видеокартами Nvidia, и это объясняет результаты тестов, в которых решения AMD снова оказываются значительно более производительными.

Решения расположились примерно соответственно теории, но за некоторыми исключениями. На практике открылись некоторые нюансы, связанные с различной эффективностью. Теоретически, Geforce GTX 580 должна быть более чем вдвое (2,4 раза) медленнее, чем новая модель Radeon HD 7970, на практике же разница составляет лишь 80%, что значительно меньше. Да и при сравнении с HD 6970 возникают вопросы оптимизации новой архитектуры и драйверов для неё к этому тесту. При теоретическом превосходстве по вычислениям в 40%, новая плата AMD лишь на 28% быстрее предыдущей — HD 6970, а ещё меньше дистанция между ней и совсем старой HD 5870, основанной на VLIW5-архитектуре. То ли тест действительно лучше подходит для VLIW (особенно для VLIW5), то ли виноваты ещё сырые драйверы.

Есть и ещё одно объяснение — возможно, на результаты плат HD 7970 HD 6970 в этом тесте повлияла технология PowerTune, снизившая частоты при достижении предела энергопотребления. Впрочем, всё это мало что меняет при сравнении с конкурентом, ведь даже дорогущая двухчиповая плата Geforce GTX 590 лишь достигла уровня HD 6970 и HD 5870. А уж одночиповая GTX 580 так и вовсе далеко позади.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Мы видим почти идентичную предыдущей диаграмму, за исключением абсолютных цифр. В этот раз все GPU остались примерно на тех же позициях, ну разве что видеоплаты на базе Cayman и Cypress поменялись местами — теперь чуть-чуть быстрее более новая модель, но совсем незначительно. Хотя строгого соответствия теоретическим цифрам пиковой производительности всё так же нет, но их результаты всё-таки близки к сухой теории. Разница между HD 7990 и HD 6970 немного увеличилась.

В остальном, мы не нашли на графике ничего нового. Скорость рендеринга в этом тесте ограничена исключительно производительностью шейдерных блоков и их эффективностью, поэтому двухчиповая HD 6990 снова стала явным лидером, а за ней на приличном отдалении следует сегодняшняя новинка от AMD. Обе платы Geforce уступают даже устаревшей модели из семейства Radeon HD 5800, но и в этот раз преимущество решений AMD остаётся несколько меньшим, чем при сравнении теоретических цифр, и это снова говорит о худшей оптимизации или влиянии PowerTune.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не слишком сложная, и производительность ограничена в основном скоростью обработки геометрии, но ещё и пропускной способностью памяти/филлрейтом (в рамках решений одного производителя).

В этом тесте должны были проявиться улучшенные возможности Southern Islands по обработке геометрии, вот они и проявились. Новая видеокарта AMD действительно гораздо быстрее выполняет геометрические расчёты, по сравнению со всеми предыдущими решениями компании. Хотя AMD дала цифры прироста до 4 раз, но в этом тесте геометрическая производительность выросла примерно в 1,5-2 раза. В итоге, одночиповая видеокарта оказалась примерно на том же уровне, что и двухчиповая модель Radeon HD 6990 на GPU предыдущего поколения.

Столь значительное улучшение привело к тому, что Tahiti практически догнала топовую видеокарту Nvidia, хотя выполнение геометрических шейдеров у той в некоторых условиях должно быть ещё эффективнее. Ранее видеокарты Nvidia справлялись с работой примерно вдвое быстрее аналогичных видеокарт конкурента, а теперь разницы совсем нет. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры почти не изменились для решений Nvidia и большинства плат AMD. Лишь новая видеокарта из семейства HD 7900 в данном тесте слабо отреагировала на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер. Поэтому плата показала результат чуть выше, чем на предыдущей диаграмме. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах снова примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть менее чем в два раза медленней.

В этом тесте скорость рендеринга должна быть ограничена геометрической производительностью, и новая архитектура от компании AMD показывает себя просто отлично, даже немного обгоняя конкурента в лице Geforce GTX 580! Обе двухчиповые платы тут показали некорректные результаты, поэтому с ними сравнения не получится. Зато HD 7970 на 40-50% быстрее своей предшественницы — модели HD 6970, что явно объясняется архитектурными изменениями в GPU. Отличные результаты карты на Tahiti явно свидетельствуют о проведённой оптимизаций в блоках обработки геометрических данных в новом чипе.

Цифры должны сильно измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy».

А вот тут рекорда у Radeon HD 7970 не получилось, всё-таки разница между чипами AMD с традиционным графическим конвейером (в т. ч. и Cayman с Tahiti с двумя растеризаторами) и чипами с архитектурой Fermi, имеющей распараллеленную обработку геометрии, хорошо заметна. И результаты Geforce GTX 580, имеющей в своей основе чип GF110, хороши настолько, что она обгоняет лучшее из решений компании AMD (а это анонсированная сегодня модель) на 35-40%.

Хотя возможности новенького топового чипа AMD по обработке геометрии и скорости исполнения геометрических шейдеров явно выросли по сравнению с предыдущими видеокартами компании, и первое решение на чипе Tahiti показывают в этих тестах результаты на 22-28% выше, чем решения на базе Cayman. Вероятно, инженеры AMD решили, что такой оптимизации блоков установки треугольников и обработки геометрии будет вполне достаточно.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Предыдущие исследования показали, что на результаты этого теста влияет сразу многое: и скорость текстурирования и пропускная способность памяти. И результаты видеокарт часто ограничены некоей преградой — посмотрите хотя бы на сравнение двухчиповой GTX 590 и одночипового аналога — между ними почти нет разницы. Хотя HD 6990 вдвое быстрее HD 6970.

Да и новая плата AMD из семейства Radeon HD 7970 показала очень хорошие результаты, почти догнав лидирующую HD 6990. Что касается одночиповых конкурентов, то она лучшая во всех трёх режимах. Преимущество над HD 6970 составило от 25% до 75%, в зависимости от режима. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

А вот в этот раз взаимное расположение карт на диаграмме заметно изменилось, и особенно это касается тяжёлого режима. При малом количестве полигонов скорость рендеринга в этом тесте упирается в ПСП, поэтому платы AMD и были так сильны на предыдущей диаграмме.

А вот в тяжёлых режимах разница между одночиповой картой Nvidia и новинкой AMD сократилась, и они соперничают между собой в довольно плотной борьбе. Старшая двухчиповая видеокарта семейства Radeon HD 6900 обгоняет все остальные решения и является лучшей в сравнении, хотя в тяжёлом режиме к ней подбирается и Geforce GTX 590. Новая же одночиповая HD 7970 выигрывает у предшественницы снова до 70%, что может говорить о сильном влиянии ПСП.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» абсолютно не похожи на то, что мы видели на предыдущих диаграммах. В этом тесте видеокарты AMD и Nvidia, кроме HD 6990 и HD 7970, показывают очень близкие результаты, что снова можно списать на ограничение пропускной способностью видеопамяти, так как этот показатель у всех представленных видеокарт близок.

А вот новая модель из семейства Southern Islands смогла выделиться, в сложных условиях сравнения почти догнав двухчиповую HD 6990, которая стала лучшей среди всех видеокарт. Разница между картами на базе графических процессоров Cayman и Tahiti снова составила 25-70% в пользу более нового решения. Рассмотрим второй вариант этого же теста:

И тут произошли изменения, аналогичные тем, что мы видели ранее — видеокарты Nvidia «просели» только в лёгком режиме, а большинство решений AMD — сразу во всех. Впрочем, это не позволило платам калифорнийской компании догнать новинку семейства Radeon 7900. Которая, кстати, обогнала всех в среднем и тяжёлом режимах, уступив двухчиповой HD 6990 только один раз.

В режиме с малым количеством полигонов разница между решениями не такая большая, а вот в среднем и тяжёлом старые решения AMD уступают, затем идут платы Nvidia (двухчиповая лишь немного быстрее одночиповой GTX 580), HD 6990 и HD 7970. Анонсированная сегодня плата семейства HD 7900 в тестах вершинных выборок показала себя отлично, с запасом обогнав и конкурирующие видеокарты Nvidia и предшественников от того же производителя.

3DMark Vantage: тесты Feature

Как всегда, синтетические тесты из пакета 3DMark Vantage могут показать нам что-то, что мы ранее упустили. Тесты Feature этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших. При анализе результатов новой видеокарты Radeon HD 7970 в этом пакете мы сможем сделать какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Хотя тест компании Futuremark всё так же не показывает теоретически возможного уровня скорости текстурных выборок, но всё же эффективность видеокарт и AMD и Nvidia в нём заметно выше, чем в нашем из RightMark. Поэтому в данном текстурном тесте получается несколько иное соотношение результатов, которое ближе к истине.

Первая видеокарта из нового семейства компании AMD показывает результат, близкий к соответствующему теоретическому параметру, и она справляется с работой эффективнее предыдущего поколения. Radeon HD 7970 опережает HD 6970 более чем на 50%, хотя по теории разница составляет лишь 40%. Вероятнее всего, текстурные модули Tahiti используются эффективнее из-за улучшений в системе памяти и кэширования, что и вызвало повышенный результат.

Конечно, новая одночиповая модель не дотянула до лидера — двухчиповой HD 6990, но это и не ожидалось. И всё же, хорошо видно, что текстурная производительность графического чипа Tahiti заметно выросла по сравнению с Cayman. Ну а GTX 580 проигрывает новинке по скорости текстурирования целых 2,3 раза. Даже двухчиповая карта Nvidia догоняет лишь HD 6970.

Feature Test 2: Color Fill

Это тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Ситуация в тесте производительности блоков ROP серьёзно отличается от теста текстурирования. Цифры этого подтеста из 3DMark Vantage показывают производительность блоков ROP, но с влиянием величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»). И тут новая модель HD 7970 показывает отличный результат, отстав лишь от двух топовых видеокарт AMD и Nvidia из предыдущих поколений, имеющих по два GPU на борту.

А что же с эффективностью использования блоков ROP, которой хвалились AMD? Действительно, лишь 32 блока ROP в новом чипе Tahiti совсем не ограничивают скорость рендеринга даже в специализированном тесте. И мы отмечаем несколько бо́льшую эффективность блоков ROP и более высокую скорость заполнения у новой видеокарты компании AMD по сравнению со старыми моделями. Разница между HD 7970 и HD 6970 более чем 50%, что явно говорит о большем влиянии уже ПСП, а не чистой производительности блоков ROP.

Что касается сравнения с Nvidia, то и тут разница по скорости (35%) соответствует теоретической разнице в ПСП (36%), а не чистой скорости блоков ROP. Получается, что 32 таких блока в Cayman просто были лишними и их возможности никогда не использовались полностью.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Этот тест отличается от других подобных тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от всего понемногу. Для достижения высокой скорости тут важен баланс блоков GPU, также весьма заметно влияет на скорость и эффективность выполнения ветвлений в шейдерах.

Сравнительные результаты видеокарт AMD на диаграмме в целом похожи на то, что мы видели в тесте текстурной производительности из 3DMark Vantage, кроме того, что новый Radeon HD 7970 явно эффективнее и в этой задаче, ведь он снова почти догнал двухчиповую HD 6990 — отличный результат! Платы Nvidia в данном случае получили некоторое увеличение производительности, что подтверждает вывод о том, что не только текстурная производительность влияет на результаты этого теста.

Итак, новая модель компании AMD отлично выступила, совсем немного уступив двухчиповой плате на базе двух Cayman. Одночипового предшественника она обогнала на 66%. Эта цифра не соответствует ускорению от Cayman к Tahiti ни по одному из теоретических параметров и может означать улучшение эффективности исполнения сложных вычислений с ветвлениями. Даже считавшийся ранее неплохим результат Geforce GTX 580 вдвое хуже, чем у новинки AMD. Собственно, все видеокарты этого производителя оказались быстрее топовой модели линейки Geforce GTX 500 на базе одного чипа.

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит от многих параметров, но уже других. Основными факторами тут являются производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Так что вполне логично, что именно видеокарты производства Nvidia чувствуют себя в этом приложении отлично, значительно опережая конкурентов.

И даже представленная сегодня Radeon HD 7970, несмотря на явное улучшение производительности, по сравнению с HD 6970, не смогла тут составить конкуренцию одночиповой Geforce GTX 580 и немного уступила ей. Это один из тех геометрических тестов, в которых видно преимущество у недавно видеокарт HD 6900 перед предыдущими линейками, в которых увеличили скорость обработки геометрии и выполнения геометрических шейдеров. Radeon HD 7970 улучшила результат ещё на 35%, но этого оказалось мало — решения Nvidia продолжают лидировать в этом тесте. Хотя отметим, что новая модель всё же значительно улучшила позиции компании AMD в геометрических тестах.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Результаты очередного теста из пакета 3DMark Vantage похожи на те, что мы видели на предыдущей диаграмме, но скорость обработки геометрии в нём стала ещё важнее. И поэтому видеокарты Nvidia вывались вперёд ещё дальше, оставив позади даже двухчипового монстра — Radeon HD 6990. Увы, но это факт — даже GTX 580 обогнала все платы AMD, в том числе и новёхонькую модель на базе графического процессора Tahiti.

Увы, но хотя плата, основанная на новом чипе, и показала более сильный результат, по сравнению с решениями на базе Cayman и Cypress, но от Geforce отстало. Разница между HD 7970 и HD 6970 в этом сравнении составила чуть больше 30%, что указывает на явное влияние скорости ALU. В синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, решения AMD продолжают отставать от конкурирующих видеокарт соперника, имеющих весьма высокую скорость обработки геометрии.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует очень много математических расчётов.

Интересно, что в математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы увидели совершенно иную картину, по сравнению с аналогичными тестами из нашего тестового пакета. Показанная на диаграмме производительность решений лишь очень примерно соответствует тому, что должно получаться по теории, а также расходится и с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0. Например, явно видно, что новая видеокарта в этом тесте подобралась гораздо ближе к теоретической скорости, по сравнению с картами на GPU с VLIW-архитектурой.

Давайте разберёмся в причинах. В своё время, HD 6970 не усилила пиковую производительность математических вычислений по сравнению с HD 5870, но одним этим отставания Cayman не объяснить. Причиной могла быть как меньшая эффективность архитектуры VLIW4, так и умная система управления питанием, «зарезавшая» тактовую частоту и производительность решений при достижении установленного порога энергопотребления.

Но ведь на HD 7970 она не сказалась. Скорее всего, причина как раз в скалярной архитектуре нового чипа. Потому что соотношение цифр производительности в тесте и теоретических на это явно указывает. По теории, HD 6970 обладает 0,7 математической мощи новой карты, но по этому тесту получилось лишь 0,56. Примерно такая же разница получилась и для других плат AMD. А вот при сравнении GTX 580 и HD 7970, имеющих скалярные архитектуры, теоретическое соотношение равно 0,42 (Tahiti более чем вдвое быстрее), и практическое тоже 0,42. То есть, эффективность использования имеющихся ALU у этих чипов разных производителей абсолютно одинаковая! В отличие от Cayman и Cypress, имеющих VLIW архитектуру.

В любом случае, обеих своих конкурентов от Nvidia новая плата AMD обходит с огромным запасом, и Nvidia явно нужно резко усилить математическую мощь в будущих решениях. А пока что получается привычная картина — видеокарты Geforce показывают низкие результаты в таких случаях, когда простая и интенсивная математика выполняется на платах Radeon значительно быстрее. И выход Southern Island только усугубил ситуацию.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать новые решения компании AMD в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Возможно, это и не самый удачный пример для вычислительных шейдеров, но разницу в производительности показывает довольно чётко. Разницы между расчётами в вычислительном и пиксельном шейдерах для видеокарт AMD почти нет, а на Nvidia немного быстрее выполняется пиксельный.

AMD Radeon HD 6970 оказалась быстрее предшественницы HD 5870, и выступила на уровне Geforce GTX 580, но представленная сегодня модель HD 7970 значительно опережает их все и становится лидером (двухчиповые видеокарты в этой синтетике мы решили не использовать). GTX 560 Ti взята в основном для тестов геометрии, ну и для того, чтобы оценить разницу между решениями из разных ценовых сегментов.

Итак, анонсированные плата на новом чипе Tahiti опережает аналог на базе Cayman на 40%, что полностью соответствует разнице в теоретической производительности вычислительных блоков. В свою очередь, преимущество над конкурирующей GTX 580 равно 30-40% (в зависимости от типа шейдерной программы), что явно ниже теоретически возможного. GTX 560 Ti отстаёт очень сильно, более чем вдвое.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

Результаты в этом тесте весьма необычные, для устаревших решений AMD похожие на цифры из математического теста 3DMark Vantage — Cypress оказался быстрее Cayman. Несмотря на большое теоретическое превосходство в пиковых цифрах, быстрейшая видеокарта AMD — представленная сегодня новинка Radeon HD 7970 — лишь на 21% опережает топовое решение Nvidia. И даже GTX 560 Ti не так уж сильно отстаёт. Старые модели семейств HD 6900 и HD 5800 показывают результаты, близкие к показателям Geforce GTX 580.

Больше всего нам интересна разница между результатами решений на Cayman и Tahiti, и в этом случае мы видим преимущество свежей модели, равное 36%. Это чуть меньше теоретической разницы между данными моделями, но всё-таки близко к ней. Почему же обе карты не очень ярко выступили на фоне очень старой HD 5870? Возможно, виновата сниженная PowerTune частота или недостаток оптимизации драйверов под новую архитектуру. Посмотрим, может в тестах тесселяции Tahiti наконец-то покажет значительное ускорение.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но главным нововведением в Direct3D 11 всё же считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033, Civilization V, Crysis 2, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

Интересно, что parallax occlusion mapping (средние столбики на диаграмме) на видеокартах от обоих производителей выполняется гораздо менее эффективно, чем тесселяция (нижние столбики), а умеренная тесселяция не даёт большого падения производительности — сравните верхние и нижние столбцы. То есть качественная имитация геометрии при помощи пиксельных расчётов обеспечивает даже меньшую производительность, чем оттесселированная геометрия с displacement mapping.

Что касается производительности видеокарт относительно друг друга, то давайте рассмотрим сначала попиксельные техники. В тесте простого бампмаппинга лидирует новая видеокарта AMD, она опережает и HD 6970 и GTX 580 на 27% и 36% соответственно. А вот в подтесте сложных попиксельных расчётов (вспоминаем тесты parallax mapping выше по тексту) до выхода Cayman видеокарты Geforce были быстрее решений AMD, равно как и при включенной тесселяции. С выходом Radeon HD 6970 в подтесте с тесселяцией оказались заметно быстрее HD 5870, и в тесте с небольшим коэффициентом разбиения треугольников HD 6970 обогнала даже GTX 580.

Гораздо интереснее то, что мы увидели на графике с меткой Radeon HD 7970. Тесселяция тут не слишком сложная, поэтому новая видеокарта выиграла у предшествующей модели не так уж много — около 30%. Другое дело — тест POM. В этом подтесте новая HD 7970 просто разорвала все остальные решения в клочья. Преимущество перед HD 6970 и GTX 580 лишь немного не дотягивает до двукратного. Очередной суперрезультат в тесте parallax mapping, говорящий о высокой эффективности исполнения сложных шейдерных программ.

Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

А вот в этом примере мы видим уже полноценное сравнение геометрической мощи решений AMD и Nvidia в разных условиях. И оно получилось весьма интересным, на наш взгляд. Сильно выделяется графическая архитектура Fermi, да и чип новой архитектуры Tahiti от AMD. Конечно, это чисто синтетический тест и экстремальные коэффициенты разбиения вряд ли будут использоваться в играх ближайшего времени, особенно учитывая тотальную мультиплатформенность. Нам интересен архитектурный потенциал, для чего и нужна «синтетика».

Если в лёгких условиях новая Radeon HD 7970 успешно конкурирует с Geforce GTX 580, опережая её в самых лёгких режимах и идёт наравне в третьем, но в самых тяжёлых условиях с очень большим количеством треугольников с видеокартой Nvidia Geforce на чипе GF110 конкурировать просто невозможно — в задачах экстремальной тесселяции она значительно быстрее даже неоднократно улучшенных чипов AMD. Новый GPU хотя и ещё раз сократил отставание от конкурента в задачах обработки геометрии, но до распараллеленной работы 16 блоков тесселяции в GF110 всё ещё очень далеко. И даже GF114 при максимальном коэффициенте разбиения оказался быстрее Tahiti.

Тем не менее, несмотря на проигрыш в наиболее суровых условиях с максимальным коэффициентом разбиения, в остальном HD 7970 на базе Tahiti выступила просто отлично, особенно по сравнению с Cayman и Cypress. Новая модель компании AMD в режимах лёгкой и средней нагрузки показывает впечатляющий прирост в скорости, и разница по сравнению с и так не медленной HD 6970 достигает 2,8 раза. Но такой прирост мы видим только в экстремальном случае, а чаще всего получается от 30 до 70%. Обещанной четырёхкратной разницы мы не увидели, по крайней мере пока.

Но максимальная разница между решениями компаний достигается в условиях экстремальной тесселяции, которых не будет в играх и приближённых к ним бенчмарках. Поэтому мы ожидаем, что Tahiti заметно улучшит позиции компании AMD в существующих тестах с применением тесселяции, вроде 3DMark11 и Heaven.

Давайте рассмотрим ещё один тест — демонстрационную программу Nvidia Realistic Water Terrain, также известную как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта. Смотрится она просто замечательно, вот чего не хватает в нынешних играх:

Island не является чисто синтетическим тестом для измерения геометрической производительности, он содержит и сложные пиксельные и вычислительные шейдеры, и такая нагрузка ближе к реальным играм, в которых используются сразу все блоки GPU, а не только геометрические, как в предыдущем бенчмарке.

Мы также протестировали программу при четырёх разных коэффициентах тесселяции, эта настройка называется Dynamic Tessellation LOD. И если при самом низком коэффициенте разбиения впереди оказываются все видеокарты компании AMD, то при усложнении работы платы на основе чипов от Nvidia начинают вырываться вперёд. И при увеличении коэффициента разбиения и сложности сцены производительность абсолютно всех Radeon падает сильно, в отличие от конкурирующих решений.

Поведение Radeon HD 7970 в тесте любопытное. Сразу видно, что никаких кардинальных изменений в геометрическом конвейере сделано не было (в общем, это и не обещалось, так что никаких претензий). Если в самом лёгком режиме новая карта быстрее HD 6970 на 35%, а GTX 580 — на 64%, то уже при настройке LOD в значение 25 производительность новинки падает до уровня скорости GTX 560 Ti. Дальше — больше. При максимальном коэффициенте LOD разница между скоростью Geforce GTX 580 и Radeon HD 7970 достигла 3,5 раз!

Проверим, получили ли мы обещанную четырёхкратную разницу между HD 7970 и HD 6970. Нет, максимальное отставание графического процессора Cayman составило менее чем два раза. А чаще всего и вовсе лишь полтора. В общем, нам не очень понятно, где искать четырёхкратное ускорение тесселяции, остаётся верить на слово, что где-то оно есть. Пока же констатируем очередную победу видеочипов от Nvidia — уж очень они хороши в геометрических тестах.

Выводы по синтетическим тестам

По результатам проведённых нами синтетических тестов новейшей видеокарты Radeon HD 7970, основанной на графическом процессоре Tahiti из семейства Southern Islands, а также результатам других моделей видеокарт производства обоих производителей дискретных видеочипов, можно сделать вывод о том, что новинка определённо станет лидером среди одночиповых решений, доступных на рынке. Это просто отличное продолжение удачных линеек Radeon HD 5800 и HD 6900, которое должно серьёзно укрепить позиции компании AMD в ближайшие месяцы.

Графический процессор Tahiti выполнен на основе новой архитектуры с применением самого современного техпроцесса 28 нм, и он очень сильно отличается от всех предыдущих чипов компании. Хотя количество некоторых исполнительных блоков в нём выросло не так значительно (вычислительные блоки ALU и блоки ROP), но новый GPU отличается важными архитектурными изменениями, направленными на увеличение эффективности вычислений на GPU, а также на улучшение позиций в производительности обработки геометрических данных. Многие из наших синтетических тестов показали, что эффективность вычислений в сложных задачах и скорость тесселяции и выполнения геометрических шейдеров серьёзно выросли, хотя и не всегда настолько, насколько нами ожидалось.

С видеочипами AMD случилось то, что обязано было случиться. То самое, что Nvidia уже прошла чуть раньше. При переносе акцента с графических вычислений на вычисления общего назначения, и соответствующем переходе от VLIW к скалярным архитектурам, а также добавлении других важных для GPGPU функций, вроде продвинутого кэширования и добавления планировщиков в каждый вычислительный блок, рост сложности чипа обязательно превысит рост пиковых показателей производительности. То есть, чисто фактически получается, что предыдущие решения могут быть эффективнее — хотя они менее производительны, но достигается это меньшими силами (в виде сложности чипа).

Поясним это на примере. Преимущество Radeon HD 7970 перед тем же Radeon HD 5870 в некоторых синтетических тестах было далеким от разницы в сложности GPU — ведь Cypress имеет ровно вдвое меньше транзисторов (2,15 против 4,3 млрд), а в тестах очень редко отстаёт настолько же сильно. Получается, что старый чип эффективнее нового? Да, но только для устаревающих чисто графических задач! В случае же неграфических вычислений, да и многих сложных 3D-расчётов, Tahiti оказался даже более чем вдвое мощнее Cypress, и это подтверждается соответствующей синтетикой. За GPGPU будущее, и задачи видеочипов будут усложняться и далее, поэтому иного пути у AMD просто не было.

Зато, благодаря архитектурным изменениям и своим характеристикам, видеокарта новой серии во многих синтетических тестах, которые ранее были «ахиллесовой пятой» решений AMD, стала более чем конкурентоспособной, особенно по сравнению с прямым конкурентом Geforce GTX 580, даже с учётом большей цены. Это отлично видно почти во всех синтетических тестах пакетов RightMark, Vantage, да и примерах из различных SDK.

Но нашлись и потенциально… ну, не то, чтобы слабые, но недостаточно сильные стороны нового GPU. К таким относится не слишком большой рост производительности в некоторых математических тестах, да и по геометрическим возникают вопросы (например, где обещанное четырёхкратное ускорение?). Несмотря на бо́льшую сложность и площадь чипа по сравнению с тем же Cayman, результаты модели HD 7970 иногда ниже ожидаемых, что не всегда можно легко объяснить. Мы предполагаем, что в этом может быть виноват недостаток оптимизации драйверов, ведь для AMD эта архитектура абсолютно новая и требует тщательной и длительной шлифовки. В некоторых тестах могла подвести и система управления питанием PowerTune, которая могла понизить тактовые частоты при достижении максимального энергопотребления в наиболее требовательных синтетических тестах, не позволяя карте показать ожидаемую производительность, исходя из числа исполнительных блоков и их тактовой частоты.

Хотя в целом результаты в синтетике были показаны весьма неплохие, и особенно приятно то, что инженеры AMD подтянули некоторые из своих слабых мест. К сожалению, в текущих играх гораздо сложнее будет добиться столь впечатляющих приростов, по сравнению с продвинутой синтетикой. Сразу по нескольким причинам. Даже просто потому, что производительность в игровых приложениях редко ограничена какой-то одной характеристикой видеокарты, в отличие от синтетики, а при такой радикальной смене графической архитектуры драйверы ещё нужно оптимизировать и оптимизировать. Кроме того, даже современные игры редко используют все возможности топовых видеокарт для ПК. Они часто упираются в скорость текстурных выборок и эффективный филлрейт (пропускную способность видеопамяти), а в таких условиях полностью раскрыться столь сложные чипы не могут. Придётся ждать или мощных ПК-эксклюзивов или следующего поколения игровых консолей.

Предполагаем, что результаты Radeon HD 7970 в синтетических тестах будут подтверждены соответствующими цифрами и в «игровой» части нашего материала. В играх новая HD 7970 должна выступить сильнее всех конкурентов и опередить Geforce GTX 580 хотя бы на 30%, а то и больше. Вероятно, получится как обычно — в некоторых тестах преимущество будет больше, а в других — его почти не будет. В любом случае, HD 7970 обязана стать лучшей среди всех одночиповых моделей AMD и Nvidia, по крайней мере, все предпосылки к этому мы нашли. Так давайте же перейдём к следующей части материала — исследованию скорости в играх.

График температурных режимов видеокарт

Даже если бы новинка показала не самые лучшие «температуры», после столь высоких результатов производительности мы бы смогли ей это простить. Но в нашем великодушии нет необходимости. Radeon HD 7970 греется меньше, нежели предшественник (Radeon HD 6970) при гораздо более высокой производительности. При этом, как я говорил выше, если не изменять скорость вращения вентилятора самостоятельно, то, чтобы услышать карту придется очень постараться. Думаю, при закрытом корпусе это и вовсе невозможно.

При разгоне температуры ниже, чем на стандартных настройках, из-за того самого ручного увеличения оборотов для стабильности.

Кстати, у нас есть еще несколько тестов этой же видеокарты с альтернативной СО и на другой системе. Вы можете ознакомиться с результатами, чтобы понять, как современные процессоры влияют на производительность в популярных приложениях. Стоит отметить, что стоковая система охлаждения на видеокарте производства ASUS проиграла всего один градус в номинале двухвентиляторной системе от XFX , это хороший результат.

Заключение

Разгон видеокарты ASUS HD 7970 приятно удивил. Графический процессор разогнался с дефолтных 925 МГц до 1200 без увеличения напряжения. Этим и обусловлен столь высокий прирост производительности при разгоне. Если честно, то это очень приятный момент. В последнее время видеокарты разгоняются все хуже, поэтому надобность в оверклокинге пропадает: если видеокарта не вытягивает игру в дефолте, то бедный разгон на 50 МГц ситуацию не исправит. Здесь явно другой случай.

Единственное, что смущает в новинке, это непомерный уровень шума при ручном увеличении оборотов. А оно необходимо для успешного разгона, иначе вы имеете все шансы спалить видеокарту. Но, я думаю, со временем эта проблема будет решена - появится множество альтернативных систем охлаждения. Главное, чтобы разгонный потенциал не изменился в худшую сторону.

Высокая производительность, низкое тепловыделение, а также новые фирменные технологии делают видеокарту AMD Radeon HD 7970 лучшим однопроцессорным видеоадаптером на сегодняшний день. Более того, при разгоне новинка легко тягается с двухпроцессорным монстром Radeon HD 6990. Поэтому если у вас возник вопрос: «что лучше: HD 7970 или HD 6990?», то я рекомендую выбрать первый вариант. С ним у вас не будет проблем при активации CrossFireX, не будет внезапных просадок производительности, как это бывает с двухголовыми картами. Три гигабайта видеопамяти - приятный бонус к покупке. К сожалению, использоваться они будут крайней степени редко, но лучше с ними, чем без них.

В общем, видеокарта ASUS HD 7970 удалась на славу, и оставляет очень приятные впечатления. Будем надеяться, что продолжение новой линейки, которое выйдет уже совсем скоро, порадует нас не меньше.

Новые топовые ускорители всегда выходят на рынок через какое-то время после анонса предыдущих, но в этот раз срок ожидания оказался более длительным, чем ранее. Однако сегодня мы все-таки можем лицезреть появление очередного лидера, ускорителя, способного взойти на вершину, превзойдя лидера прежнего - однопроцессорный Nvidia Geforce GTX 580. Правда, речь идет именно об однопроцессорных 3D-акселераторах: не забывайте, что двухпроцессорные находятся в особой нише, имея цену от 800 долларов и выше, а также свои нюансы. Можно предположить, что прирост производительности при смене поколений не превысит полтора раза, поэтому новинка уж точно не переплюнет двухпроцессорные ускорители предыдущего поколения.

Это все к тому, что читателям пора привыкнуть сравнивать однопроцессорные с однопроцессорными и не ждать, когда такой новый ускоритель поставит абсолютный рекорд по производительности. Вот когда на базе новых ядер появятся и соответствующие двухпроцессорные гиганты - они уже смогут штурмовать абсолютные значения, достигнутые прежними лидерами в 3D. А пока мы про двухпроцессорные модели с их очень далекими от народа ценами забываем.

Итак, Radeon HD 7970, он же Tahiti в кодовом именовании. Что дает нам выход этого решения? Чем порадует? Передаем слово Алексею Берилло, он расскажет о теории вопроса.

Часть 1: Теория и архитектура

Наконец-то это свершилось! Многомесячное ожидание новых GPU, произведённых по новым технологическим нормам 28 нм, закончилось под самый конец уходящего года. Мы неоднократно писали о проблемах, вызванных трудностями и задержками в освоении нового техпроцесса, компаниям AMD и Nvidia приходилось выпускать всё новые и новые модели видеокарт, основанных на старых GPU, и даже вносить корректировки в функциональные возможности промежуточных решений. Например, серия Radeon HD 6900 получилась переходной от архитектуры, начавшей свой путь в Radeon HD 5800, к анонсируемой сегодня совершенно новой.

Рано или поздно проблемы с новым производством обязаны были закончиться, и вот они если не исчезли совсем, то хотя бы позволяют анонсировать свежие решения и начать массовые (степень их массовости пока под вопросом, впрочем) поставки. Самое время - ведь рынок ПК-игр переживает очередной небольшой расцвет из-за устаревания аппаратной начинки игровых консолей, даже с учётом засилья мультиплатформенных проектов.

Если брать даже чисто финансовые показатели, то продажи на игровом рынке ПК превысили 15 миллиардов долларов в текущем году, а в течение двух лет аналитиками ожидается рост объёма рынка до 20 миллиардов в той же валюте. При этом есть и стремительно растущие рынки, вроде Китая, который является крупнейшим рынком ПК-игр - продажи на нём достигли 4,8 млрд. долларов в 2010 году. Да и российский рынок является одним из важнейших даже для западных компаний, достаточно вспомнить выпуск специальных видеокарт ограниченного выпуска, рассчитанных в т. ч. и на нашу страну.

Понятное дело, что даже с учётом того, что большинство игр мультиплатформенные, они становятся сложнее графически. ПК-версии многих проектов выглядят лучше консольных собратьев по нескольким показателям, и не только экстенсивным, вроде разрешения рендеринга и текстур. Например, известнейшая игра Battlefield 3 использует многие возможности DirectX 11 для того, чтобы улучшить качество рендеринга. Насколько это удаётся разработчикам и каким был прогресс в качестве изображения, компания AMD предлагает посмотреть по таким примерам, как сериалы Battlefield и Deus Ex:

Как видно даже по этим маленьким скриншотам, скачки в качестве за прошедшие несколько лет вполне себе ощутимы. Но ещё более значительными они становятся, если учитывать рост разрешения рендеринга за всё это время. Даже если взять ситуацию трёхлетней давности, то с тех пор рынок шагнул далеко вперёд. Так, если в 2008 году основными на рынке игровых мониторов были модели с размером экрана 22″ и разрешением 1680×1050 пикселей, то в 2011 году распространение получили 24″ модели с FullHD-разрешением 1920×1080.

Но самое интересное даже не в размере и разрешении экрана. Если в 2008 году цена такого дисплея была порядка $360, то цены 24″ моделей в нынешнем году начинаются от $170-180. То есть, покупатель теперь получает чуть больший физически экран, имеющий почти на 20% больше пикселей, меньше чем за половину цены трёхгодичной давности для гораздо худшего монитора. Именно поэтому устройства с FullHD-разрешением уже стали наиболее распространёнными на рынке - ведь они стоят совсем недорого.

Ещё одним модным веянием в последние годы стало повышение энергоэффективности. Пользователи голосуют за эффективные устройства, использующие как можно меньше электроэнергии. Они и меньше воздействуют на окружающую среду, что влияет на умы сознательных граждан Земли, и позволяют экономить деньги на счетах за электричество, что весьма важно для остальных людей, менее сознательных. И компания AMD уделяет особенное внимание повышению энергоэффективности своих GPU, а также видеокарт на их основе.

Ну и нельзя не отметить значительный сдвиг графических процессоров в сторону неграфических вычислений (GPGPU). Все современные графические чипы делаются теперь совсем не только для игр, но и ускорения требовательных к вычислительной мощи задач, которые хорошо поддаются распараллеливанию. И хотя главным движителем рынка в эту сторону является компания Nvidia, выпускающая для рынка ПК лишь графические чипы, AMD старается не отстать. Кроме того, по пиковой вычислительной мощности лидируют именно видеокарты этой компании. Рост теоретически достижимой производительности можно пронаблюдать на диаграмме:

Как видите, скачки пиковой скорости при каждом новом технологическом процессе достигаются весьма значительные. Нужно ещё учесть, что техпроцесс 28 нм только начал свой путь, и можно с уверенностью сказать, что в будущем цифра в 3,79 терафлопа значительно подрастёт.

К слову о техпроцессах - именно компания AMD является их первопроходцем на рынке графических процессоров. В последние несколько лет эта компания опережала своего единственного сильного конкурента - Nvidia - по внедрению всех новых техпроцессов. Вот и сейчас они первые успели анонсировать свой новый продукт ещё в уходящем 2011 году (фотографии кристаллов схематичны, к сожалению):

28 нм - наиболее совершенная технология производства чипов, массово доступная на сегодняшний день, и именно по этой технологии производятся анонсируемые сегодня видеочипы серии AMD Radeon HD 7000. Эти решения поддерживают все современные индустриальные стандарты: GDDR5, PCI Express, DirectX и другие. Предыдущие серии видеокарт были настолько удачны, что AMD недавно отрапортовала о поставке 100 миллионов продуктов с поддержкой DirectX 11. И в результате, более двух третей DX11-совместимых видеокарт на руках у пользователей имеют графические процессоры производства этой компании.

Тем более значительным событием представляется сегодняшний анонс первой в мире линейки графических чипов под кодовым названием «Southern Islands» («южные острова»), обладающей поддержкой обновленной шины PCI Express 3.0 и будущей версии DirectX 11.1. Все подробности о первой видеокарте серии вы прочитаете далее, а сейчас мы вкратце расскажем о решениях, вошедших в новейшую линейку.

Серия «Southern Islands» включает:

«Tahiti» - решение наибольшей мощности, самый сложный и мощный GPU на данный момент (серия Radeon HD 7900 )
«Pitcairn» - графический процессор среднего ценового диапазона, предназначенный для массового пользователя (серия Radeon HD 7800 )
«Verde» - продукт, обладающий непревзойдённым сочетанием цены и производительности (выйдет под именем Radeon HD 7700 )

Чтобы понять, как именно планируется расположить новые решения в линейке продукции, AMD приводит такой слайд (положение по вертикали отражает производительность решений, по горизонтали - время выхода):

Как видите, младшие видеокарты линеек Radeon HD 6300, HD 6400, HD 6500 и HD 6600, продолжат свою жизнь и в следующем году. А вот более мощные решения постепенно заменятся новыми видеокартами указанных выше серий, основанных на представленной архитектуре. Но сегодня выходит только одна видеокарта - мощнейшее решение из линейка Radeon HD 7900, а остальные чипы серии «Southern Islands» выйдут на рынок несколько позже - в течение первого квартала 2012 года.

Предполагаем, что перед прочтением этого материала, читателям будет полезно ознакомиться с подробной информацией о ранних видеочипах компании по следующим статьям нашего сайта:

AMD Radeon HD 6950/6970: чуть слабее Geforce GTX 570/580, но и дешевле
AMD Radeon HD 6870 и HD 6850: теоретические сведения о новых решениях для среднего ценового сектора
ATI Radeon HD 5870: мощный удар из Канады - ATI (AMD) выпускает нового короля 3D-графики
ATI Radeon HD 4870 (RV770): самый мощный однопроцессорный 3D-ускоритель AMD

Ну а теперь мы переходим к описанию технических характеристик анонсированной сегодня первой видеоплаты из серии Radeon HD 7900, основанной на совершенно новом GPU с кодовым названием «Tahiti».

Графические ускорители серии Radeon HD 7900

Кодовое имя чипа: «Tahiti»
Технология производства: 28 нм
4,3 млрд. транзисторов (более чем на 60% больше, чем у Cayman, и ровно вдвое больше, чем у Cypress)
Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX 11.1, в том числе и шейдерной модели Shader Model 5.0
384-битная шина памяти: шесть контроллеров шириной по 64 бита с поддержкой памяти GDDR5
Частота ядра: до 925 МГц (для Radeon HD 7970)
32 вычислительных блока GCN, включающих 128 SIMD-ядер, состоящих в целом из 2048 ALU для расчётов с плавающей запятой (целочисленные и плавающие форматы, поддержка точности FP32 и FP64 в рамках стандарта IEEE 754)
128 текстурных блоков, с поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
32 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 32 отсчетов за такт, а в режиме без цвета (Z only) - 128 отсчетов за такт
Интегрированная поддержка шести мониторов, включая HDMI 1.4a и DisplayPort 1.2

Спецификации видеокарты Radeon HD 7970

Частота ядра: 925 МГц
Количество универсальных процессоров: 2048
Количество текстурных блоков: 128, блоков блендинга: 32
Эффективная частота памяти: 5500 МГц (4×1375 МГц)
Тип памяти: GDDR5
Объем памяти: 3 гигабайта
Пропускная способность памяти: 264 гигабайта в сек.
Теоретическая максимальная скорость закраски: 29,6 гигапикселей в сек.
Теоретическая скорость выборки текстур: 118,4 гигатекселей в сек.
Два разъёма CrossFire
Шина PCI Express 3.0
Разъёмы: DVI Dual Link, HDMI 1.4, два Mini-DisplayPort 1.2
Энергопотребление: от 3 до 250 Вт
Один 8-контактный и один 6-контактный разъёмы питания
Двухслотовый дизайн
Рекомендованная цена для рынка США: $549

Сразу же на себя обращает внимание огромная сложность нового чипа - 4 312 711 873 транзисторов (именно в таком сверхточном виде это число приведено в материалах AMD - наверняка вручную подсчитывали), что более чем наполовину превышает количество транзисторов в предыдущем топовом графическом процессоре. Возможность сделать такой сложный кристалл дало применение новейшего 28-нанометрового техпроцесса, новый чип по площади даже чуть меньше размера Cayman. Но практически все характеристики, влияющие на производительность, заметно улучшены: количество ALU, TMU, шина памяти. Лишь число блоков ROP не выросло, и частота видеопамяти GDDR5 осталась на той же отметке. Благодаря увеличению количества исполнительных блоков, возросшей эффективности, а также повышенной тактовой частоте GPU, он должен значительно превосходить Cayman во всех применениях.

Принцип наименования видеокарт компании остался прежним, продолжив тенденцию предыдущей серии, у которой в топовых решениях поменялась вторая цифра индекса с 8 на 9. Radeon HD 7970 является наиболее производительным одночиповым решением компании, через некоторое время выйдет и младшая модель HD 7950, но анонсирована сегодня она не будет. Понятно, что HD 7970 с её то характеристиками просто не имеет конкурентов на рынке и пока что не заменяет какую-то видеокарту из линейки AMD (разве что HD 6990 можно сразу смело списывать), а скорее сдвигает её вниз. Что касается сравнения с конкурентом, то у Nvidia своё 28-нанометровое решение ещё не готово, и его придётся подождать ещё несколько месяцев. А пока что Geforce GTX 580 придётся отдуваться, пытаясь противостоять HD 7950, но явно не HD 7970.

На новую видеокарту AMD устанавливается всё та же память типа GDDR5 (хотя ходили слухи о якобы совершенно ином типе памяти компании Rambus, но представители AMD их даже не комментируют), но объём вместо 2 гигабайт в предыдущем поколении вырос до 3 гигабайт. Так получилось из-за расширения шины памяти с 256-битной до 384-битной. И теперь на новую плату можно поставить или 1,5 ГБ или 3 ГБ. Естественно, с маркетинговой точки зрения установка меньшего объёма была бы явным поражением, и было принято решение поставить 3 ГБ, хотя на сегодняшний день это явный перебор. Лишь в сверхвысоких разрешениях да с MSAA 16x не хватит 1,5-2 ГБ. Впрочем, у AMD есть и Eyefinity, а для игр на трёх-пяти-шести мониторах экранный буфер будет как раз занимать огромный объём. Возможно, младшую модель Radeon HD 7950 когда-нибудь и выпустят с 1,5 ГБ памяти, для удешевления, но точно не старшую.

Итак, рассмотрим Radeon HD 7970. Новая видеокарта верхнего ценового диапазона имеет двухслотовую систему охлаждения, закрытую привычным для всех современных плат AMD пластмассовым кожухом по всей длине карты. Лишь дизайн этого кожуха немного изменился, хотя задняя часть всё так же выходит за пределы печатной платы. А вот дизайн планки с выводами был изменён - для улучшения охлаждения видеокарты, один из двух слотов (половина планки) был занят исключительно вентиляционным отверстием для отвода тепла.

Но пользователи не должны пострадать от снижения количества разъёмов DVI, распаянных прямо на плате. Для их удобства в комплект поставки будет включен специальный переходник HDMI-DVI, который позволит подключить два монитора, имеющих DVI-разъёмы. К слову, энергопотребление новой карты не ниже, чем у Radeon HD 6970, поэтому на неё пришлось установить набор из одного 8-контактного и одного 6-контактного разъёмов питания.

Зато в новой Radeon HD 7970 в лучшую сторону изменилась система охлаждения. Применяется новое поколение испарительной камеры и новый кулер большего размера, с изменённой формой лопастей и увеличенной производительностью (обеспечивается больший поток воздуха). В результате отмечается увеличение эффективности кулера при одновременном снижении шума.

С платы никуда не делся и переключатель прошивок Dual BIOS, о котором мы писали в обзоре Radeon HD 6900. Вкратце: видеокарта имеет две версии BIOS, одна с возможностью пользовательской перепрошивки, а вторая - с жёстко зашитой на фабрике прошивкой. Это удобное решение настолько приглянулось и пользователям и самой AMD, что та решила продолжить им комплектовать топовые решения.

Можно только поприветствовать данное решение, которое реально помогает в различных случаях, связанных как с неожиданными проблемами при перепрошивке (выключение электроэнергии в процессе, например), так и позволяет бесстрашно проводить различные эксперименты с образами BIOS. Неудивительно, что AMD ещё и снова намекает на отличные возможности разгона новой видеокарты:

Как видите, практически обещается разгон до частоты 1 ГГц и выше, если не учитывать мелкой надписи (она не вошла в кадр, но существует) о том, что гарантия перестаёт действовать даже в том случае, если видеокарта вышла из строя в результате эксперимента с поднятием частоты из настроек видеодрайвера. Кстати, новый слайд интересно сравнить со страницей из презентации давно ушедшего с рынка Radeon HD 4890:

Просто поразительное сходство (по компоновке и дизайну слайда), не правда ли? К сожалению, с тех пор хоть и освоены новые техпроцессы, но злополучный гигагерц никак на даётся в финальных продуктах с референсными частотами. А ведь, казалось бы, тут и 28 нм и явно улучшенное охлаждение, но нет - снова немного, но не дотянули. С другой стороны, зато пользователю будет чем заняться на досуге.

Архитектурные особенности Radeon HD 7970

Чтобы оценить актуальность архитектурных модификаций в Southern Islands, сначала рассмотрим развитие GPU за прошедшие несколько лет (в представлении AMD). До 2002 года графические чипы представляли собой специфичное аппаратное обеспечение, способное исключительно для обработки графики. Видеочипы того времени имели ограниченную функциональность, они умели лишь накладывать и фильтровать текстуры, обрабатывать геометрию, заниматься примитивной растеризацией и поэтому совсем не подходили для универсальных вычислительных задач.

За следующие несколько лет к GPU была добавлена базовая программируемость, но ориентированная также исключительно на графические задачи. Это было время поддержки DirectX 8 и 9, ограниченных по функциональности шейдерных программ с возможностью расчётов и с плавающей запятой. Видеочипы того времени имели специализированные блоки ALU для вершинной и пиксельной обработки, а также выделенные кэши для пикселей, текстур и других данных. Универсальности всё ещё не было даже близко.

И лишь в 2007 году у компании AMD появилась унифицированная шейдерная архитектура DirectX 10, а также возможности программирования GPU при помощи специальных средств: CAL, Brook, ATI Stream. GPU того времени уже имели продвинутое кэширование и поддержку локальных и глобальных общих данных. Архитектурно чипы были основаны на блоках VLIW5 и VLIW4, достаточно гибких для некоторых базовых неграфических вычислений, но всё же ориентированных на графические алгоритмы.

А теперь настало время для новой архитектуры, ещё лучше подходящей для универсальных вычислений - Graphics Core Next (GCN) . Для AMD это новая архитектурная эра, поэтому и название выбрано такое. Новые GPU предлагают отличные возможности и производительность по обработке графики, но сделанные архитектурные изменения предназначены, прежде всего, для улучшения позиций в неграфических вычислениях - увеличению производительности и эффективности в сложных универсальных задачах. Новый дизайн GPU предназначен для так называемых гетерогенных вычислений - смеси графических и универсальных в мультизадачной среде. Архитектура GCN стала гибче и должна ещё лучше подходить для энергоэффективного выполнения различных задач.

Базовым блоком в новой архитектуре является блок GCN. Именно на таких «кирпичиках» основаны все новые графические процессоры серии Southern Islands. Архитектура впервые для графических чипов компании AMD использует не VLIW-дизайн, в нём применяются векторные и скалярные блоки, и одним из самых важных изменений стало то, что каждый из вычислительных блоков GCN имеет свой планировщик и может выполнять инструкции из различных программ (kernel).

Новая вычислительная архитектура разработана для высокой эффективности загрузки вычислительных блоков в многозадачной среде. Вычислительный блок GCN разделён на четыре подраздела, каждый из которых работает над своим потоком команд каждый такт. Потоки могут использовать и скалярный блок, имеющийся в GCN, для управления потоком данных или операций над указателями. Комбинация векторных и скалярных блоков предлагает очень простую программную модель. Например, указатели на функции и стек (function pointers и stack pointers) программируются гораздо проще, да и задача компилятора теперь значительно упрощена, так как исполнительные блоки скалярные.

Каждый блок GCN имеет выделенное локальное хранилище данных для объёмом 64 КБ для обмена данными или расширения локального стека для регистров. Также блок имеет в своём составе и кэш-память первого уровня с возможностью чтения и записи, и полноценный текстурный конвейер (блоки выборки и фильтрации). Поэтому новый вычислительный блок способен работать самостоятельно, без центрального планировщика, который в предыдущих архитектурах отвечал за распределение работы по блокам. Теперь каждый из блоков GCN способен заниматься планированием и распределением команд сам, один вычислительный блок может исполнять до 32 разных потоков команд, которые могут быть из разных виртуальных адресных пространств в памяти и полностью защищены и независимы друг от друга.

Предыдущие архитектуры GPU компании AMD использовали архитектурные модели VLIW4 и VLIW5, и хотя они достаточно хороши для графических задач, но являются недостаточно эффективными для универсальных вычислений, так как загрузить все исполнительные блоки работой в таких условиях очень непросто. Новая архитектура GCN предлагает столь же большое количество исполнительных блоков, но при скалярном исполнении, которое убирает ограничения и зависимости регистров и инструкций. Переход от архитектуры VLIW к скалярному исполнению даёт заметное упрощение задач по оптимизации кода.

При исполнении инструкций на предыдущей VLIW4 архитектуре компилятору приходится заниматься решением конфликтов регистров, выполнять сложное распределение инструкций на исполнительные блоки на стадии компиляции кода и т. д. При этом для достижения высокой производительности зачастую требуется нетривиальная оптимизация, что подходит для большинства графических задач и гораздо менее гибко для других вычислений. Новая же архитектура предлагает значительное упрощение разработки и поддержки, упрощённое создание, анализ и отлов ошибок в низкоуровневом коде, стабильную и предсказуемую производительность.

Подсистема кэширования памяти

Пропускной способности и объёма памяти и кэшей никогда не бывает достаточно, и всегда есть необходимость и методы их увеличения. В новых GPU компании AMD применяется полноценная двухуровневая кэш-память с возможностью чтения и записи. Каждый вычислительный блок имеет по 16 килобайт кэша первого уровня, а общий объём кэша второго уровня составляет 768 килобайт (всего в чипе получается 512 КБ L1 и 768 КБ L2), что на 50% больше, чем в предыдущем чипе, вовсе не имеющем возможности записи в L2-кэш.

Что касается производительности, то каждый вычислительный блок GCN за один такт может получить или записать по 64 байта данных из/в L1-кэш или глобальную память, которая служит для обмена данными между потоками команд. Столько же данных способен передавать и принимать каждый раздел кэш-памяти второго уровня L2. В результате, для топового GPU компании получается 2 терабайт/с для L1 и 700 ГБ/с для L2, что на 50% больше, чем у предыдущего топового решения AMD.

Графический процессор «Tahiti»

После того, как мы рассмотрели низкоуровневые архитектурные изменения новой серии Southern Islands, самое время перейти к подробностям о самом мощном решении этой линейки - Radeon HD 7900, включающей в себя две модели. Прежде всего, отметим просто огромную сложность нового GPU, ведь он включает более чем 4,3 миллиарда транзисторов, что вдвое больше, чем было в чипе, на котором основан Radeon HD 5870! Естественно, что такой могучий чип стал возможен лишь благодаря применению нового техпроцесса 28 нм. Итак, что же у него есть внутри?

Количество геометрических блоков не изменилось, по сравнению с Cayman, их всё так же две штуки, но зато эффективность их работы значительно увеличена - мы остановимся на этом подробнее чуть позже. На схеме графического процессора мы видим 32 вычислительных блока архитектуры GCN, доступные на Radeon HD 7970, а в случае с младшим решением, некоторые из них будут отключены. Если считать пиковую вычислительную производительность решения, то она составляет почти 3,8 терафлопа (количество операций с плавающей запятой в секунду), что является абсолютным рекордом для GPU на сегодняшний день.

Каждый блок GCN имеет в своём составе по 16 текстурных блоков, что даёт итоговую цифру в 128 TMU на чип, или более чем 118 гигатекселей/сек - и это ещё один рекорд на сегодня, и он далеко не последний. А вот количество блоков ROP не изменилось, их всё так же 32 штуки в 8 укрупнённых блоках RBE. Ещё одно интересное архитектурное изменение - теперь блоки ROP «прикреплены» не к каналам памяти, как это было ранее, а к блокам GCN.

Хотя теоретически скорость записи во фреймбуфер почти не изменилась, и максимально возможны те же 32 значений цвета и 128 значений глубины за такт, практическая скорость заполнения (филлрейт) в реальных применениях значительно возросла из-за увеличенной пропускной способности памяти. По измерениям AMD, Cayman обеспечивал запись лишь 23 пикселей за такт, в то время как новый Tahiti приблизился к теоретическим 32 пикселям за такт.

Это и понятно, ведь новый видеочип компании AMD имеет 384-битную шину памяти - шесть 64-битных каналов, точно как и текущее топовое решение конкурента. Именно это полуторакратное увеличение ПСП и даёт возможность повысить реальную скорость текстурных выборок и записи во фреймбуфер. Пропускная способность в 264 ГБ/сек должна помочь выжимать близкие к теоретическим показатели в 118 гигатекселей/сек и 30 гигапикселей/сек, и в практической части мы это проверим.

Тесселяция и обработка геометрии

С архитектурной точки зрения, ничего особенного в геометрических блоках Tahiti со времен Cayman не изменилось. Используется всё так же по два блока для обработки (установка вершин и тесселяция) геометрических данных и растеризации, и схема весьма похожа на ту, что мы видели ранее, разве что тесселяторы названы аж 9-м поколением:

Несмотря на схематическое сходство, последнее поколение этих блоков способно на значительно большую производительность тесселяции и обработки геометрии, так как блоки подверглись значительным модификациям. Хотя пиковая производительность выросла лишь почти до двух миллиардов вершин и примитивов в секунду (925 МГц и две вершины а такт), реальная производительность выросла больше. Это было достигнуто при помощи увеличения объёма кэшей, улучшения буферизации геометрических данных и повторного использования вершинных данных.

В результате, производительность тесселяции улучшена при всех коэффициентах разбиения треугольников до четырёх раз, по сравнению с Radeon HD 6970 из предыдущего поколения. Но четыре раза достигаются не во всех случаях даже на диаграмме от самой AMD:

Диаграмма показывает сравнение производительности тесселяции Radeon HD 7970 по сравнению с HD 6970 при коэффициентах разбиения от 1 до 32. И, как вы видите, разница в производительности получилась от 1,7 до 4 раз. Но это - голая синтетика. И чтобы приблизиться к реальности, приведём ещё данные о скорости тесселяции уже в игровых приложениях:

Как видите, синтетические цифры AMD неплохо подкрепляются игровыми - производительность в реальных приложениях с «тяжёлой» тесселяцией значительно выросла. Это очень неплохой результат, который мы обязательно проверим в практической части, на примере синтетики и игровых приложений.

Неграфические вычисления

С точки зрения гетерогенных и неграфических вычислительных задач весьма важны появившиеся два асинхронных вычислительных движка (Asynchronous Compute Engines - ACE). Они предназначены для планирования и распределения работы между исполнительными блоками для эффективной многозадачности и работают вместе с графическим командным процессором (Command Processor).

Radeon HD 7900 имеет два независимых вычислительных движка и один графический. В сумме это даёт три программируемых блока и три потока команд, полностью отделённых друг от друга. А в дополнение к асинхронной подаче команд для быстрого переключения контекста, новый GPU также имеет два двунаправленных контроллера прямого доступа к памяти (DMA), появившиеся в Cayman. Эти два контроллера необходимы для того, чтобы полностью использовать возможности новой шины PCI Express 3.0.

Как мы знаем, с точки зрения серьёзных вычислений важна не только скорость выполнения операций с плавающей запятой с одинарной точностью, но и двойной (double precision floating point). И новая архитектура AMD весьма неплохо справляется с такой задачей. На данный момент предполагается существование двух версий вычислительных блоков GCN, имеющих разный темп исполнения FP64 инструкций. Для старшего GPU темп выполнения составляет 1/4 от скорости FP32, а для младших чипов выбран темп 1/16, что вполне достаточно для сохранения совместимости, но не слишком усложняет недорогие решения. В итоге, Radeon HD 7970 способен на 947 миллиардов операций двойной точности в секунду (эх, до терафлопа совсем же чуть-чуть не дотянули!) - налицо очередное высочайшее достижение нового чипа AMD.

Причём, это не те гигафлопы, что в случае предыдущих архитектур, а более «жирные». Ведь эффективность нового GPU в сложных вычислительных задачах должна серьёзно возрасти. Во-первых, улучшена подсистема памяти и кэширования. Во-вторых, каждый вычислительный блок GCN имеет свой планировщик, что должно улучшить исполнение ветвящегося кода и общую эффективность. Ну и в третьих отметим скалярное исполнение, не требующее сложных оптимизаций от компилятора, в результате чего вычислительные блоки будут гораздо реже простаивать. И в итоге в любых задачах новому чипу будет легче показать высокую производительность и загрузку ALU.

Из других нововведений, связанных с вычислительными возможностями, отметим полную поддержку ECC для DRAM и SRAM. С программной стороны важно, что Tahiti - это первый графический процессор с полной поддержкой новых версий API: OpenCL 1.2, DirectCompute 11.1 и C++ AMP и их возможностей. Например, OpenCL 1.2 позволяет объединять возможности нескольких вычислительных устройств в одно, и компания AMD уже выпустила соответствующую поддержку в виде AMD APP SDK 2.6 и драйвера Catalyst 11.12.

Производительность и эффективность архитектуры

После обзора всех архитектурных нововведений на примере топового чипа серии Southern Island настало время поговорить об эффективности всех этих изменений. Понятно, что производительность новых чипов гораздо выше, чем у предыдущих, обратное было бы весьма удивительно. Вопрос в том, насколько быстрее. В различных задачах получаются цифры от 40-50% (минимум!) до пятикратной разницы. Улучшения в архитектуре позволяют превысить теоретическую 1,4-кратную разницу по тупым гигафлопсам. Давайте рассмотрим это на примерах:

На диаграмме сравнивается новое топовое решение и предыдущее одночиповое: Radeon HD 7970 и HD 6970, что вполне справедливо. Тесты производительности выбраны различные: SmallptGPU и LuxMark - это рейтрейсинг на OpenCL, SHA256 - безопасный алгоритм хеширования, а AES256 - симметричный алгоритм шифрования. Ну а Mandelbrot - широко известная задача, рассчитанная с двойной точностью вычислений.

Вертикальной прерывистой линией на графике отмечена теоретическая разница в производительности, но данные о скорости показывают, что в трёх из пяти задач скорость нового GPU оказалась значительно выше. Это вызвано всеми изменениями, направленными на увеличение эффективности: уход от VLIW, наличие планировщика в каждом вычислительном блоке, улучшенное кэширование и т. п.

Изменения в качестве рендеринга

Собственно, эту часть вполне можно было бы и пропустить, так как к качеству изображения в последнее время особенных претензий уже нет и быть не может - по разным причинам. Например, качество полноэкранного сглаживания у видеокарт разных производителей весьма близкое, особенно учитывая широкое распространение программных методов сглаживания при помощи фильтров постобработки, выполняемых на всех GPU абсолютно одинаково.

То же самое касается и текстурной фильтрации - сейчас её качество таково, что отличить решения AMD и Nvidia весьма непросто даже если делать попиксельное сравнение. У Radeon HD 6900 - предыдущего поколения компании - анизотропная фильтрация улучшилась ещё немного, и теперь даже «микроскоп» не поможет найти там какие-то значительные недостатки. Единственное замечание в том, что в движении видеокарты Radeon немного уступали Geforce из-за более заметных специфических артефактов, вроде «шума» или «песочка».

С выходом видеочипов нового поколения веса текселей в текстурном фильтре пересмотрели ещё раз, модифицировав их так, чтобы снизить подобные артефакты, иногда видимые на Radeon HD 6900 при наличии текстур определённого вида («высокочастотных», с резкими переходами от тёмного к светлому, например). Изменения в качестве настолько трудно показать на примерах, что AMD не приводит сравнительные картинки HD 7900 против HD 6900, а просто сравнивает качество «аппаратного» алгоритма с чисто программным, выполняемым на потоковых процессорах GPU, а потому - идеальным:

На таком мелком скриншоте разницы в качестве не видно, но AMD уверяет, что все проведённые изменения не привнесли никакого падения производительности и ни в одном из аспектов не ухудшили качество картинки - оно всё так же не зависит от угла и качество фильтрации близко к идеальному. В одном из будущих практических материалов мы это обязательно проверим.

Частично резидентные текстуры (Partially Resident Textures)

Идея Partially Resident Textures (PRT) заключается в использовании аппаратной возможности представленного графического процессора - виртуальной памяти. Наверняка многие пользователи уже видели игру RAGE компании id Software, которая использует технологию виртуального текстурирования, так называемое мегатекстурирование («MegaTexture»), которое обеспечивает возможность использования огромных объёмов текстурных данных и подкачку (streaming) их в видеопамять.

Используя виртуальную видеопамять, очень легко получить эффективную аппаратную поддержку подобных алгоритмов, позволяющих применять в приложении до 32 терабайт текстур, что даёт возможность сделать уникальные локации в играх, без повторяющихся кусков текстур, при полном отсутствии проблем с подгрузкой текстурных данных. Правда, наглядный пример AMD приводит слишком странный, из которого ничего особо непонятно:

PRT позволяет добиться высокого качества картинки и помогает повысить эффективность использования видеопамяти. Подобные алгоритмы уже применяются в движке id Software, и ожидается их появление во многих движках следующего поколения. Игры будущего нуждаются в работе с огромными объёмами данных и преимущество нового GPU в том, что локальная графическая память в алгоритмах а-ля PRT работает как аппаратная кэш-память, и текстуры в неё подгружаются при необходимости. GPU семейства Southern Islands поддерживают «мегатекстуры» объёмом до 32 терабайт (разрешением до 16384×16384) и, что особенно важно, аппаратную текстурную фильтрацию для них, что недоступно на более ранних видеочипах.

Виртуальные текстуры разбиваются на куски размером 64 килобайта (именно килобайты, а не тексели) и этот размер куска фиксирован. И в локальную память видеокарты подгружаются только те из них, которые нужны при рендеринге текущего кадра. Технология работает независимо от текстурного формата, просто размеры кусков в текселях будут отличаться. Например, для обычной несжатой текстуры с 32 бит на цвет, размер куска будет 128×128 текселей, а для сжатой в DXT3-формат - 256×256 текселей.

Технология предполагает и использование мип-уровней текстур (уменьшенных копий, используемых при текстурной фильтрации). При рендеринге и фильтрации к ним требуется многократный доступ. Рассмотрим работу алгоритма на примере.

На этом рисунке выделены четыре разных куска из разных мип-уровней, требуемые при рендеринге. Когда шейдерная программа запрашивает данные из них, некоторые из кусков уже имеются в локальной памяти и эти данные сразу же отправляются в шейдер для дальнейших вычислений. Но некоторые куски отсутствуют в таблице, и приложение должно выбрать последующие действия при таком промахе. Например, можно запросить данные из мип-уровня меньшего разрешения, тогда изображение будет нечётким, но оно хотя бы будет похоже на правду и отрисуется без задержки. А к рендерингу следующего кадра оно уже может быть подгружено в кэш - локальную видеопамять. Игравшие в RAGE нас поймут.

Это - мощнейший алгоритм, позволяющий использовать огромные текстуры, уникальные для каждого из объектов. Аналогичные алгоритмы давно используются при оффлайн-рендеринге, за исключением необходимости расчётов в реальном времени. AMD даже сделала демо-программу, использующую технику наложения текстур Per-Face Texture Mapping, разработанную Walt Disney Animation Studios для их анимационных фильмов. К сожалению, демонстрационная программа ещё не готова, и мы видели лишь скриншоты низкого разрешения.

Суть данной техники наложения текстур в том, чтобы каждому полигону назначить определённый кусок текстуры, без необходимости использования UV-преобразования (нахождения соответствия между координатами поверхности трёхмерного объекта и координатами на двухмерной текстуре). Такой подход решает некоторые проблемы с созданием тесселированного контента, делая алгоритм смещения векторов (displacement mapping) очень простым. А PRT в этом методе используется для эффективного хранения и доступа к текстурных данным.

Инструкции по обработке медиаданных

Интересным нововведением в Southern Islands кажется поддержка специализированных инструкций, используемых при обработке изображений, статичных и динамических. Например, была улучшена широко используемая инструкция под названием «сумма абсолютных разностей», более известная как SAD (Sum of Absolute Differences). Скорость её исполнения - весьма критичное к производительности узкое место многих алгоритмов обработки изображений и видеоданных, вроде определения движения (motion detection), распознавания жестов (gesture recognition), поиска по изображениям, компьютерного зрения и многих других.

Но постойте, в обзоре древней видеокарты Radeon HD 5870 мы уже писали о поддержке SAD! Всё правильно, но теперь кроме обычного SAD (4×1) в Southern Islands появилась новая инструкция - QSAD (счетверённый SAD), объединяющая SAD с операторами сдвига для увеличения производительности и энергоэффективности, а также «маскируемая» инструкция MQSAD, игнорирующая пиксели заднего плана и используемая для изоляции движущихся в кадре объектов от фона.

Новые GPU могут обрабатывать до 256 пикселей на каждый вычислительный блок GCN за такт, что в случае модели AMD Radeon HD 7970 означает возможность обработки до 7,6 триллионов пикселей в секунду в случае 8-битных целочисленных значений цвета. Хотя это теоретическая цифра, возможности новых графических процессоров по обработке визуальных данных весьма впечатляют - многие задачи по обработке видео можно будет выполнять в режиме реального времени.

PCI Express 3.0

Не могли мы пройти и мимо поддержки третьей версии PCI Express всей линейкой новых графических решений Southern Islands, выпущенных сегодня и будущих. Эта поддержка была вполне ожидаемой, так как спецификации третьей версии PCI Express окончательно утвердили ещё осенью 2010 года, но аппаратных решений с её поддержкой до сих пор не было, хотя системные платы уже появляются, видеокарты выпущены сегодня, теперь дело за центральными процессорами.

Обновленный интерфейс обладает скоростью передачи 8 гигатранзакций в секунду вместо 5 ГТ/с для версии 2.0, и его пропускная способность ещё раз выросла вдвое (до 32 Гб/с), по сравнению со стандартом PCI Express 2.0. В новой шине применяется другая схема кодирования пересылаемых по шине данных, но совместимость с предыдущими версиями PCI Express была сохранена.

Первые системные платы с поддержкой PCI Express 3.0 были представлены летом 2011, в основном базе чипсета Intel Z68, а в широкой продаже они появились лишь осенью. Вот и видеокарты подоспели, и AMD по скорости выхода новых графических процессоров с поддержкой самых совершенных технологий снова стала впереди планеты всей. Будет ли от PCI-E 3.0 какой-то практический толк - судить слишком рано, но когда такая возможность появится, мы обязательно протестируем все возможные варианты.

Технология AMD PowerTune

Одним из самых интересных нововведений в Cayman была технология расширенного управления питанием PowerTune. Гибкое управление питанием GPU уже давно применялось, но до Radeon HD 6900 все эти технологий были довольно примитивными и в основном программными методами и изменяли частоту и напряжение ступенчато, не умея отключать большие части видеочипов.

Ещё в семействе Radeon HD 5000 появился ограничитель производительности при превышении определённого уровня потребления, а в Radeon HD 6900 система перешла на качественно иной уровень. Для этого в чип включили специальные датчики во все блоки, которые отслеживают параметры загрузки. Графический процессор постоянно измеряет нагрузку и энергопотребление и не позволяет последнему выйти за определённый порог, автоматически регулируя частоту и напряжение, чтобы параметры оставались в рамках указанного теплопакета.

В отличие от ранних технологий управления питанием, PowerTune обеспечивает прямой контроль над энергопотреблением GPU, в отличие от косвенного управления при помощи изменения частот и напряжений. Эта технология помогает установить высокие частоты GPU, получив высокую производительность в играх, и не бояться, что потребление может выйти за безопасные пределы. Ведь большинство игр и обычных приложений, использующих вычисления на GPU, предъявляют значительно менее высокие требования к питанию и не подходят к опасным пределам энергопотребления, в отличие от тестов стабильности, вроде Furmark и OCCT.

Даже самые тяжёлые игры не требуют максимального потребления энергии, и если ограничить потребление частотой, испытывая видеокарты экстремальными тестами, то в случае 3D-игр останется довольно много неиспользованных возможностей по производительности и питанию. В случае, когда видеокарта не достигла предела безопасного уровня потребления, GPU будет работать на выставленной на фабрике частоте, а в тестах FurMark и OCCT, частота GPU понизится, чтобы оставаться в рамках потребления.

Таким образом, PowerTune помогает выставить более высокие фабричные частоты и настроить систему на максимально эффективное использование ресурсов GPU при установленном максимальном уровне потребления. На показанном выше примере, HD 5870 не использует PowerTune и из-за ограничения частоты GPU высоким потреблением в тестах выносливости не использует все свои возможности. В то время как для Radeon HD 7970 установлен максимальный TDP, и видеочип сбрасывает частоты лишь при его превышении, получая максимально возможную производительность в любых приложениях.

Наглядно это показано на следующей диаграмме. В случае игровых приложений достижение TDP возможно при повышении частоты GPU, а для пиковых нагрузок тестами выносливости частота снижается до безопасного уровня энергопотребления. Без PowerTune пришлось бы выбирать - или получить вероятность выхода из строя видеокарты при длительной работе FurMark и OCCT, или урезать потенциально возможную производительность в играх. Новая технология решает эти вопросы максимально эффективно.

AMD PowerTune отличается быстрой отзывчивостью на изменение условий (микросекунды), так как это аппаратная технология. Также её отличает гибкая настройка частот, а не ступенчатая, как это было в предыдущих чипах. Все измерения не зависят от драйвера, но могут быть скорректированы пользователем при помощи настроек видеокарты.

Отличия PowerTune от общепринятого ранее подхода в том, что в других случаях используется защита от перегрева (thermal throttling), которая переводит графический процессор в режим значительно пониженного потребления, а PowerTune просто плавно снижает его частоту, приводя потребление GPU к установленному ограничителю. При этом достигаются более высокие тактовые частоты и производительность.

Технология AMD ZeroCore

Компания AMD не ограничилась применением уже известной по предыдущим решениям технологии управления питанием. В первых чипах семейства Southern Islands она представляет технологию AMD ZeroCore, которая помогает добиться ещё большей энергетической эффективности в режиме «глубокого простоя» (или «сна») с отключенным устройством отображения, который поддерживается всеми операционными системами.

Ведь практически любая система, даже игровая, большую часть времени проводит в режиме низкой нагрузки на графический процессор. И видеокарта не должна потреблять много энергии в таком режиме. И уж тем более не говоря о режиме с отключенным монитором - в этом случае GPU желательно вовсе отключить. Так в AMD и сделали. Благодаря ZeroCore, в состоянии глубокого простоя новый GPU потребляет менее 5% энергии полноценного режима, отключая большинство функциональных блоков в этом режиме.

AMD приводит схематическое сравнение со своей же Radeon HD 5870, которая поддержкой такой технологии не обладала. ZeroCore - эксклюзивное нововведение Southern Islands, пришедшее в настольные решения из мобильных GPU, предназначенных для ноутбуков. Кстати, преимущества этой технологии связаны не только со снижением потребления. Кроме этого, в режиме длительного простоя при отключении дисплея видеокарта ещё и полностью выключает вентилятор на кулере видеокарты!

Это именно то, чего давно ждали многие пользователи. Самое интересное, что по нашим данным, лабораторные испытания подобных PowerTune и ZeroCore решений проходили ещё несколько поколений видеокарт назад. Некоторые из инженерных сэмплов видеокарт давно ушедших с рынка серий компании AMD именно так и работали, полностью отключая кулер в простое.

Но не только пользователи систем с одной видеокартой получат бонус от снижения шума и потребления энергии с новыми видеокартами AMD с поддержкой ZeroCore. Аналогичные улучшения ожидают и счастливых владельцев CrossFire систем на базе двух, трёх и даже четырёх GPU. Логично ведь, что в режиме отрисовки двухмерного интерфейса операционной системы все видеокарты, кроме главной, не должны бы работать вовсе? Но ведь сейчас они работают именно так!

В случае же CrossFire систем на видеокартах с поддержкой ZeroCore в 2D-режиме все вторичные видеокарты погружены в глубокий сон с минимальным потреблением энергии и отключенным кулером. Такой режим работает и для нескольких одночиповых видеокарт и для двухчиповых решений. Кроме того, первичная видеокарта CrossFire также будет переходить в такой режим в случае длительного простоя, настроенного в Windows. Наглядно разница в работе выглядит так:

Кстати, технология не так проста, как может показаться. Инженерам AMD пришлось решить массу вопросов, связанных с работой операционной системы в режиме простоя. Например, они выяснили, что Windows пытается обновлять информацию на экране даже при отключенном мониторе. Что, естественно, не позволяет отключить GPU вовсе. Поэтому программистам компании пришлось пойти обходным путём, игнорируя все команды отрисовки экрана при отключенном мониторе в режиме сна.

Технология AMD Eyefinity 2.0

Естественно, что в новой архитектуре нашлось место и для улучшений проверенной технологии вывода изображения на несколько мониторов - AMD Eyefinity, теперь в версии 2.0. Она получила новые возможности, большие разрешения, поддержку большего количества дисплеев и расширение гибкости.

Эта технология довольно интересна, хотя крайне малое количество пользователей найдёт в комнате место и наберётся смелости перед семьёй для установки более чем двух мониторов. Но лучше иметь возможность, чтобы всегда смочь ей воспользоваться, чем не иметь её вовсе. Тем более, что цены на мониторы больших диагоналей почти не снижаются, а вот решения среднего уровня постоянно дешевеют.

И действительно, сейчас выгодне купить три монитора с диагональю экрана в 24″, чем один 30-дюймовый. AMD приводит именно такой пример, когда 30″ монитор с разрешением 2560×1600 стоит более $1000, а три 24″ FullHD можно купить за половину этой цены:

Но как тратить свои деньги и пространство в комнате - это личное дело каждого пользователя. Главное, что такая возможность есть. Плюс к этому, Eyefinity 2.0 теперь поддерживает вывод изображения и в стереорежиме HD3D - то, чего не хватало в предыдущих решениях, которые по этому параметру уступали конкурирующим. Объединившая технологии AMD Eyefinity и HD3D видеокарта Radeon HD 7970 является первым одночиповым решением с поддержкой трёх мониторов, работающих в стереорежиме.

Для стереорендеринга в высоком разрешении нужен очень быстрый интерфейс передачи данных. И с предыдущими версиями HDMI выходов, возможности были ограничены 24 Гц на каждый глаз, что вполне достаточно для просмотра кино на Blu-ray 3D, но для любителей игр явно слишком мало.

Для таких задач стали применять формат frame packing, когда кадры для левого и правого глаза объединяются в один, и AMD Radeon HD 7970 поддерживает формат HDMI 1.4a frame packing для вывода стереокартинки. Это первая видеокарта с поддержкой 3-гигагерцового HDMI с frame packing, когда на каждый глаз приходится FullHD картинка с частотой 60 Гц (120 Гц в итоге):

Ещё одной любопытной новинкой нам кажется технология многоканального вывода звука Discrete Digital Multi-Point Audio (DDMA), работающая вместе с Eyefinity. Все предыдущие GPU способны выводить по HDMI и DisplayPort лишь по одному аудиопотоку. То есть, даже если к ПК подключены по HDMI три монитора, находящиеся в разных комнатах, то звуковой канал передаётся лишь один. А вот AMD Radeon HD 7900 получил поддержку одновременного вывода сразу нескольких независимых аудиоканалов, что вполне может пригодиться в некоторых мультимониторных конфигурациях.

Эта же возможность будет весьма полезной для применения в сфере видеоконференций с выводом нескольких собеседников на отдельные экраны, а также многозадачного применения вроде игры на трёх мониторах с игровым аудиосопровождением и просмотром новостей на отдельном экране с независимым звуковым потоком. Ранее для всего этого приходилось применять несколько отдельных аудиосистем, а теперь всё работает максимально удобно.

Не забыта и программная поддержка Eyefinity, почти каждый месяц технология обновляется - появляются новые возможности. Так, ещё в октябре появилась поддержка разрешений вплоть до 16384×16384 и новые мультимониторные конфигурации: горизонтальные и вертикальные 5×1, а также на основе шести мониторов в режиме 3×2.

В декабрьском обновлении видеодрайвера AMD Catalyst стала возможной совместная работа Eyefinity и HD3D, а в феврале обещают поддержку пользовательских разрешений, настройки размещения панели задач и улучшения управления наборами настроек.

Вывод изображения на шесть мониторов может быть осуществлён при помощи двух портов DisplayPort 1.2 и двух концентраторов MST (о которых мы писали ранее), а три или даже четыре монитора потребуют лишь одного порта и соответствующего концентратора. Такие концентраторы позволяют гибко конфигурировать систему вывода изображения, они поддерживают до четырёх FullHD-устройств на один разъём DisplayPort 1.2 и должны появиться в продаже к лету 2012 года.

К слову о разрешении. Высоком разрешении или даже ультравысоком - Ultra High Resolution. Нынешние устройства с разрешением 4000 пикселей по большей стороне требуют подключения при помощи сразу нескольких кабелей: двух DP 1.1 или четырёх DVI. Мониторы такого разрешения следующего поколения будут подключаться лишь по одному кабелю: DP 1.2 HBR2 или HDMI 1.4a 3 ГГц. И новая видеокарта компании AMD уже готова к таким мониторам, снова она стала первой в мире.

Кодирование и декодирование видеоданных

Вполне естественно, что в состав AMD Radeon HD 7970 включён всё тот же блок UVD для декодирования видеоданных, появившийся ещё в предыдущем поколении видеочипов компании. Он просто не нуждается в доработках, поддерживая многопоточный кодек MVC, декодирование форматов MPEG-2/MPEG-4 (DivX), VC-1 и H.264, а также декодирование двух FullHD-потоков во всех поддерживаемых форматах.

Решения AMD обеспечивают максимальное качество декодирования видеопотока, используют несколько десятков специальных алгоритмов улучшения качества и обеспечивают максимальный результат в тестах качества вроде HQV. Среди поддерживаемых особенностей отметим: регулировку цвета и тона, шумоподавление, повышение резкости, качественное масштабирование, динамическую контрастность, продвинутый деинтерлейсинг, а также inverse telecine. Вот пример улучшения контрастности на лету:

Но с декодированием у всех видеочипов давно всё более-менее в порядке. Все новые GPU обеспечивают приличное качество и производительность при просмотре видеоданных. А вот кодирование видео на GPU всё ещё пребывает в зачаточной стадии и основные претензии пользователей направлены на низкое качество получаемой сжатой картинки.

Возможно, новая серия Radeon HD 7000 сможет помочь и в этом, ведь все графические процессоры серии имеют в своём составе блок кодирования видео Video Codec Engine (VCE). Модель Radeon HD 7970 стала первой видеокартой с поддержкой аппаратно ускоренного кодирования и сжатия видео при помощи специализированного блока (ранее в кодировании принимали участие потоковые процессоры).

Качество и производительность должно быть явно лучше, чем раньше, поддерживается кодирование в формат 1080p при 60 кадрах в секунду, причём даже быстрее, чем в реальном времени. Про качество сказать без тестов что-то сложно, но нам обещаны разные уровни оптимизации кодера для видеоданных и игр, а также изменяемое качество сжатия (возможность выбирать между повышением качества или производительности).

Пока что опробовать VCE негде - приложений с его поддержкой просто нет, но компания AMD работает с партнёрами, такими как ArcSoft, для обеспечения поддержки VCE в соответствующих программных продуктах. В будущем планируется выпуск программной библиотеки для ускорения кодирования видеоданных, которая облегчит задачу разработчиков по поддержке продукции AMD нового поколения.

Кодирование может производиться в двух режимах: полное и гибридное (с использованием возможностей потоковых процессоров GPU). Полный режим разработан для задач, которые требуют максимальной энергоэффективности и постоянного уровня производительности. Кодирование в полном режиме на VCE быстрее реального времени и обеспечивает низкие задержки. Но есть и гибридный режим:

В таком режиме вместе с VCE работают и математические блоки GPU. Все хорошо распараллеливающиеся стадии, которые обведены жёлтой линией на схеме, могут использовать мощь вычислительных блоков GCN, а выделенный блок VCE занимается эффективным аппаратным энтропийным кодированием. Такой режим хорошо подходит для видеокарт с большой математической мощью, вроде Radeon HD 7970. Остаются вопрос к качеству этих двух режимов, но это требует тщательного анализа в отдельном материале.

AMD Steady Video

Кроме кодирования и декодирования видеоданных, есть и ещё одна область применения мощи новой графики от компании AMD - улучшение видеороликов плохого качества, снятых с рук, без использования штатива и других аналогичных средств стабилизации изображения. Технология стабилизации видео называется AMD Steady Video, и уже выпущена её вторая версия.

Алгоритм работы программного стабилизатора довольно прост: на основе видеопотока собирается статистика о движении камеры (сдвиг, вращение, приближение) и это движение компенсируется в текущем кадре, относительно предыдущих - изображение сдвигается, поворачивается и масштабируется так, чтобы картинка сильно не прыгала и оставалась стабильной.

Насколько это просто на словах, настолько же сложно в реализации. Просто потому, что пикселей на экране два миллиона, а кадров в секунду до 30 или даже 60. Представьте, сколько вычислений нужно проделать, чтобы отследить все возможные смещения кадра. Мы уже писали выше о функции QSAD, применяемой в видеообработке, как раз она используется и в Steady Video 2.0 для ускорения алгоритма определения движения. Так вот GPU должен обрабатывать случайные сдвиги с амплитудой до 32 пикселей в любом направлении и для этого требуется производительность, соответствующая более чем 500 млрд. операций SAD в секунду (для 1920×1080 при 60 FPS).

За счёт поддержки новых инструкций QSAD в представленном сегодня Radeon HD 7970, его преимущество над мощными CPU в алгоритме motion detection превышает 10x! То есть, качественное видео нам теперь будет обеспечено, причём не только при обработке домашних роликов в видеоредакторах, но и просмотре чужих онлайновых видеороликов, снятых неизвестно чем и неизвестно как. Ну хотя бы трястись всё теперь так не будет…

Программная поддержка

Читатели давно нас спрашивают - когда ж польза от неграфических вычислений на GPU наконец-то достигнет обычных пользователей? Ведь кодированием видео занимаются далеко не все, а вот со сжатием и архивированием любых типов данных сталкивается практически каждый и довольно часто. Что же, у нас есть хорошая новость не только для энтузиастов 3D-графики, но и для нормальных людей - поддержка чипов AMD Fusion и Radeon появилась в широко известном архиваторе WinZip 16.5.

Это приложение известно давно и хотя лучшие его годы позади и уже придуманы более мощные методы сжатия, формат ZIP остаётся одним из наиболее распространённых и быстрых для архивации и сжатия различных типов данных. И теперь он станет ещё быстрее!

Работая в сотрудничестве с AMD, разработчики WinZip смогли ускорить движок этого пакета, используя возможности GPU при помощи OpenCL. Естественно, на GPU пока что ускоряется не всё, но сжатие в формат Deflate (комбинация алгоритмов LZ77 и Хаффмана), декомпрессия Inflate и AES-шифрование получат преимущества от исполнения на потоковых процессорах GPU. Интересно, что OpenCL позволяет даже распределять нагрузку между CPU и GPU, используя оба устройства.

Но топовые видеокарты вроде Radeon HD 7970 предназначены скорее для игровых приложений. Самых современных и работающих на максимальных настройках. Команда программистов AMD находится в постоянном контакте с множеством игровых разработчиков, помогая им внедрять современные технологии, поддерживаемые графическими процессорами компании. AMD всегда поддерживала игровую ПК индустрию, так как они напрямую заинтересованы в её процветании. Так, в 2010 году на игры было потрачено 16,2 миллиарда долларов, а на игровое аппаратное обеспечение для ПК покупатели потратили $16,6 млрд (по оценкам аналитиков, в текущем году цифра вырастет до $22 млрд.). Понятно, что AMD хочет получить часть этих денег.

В наступающем году ожидается большое количество интересных игр, которые выйдут на ПК. Среди таких проектов, к созданию которых AMD приложила руку и которые выйдут в первом полугодии, можно отметить: Blacklight: Retribution, Syndicate, Sniper Elite 2, Max Payne 3, Hitman: Absolution и другие. Но ждать следующего года не обязательно, совсем недавно вышло первое дополнение популярнейшей игры - Battlefield 3: Back to Karkand. Движок там используется всё тот же Frostbite 2, но дополнение Back to Karkand отличается улучшенной разрушаемостью уровней и включает четыре переработанные многопользовательские карты из Battlefield 2, новые транспортные средства, оружие и др. Скриншоты смотрятся просто замечательно:

Чтобы статья была максимально полной, упомянем и основное нововведение AMD Catalyst 12.1 - пользовательские профили для 3D-приложений, позволяющие изменять базовые настройки качества и установки CrossFire отдельно для каждой программы (наконец-то AMD догнала конкурентов):

Ну и чтобы дать закипающим мозгам наших читателей отдых от столь скурпулёзного описания возможностей нового продукта компании AMD, мы наконец-то покажем что-то развлекательное - скриншот из демонстрационной программы, сделанной компанией к анонсу первых решений из семейства Southern Islands. Демка называется «Leo» и показывает забавную сказочную сценку с применением современных графических технологий:

После того, как мы познакомились с теоретическими аспектами новой архитектуры, а также характеристиками и функциональными возможностями Radeon HD 7970, самое время обратиться к практике. Следующая часть материала посвящена практическому исследованию скорости рендеринга новой видеокарты AMD в чисто синтетических тестах. В ней мы определим, как производительность первого решения семейства Southern Islands соотносится со скоростью предыдущих решений компании AMD, а также конкурирующих видеокарт компании Nvidia из верхнего ценового диапазона.

AMD Radeon HD 7970 - Часть 2: видеоплата и синтетические тесты →

Radeon HD 7970: переход на 28-нм техпроцесс

В начале декабря мы не рассчитывали, что видеокарта нового поколения окажется у нас до наступления 2012 года. Даже в середине месяца, после того как мы получили официальное уведомление от AMD, мы планировали выпустить данный обзор в январе. Windows 8 и API DirectX 11.1, идущий в компании с новой ОС, не будут доступны в течении ближайших нескольких месяцев, а нынешние графические карты класса high-end отлично справляются с современными играми. Несмотря на то, что AMD, по слухам, ещё несколько месяцев назад прекратил выпуск флагманской модели Radeon HD 6990 , мы исходили из того, что трудности с переходом на техпроцесс 28 нм в компании TSMC, чьи производственные мощности использует AMD, оставляют мало шансов, что новые графические процессоры будут представлены в срок.

Однако AMD, в конце концов, назначила дату анонса на середину декабря, что нас удивило ещё более. Вот как прозвучала официальная версия AMD: "Собрав отзывы от наших партнёров и оценив нашу общую готовность… мы убеждены, что новая дата анонса позволит нам захватить сезон рождественских праздников и CES". Попытка захватить рождественский сезон, анонсировав карту за пару суток до католического Рождества - крайне оптимистичная стратегия, особенно если учесть, что первые официальные поставки начнутся после 9 января. Печальным результатом всего этого стало то, что многие сотрудничающие с AMD разработчики не успели подготовить соответствующие обновления ПО, нужные хотя бы для того, чтобы надлежащим образом протестировать HD 7970.

Встречаем Radeon HD 7970

Независимо от того, готова ли Radeon HD 7970 встретить мир и готов ли мир встретить её, она попала в лабораторию и прошла серию тестов. Данная карта является первым представителем нового поколения AMD и имеет серьёзные отличия от моделей нынешней 6000-й серии.

Компания AMD использует новую архитектуру Southern Islands и обеспечила поддержку новых функций и технологий, включая совместимость с DirectX 11.1. Флагманский GPU Tahiti (Таити) состоит из 4,31 миллиардов транзисторов и, таким образом, примерно на 160% по данному параметру превосходит своего предшественника на ядре Cayman.

Одновременно компания AMD осуществила переход на техпроцесс 28 нм, что позволило втиснуть такое количество транзисторов в кремниевую пластинку площадью 365 мм² - чип Cayman занимает даже большую площадь (389 мм 2).

Прежде чем углубиться в тонкости Southern Islands, давайте поближе взглянем на основные спецификации Radeon HD 7970 по сравнению с предшественниками и конкурентом.


	Radeon HD 7970	Radeon HD 6970	Radeon HD 6990	GeForce GTX 580
Потоковых процессоров	2048	1536	3072	512
Блоков текстур	128	96	192	64
Блоков растеризации Color ROP	32	32	64	48
Частота шейдерных блоков	925 МГц	880 МГц	830 МГц	772 (1544) МГц
Скорость фильтрации текстур	118.4 ГТекс/с	84.5 ГТекс/с	159.4 ГТекс/с	49.4 ГТекс/с
Частота памяти	1375 МГц	1375 МГц	1250 МГц	1002 МГц
Шина памяти	384-битная	256-битная	2x256-битная	384-битная
Пропускная способность шины памяти	264 Гбит/с	160 Гбит/с	160 Гбит/с	192.4 Гбит/с
Графическая память	3 Гбайт GDDR5	2 Гбайт GDDR5	2 Гбайт GDDR5	1.5-3 Гбайт GDDR5
Площадь чипа	365 мм²	389 мм²	2x389 мм²	520 мм²
Число транзисторов (млрд)	4.31	2.64	5.28	3
Техпроцесс	28 нм	40 нм	40 нм	40 нм
Разъёмы питания	1x8-pin, 1x6-pin	1x8-pin, 1x6-pin	2x8-pin	1x8-pin, 1x6-pin
Максимальная мощность (TDP)	250 Вт	250 Вт	375 Вт	244 Вт
Цена	Рекомендованная цена $549	Цена на сайте Newegg.com $340-$380	$700-$750 (средняя цена на момент окончания продаж)	$500-$530 (версия 1,5 Гбайт) $590-$730 (версия 3 Гбайт)

По сравнению с Radeon HD 6970, новинка имеет явные преимущества: на треть увеличилось количество потоковых процессоров и блоков обработки текстур, пропускная способность памяти возросла на 65% благодаря использованию 384-разрядной шины памяти. Лишь два ряда спецификаций моделей Radeon HD 7970 и HD 6970 совпадают: число блоков растеризации Color ROP и TDP 250 Вт.

Основываясь на этих спецификациях (и том факте, что новая карта будет стоить около $550), мы можем предположить, что Radeon HD 7970 превзойдёт 6970, немного опередит GeForce GTX 580 , но будет уступать двухпроцессорной карте Radeon HD 6990 . Несомненно, сугубо технические характеристики на практике менее важны, чем тесты игровой производительности. Но вначале более подробно остановимся на функциональных особенностях нового поколения видеокарт Radeon и архитектуре Graphics Core Next.

Вначале расскажем о том, что нам известно о серии Radeon HD 7000. Несмотря на слухи об обратном, все 28-нм GPU в линейке Radeon 7000, ранее носившие кодовое название Southern Islands, основаны на архитектуре Graphics Core Next. Она включает серию Radeon HD 7700 (ядро Cape Verde), 7800 (Pitcairn) и 7900 (Tahiti). Кроме того, AMD может включить в новую 7000-ю линейку некоторые продукты на 40-нм чипах, используя ребрендинг старых моделей, в которых используется нынешняя архитектура VLIW4/5.

Реализованные на основе новой архитектуры модели имеют одинаковую функциональность, что является хорошей новостью. На следующем рисунке представлено положение новых карт в линейке относительно серии Radeon HD 6000.

Как вы сможете убедиться по нашим тестам, серия Radeon HD 7900 позиционируется как производительная игровая однопроцессорная карта, приближающаяся по производительности к нынешнему двухпроцессорному флагману - HD 6990. В первом квартале 2012 года должна быть представлена и замена HD 6990 - флагманская модель 7000-й серии, основанная на двух GPU Tahiti, призванная занять верхнее положение в "пищевой цепочке" Radeon.

Теперь мы знаем, какое положение в линейке займут представители серии Radeon HD 7000 в соответствии с планами маркетингового отдела компании AMD. Далее мы подробно остановимся на уникальных особенностях новой линейки, однако начнём с основного вопроса - что представляет собой архитектура Southern Islands?

Graphics Core Next и архитектура Southern Islands

Radeon HD 7970 является первым коммерческим продуктом на архитектуре Graphics Core Next, но дизайн новых GPU сам по себе не является секретом. Чтобы дать разработчикам ПО возможность лучше изучить особенности будущего железа, компания AMD раскрыла особенности архитектуры Graphics Core Next на конференции AMD Fusion’11 Developer Summit, проходившей с 13 по 16 июня в американском городе Белвью.

По словам Эрика Демерса (Eric Demers), технического директора подразделения графических продуктов AMD, ныне существующая архитектура VLIW, берущая начало с линейки Radeon 2000, всё ещё имеет потенциал для построения мощных графических карт. Но она ограничена с точки зрения функциональности. Вместо того, чтобы поддерживать жизнь старой архитектуры, AMD выбрала другой путь - вложиться в разработку полностью новой архитектуры. На первом плане для карт класса hi-end находится поддержка новейших игр и качество изображения. Чтобы соответствовать этой установке, AMD отказалась от дальнейшей работы над архитектурой VLIW (Very Long Instruction Word - "очень длинная машинная команда") в пользу новой Graphics Core Next.

Преимущество в эффективности архитектуры Graphics Core Next

Архитектура VLIW весьма эффективна при обработке графических инструкций. Её компилятор оптимизирован для разметки скалярных математических преобразований, которые лежат в основе вычислений 3D-графики. Слабость VLIW проявляется тогда, когда GPU должен составлять очередь заданий со скалярными инструкциями в приложениях общего назначения.

Иногда происходит так, что набор инструкций, называющийся пакет инструкций (wavefront - "фронт инструкций"), не может выполняться до тех пор, пока производятся вычисления над другим аналогичным набором. Это называется "зависимостями". Проблема в том, что компилятор не может изменить порядок исполнения пакета инструкций после того, как определена очередь заданий. Поэтому драгоценный потенциал ALU часто растрачивается впустую, когда инструкции ожидают своей очереди и не выполнены зависимости, которые к ним относятся.

Перед вами - теоретический пример того, как движок SIMD в архитектуре VLIW4 карты Radeon HD 6970 и его 16 банков шейдерных процессоров (каждый такой процессор имеет по четыре ALU, что даёт в сумме 64 ALU на движок SIMD) обрабатывает пакет инструкций, который включает в себя зависимости.

Пока свободными остаются три ALU, следующий пакет простаивает в очереди. Как видим, налицо неэффективное использование вычислительных ресурсов, обусловленное излишне простой логикой обработки инструкций в устаревшей архитектуре.

Как оптимизировать множество скалярных операций, которые выполняются за такт? Нужно ввести блок вычислений - Copmute Unit или CU, который заменит традиционные для AMD движки SIMD.

Каждый CU имеет по четыре блока векторных операций (Vector Units или VU), которые, в свою очередь, включают по 16 ALU, что даёт в сумме 64 ALU на один блок вычислений. Таким образом, число ALU в блоке вычислений (CU) точно такое же, как в движке SIMD. Разница в том, что в отличие от шейдерных процессоров в движке SIMD, каждый из четырёх блоков векторных операций, входящих в Copmute Unit, может иметь независимую очередь задач. CU имеет собственный планировщик очереди, что позволяет свободным VU работать с новыми пакетами инструкций, исключая "бутылочное горлышко" при обработке зависимостей. Это ключевое отличие новой архитектуры, благодаря которому каждый VU может работать с новыми пакетами инструкций, даже если присутствует очередь зависимостей.

В нашем примере одна и та же очередь инструкций может исполняться за шесть тактов на архитектуре VLIW4, но за четыре такта на Graphics Core Next. AMD предполагает, что Radeon HD 7970 может достигнуть 7,5-кратного увеличения пиковой теоретической производительности относительно Radeon HD 6970 благодаря более эффективному использованию вычислительных ресурсов.

Разница в реальных приложениях зависит от эффективности компилятора программного кода. В некоторых вычислительных задачах Radeon HD 7970 будет лучше исключительно за счёт большего числа ALU и более высоких частот ядра и памяти. В ходе тестирования новинки мы видели много вариаций, их увидите и вы. Но, основываясь на результатах синтетических бенчмарков, можно с уверенностью утверждать, что вычислительный потенциал Graphics Core Next превосходит VLIW4.

СОДЕРЖАНИЕ

Печать

Также интересно:

Dark Sector: Прохождение Глава VIII: Неестественная история

Что делать если на компе нету диска D?

Как откатить или удалить проблемное обновление Windows Откат к предыдущей сборке windows 10

Рекомендуем почитать:

2023-08-11 00:02:15

Оператор для работы с наборами UNION Объединение запросов union

2023-08-11 00:02:15

IBM создала самый мощный в мире компьютер Топ 10 самых мощных компьютеров в мире

2023-08-10 00:03:18

Мы знаем далеко не все: какие социальные сети существуют в интернете Путешествия и отдых

В продолжение темы:

Windows

Компьютеры с процессором intel i5 Конфигурация тестовых стендов

Часть вторая : "Важнейшие характеристики каждого семейства процессоров Intel Core i3/i5/i7. Какие из этих чипов представляют особый интерес" Введение Сначала мы приведём...

Новые статьи