AMD готовит сцену к выходу FX
Какой процессор вам нужен? Двухъядерный? Четырёх? Шести? Во многом ответ зависит от того, как вы используете ПК. Мы выяснили, что большинство игр лучше идут на системах, у которых хотя бы три ядра. Мы знаем, что многие приложения редактирующие видео используют всю вычислительную мощность, которая есть. А многие приложения, ориентированные на продуктивность, вообще не выигрывают от параллельной обработки.
На самом деле, ключ к правильной конфигурации – это баланс. Баланс предотвращает “узкие места” и мы давно являемся его сторонниками (более подробно о балансе можно прочитать в нашей статье “Сбалансированная система для игр: поиск узких мест по производительности GPU и CPU”). И сегодня AMD, как поставщик процессоров и видеокарт, предлагает нам свой сбалансированный вариант.
Но когда маркетинговые слайды, описывающие грядущий флагманский настольный процессор, демонстрируют тенденцию удешевления ПК, можно ожидать, что новые CPU разработаны для дешёвых компьютеров. Не хотелось бы забегать вперёд, но энтузиастам, которые надеялись, что архитектура AMD Bulldozer раздавит Sandy Bridge и будет биться наравне с Sandy Bridge-E, придётся немного остыть. Вместо этого компания нацелена, на ту часть рынка, в которой люди желают потратить на своё “железо” меньше, чем раньше.
Это прекрасная идея, не правда ли? Процессоры Sandy Bridge показали сообществу энтузиастов, что им не требуется процессор за $1000, чтобы получит молниеносную производительность. Чип с разблокированным множителем за $200, способный надёжно работать на частоте 4,5 ГГц, легко оставляет позади процессоры Intel Extreme Edition на архитектуре Gulftown во многих настольных приложениях (даже включая, что более важно, игровые сценарии). Если AMD сможет предложить больше за те же деньги, то возражений от нас (как и от кого-либо другого) вы не услышите.
Встречайте семейство FX
По крайней мере на бумаге линейка процессоров, которые планирует представить AMD, выглядит полной и конкурентоспособной. В линейке FX представлены семь моделей, от FX-8150 до FX-4100. Все они построены на архитектуре AMD Zambezi, произведены на мощностях Global foundries с техпроцессом 32 нм и состоят из примерно двух миллиардов транзисторов. Площадь кристалла 315 мм², что меньше, чем у Thuban (346 мм2), но больше, чем у Deneb (258 мм2). Sandy Bridge, для сравнения, использует кристалл площадью 216 мм2.
Модель | Базовая частота | Частота TurboCore | Макс. частота TurboCore | TDP | Ядра | Общий объём кэша L2 | Общий кэш L3 | Частота северного моста |
FX-8150 | 3,6 ГГц | 3,9 ГГц | 4,2 ГГц | 125 Вт | 8 | 8 Мбайт | 8 Мбайт | 2,2 ГГц |
FX-8120 | 3,1 ГГц | 3,4 ГГц | 4,0 ГГц | 125 / 95 Вт | 8 | 8 Мбайт | 8 Мбайт | 2,2 ГГц |
FX-8100 | 2,8 ГГц | 3,1 ГГц | 3,7 ГГц | 95 Вт | 8 | 8 Мбайт | 8 Мбайт | 2,0 ГГц |
FX-6100 | 3,3 ГГц | 3,6 ГГц | 3,9 ГГц | 95 Вт | 6 | 6 Мбайт | 8 Мбайт | 2,0 ГГц |
FX-4170 | 4,2 ГГц | – | 4,3 ГГц | 125 Вт | 4 | 4 Мбайт | 8 Мбайт | 2,2 ГГц |
FX-B4150 | 3,8 ГГц | 3,9 ГГц | 4,0 ГГц | 95 Вт | 4 | 4 Мбайт | 8 Мбайт | 2,2 ГГц |
FX-4100 | 3,6 ГГц | 3,7 ГГц | 3,8 ГГц | 95 Вт | 4 | 4 Мбайт | 8 Мбайт | 2,0 ГГц |
Портфолио проще всего разбить на восьми-, шести- и четырёхъядерные CPU (что соответствует четырём, трём и двум модулям Bulldozer). Модельные номера позволяют довольно легко идентифицировать количество ядер: FX-8xxx является восьмиядерным процессором, а FX-4xxx – четырёхъядерным продуктом.
После цифры, указывающей на количество ядер, следует код из трёх цифр, скорее всего сообщающий нам относительную производительность в линейке. Она не связана с тактовой частотой, TDP или кэшем L2. Вам просто следует запомнить, что, например, в сегменте FX-8xxx процессор FX-8150 лучше, чем FX-8120, который лучше, чем FX-8100.
У всех процессоры в линейке FX, множитель разблокирован, так что может появиться несколько интересных предложений, в зависимости от того, насколько хорошо процессоры от AMD разгоняются. Помните 2008 год, когда Intel выпустила Nehalem? Энтузиасты массово переходили на процессор Core i7-920, способный работать с частотой 4 ГГц, потому что он был дешёвый. Ещё предстоит увидеть, сможет ли 32 нм техпроцесс Global foundries заработать такую же славу.
AMD попыталась максимально устранить путаницу в названиях в момент объявления, представив всего четыре модели: FX-8150, FX-8120, FX-6100 и FX-4100.
Модель | Базовая частота | Частота TurboCore | Макс. частота TurboCore | TDP | Ядра | Предполагаемая цена |
FX-8150 | 3,6 ГГц | 3,9 ГГц | 4,2 ГГц | 125 Вт | 8 | $245 |
FX-8120 | 3,1 ГГц | 3,4 ГГц | 4,0 ГГц | 125 Вт | 8 | $205 |
FX-6100 | 3,3 ГГц | 3,6 ГГц | 3,9 ГГц | 95 Вт | 6 | $165 |
FX-4100 | 3,6 ГГц | 3,7 ГГц | 3,8 ГГц | 95 Вт | 4 | $115 |
Четверка процессоров FX продолжают ценовую политику линейки Phenom II. То есть AMD FX-4100 по цене $115 накладывается на предыдущее поколение, предоставляя четыре ядра и тактовую частоту от 3,6 до 3,8 ГГц (макс. TurboCore). FX-6100, работая на базовой тактовой частоте 3,3 ГГц с максимальной 3,9 ГГц продаётся за $165. -8120, оснащённый восемью ядрами с базовой частотой 3,1 ГГц и 4 ГГц пиковой частотой TurboCore, ожидается по цене $205. А флагманская модель FX-8150, с тактовой частотой до 3,6 ГГц и максимальной частотой 4,2 ГГц TurboCore, попадёт в розничную продажу по заявленной цене $245.
AMD выслала в нашу тестовую лабораторию только один процессор для тестов: FX-8150. К сожалению, для тестов остальных процессоров придётся немного подождать. У нас пока нет дополнительных деталей относительно того, когда три других процессора FX выйдут на розничный рынок и сколько они будут стоить. Но пока это нас не сильно интересует. Мы получили в тестовую лабораторию самый быстрый процессор, обновили список наших тестовых приложений, учитывая ваши комментарии. Так что давайте приступим.
Поддержка платформы для FX: убедитесь, что это AM3+
Когда AMD запустила свой чипсет 990FX (“Чипсет 990FX: AMD и SLI снова возвращаются”), кроме поддержки Socket AM3+ и nVidia SLI ничего нового мы не получили. Но обновить платформу перед выходом процессоров FX оказалось неплохой идеей. В конце концов, существующие CPU AM3 можно без проблем устанавливать на материнские платы 990F и вместе с тем ваша платформа будет готова к будущему переходу на процессоры Socket AM3+ FX.
Из нашего обзора платформы 990FX: “Чтобы поддерживать функции питания и управления частотами Zambezi, вам потребуется 942-контактный интерфейс Socket AM3+ (AM3b)”.
Если у вас уже есть материнская плата Socket AM3+, то вам потребуется обновить её прошивку с установленным процессором Socket AM3 до перехода на процессор FX. Прошивка обновляет AMD AGESA (AMD Generic Encapsulated Software Architecture) для поддержки архитектуры Bulldozer.
Энтузиасты, которые ещё работают с процессорами Phenom II на базе Thuban или Deneb, возможно не захотят принять обновления BIOS для процессоров FX. Мы слышали от производителей материнских плат, что расширенные изменения AGESA могут негативно повлиять на производительность старых процессоров.
Процессоры FX не будут работать в материнских платах AM3. AMD намеренно заблокировала подобную возможность в BIOS. Что делать, если вы используете материнскую плату 890FX с интерфейсом Socket AM3+? Официально AMD не будет поддерживать такую конфигурацию, хотя материнские платы Socket AM3+/890FX существуют. С совместимостью пока не всё ясно, но для производителя материнской платы, заявившего о поддержке, нет никаких препятствий её реализовать.
В дополнение к чипсету 990FX, AMD также будет поддерживать процессоры Zambezi FX на чипсетах 990X и 970. Конечно, 990FX может поддерживать до четырёх видеокарт через конфигурацию 4 x 8 линий PCI Express 2.0 (или можно использовать два полноценных слота x16). AMD 990X поддерживает до двух дискретных видеокарт через пару слотов x8 (или одну видеокарту через слот x16). С чипсетом 970 вам будет доступен один слот x16 для видеокарты; эта платформа попросту не поддерживает CrossFire.
Поскольку AMD разрабатывает собственные CPU, чипсеты и графические процессоры, то компания способна строить платформы целиком. Два года назад компания представила платформу Dragon, включающую процессоры Socket AM2/AM2+ Phenom II, чипсет 790 и GPU семейства Radeon HD 4000. В прошлом году платформа Leo добавила процессоры Phenom II на базе сокета AM3, чипсеты семейства 890 и видеокарты Radeon HD 5000. В 2011 году платформа Scorpius основывается на процессорах AM3+ FX, любом чипсете семейства 900 и видеокартах Radeon HD 6000.
Разблокированные ядра
Все семь представленных процессоров FX на базе Zambezi используют одинаковые кристаллы. У некоторых процессоров выключен один модуль Bulldozer, у некоторых выключены два. Скорее всего, мы получим примерно ту же самую ситуацию, которую наблюдали с четырёхъядерным процессором AMD Zosma, когда четырёхъядерный дизайн базировался на шестиядерном кристалле, и можно было разблокировать все шесть ядер. Но на этот раз AMD говорит, что такое сделать не получиться. Компания заявила, что заблокировала все способы, которыми можно было бы разблокировать отключённые ядра. Вместо этого AMD увеличивает тактовые частоты процессоров с меньшим количеством ядер, указывая на то, что обратное включение логики могло бы привести к появлению проблем со стабильностью.
С учётом сказанного, два года назад мы тоже слышали, что разблокировать ядра будет невозможно. Однако нам удалось разблокировать ядра у некоторых процессоров Phenom II X3. Мы не будем закрывать этот вопрос, пока производители материнских плат под процессоры FX, не начнут заявлять о том, например, что им удалось превратить FX-4100 во что-то похожее на FX-8150.
Идея архитектуры AMD Bulldozer
Если описывать концепцию Bulldozer одним словом, то это слово должно быть “масштабируемость”. AMD потратила массу усилий на разработку строительных блоков, достаточно маленьких, чтобы их можно было дублировать снова и снова на поверхности кристалла, и способных быстро справляться как с целочисленными вычислениями, так и с расчётами с плавающей запятой. Действительно, инженеры компании подтвердили, что работа над проектом началась с нуля несколько лет назад, когда было решено, что архитектура следующего поколения будет охватывать все рынки: от массовых покупателей до высокопроизводительных серверов.
На момент начала разработки архитектуры Bulldozer AMD понимала, что дни одноядерных процессоров сочтены. И сегодня действительно даже настольные компьютеры начального уровня используют, как минимум, двуядерные CPU. Не случайно оказалось так, что каждый “модуль” на кристалле Bulldozer способен выполнять два потока одновременно.
Концепция Bulldozer начинается с понимания того, что будущее за многопоточными вычислениями…
Сейчас мы все знаем, что существует несколько способов работы с несколькими потоками. С одной стороны находиться многопроцессорность на уровне чипа, которая опирается на грубую силу множества вычислительных ядер на одном кристалле кремния. Воспроизводство этих ресурсов раскрывает максимальный потенциал производительности в хорошо оптимизированных под многопоточность приложениях. Однако такой способ также является самым дорогим с точки зрения ограниченного количества транзисторов.
С другой стороны находиться одновременная многопоточность (Simultaneous multi-threading, SMT), дублирующая ресурсы, необходимые для выполнения инструкций в несколько потоков на одном физическом ядре с минимальными расходами по количеству транзисторов. Если один поток не способен полностью нагрузить все ресурсы ядра, то в работу включается SMT, выжимающая до капли весь его потенциал. Это и делает технология Intel Hyper-Threading. То есть операционная система Windows видит два логических процессора для каждого физического ядра, однако прирост производительности в реальных приложениях намного скромнее.
Вот почему AMD была недовольна чипами Intel с технологией Hyper-Threading, чётко разграничивая физические и логические ядра. В наших собственных тестах мы не раз видели, что дешёвый четырёхъядерный Phenom II обгонял двуядерный Core i3 с поддержкой Hyper-Threading в многопоточных тестах WinRAR или 7-Zip, которые работают на физических ядрах более эффективно.
Что такое ядро?
Но теперь AMD собирается прыгнуть выше головы, так как модуль Bulldozer не содержит два полноценных физических ядра. Вместо этого, некоторые ресурсы, которые у обычных исполнительных ядер являются собственными, у модулей Bulldozer отданы в общее пользование двум ядрам, включая этапы выборки инструкций и декодирования, блоки работы с плавающей запятой и кэш L2.
По словам ведущего инженера-разработчика Bulldozer, Майка Батлера (Mike Butler), такой подход оправдан, потому что традиционные ядра, работающие в окружениях с ограниченным энергопотреблением, не оптимально используют тепловой запас. В этом есть смысл; когда вы пытаетесь засунуть как можно больше ядер в сервер, то лучше в первую очередь настроить сервер в пользу ресурсов, которые будут использоваться чаще всего, и предотвратить “съедание” места/энергии компонентами, которые можно сделать общими без особого ущерба для производительности.
…но одновременная оптимизация под производительность и энергопотребление заставила сделать некоторые ресурсы общими
Решение об общем использовании начинает плохо проявляться, когда обеим потокам требуются одинаковые ресурсы, и в этот момент производительность заметно падает по сравнению с многопроцессорностью на уровне чипов. Но AMD оптимистична: в августе прошлого года, когда компания начала разглашать некоторые детали об архитектуре на конференции HotChips, предполагалось, что модуль Bulldozer может обеспечивать производительность, в среднем, до 80% от уровня двух полных ядер, с минимальными затратами пространства кристалла. В результате, в окружениях с интенсивной многопоточной нагрузкой, процессор на архитектуре Bulldozer должен обеспечивать серьёзное увеличение эффективности.
Это также означает, что AMD пришлось переопределить основы ядра. Компания утверждает, что для лучшей согласованности с модулями Bulldozer, всё, что содержит собственный целочисленный конвейер является ядром (неудивительно, правда?), хотя бы по тому, что большая часть вычислительной нагрузки процессора как раз и представляет собой целочисленные вычисления. У нас с такой формулировкой проблем не возникло. Но если совместное использование ресурсов всё же негативно повлияет на производительность в расчёте на такт, то AMD придётся больше рассчитывать на повышение тактовых частот или более активное продвижение многопоточности, чтобы это компенсировать. Запомним это, на будущее.
Учимся разделять
Конечно, разработчики AMD тщательно продумали, какие части можно сделать общими, при этом учитывая энергопотребление и эффективность. Например, если произойдёт ошибка прогнозирования ветвления, то препроцессор обычного ядра нужно очистить, что приведёт к потере пропускной способности и энергии. Разделение этого блока между двумя ядрами помогает улучшить эффективность использования данных ресурсов. AMD также попыталась найти области, которые компания могла “позволить”себе сделать общими, не увеличивая задержки на критически важных путях, в итоге в совместное пользование был выделен диспетчер работы с плавающей запятой, который не так чувствителен к задержкам, как целочисленные блоки.
Для операционной системы получившийся модуль кажется парой ядер, наподобие двух логических ядер Hyper-Threading. AMD вполне естественно отметает идею того, что Bulldozer будет вести себя наподобие Hyper-Threading (или SMT), заявляя, что этот дизайн обеспечивает лучшую масштабируемость, чем два потока, разделяющие одно физическое ядро. Опять же, это имеет смысл – модуль Bulldozer нельзя назвать одним ядром, поскольку многие вычислительные ресурсы, по сути, дублированы.
Но это подвигает нас к рассуждениям на тему отношения аппаратного обеспечения AMD и программного обеспечения, которое будет постоянно на нём работать. Недавно мы поднимали тему о специфических оптимизациях в Windows 7, которые явились следствием сотрудничества Intel и Microsoft – особенно мы подчеркиваем парковку ядер. Перед тем, как использовать логические ядра (Hyper-Threading) Windows 7 выполняет интеллектуальную диспетчеризацию на физические ядра.
В теории, AMD могла бы выиграть от этого же преимущества. Если Windows сможет использовать сначала четыре модуля FX-8150, а уже потом нагружать второе ядро каждого модуля, то мы получим максимальную производительность на четырёх одновременно работающих потоках. Однако всё происходит не так. По словам Аруна Кишана (Arun Kishan), инженера по программному дизайну Microsoft, каждый модуль на данный момент определяется как два ядра, и назначается наравне с другими. Поэтому в приложении с двумя потоками мы можем получить один активный модуль и три бездействующих модуля – это хорошо для экономии энергии, но уже не так хорошо с точки зрения производительности. Также это расходится с заявлением AMD о том, что в случае одного активного потока, оно имеет полный доступ ко всем общим ресурсам. Добавление всего одного дополнительного потока может нагрузить эти общие ресурсы, даже если множество других модулей будут бездействовать.
Однако Microsoft ищет способ изменить данное поведение в будущем. Арун сказал, что характеристики производительности двухъядерных модулей ближе к SMT, чем к физическим ядрам, поэтому компания собирается определять их и рассматривать точно так же, как Hyper-Threading, в будущем. Последствия должны быть впечатляющими. Производительность, несомненно, увеличится, но усилия AMD по отключению бездействующих модулей окажутся менее эффективными.
Всё довольно сложно. Учитывая, что производительность сегодня более важна. Так что давайте разбираться…
Общий препроцессор и два целочисленных ядра
Общий препроцессор
Как мы уже упоминали, этапы выборки инструкций и декодирования в Bulldozer являются общими для обоих ядер. AMD использовала чередующуюся многопоточность, чтобы отслеживать ID каждой инструкции “на лету”, решать, какому потоку сильнее всего требуется выполнение работы, и исполнять операцию от имени этого потока. Причём архитектура может переключаться между потоками по тактам, чтобы поддерживать работу для обоих потоков.
AMD на самом деле отделила блок прогнозирования ветвлений от этапа выборки инструкций, позволив ему забегать вперед, независимо от любых задержек, которые возникают в конвейере выборки. Более важно, как утверждает AMD, здесь то, что разделение этих компонентов позволяет реализовать функцию под названием “предварительная выборка инструкций на основе прогнозирования”, которая отличается высоким уровнем точности и эффективности в плане энергопотребления.
Прогнозирование ветвления подкреплено буфером ветвлений (BTB) L1 на 512 записей и буфером L2 на 5000 записей. Этот конвейер отвечает за заведомое прогнозирование, чтобы заполнять очередь будущей выборки инструкций, а также поддерживает её в заполненном состоянии. На самом деле, поддерживаются две очереди – по одной на каждый поток – что обеспечивает постоянную работу. Конвейер выборки инструкции будет получать адреса инструкций из очереди прогнозирования.
Эти адреса направляются в кэш инструкций (два пути, 64 кбайт) конвейера выборки, являющийся общим для двух потоков (потоки динамически конкурируют за доступ к этому кэшу). Затем очередь выборки Bulldozer отправляет инструкции x86 на конвейер декодирования, состоящий из четырёх декодеров x86, которые в свою очередь отвечают за диспетчеризацию до четырёх операций за такт на блоки планирования.
Если происходит промах (то есть инструкция не доступна в кэше инструкций), отправляется запрос в кэш L2, который при необходимости перенаправляется в оперативную память. Как вы понимаете, это приведёт к серьёзной задержке. Поэтому во время выполнения данного запроса, происходит проверка уже выбранных адресов в очереди прогнозирования, будут они запрашиваться или нет. Если с ними тоже произошёл промах, то к кэшу L2 отправляется следующий запрос параллельно с извлечением из памяти первой инструкции, перекрывая запросы пропавших инструкций.
Два целочисленных ядра
Из препроцессора декодированные операции проходят дальше на одно из двух независимых целочисленных ядер, где происходит полностью внеочередное выполнение. Каждое из двух ядер оснащено двумя исполнительными блоками и двумя блоками генерации адресов.
Каждое ядро использует собственные 16 кбайт кэша предсказанных данных L1. Более того, оба ядра включают буферы быстрого преобразования адреса (TLB) L1 на 32 записи, опирающиеся на буфер TLB L2 с восемью путями из 1024 записей, который уже общий для двух ядер. Наконец, каждое из двух целочисленных ядер использует внеочередные блоки загрузки/сохранения, способные выполнять две 128-битных загрузки за такт или одно 128-битное сохранение за такт.
Один FPU, производительность AVX, и L2
Два ядра, один FPU
Общий модуль операций с плавающей запятой (FPU) оделён от двух целочисленных конвейеров. Поэтому когда операции достигают интерфейса диспетчеризации в конце конвейера декодирования, чтобы направиться на целочисленные блоки, все операции с плавающей запятой из этого потока переходят на планировщик работы с плавающей запятой. Там они конкурируют друг с другом за ресурсы и пропускную способность независимо от потока, к которому они принадлежат.
Как можно видеть на диаграмме ниже, логика AMD работы с плавающей запятой отличается от целочисленной логики. Её цель заключается только в исполнении; она сообщает о завершении работы и информации об исключениях обратно на родительское целочисленное ядро, которое отвечает за изъятие инструкций.
Модуль с плавающей запятой содержит два конвейера MMX и пару 128-битных объединённых блоков умножения-накопления (fused multiply-accumulate, FMAC). Конвейеры FMAC поддерживают инструкции с четырьмя операндами, что даёт неразделяемый результат. Intel планирует добавить формат с тремя операндами в микро-архитектуре Haswell (которая последует за Ivy Bridge). AMD утверждает, что будет поддерживать FMA3 в преемнике Bulldozer под названием Piledriver, который ожидается в 2012 году.
Всякий раз, когда мы видим, что производители объявляют такие расходящиеся планы, нам становиться интересно, как это повлияет на разработчиков. Поэтому мы спросили у Адриана Силаси (Adrian Silasi) из SiSoftware, чего он ожидает в будущем, и он отметил, что вряд ли большинство разработчиков захотят реализовывать три пути кода (один только для AVX, ещё один для AVX плюс FMA3, и ещё один для AVX плюс FMA4). Это имеет смысл. И если учесть, что немногие приложения сегодня поддерживают AVX и ни одно из приложений не поддерживает FMA, AMD следует подумать о том, чтобы качественно поддержать все три пути, когда Piledriver выйдет в свет.
Но более важен вопрос, насколько хорошо Bulldozer поддерживает инструкции AVX по сравнению с Intel? Sandy Bridge выдаёт две 256-битные операции AVX за такт, а Bulldozer обеспечивает только одну.
В преддверии выхода мы начали разговор с Ноелом Бортвиком (Noel Borthwick), талантливым музыкантом и главным техническим директором компании Cakewalk, Inc., о работе его компании по оптимизации Sonar X1 под AVX. Согласно докладу, соавтором которого является Ноел, поддержка инструкций AVX помогает снизить программную нагрузку, связанную с выполнением преобразований битовой глубины звука, при его потоковой передаче и буферизации для отображения диаграммы воспроизведения, рендеринга или микширования. Распространённые преобразования включают перевод из 24-битного целочисленного формата в 32-битный формат с плавающей запятой или 64-битный формат с двойной точностью, а также перевод из 32-битного формата с плавающей запятой в 64-битный формат с двойной точностью.
С этой целью Ноел выслал нам тестовую программу, которая сравнивает выполнение двух процедур Cakewalk, оптимизированных под AVX, с неоптимизированное версией. AMD и Intel тоже получили доступ к данному тесту, поэтому результаты не должны удивить обе компании.
Архитектура | Операция | Результат (Прирост/потеря тактов CPU) |
AMD Bulldozer | Копирование Int24 в Float64 | 61% прирост |
AMD Bulldozer | Копирование Float32 в Float64 | 77% потеря |
Intel Sandy Bridge | Копирование Int24 в Float64 | 69% прирост |
Intel Sandy Bridge | Копирование Float32 в Float64 | 14% прирост |
В операции копирования формата Int24 в Float64 процессор Intel Core i7-2600K показывает 69% прирост производительности, AMD FX-8150 обеспечил не менее впечатляющий прирост 61%. Что на самом деле означает слово “прирост”? Мы говорим о тактах CPU, количество которых поддержка AVX помогает снизить, увеличивая таким образом потенциальную пропускную способность процессора. Выражаясь другими словами, архитектура Sandy Bridge урезала количество потребовавшихся тактов в 1,69 раза, а Bulldozer уменьшила их количество в 1,61.
С другой стороны, в операции копирования формата Float32 в Float64, процессор Core i7-2600K смог обеспечить 14% прирост, в то время как FX-8150 показал 77% потери. Если попытаться объяснить эту потерю, то, кажется, что встроенные средства Visual Studio 2010 не оптимизированы под архитектуру AMD. В любом случае, требуется патч приложения или пакет обновления Visual Studio.
Перейдя к результатам Sandra 2011, вы увидит, что поддержка AVX действительно помогает FX-8150 увеличить целочисленную производительность и производительность с плавающей запятой. Однако Sandy Bridge просто получает намного больший прирост по производительности работы с плавающей запятой в этом тесте.
Как раз перед завершением тестирования AMD выслала нам две версии x264, программной библиотеки, которая работает внутри таких внешних интерфейсов, как HandBrake (вы скоро увидите наши тесты последней версии HandBrake). Однако данная сборка библиотеки имеет поддержку инструкций AVX и XOP, причём последние являются эксклюзивной особенностью архитектуры AMD.
Мы модифицировали тест Tech ARP x264 HD Benchmark 4.0 для использования каждого нового кода, а также запустил CPU-Z 1.58 для вывода системной информации. Потом мы запустили тесты обоих оптимизированных кодов на FX-8150, а также оптимизированной под AVX версии на Core i5-2500K.
Результаты кода AMD AVX и XOP довольно близки. Intel смогла закончить первый проход быстрее, но AMD обеспечила лучшую производительность на втором проходе.
Теперь учтите, что тестов, оптимизированных под AVX, очень мало. Разработчикам надо проделать немало работы, прежде чем мы получим более ясную картину о том, как поддержка инструкций AVX сказывается на каждой архитектуре.
Делим L2
Мы уже упомянули, что TLBL2 помогает процессору работать с инструкциями (со стороны препроцессора) и запросами данных (со стороны целочисленных ядер). Но также есть унифицированный кэш L2, который совместно используют оба ядра. Объём кэша составляет 2 Мбайт на модуль, что даёт в сумме 8 Мбайт кэша L2 для процессора семейства FX-8000 с четырьмя модулями.
AMD утверждает, что блок предварительной выборки данных Bulldozer подвергся серьёзной переделке, поскольку теперь он работает с обоими ядрами.
Производительность на ядро
Есть действительно хорошая причина того, почему мы тестируем процессор в реальных приложениях. И при этом результаты разных тестов часто отличаются. Эти отличия позволяют нам понятно объяснять причины разной производительности. Потенциал каждого ядра процессора определяется количеством инструкций, которые он может выполнять в расчёте на такт, и его тактовой частотой.
Мы можем в какой-то степени изолировать IPC (количество инструкций, выполняемых за такт), сравнивая разные архитектуры на одинаковой тактовой частоте и используя приложения, разработанные для одного потока. Именно это мы и сделали в статье “Sandy Bridge: Intel Core второго поколения”, чтобы определить, насколько эффективно Intel удалось улучшить рейтинг IPC архитектуры Sandy Bridge.
Инженеры AMD утверждают, что в архитектуре Bulldozer их целью было “удержать планку” по IPC и создать процессор, который хорошо масштабировался бы по тактовым частотам. Учитывая всё то, что мы уже знаем о спецификациях FX-8150, существенно более высокие частоты реализованы не будут, поэтому перед тем, как мы перейдём к каким-либо тестам, сделаем предположение о примерно равном рейтинге IPC и сравнимых тактовых частотах. И будем надеяться, что мы получим лучшую масштабируемость на множестве ядер, если Bulldozer надеется обойти Phenom II X4 980 на 3,7 ГГц или Phenom II X6 1100T с поддержкой TurboCore.
Мы запустили однопоточную версию теста iTunes на процессорах Core i7-2600K (функции Hyper-Threading, SpeedStep и TurboBoost отключены), Phenom II X6 (Cool’n’Quiet и TurboCore отключены) и FX-8150 (Cool’n’Quiet и TurboCore отключены) на частоте 3,3 ГГц. Видно, что Intel в расчёте на ядро выполняет существенно больше работы на такт по сравнению с Phenom II X6 1100T, который, в свою очередь, обгоняет FX. Мы наблюдаем ту же самую картину и в Lame, другом однопоточном тесте.
Джон Фруе (John Fruehe), маркетинговый директор продукции AMD для серверов, утверждает, что ему не нравятся сравнения производительности в расчёте на ядро для серверов, поскольку они намеренно показывают превосходство Intel. Мы полностью согласны с точкой зрения Джона для серверного мира. В этой сфере более важную роль играют производительность на ватт и производительность на доллар. Что же касается настольных ПК, то здесь по-прежнему достаточно много однопоточных нагрузок и приложений, слабо использующих многопоточность, для которых производительность в расчёте на ядро по-прежнему очень важна (тем более, что результаты показывают, что был сделан шаг назад).
Уже на раннем этапе, у нас есть предположение, для какой цели лучше всего подойдёт архитектура Bulldozer…
Управление энергопотреблением
Каждый модуль Bulldozer работает в собственном домене частот, то есть разные модули могут работать на разных частотах одновременно. Данная функция является новой по сравнению с Phenom II, у которого все ядра работали на одинаковой частоте (хотя и имели несколько промежуточных p-состояний, которые они могли произвольно выбирать). Однако AMD уже пыталась реализовать подобный подход с оригинальным процессором Phenom.
Если вы помните, относительно давно разные домены частот вызывали проблемы с процессорами Phenom под Windows Vista при включении функции Cool’n’Quiet. Из-за процесса под названием миграция, диспетчер переносил потоки между ядрами, пытаясь обеспечить симметричное распределение под нагрузкой. Зачем? Ответ в статье, посвящённой выходу Intel Lynnfield:
“Необходимо поддержать симметричность системы под полной нагрузкой, чтобы производительность ввода/вывода не зависела только от одного ядра. Если выполнять ротацию потоков между ядрами, работающими с полной производительностью (принцип уже не срабатывает с ядрами в режиме бездействия), то вы получите лучшую отзывчивость.
Эта реализация была выбрана ещё во время разработки ядра Microsoft Windows NT, и если опираться на опыт работы с продукцией обоих поставщиков процессоров, то она не считалась “особенностью” ни у одной из компаний. Конечно, на Intel это повлияло совсем по-другому, чем на AMD. В случае Intel под Vista возникали проблемы с энергопотреблением. Для каждой миграции нужно синхронизировать кэш L3 архитектуры Nehalem, что требовало энергии.
Ситуация изменилась на Windows 7 и функцию назвали “идеальное ядро”. Если нужды задачи удовлетворяются одним ядром, то операционная система оставит выполнение за ним. Для Intel это означает две вещи:во-первых, не нужно тратить энергию на миграцию, а во-вторых ядра в режиме бездействия будут оставаться в состоянии C6. Предположительно, подобное исправление миграции позволит выжать ещё 10-15 минут автономной работы на ноутбуках на основе Nehalem, хотя проблема не такая существенная до появления двуядерных Arrandale в конце этого года. Возможно, более интересным является тот факт, что процессоры без C6 не смогут выиграть от этой функции (включая процессоры AMD).”
Так что если дизайн Phenom немного обогнал своё время, учитывая недостатки планировщика Vista, Windows 7 должна справиться с дизайном AMD более элегантным образом. Но даже учитывая это, Ларри Хьит (Larry Hewitt), главный инженер SoC Zambezi, Interlagos и Valencia, утверждает, что время разгона Bulldozer с минимального p-состояния меньше, чем на Phenom.
Естественно, нам захотелось проверить утверждение Ларри в тестах. На графике выше вряд ли заметно, но как мы и ожидали, у Phenom II, у которого была решена проблема миграции переводом всех ядер на одинаковую частоту, мы не наблюдаем разницы по производительности в PCMark 7 не зависимо от того активна технология Cool’n’Quiet или выключена. То же самое касается и процессора FX-8150, подтверждая, что Zambezi и Windows 7 ведут себя хорошо. Однако действительно интересно здесь то, насколько эффективны оказались оптимизации энергопотребления архитектуры Bulldozer. Синяя и зелёная линии на графике соответствуют процессорам FX и Phenom II X6 с включённой технологией CnQ. Чёрная и красная линии – этим же чипам, но уже с выключенной CnQ (опять же соответственно).
Мы обнаружили, что процессор Phenom II X6 потребляет, в среднем, 204 Вт энергии системы при выключенной функции CnQ и 191 Вт с включённой функцией – разница 13 Вт. С активной функцией CnQ процессор FX-8150 показал такой же средний уровень энергопотребления в 191 Вт, но значение подскочило до 240 Вт при отключении этой функции. В среднем, технология CnQ позволила снизить энергопотребление на впечатляющие 49 Вт во время нашего тестового прогона, без негативного влияния на производительность!
Встроенный комплекс северного моста и кэша L3 работает в собственном домене частот. К тому же, у него свой домен энергопотребления. Управление энергопотреблением, которое было представлено Intel в дизайне Nehalem, но реализовано AMD только в дизайнах APU на основе Llano, предположительно очень активно используется в данном чипе, чтобы минимизировать утечки в тех частях, которые не используются.
Как и в случае Llano, чипы на базе Zambezi/Valencia/Interlagos поддерживают состояние Core C6, в котором кэш модуля Bulldozer “слит”, его содержимое сбрасывается обратно в оперативную память, а напряжение с кэша снимается. В итоге для каждого модуля, который уходит в сон, значительно снижаются энергопотребление и тепловыделение. Всё это вдвойне выгодно в контексте функции миграции Windows 7, о которой мы недавно упоминали, благодаря которой бездействующие модули Bulldozer смогут оставаться в таком состоянии дольше (это происходит на уровне модуля, а не ядра).
Поддержка C1E для AMD не является новшеством, но она тоже улучшена в том, что теперь все модули Bulldozer могут отключаться от питания, когда северный мост, каналы HyperTransport и DRAM уходят в состояние с очень низким энергопотреблением.
Включение TurboCore
Когда AMD запустила свой процессор Phenom II X6 1090T, то представила функцию под названием TurboCore. Которая предполагалась как ответ технологии Intel TurboBoost, способную получать выгоду из доступного TDP в задачах, не оптимизированных под многопоточность (в которых другие ядра просто бездействовали), для увеличения тактовой частоты.
Как вы знаете, функция TurboBoost (от Intel) использует контроллер, встроенный в кристалл, который оценивал температуру, ток, энергопотребление и состояния операционной системы. С учётом всей этой информации, контроллер мог отключать ядра в режиме бездействия, освобождая температурный потенциал для ускорения активных ядер. Степень ускорения зависела от того, сколько ядер использовалось. Очевидно, что в однопоточных приложениях доступный бюджет для увеличения тактовой частоты оказывался наиболее широким. В результате мы получали своеобразную карту увеличения частот, которая масштабировала вверх и вниз в зависимости от степени параллельной нагрузки любого приложения.
Turbo Boost: доступный прирост (в пределах TDP/A/Temp) | |||||
Процессор | Частота | 4 активных ядра | 3 активных ядра | 2 активных ядра | 1 активное ядро |
Core i7-870 | 2,93 ГГц | 2 | 2 | 4 | 5 |
Core i7-860 | 2,8 ГГц | 1 | 1 | 4 | 5 |
Core i5-750 | 2,66 ГГц | 1 | 1 | 4 | 4 |
Core i7-975 | 3,33 ГГц | 1 | 1 | 1 | 2 |
Core i7-950 | 3,06 ГГц | 1 | 1 | 1 | 2 |
Core i7-920 | 2,66 ГГц | 1 | 1 | 1 | 2 |
Для сравнения, TurboCore (функция AMD), была представлена как детерминистическая функция, которая включалась в нагрузках со слабым использованием многопоточности, когда активны были три или меньше ядер, или вообще не включалась, если нагружалось больше трёх ядер. На практике всё оказалось не так просто, как описывала AMD. В обзоре “AMD Phenom II X6 1090T и платформа 890FX: встречаем Leo” мы наблюдали, как ядра “перепрыгивали” на разные тактовые частоты, в действительности так и не достигнув заявленного топового уровня TurboCore. В результате прирост производительности, связанный с TurboCore, оказался более скромным, чем мы ожидали.
К счастью, AMD утверждает, что компании удалось внести некоторые изменения в технологию Bulldozer, которые должны повысить эффективность по сравнению с Thuban.
FX реализует TurboCore немного по-другому
Application Power Management (APM) описывает возможность Zambezi/Valencia/Interlagos отслеживать (в реальном времени) количество энергии, потребляемой каждым ядром. Но вместо измерений температуры или тока учитывается активность каждого модуля Bulldozer. AMD знает, сколько энергии требует каждая операция и может оценивать уровень энергопотребления для каждого модуля в любой момент времени. Быстрое сравнение реального энергопотребления и максимального TDP позволяет оценить, есть или нет доступный потенциал для увеличения производительности. Если взять пример с приложением, которое не нагружает все ресурсы процессора, то TurboCore может перескакивать между базовой частотой процессора и более высокой тактовой частотой, чтобы обеспечить более высокую производительность в целом при заданном уровне TDP.
Функция TurboCore не ограничена просто базовой и произвольными более высокими тактовыми частотами. Фактически, она реализуется через три p-состояния: базовое (описывается как P2), промежуточное (P1) и более высокое (P0). Перед нами заметное улучшение перед версией TurboCore первого поколения, которая, как утверждает AMD, могла переключаться только между двумя p-состояниями. И это тоже важно, потому что вы можете переходить в состояние P1 со всеми восемью активными ядрами, насколько позволяет запас. Для перехода в P0 требуется, как минимум, бездействие двух модулей из четырёх. AMD позволяет чипу незамедлительно превысить максимальный тепловой пакет, но, конечно, уже не сможет удерживать данный термальный режим продолжительное время.
По существу, когда вы смотрите на спецификации процессора FX и видите базовую частоту CPU Base, частоту CPU TurboCore и частоту CPU Max. Turbo, вы гарантированно получите по крайней мере базовую частоту. Частоту TurboCore вы увидите в тех случаях, когда позволяет TDP (то есть при интенсивной многопоточной нагрузке? не превышающей тепловой порог процессора). А если половина ядер чипа простаивают, то возможно получить максимальную частоту TurboCore.
На верхней диаграмме мы наблюдает эффект TurboCore в однопоточном приложении iTunes. Поскольку семь ядер из восьми в тесте бездействуют, то FX-8150 может увеличивать свою тактовую частоту до 4,2 ГГц (однако эта частота не удерживается постоянно, процессор, скорее, “скачет” между состояниями P1 и P0, или 3,9 и 4,2 ГГц). В итоге мы получили на 10 секунд меньшее время кодирования, чем при выполнении того же самого теста на штатной тактовой частоте 3,6 ГГц.
На следующей диаграмме приведены результаты 7-Zip, более оптимизированного под многопоточность приложения, которое способно задействовать все ресурсы FX-8150. Но и здесь вы не получите постоянного уровня 3,9 ГГц. С включением TurboCore, FX-8150 начинает колебаться между 3,9 и 3,6 ГГц (против штатной тактовой частоты 3,6 ГГц при отключённой функции). В результате мы получаем довольно скромное двухсекундное ускорение. Но всё же следует ценить данный “бесплатный” прирост производительности, который вы не получили бы с технологией TurboCore первого поколения, ограниченной двумя p-состояниями.
Планы AMD до 2014 года
Судя по тому, что показал Bulldozer сегодня, вполне очевидно, что AMD не смогла раскрыть всех поставленных целей в этой архитектуре. Однако компания утверждает, что намерена производить новую версию ядра Bulldozer каждый год.
Помните, что подход AMD несколько отличается от подхода Intel, которая совершает важную архитектурную ревизию, затем улучшение технического процесса производства, затем новую архитектурную ревизию. Вместо этого AMD просто предсказывает прирост производительности на 10-15 процентов на ядро с каждым последующим поколением, благодаря улучшениям IPC, энергопотребления, задержек и частоты.
В 2012 году компания планирует запустить Piledriver, который должен принести архитектуре ряд улучшений по IPC и энергопотреблению. И новым продуктом, содержащим улучшения Piledriver, станет APU AMD Trinity, который мы уже видели на форуме IDF. Позднее он превратится в 32 нм преемника нынешней настольной версии Zambezi. Как Piledriver сможет получить свой прирост на 10-15 процентов? AMD утверждает, что треть прироста будет связана с улучшениями IPC, такими как увеличение размера структур (то есть от трёх до пяти процентов), а две трети будут связаны с оптимизациями энергопотребления, которые снизят энергопотребление чипа, позволив ему работать на более высоких тактовых частотах при прежнем TDP (ещё 6-10 процентов).
AMD не даёт более конкретной информации о том, как она планирует выжать от 10 до 15 процентов в дизайнах Steamroller или Excavator, говоря только о том, что компания видит потенциал и уверена в приросте производительности.
Встречайте AMD Zambezi, Valencia и Interlagos
AMD использует один и тот же кристалл для настольных, серверных 1-2P и серверных 1-4P процессоров под кодовым названием Zambezi, Valencia и Interlagos, соответственно. Конечно, это не новый подход; AMD и Intel часто используют один и тот же кристалл на различных рынках.
Первое воплощение новейшей микроархитектуры AMD включает в себя четыре модуля Bulldozer, использующие восемь ядер. Вы легко сами сможете посчитать все жизненноважные характеристики чипа: 128 кбайт кэша L1 для данных в сумме (16 кбайт на ядро x8), 256 кбайт кэша L1 для инструкций (64 кбайт общего кэша на модуль x4), а также 8 Мбайт кэша L2 (2 Мбайт на модуль x4).
Также на кристалле есть 8 Мбайт общего кэша L3, поделённого на четыре блока по 2 Мбайт. Мы редко видим соотношение 1:1 между L2 и L3. Но AMD утверждает, что подобная структура кэша является результатом моделирования производительности, которое показало оптимальную производительность. Более того, AMD утверждает, что хотя кэш L3 слабо влияет на производительность настольных ПК, на серверы он оказывает более существенное воздействие.
Если вернуться на одно поколение назад, то у процессора Phenom II было по 512 кбайт кэша L2 на ядро и общий кэш L3 объёмом 6 Мбайт. Sandy Bridge использует 256 кбайт кэша на ядро и до 8 Мбайт общего кэша L3. Такая пирамидальная архитектура идеально подходит для максимально быстрого заполнения каждого уровня. Поэтому, несмотря на заверения AMD, что Bulldozer организован правильно, 8 Мбайт кэша L2 в сумме и 8 Мбайт общего кэша L3 не вписываются в рамки того, что мы ожидали увидеть.
Ключевое отличие в том, что кэш L3 у Bulldozer эксклюзивный (как и у Phenom II), а кэш у Sandy Bridge инклюзивный. То есть процессор Bulldozer не хранит данные в кэше L2 и L3 одновременно. В итоге кэш FX может хранить больше данных – хотя информация в кэше L3 находится дальше от ядер.
Встроенный северный мост Bulldozer, отвечающий за связь между кэшем L3, обоими 72-битными каналами памяти DDR3 и четырьмя 16-битными каналами HyperTransport находиться между двумя частями кэша L3 2 Мбайт. В случае настольных процессоров северный мост работает на частоте до 2,2 ГГц. У серверных процессоров частота работы составляет 2,0 или 2,2 ГГц.
Как можно видеть из схемы блока, очередь системных запросов и кросс-контроллер северного моста отвечают за транзакции с модулями Bulldozer, проверкой кэша L3, направлением запросов на контроллер памяти, а также отсылкой данных обратно на модуль, который их запросил. В дополнение к этим подсистемам, северный мост также обрабатывает транзакции от чипсета и других сокетов CPU (в многопроцессорных конфигурациях).
Zambezi
Все настольные процессоры на архитектуре Bulldozer объединены в линейке Zambezi. AMD сделала их совместимыми с Socket AM3+. Опять же, она не поддерживает платформы AM3. Сокет AM3+ добавляет поддержку новых точек для подачи напряжения на CPU, более высоких токов для более скоростных каналов HyperTransport, а также и для более скоростной памяти.
Для Zambezi и Valencia подходит одна диаграмма
Таким образом, если настольные процессоры предыдущего поколения официально поддерживали, максимум, DDR3-1333, Zambezi поддерживает два канала памяти до DDR3-1866. Канал HyperTransport тоже получил ускорение, от 2 ГГц (4 GT/s) до 2,6 ГГц (5.2 GT/s).
Valencia
Процессор Valencia нацелен на одно- и двухпроцессорные серверы. Конечно, перед нами тот же самый кристалл кремния, что и Zambezi, только инфраструктура другая.
AMD позиционировала процессоры в качестве сокетной замены 45-нм процессоров Opteron 4000 на дизайне Lisbon. Поэтому существующие материнские платы на Socket C32 смогут поддерживать чипы после обновления BIOS.
Valencia поддерживает тот же двухканальный контроллер памяти, что и Zambezi, но из-за ориентации на корпоративный рынок теперь добавляются нерегистровые DIMM, регистровые DIMM и модули LR-DIMM со сниженной нагрузкой на частоте до DDR3-1600. Три канала HyperTransport работают со скоростью до 6,4 GT/s, что ускоряет передачу трафика между сокетами.
Interlagos
Хотя многие источники назовут Interlagos 16-ядерным процессором, на самом деле это многочиповый модуль с двумя кристаллами, который нацелен на серверы с числом сокетов от одного до четырёх. То есть это очень похожая восьмиядерная система на чипе (SoC), соединённая с дополнительным кристаллом через канал HyperTransport, а снаружи у неё четыре внешних канала HyperTransport, работающих на скорости до 6,4 GT/s для таких устройств, как чипсеты.
Interlagos: многочиповый модуль
В комбинации из двух кристаллов предоставляется до 16 Мбайт кэша L2 и L3, а также четыре канала памяти, которые могут работать с нерегистровыми DIMM, регистровыми DIMM и LR-DIMM со сниженной нагрузкой на частоте до DDR3-1866.
Это сокетная замена для 45-нм процессоров Opteron серии 6000 на основе Magny-Cours. То есть у материнских плат на Socket G34 после обновления BIOS не должно возникнуть проблем с распознанием процессоров Interlagos.
Конфигурация и тесты
Тестовая конфигурация | |
Процессоры | AMD FX-8150 (Zambezi) 3,6 ГГц (18 х 200 МГц), Socket AM3+, 8 Мбайт общего кэша L3, Turbo Core активна, функции энергосбережения активны AMD Phenom II X4 980 BE (Deneb) 3,7 ГГц (18,5 x 200 МГц), Socket AM3, 6 Мбайт общего кэша L3, функции энергосбережения активны AMD Phenom II X6 1100T (Thuban) 3,3 ГГц (16,5 x 200 МГц), Socket AM3, 6 Мбайт общего кэша L3, Turbo Core активна, функции энергосбережения активны Intel Core i7-2600K (Sandy Bridge) 3,4 ГГц (34 x 100 МГц), LGA 1155, 8 Мбайт общего кэша L3, Hyper-Threading активна, Turbo Boost активна, функции энергосбережения активны Intel Core i5-2500K (Sandy Bridge) 3,3 ГГц (33 x 100 МГц), LGA 1155, 6 Мбайт общего кэша L3, Turbo Boost активна, функции энергосбережения активны Intel Core i7-920 (Bloomfield) 2,66 ГГц (20 x 133 МГц), LGA 1366, 8 Мбайт общего кэша L3, Hyper-Threading активна, Turbo Boost активна, функции энергосбережения активны |
Материнские платы | Asus Crosshair V Formula (Socket AM3+) чипсет AMD 990FX/SB950, BIOS 0813 Asus Rampage III Formula (LGA 1366) Intel X58 Express, BIOS 0505 Asus Maximus IV Extreme (LGA 1155) Intel P67 Express, BIOS 0901 |
Память | Crucial 16 Гбайт (2 x 8 Гбайт) DDR3-1333, MT16JTF1G64AZ-1G4D1 @ DDR3-1600 и -1333 на 1,65 В на Socket AM3+ и LGA 1155 Crucial 24 Гбайт (3 x 8 Гбайт) DDR3-1333, MT16JTF1G64AZ-1G4D1 @ DDR3-1066 на 1,65 В на LGA 1366 |
Накопитель | Intel SSD 510 250 Гбайт, SATA 6 Гбит/с |
Видеокарта | nVidia GeForce GTX 580 1,5 Гбайт |
Блок питания | Cooler Master UCP-1000 W |
ПО и драйвера | |
Операционная система | Windows 7 Ultimate 64-bit |
DirectX | DirectX 11 |
Графический драйвер | nVidia GeForce Release 280.26 |
Игровые тесты и настройки | |
Crysis 2 | Игровые настройки: настройки качества Ultra, Сглаживание: выкл., V-sync: выкл., Текстуры высокого качества: вкл., DirectX 9 и DirectX 11, 1680×1050, 1920×1200, 2560×1600, Демо: Central Park |
F1 2011 | Игровые настройки: настройки качества Ultra, Сглаживание: выкл. и 8x AA, Анизотропная фильтрация: выкл., Синхронизация каждого кадра: нет, 1680×1050, 1920×1080, 2560×1600, Демо: Custom Tom’s Hardware Demo |
World of Warcraft: Cataclysm | Игровые настройки: настройки качества Ultra, Сглаживание: 1x AA и 8x AA, Анизотропная фильтрация: 16x, Vertical Sync: выкл., 1680×1050, 1920×1080, 2560×1600, Демо: Crushblow to The Krazzworks, DirectX 11 |
Аудио тесты и настройки | |
iTunes | Версия: 10.4.1, 64-bit Audio CD (“”Terminator II”” SE), 53 мин., конвертация в аудио формат AAC |
Lame MP3 | Версия 3.98.3 Audio CD “”Terminator II SE””, 53 мин., конвертация WAV в MP3, Комманда: -b 160 –nores (160 кбит/с) |
Видео тесты и настройки | |
HandBrake CLI | Версия: 0.94 Видео: Big Buck Bunny (720×480, 23.972 кадров) 5 минут, Аудио: Dolby Digital, 48 000 Гц, шесть каналов, Английский, в Видео: AVC Audio: AC3 Audio2: AAC (High Profile) |
MainConcept Reference v2.2 | Версия: 2.2.0.5440 MPEG-2 в H.264, MainConcept H.264/AVC Кодек, 28 sec HDTV 1920×1080 (MPEG-2), Audio: |
x264 Software Library | Поставляемое AMD AVX- и XOP-оптимизированные сборки, TechARP’s x264 HD Benchmark 4.0, модифицирована для соответствия новой версии x264 и CPU-Z 1.58 |
Тесты – приложения и настройки | |
WinRAR | Версия 4.01 RAR, Syntax “”winrar a -r -m3″”, Benchmark: 2010-THG-Workload |
WinZip 14 | Версия 14.0 Pro (8652) WinZIP Commandline Версия 3, ZIPX, Syntax “”-a -ez -p -r””, Benchmark: 2010-THG-Workload |
7-Zip | Версия 9.2 (x64) LZMA2, Syntax “”a -t7z -r -m0=LZMA2 -mx=5″”, Benchmark: 2010-THG-Workload |
Adobe Premiere Pro CS 5.5 | Paladin Sequence в H.264 Blu-ray Выход 1920×1080, Максимальное качество, Mercury Playback Engine: Hardware режим |
Adobe After Effects CS 5.5 | Создание видео включающее 3 потока Кадры: 210, Визуализация нескольких кадров: включено |
Cinebench | Версия 11.5 Build CB25720DEMO CPU Test в один и несколько потоков |
Blender | Версия: 2.54 beta Syntax blender -b thg.blend -f 1, Разрешение: 1920х1080, Сглаживание: 8x, Render: THG.blend frame 1 |
Adobe Photoshop CS 5.5 (64-Bit) | Версия: 11 Фильтрация 16 Mбайт TIF (15 000х7266), Фильтры:, Radial Blur (количество: 10, метод: zoom, качество: good) Shape Blur (Радиус: 46 px; custom shape: Trademark sysmbol) Median (Radius: 1px) Polar Coordinates (Rectangular to Polar) |
ABBYY FineReader | Версия: 10 Professional Build (10.0.102.82) Чтение PDF сохранение в Doc, Источник: Political Economy (J. Broadhurst 1842) 111 страниц |
3ds Max 2012 | Render Space Flyby, 1440×1080, from Y: RAM Drive |
Adobe Acrobat X Professional | Создание документа PDF (печать) из Microsoft PowerPoint 2010 |
Solid Works 2010 | PhotoView 360, 01-Lighter Explode.SLDASM Benchmark File, 1920×1080 Render, 1.44 миллиона полигонов, 256 AA Samples |
Visual Studio 2010 | Miranda IM Compile, Scripted |
Синтетические тесты и настройки | |
PCMark 7 | Версия: 1.0.4 |
3DMark 11 | Версия 1.0.2 |
SiSoftware Sandra 2011 | Версия: 17.80 Processor Arithmetic, Multimedia, Cryptography, Memory Bandwith,.NET Arithmetic, .NET Multimedia |
Некоторые замечания по поводу тестирования:
Во-первых, вы заметите, что мы проводили тесты с модулями более высокой плотности. Память на данный момент стоит настолько дёшево, что мы решили взять четыре модуля на 8 Гбайт, которые позволили одновременно провести тесты на двух системах, причём мы попытались обновить версии всех тестов. Для платформы X58 мы выставили самую высокую поддерживаемую скорость Bloomfield (1066 MT/s). Для Z68 максимальным уровнем стала DDR3-1333 для Sandy Bridge. То же самое касается Thuban и Deneb на 990FX. Этот же комплект без проблем справился со скоростью DDR3-1600, но не заработал в режиме -1866. Поэтому для тестов Zambezi нам пришлось несколько снизить настройки памяти с максимально возможных. Как вы увидите ближе к концу статьи, мы также провели тесты с более скоростным, но менее ёмким комплектом из пары модулей на 4 Гбайт, которые могут работать на частотах до DDR3-2133, только лишь для того, чтобы показать, что производительность подсистемы памяти не ухудшает результатов нашего тестирования в целом.
Мы также использовали видеокарту GeForce GTX 580, самую быструю из доступных моделей с одним GPU. Хотя AMD рекомендует для тестов использовать видеокарты на собственных GPU (как и можно было ожидать), мы хотели избежать любых “узких мест” по производительности в игровых тестах. Для тестов использовалась одна видеокарта, поэтому она в любом случае не повлияет на результаты негативно. Вместе с тем мощная видеокарта GeForce позволяет полностью “раскрыться” нашим CPU.
PCMark 7
Мы начали с синтетических тестов, поскольку всегда хотелось посмотреть, как покажет себя новое оборудование в чётко определённых сценариях. PCMark 7 не так жёстко изолирует специфические компоненты платформы, поскольку он состоит из компонентов Windows 7.
Пакет может нагрузить столько ядер, сколько вы ему дадите (пусть даже результаты не очень этому соответствуют). С учётом сказанного, FX-8150 едва смог обойти Phenom II X4 980 – четырёхъядерный процессор на 3,7 ГГц. Процессоры Core i5-2500K и i7-2600K оказались заметно быстрее по общим результатам теста PCMark 7 OverallSuite.
Процессор FX хуже всего показал себя в тесте Entertainment, который интенсивно задействует графику, воспроизведение/перекодирование видео, а также подсистему хранения. Финиш позади предыдущих флагманских четырёхъ- и шестиядерных моделей не сулит ничего хорошего. К счастью, остальные наши тесты показывают, что Zambezi, по крайней мере, удалось поравняться со старыми чипами.
Но есть по крайней мере пара тестов, в которых CPU FX на основе Zambezi проигрывает некогда популярному Core i7-920 на штатной тактовой частоте 2,66 ГГц. И новый процессор за $245 уступает Core i5-2500K за $220 и Core i7-2600K за $315 во всех тестах.
3DMark 11
Тест 3DMark 11, который чуть более дружественен к новой микроархитектуре AMD, чем PCMark 7, использует один поток на физическое ядро в тестах графики и один поток на логический CPU в тестах физики/комбинированных тестах.
Если 3DMark распознает два физических ядра на модуль Bulldozer, то это помогает объяснить второе место в графическом пакете Graphics. То же самое происходит в тесте физики Physics (пусть даже Intel Core i7-2600K является лидером во всех тестах).
Sandra 2011
Целочисленные вычисления и расчёты с плавающей запятой у архитектуры Bulldozer были улучшены, в результате FX-8150 смог выйти на второе место позади Intel Core i7-2600K. Это важно, если учесть, что Zambezi обладает только четырьмя блоками вычислений с плавающей запятой, распределёнными по восьми ядрам, он всё равно смог обойти шесть ядер Phenom II X6 при использовании вычислений SSE3.
Выдающаяся целочисленная производительность SSE2 выбрасывает FX-8150 в лидеры в тесте Sandra Multimedia. Общие блоки работы с плавающей запятой уже не дают столь высоких результатов, хотя FX-8150 по производительности практически добирается до Intel Core i7-2600K.
Поддержка аппаратного ускорения шифрования AES помогает AMD достичь равенства в тесте, где обычно преобладали процессоры Intel. FX-8150 показал впечатляющую пропускную способность в данном тесте, лишь немного уступив Core i5.
С тестом SHA-1 ситуация совсем другая, архитектура Bulldozer значительно снижает свою производительность по отношению к Phenom II X6 и даже X4 (не говоря уже о всех трёх протестированных процессорах Intel). К счастью, для всех тех пользователей, кто выполняет шифрование жёсткого диска, производительность AES значит намного больше.
Обновлённый двухканальный контроллер памяти DDR3 официально поддерживает частоту памяти до 1866 MT/s, и AMD смогла выжать больше пропускной способности, чем раньше. Мы использовали для тестов память в режиме DDR3-1600, поскольку это максимальный режим для наших модулей с плотностью 8 Гбайт на модуль. В любом случае впечатляет, что контроллер AMD без проблем конкурирует с Intel (особенно в сравнении с пропускной способностью памяти Phenom).
Значение .NET
Кроме привычных тестов Sandra 2011, мы также запустили тесты .NET Arithmetic и .NET Multimedia. Логика довольно проста: система Windows 8 уже на горизонте (и Microsoft планирует представить вместе с ней Metro), не менее важно и то, как все процессоры будут работать с кодом .NET через популярные библиотеки. И пока этот слой не начнёт выигрывать от поддержки AVX, например, то приложения не будут выигрывать от аппаратной поддержки, независимо от производителя CPU Intel или AMD.
Блок FPU у процессора FX справился здесь хорошо, выдав 20,66 GFLOPS по сравнению с 18,14 у Core i7-2600K. Более интересна целочисленная производительность Zambezi, по которой новый процессор заметно отстаёт от Sandy Bridge. По словам автора Sandra, это может быть связано с многопоточностью или функциональной проблемой, которая будет решена в будущих сборках теста, когда он получит в своё распоряжение процессор FX. Мы же будем следить за данным тестом.
Создание контента
FX-8150 оказался между Core i7-2600K и Core i5-2500K, что неудивительно. А вот Phenom II X6 1100T, обошедший процессор Zambezi, нас удивил. Что же случилось? Хотя мы говорим о “восьмиядерном” процессоре, не следует забывать, что ресурсы работы с плавающей запятой общие для каждых двух ядер. Между тем у Thuban мы наблюдаем шесть более полных ядер.
Такое будет повторяться, но не думайте, что данный тест отражает все приложения по созданию контента. Есть и другие примеры, где Thuban обходит Zambezi, но это происходит не часто в многопоточных тестах.
Тест использует многопоточные фильтры, нагружая столько ядер, сколько мы ему предоставим. Восемь целочисленных ядер Zambezi помогают процессору обойти Core i5 и Core i7, полностью поразив шестиядерный Phenom II X6 1100T.
Благодаря видеокарте nVidia GeForce GTX 580, аппаратное ускорение Mercury Playback Engine позволяет выполнить меньше чем за две минуты задачу, на рендеринг которой раньше уходил почти час. Однако производительность процессора тоже играет важную роль. AMD FX-8150 занимает второе место позади Intel Core i7-2600K, обогнав конкурента Core i5. На данный момент можно утверждать, что многопоточная производительность FX-8150 по отношению к цене выглядит довольно хорошо.
Результат Zambezi в After Effects CS 5.5 выглядит уже не так хорошо. Процессор пропустил вперёд не только обоих конкурентов на базе Sandy Bridge, но и AMD Phenom II X6 1100T, который оказался быстрее. Программа After Effects нагружает много ядер. Но максимальное количество ядер FX-8150 не даёт преимущества в данном тесте.
Результаты в Blender оказались более благосклонны и флагман AMD оказался сразу за Core i7-2600K. Тест After Effects не смог полностью задействовать доступные вычислительные ресурсы, но Blender нагрузил все доступные ядра на 100%, от чего процессор Zambezi и выиграл.
Программа SolidWorks Photo View 360 тоже смогла полностью нагрузить все процессоры в нашем сегодняшнем обзоре. Следовательно, процессор AMD FX-8150 закончил на втором месте, между Intel Core i7 и i5. Неудивительно, что шестиядерный Phenom II X6 пришёл четвёртым, а два оставшихся четырёхъядерных остались позади.
С учётом сказанного, такой тип приложений лучше всего способен раскрыть потенциал процессора Zambezi как настольного решения. Создание контента известно своей способностью использовать все имеющиеся ресурсы. А поскольку цена процессора находится ближе к Core i5-2500K, чем к Core i7-2600K, то FX-8150 кажется вполне достойным вариантом.
Продуктивность
Приложения OCR могут полностью нагрузить доступные вычислительные ядра, что позволяет FX-8150 занять второе место между процессорами i7-2600K и i5-2500K.
Ещё одна ситуация, где лучше всего демонстрируются возможности Zambezi, но на этот раз процессор показывает себя в приложении продуктивности.
Но не все приложения работают с параллелизмом, особенно в настольной среде. В не оптимизированных под многопоточность приложениях, как например Lame, становиться видно, что в Bulldozer AMD потеряла много производительности на такт. В этом однопоточном приложении FX-8150 оказывается слабым даже на частоте 4,2 ГГц. И пока что он проигрывает старому Intel Core i7-920 на 2,93 ГГц (то есть на частоте 2,66 ГГц плюс два шага TurboBoost).
То же самое происходит в WinZip 14, приложении совсем другого типа, но тоже однопоточном. Процессор FX-8150 уходит на последнее место из-за слабого IPC.
Мы знаем, что WinRAR хорошо оптимизирована под многопоточность (хоть и не способна полностью нагрузить многоядерный процессор). Хотя AMD FX-8150 проигрывает двум процессорам Intel на архитектуре Sandy Bridge, он показывает себя намного лучше, обходя Core i7-920, Phenom II X6 и Phenom II X4.
7-Zip тоже даёт нам почву для сравнения. По сравнению с WinZip (однопоточный) и WinRAR (многопоточный), 7-Zip нагружает все ядра почти на 100%, позволяя FX-8150 практически догнать Core i7-2600K и заметно обогнать Core i5-2500K. Thuban, Bloomfield и Deneb в данном тесте оказываются позади.
Мы уже посмотрели результаты большого количества приложений, чтобы оценивать загрузку приложений по месту, занимаемому FX-8150.
Превосходная производительность в расчете на такт даёт архитектуре Intel Sandy Bridge значительное преимущество в однопоточных приложениях и программах, слабо оптимизированных под многопоточность. При печати презентации PowerPoint в файл Adobe PDF, Zambezi показал себя почти хуже всех.
Судя по позиции Zambezi на диаграмме выше, приходит на ум, что Visual Studio – это однопоточная программа. Но просмотр диспетчера задач Windows показал, что большую часть времени тест нагружает все ядра на 100%.
Почему же FX-8150 так плохо себя показал? Сложно сказать. По иерархии процессоров Intel Sandy Bridge, можно судить, что Visual Studio любит тактовую частоту. У Zambezi частоты хватает, но IPC достаточно низок, чтобы пропустить вперёд Phenom II X4 и X6.
По сравнению с предыдущей страницей, приложения со слабой оптимизацией под многопоточность или однопоточные приложения плохо влияют на новый процессор (в то время как многопоточные наоборот помогают). Несмотря на то, что предложение FX-8150 за свою цену кажется вполне разумным, сейчас AMD просит нас пойти на значительный компромисс по производительности, что при выборе заставит энтузиастов подумать дважды.
Кодирование мультимедиа
Однопоточное приложение iTunes тоже играет не в пользу флагманского процессора AMD, который не смог обогнать даже предыдущую архитектуру на частоте 3,7 ГГц (даже после увеличения частоты до 4,2 ГГц благодаря функции TurboCore).
MainConcept меняет ситуацию, нагружая все ресурсы Zambezi, и процессор FX-8150 занимает вторую позицию между конкурентами на Sandy Bridge. Phenom II X6 с шестью ядрами Thuban занимает четвёртое место, за ним следуют Bloomfield и Deneb.
Та же ситуация и с HandBrake, который ставит процессор FX-8150 прямо за Core i7-2600K. Однако Phenom II X6 1100T обгоняет Core i5, обеспечивая себе третье место.
Crysis 2
Сегодня мы будем тестировать три игры: Crysis 2, F1 2011 и World of Warcraft: Cataclysm, которые представляют три разных жанра.
Наш шутер от первого лица, Crysis 2, показывает, что игры, нагружающие GPU до предела, могут заставить геймеров потратиться на конфигурации CrossFire и SLI. Именно такие приложения AMD хотелось бы связать с процессорами FX. И неважно, купите ли вы процессор за $250 или за $1000 – общую производительность определяет графический потенциал.
При разрешениях от 1680х1050 до 2560х1600, с использованием DirectX 9 или 11, результаты довольно похожи. Но не будем поспешно называть их многообещающими, давайте сначала посмотрим на более чувствительные к производительности CPU игры.
F1 2011
Мы специально подсветили производительность FX-8150, так как разница между самым производительным и самым медленным процессором намного больше.
Процессоры Intel Sandy Bridge занимают два верхних места во всех трёх разрешениях – и с немалым отрывом. Bloomfield занимает третье место во всех трёх тестах. Между тем, FX-8150 занимает предпоследнее место во всех трёх разрешениях.
Вот теперь, у нас появилось пару серьёзных проблем с процессорами AMD в игре F1 2010. Похоже ограничения производительности проявляются и здесь. По существу, мы видим предел производительности при разрешении 1680х1050, и даже при разрешении 2560х1600 графической нагрузки недостаточно, чтобы убрать “узкое место” от CPU.
Два процессора на базе Sandy Bridge показывают почему: они легко достигают уровень больше 80 FPS при разрешениях 1680х1050 и 1920х1080, и только при разрешении 2560х1600 со сглаживанием 8xAA и качеством Ultra нагрузки оказывается достаточно, чтобы снизить производительность до отметки 60 FPS. Но это всё равно больше, чем может давать Zambezi, поэтому процессор AMD всё равно сдерживает игру.
World of Warcraft: Cataclysm
Сразу после выхода Cataclysm мы опубликовали руководство по её производительности на широком спектре процессоров, видеокарт и игровых настроек. В этой статье мы выделили несколько основных направлений в производительности: главное, что экспериментальный путь кода DirectX 11 действительно помогает производительности, что видеокарты nVidia работают намного быстрее AMD, и что процессоры Intel значительно обгоняют процессоры AMD.
Теперь DirectX 11 уже официально поддерживаемый компонент этой игрой (и сегодня мы тестируем этот режим). Мы используем видеокарту GeForce GTX 580, чтобы полностью устранить проблемы в графической производительности, но процессоры AMD всё равно с трудом справляются с игрой.
При разрешении 1680х1050 процессор Zambezi работает примерно на 40 FPS медленнее, чем Core i5-2500K без сглаживания AA. Но при включении 8xAA чипы Intel показывают падение производительности из-за увеличения графической нагрузки. У процессоров Core i7-920 и AMD нет такого же падения, поскольку они сами являются ограничивающим фактором производительности. Но видеокарта GeForce GTX 580 достаточно быстра, чтобы дать частоту кадров на уровне 70-80 FPS.
Продвигаемся к разрешению 2560х1600. Увеличение графической нагрузки с добавлением сглаживания приводит к тому, что все шесть участников затормаживаются до 60 FPS. Однако на процессоре Core i5-2500K без сглаживания AA вы всё равно получаете на 25 FPS больше.
Обидно, что архитектура Bulldozer не может дать хоть какой-нибудь отрыв от четырёхъ- и шестиядерных флагманских процессоров AMD в этой суперпопулярной игре. Однако помните, что мы использовали видеокарту GeForce GTX 580, самую быструю видеокарту с одним GPU, которую можно купить. Если вы используете менее мощную видеокарту, то она быстрее станет ограничивающим фактором по производительности, в результате чего FX-8150 будет выглядеть более привлекательно. Нам не нравится тот факт, что AMD надеется на ограничивающие факторы других компонентов, чтобы показать себя с выгодной стороны, но именно так всё и выглядит.
Делаем правильное сравнение
Это наводит нас на важную мысль. В попытке сдвинуть топовую платформу Intel, AMD показывает, сколько вам придётся потратить на систему на основе Core i7-980X по сравнению с FX-8150. Трёхканальный комплект памяти, материнская плата на базе X58 и процессор Extreme Edition вместе будут стоить на $800 дороже. Не слабо, правда?
Но если отдел маркетинга AMD читает THG, то наверняка знает о том, что мы даже не рекомендуем чипы на базе Gulftown для игр. Мы поклонники CPU, которые оставляют больше бюджета для графической подсистемы. Вот цитата из нашего обзора Core i7-990X:
“Сейчас мы видим, что в некоторых ситуациях Core i7-900 серии всё ещё актуален. Откровенно говоря, геймеры и энтузиасты должны с этим согласиться. Можно многое получить от Core i5-2500K стоимостью десять тысяч рублей, но просто невыносимо ждать начала поставок новых материнских плат на P67. Или подождать Z68, который сам по себе принесёт много сюрпризов. А на сэкономленные тридцать тысяч рублей можно купить пару GeForce GTX 570 в SLI и пару терабайтных накопителей.”
Будьте внимательнее с маркетингом. Процессор FX-8150 противостоит Core i5-2500K и Core i7-2500K – а не Core i7-980X. Вы заплатите примерно столько же за память, за материнскую плату или чуть больше (или меньше) за сам процессор, в зависимости от вашего решения использовать i5 или i7 в качестве точки сравнения. Некоторые игры упираются в видеокарту, поэтому FX покажет себя в них довольно хорошо. Другие игры сильнее нагружают CPU. По крайней мере, в играх, которые мы протестировали в нашей статье, Sandy Bridge показал себя лучше.
Разгон FX-8150 (с использованием воздушного охлаждения)
Во время пресс-брифинга в Остине, инженеры AMD утверждали, что архитектура Bulldozer была разработана для поддержки IPC на стабильном уровне, а также для обеспечения существенно более высоких тактовых частот. С IPC ситуация не очень, но мы всё ещё ждём существенного потенциала в разгоне.
AMD сказала, чего можно ожидать, базируясь на собственном опыте, тем самым уменьшив беспокойство. На воздухе их команда смогла получить стабильную частоту 4,6 ГГц на всех ядрах. Жидкое охлаждение позволяет поднять предел примерно до 4,9 ГГц. Жидкий азот и гелий – конечно, с целью демонстрации отсутствия у архитектуры ошибок охлаждения – позволили AMD достичь 7,7 и 8 ГГц, соответственно, со всеми активными ядрами.
Базовая частота FX-8150 составляет 3,6 ГГц. Промежуточная настройка TurboCore (тактовая частота, на которой все восемь ядер могут работать одновременно), составляет 3,9 ГГц. Когда бездействует по крайней мере четыре ядра (два модуля) режим TurboCore позволяет достичь частоты 4,2 ГГц. Когда мы выставили напряжение 1,4125 В, то смогли получить стабильную работу на 4,5 ГГц по всем ядрам. Этой частоты хватило, чтобы уменьшить время в тесте SolidWorks 2010 с 3:24 до 2:57. Но при этом мы явно уперлись в температурный порог.
Более тонкий подход к разгону позволил бы нам выставить меньшую базовую частоту в утилите AMD Overdrive, после чего настроить более агрессивные режимы P1 и P0 для TurboCore, когда модули переходят в режим бездействия. Многопоточные приложения не получили бы особого преимущества, но появился бы шанс получить высокие тактовые частот при меньших напряжениях в таких программах, как iTunes и WinZip, которые нагружают только одно ядро.
Масштабирование памяти
Благодаря изменениям, которые были сделаны в Socket AM3+, у Bulldozer появился намного более гибкий контроллер памяти, чем у предшественников. Официально AMD поддерживает скорость передачи до 1866 MT/s. Однако можно получить и больше, если использовать правильную материнскую плату.
На скорости 1600 MT/s процессор FX-8150 смог поравняться с архитектурой Intel Sandy Bridge. Это впечатляющий подвиг, учитывая, что пропускная способность Phenom II X6 исходит от двух каналов памяти DDR3.
Существует ли какая-либо причина покупать high-end наборы памяти для сборок на процессоре FX? Мы решили убрать комплект с высокой плотностью из нашего тестового стенда и установили менее ёмкий комплект (2×2 Гбайт) DDR-2133 от Kingston, чтобы измерить масштабируемость в тесте WinRAR, который раньше весьма чувствительно относился к производительности памяти.
SiSoftSandra 2011 показывает, что пропускная способность памяти продолжает масштабироваться и дальше официального порога процессора, но результаты WinRAR демонстрируют, что кажущийся прирост пропускной способности памяти не всегда приводит к такому же преимуществу в реальных условиях. Даже в этом случае, приятно видеть, что если вы желаете оптимизировать свою подсистему памяти, то вам становиться доступна дополнительная производительность.
Немного про охлаждение
Перед запуском AMD планировала поставлять процессоры FX с такими же кулерами, как и у процессоров Phenom II X4 или X6 Black Edition в коробочной версии.
Также ходили слухи, что AMD может продавать некоторые модели с комплектами водяного охлаждения. На самом деле это должно случиться. Однако они будут ограничены специфическими рынками, начиная с Японии. По информации AMD, в какой-то момент американский рынок тоже получит системы охлаждения с закрытым водяным контуром. Но когда именно, пока не уточнялось.
AMD заверила нас, что предоставит образцы данного комплекта в нашу тестовую лабораторию до его выхода. Но на момент написания статьи, мы её ещё не получили.
Энергопотребление
Согласно AMD, их архитекторы делали многие решения, когда Bulldozer разрабатывался, как максимально эффективная архитектура. В больших многочиповых модулях, таких как Interlagos, выжимание максимальной производительности из каждого ядра в жёстких тепловых ограничениях действительно имеет смысл. Но вопрос в том, будет ли подобный масштабируемый дизайн таким же эффективным на настольных ПК, как на серверах?
Процессор | Энергопотребление системы в режиме бездействия |
AMD FX-8150 (Zambezi) 8C/8T, 3,6 ГГц базовая частота | 107 Вт |
AMD Phenom II X6 1100T (Thuban) 6C/6T, 3,3 ГГц базовая частота | 114 Вт |
AMD Phenom II X4 980 BE (Deneb) 4C/4T, 3,7 ГГц | 100 Вт |
Intel Core i7-2600K (Sandy Bridge) 4C/8T, 3,4 ГГц базовая частота | 90 Вт |
Intel Core i5-2500K (Sandy Bridge) 4C/4T, 3,3 ГГц базовая частота | 90 Вт |
Intel Core i7-920 (Bloomfield) 4C/8T, 2,66 ГГц базовая частота | 130 Вт |
При бездействии система, оснащённая 125-Вт AMD FX-8150, потребляла 107 Вт – меньше, чем у Phenom II X6 1100T, но чуть больше, чем у Phenom II X4 980 (оба процессора являются 125-Вт моделями). Только процессор Intel Core i7-920 на базе Bloomfield потреблял больше (130 Вт для системы).
Однако, для сравнения, две системы на основе процессоров Sandy Bridge снизили энергопотребление всего до 90 Вт (тепловой пакет 95 Вт; у них уже на 30 Вт меньше потолка Zambezi).
Мы убрали с графика процессоры Phenom II X4, Core i7-920 и Core i5-2500K, потому что они сильно запутывали его. К тому же, три оставшихся чипа, более важны.
Чёрная линия соответствует Intel Core i7-2600K на 95Вт, который даёт среднее энергопотребление системы 155 Вт во время полного прогона PCMark 7. Перед тем, как вы вспомните, что процессор Core i5-2500K ближе по цене к FX-8150, учтите, что по среднему энергопотреблению он оказалась на два ватта меньше i7-2600K, то есть 153 Вт на протяжении всего тестового прогона. Представьте, как бы отобразились на графике, практически идентичные результаты.
Процессор FX-8150, для сравнения, показал 191 Вт в среднем. Разница в 34 Вт почти соответствует разнице в 30 Вт, разделяющей тепловой пакет 95 Вт у Intel и 125 Вт тепловой пакет у AMD. Что ещё более интересно, Phenom II X6 1100T достиг такого же уровеня среднего энергопотребления 191 Вт для системы в тесте PCMark 7. Между тем, Phenom II X4 980 показал средний результат 184 Вт.
Intel Core i7-920 выделяется как модель, которая использует больше энергии, чем новый флагман AMD. Со средним энергопотреблением 193 Вт он потребляет на 2 Вт больше, и это вполне разумно, учитывая, что TDP больше на 5 Вт.
Заглядываем вперед: Архитектура AMD Bulldozer под Windows 8
Пока ещё слишком рано судить о производительности Bulldozer под Windows 8. Однако мы уже знаем, что операционная система Windows 7 не достаточно оптимизирована под идею модулей Bulldozer. Мы уже разговаривали с представителем Microsoft, который отвечает за работу с процессами и подсистемой потоков в Windows (Арун Кишан), и он рассказал, что Windows распределяет их равнозначно (пусть не всегда оптимально). И мы думаем, что следующая версия Windows может управлять ими по-другому.
Согласно AMD, Windows 8 будет более интеллектуально распределять потоки, и если они могут выиграть от совместного использования модуля, то так и будет. Тот факт, что два потока могут консолидироваться на одном модуле (несмотря на то, что им при этом придётся совместно использовать общие ресурсы), в результате чего другие модули будут переходить в режим сна, что потенциально активирует более высокое p-состояние (более быструю настройку TurboCore) перевешивает любое падение производительности, связанное с общими ресурсами.
Мы хотели провести более полный набор тестов под Windows 8, но у нашей версии для разработчиков их не так много. Многие из наших тестов запускаются в виде скриптов, и не один из них не будет работать. А некоторые тесты (например 3ds Max 2012) и вовсе не устанавливаются.
SolidWorks 2010, Premiere Pro CS 5.5 и World of Warcraft оказались совместимыми.
Тесты SolidWorks и PremierePro полностью используют доступные вычислительные ресурсы. Последнее приложение демонстрирует отсутствие изменений, результаты под Windows 7 и Windows 8 оказались одинаковыми. Но в первом тесте, на процессоре Intel Core i5-2500K нам удалось срезать восемь секунд при переходе под Windows 8, а вот FX-8150 несколько замедлился.
Дело в том, что мы не ожидали увидеть прирост производительности от приложения, которое уже задействует все доступные вычислительные ресурсы. Все ядра уже активны; смена потоков не облегчит переход к P0. Более правдоподобно ожидать прирост производительности у менее интенсивных приложений, когда потоки могут комбинироваться, часть модулей могут переходить в режим сна, и технология TurboCore увеличивает воздействие.
С этой точки зрения, производительность WoW заметно увеличивается на процессоре FX при разрешении 1680х1050, а уже довольно высокая производительность Core i5 немного снизилась (мы не ожидаем этого от финальной сборки; возможно,что-то неправильно посчитано).
Результаты при 2560х1600 показывают, что Intel i5-2500K показывает те же числа под Windows 7. Между тем FX-8150 нагоняет небольшую производительность, потерянную Intel под Windows 7.
Парковка ядер: работает!
Парковка ядер – функция, которая распределяет задачи на как можно меньшее количество ядер для экономии энергии, действительно распознаёт модули Bulldozer и действительно оптимизирует под них нагрузку. Под Windows 7 вы никогда не обнаружите запаркованное ядро у процессора FX-8150. Windows 8 исправляет эту ситуацию и паркует ядра парами, и это значит, что модули Bulldozer переходят в режим сна.
FX и Windows 7: парковки нет
FX и Windows 8: два модуля запаркованы
FX и Windows 8: три модуля запаркованы
Выше показано, что вы получите под Windows 7 (первый скриншот), пример парковки двух модулей Bulldozer под Windows 8 (второй скриншот) и ещё один пример, когда выключено три ядра (третий скриншот).
Результат – заметная экономия энергии. Энергопотребление в режиме бездействия под Windows 7 составило 107 Вт. Под Windows 8, с тремя запаркованным модулями, эта цифра упала до 99 Вт. Это всего на 9 Вт больше Sandy Bridge, процессора с TDP 95 Вт. Не так уж и мало для процессора на 125 Вт.
Windows 8 держит обещания
Но не думайте, что Windows 8 существенно изменит профиль производительности архитектуры Bulldozer. Хотя программное обеспечение является важной частью любого обзора аппаратного обеспечения, и будущая операционная система наверняка улучшит результаты некоторых тестов после её выхода. Она почти наверняка существенно повлияет на энергопотреблении системы, поскольку её планировщик знает, как правильно работать с новыми решениями AMD.
AMD FX-8150: итог
Предположим, вам на выбор дают два процессора, Core i5-2500K и FX-8150. Core i5 стоит $220, а FX обойдётся в $245. Какой вы выберите?
Мы бы взяли Core i5. Мы дали процессору Core i5-2500K награду “рекомендованная покупка” в январе 2011, и мы придерживаемся этой рекомендации почти год спустя.
В самом лучшем сценарии, когда вы можете бросить на процессор FX большое количество работы, чтобы задействовать все восемь целочисленных ядер, его производительность находиться между Core i5-2500K и Core i7-2600K – собственно, она и должна быть таковой, учитывая цену как раз между двумя наиболее актуальными конкурентами. Иногда FX удавалось обгонять даже high-end модель -2600K, иногда он уступал даже своим предшественникам в многопоточных нагрузках.
Запустите на процессоре однопоточное приложение и он не сможет превзойти Intel Core i7-920 трёхлетней давности на штатной таковой частоте 2,66 ГГц. Инженеры AMD говорят о том, что они смогли поддержать рейтинг IPC и увеличить тактовую частоту, но, очевидно, что-то идёт не так.
Иронично, но постоянная, масштабируемая производительность является одним из атрибутов, которые AMD обещала получить от модулей Bulldozer. Однако мы снова и снова наблюдаем проблему, что для конкуренции, процессор очень надеется на программное обеспечение. Когда он не получает того, чего хочет, то производительность снижается по сравнению с предыдущим поколением. В результате даже несмотря на то, что AMD удалось реализовать продвинутую версию TurboCore, чтобы улучшить однопоточную производительность, разница между тем, что вы получите в приложениях слабо и сильно оптимизированных под многопоточность совсем не постоянна.
AMD оправдывается, говоря, что архитектура Bulldozer только родилась, и указывает на агрессивные планы. В них в будущем планируются улучшения шины, которые, в перспективе, явно нацелены на многопоточные приложения. Производительность в приложениях, которые могут в полной мере использовать архитектуру, кажется вполне честной в свете запрашиваемой AMD цены. Но компромиссы во всём остальном, на наш взгляд, $245 не оправдывают.
Возможно Buldozer хороший фундамент?
AMD планирует давать прирост производительности от 10 до 15 процентов в год на протяжении следующих нескольких лет. Однако важно понимать, что эволюция программного обеспечения также важна, как и архитектурные изменения. Учитывая модульность, можно ожидать, что команда разработчиков Bulldozer будет наращивать производительность через более высокую тактовую частоту, критически важные улучшения IPC и оптимизации эффективности.
Мы уже видели, что нагрузки, хорошо оптимизированные под многопоточность, позволяют FX-8150 выступать на уровне процессора Sandy Bridge, но мы также видели, что процессор сдаётся перед приложениями, которые были написаны без учёта “широкого” подхода к использованию множества потоков. Архитектура Piledriver, ожидаемая в следующем году, должна, по крайней мере, обеспечить некоторые преимущества из-за улучшений, нацеленных на оптимизацию IPC. Их можно считать критически важными, учитывая архитектурные недочёты.
Zambezi, первая SoC на основе Bulldozer
К тому времени, как процессоры появятся на рынке энтузиастов, AMD возможно придётся конкурировать с Ivy Bridge, оснащённой собственными улучшениями. Это не очень хорошо. Мы хотим увидеть соревнование – битву, за счёт которой у AMD и Intel будут появляться инновации. Станет ли процессор FX тем Athlon 64 FX-51, который заставил Intel перемаркировать Xeon и выпустить его под названием Extreme Edition в 2003 году для конкуренции? Совсем нет. Фактически, чиповый гигант вообще ничего не сделает. Годовалые модели на 95 Вт сами смогут о себе позаботиться, даже после снижения цен.
Мы всё же рассчитываем, что Valencia и Interlagos будут лучше сражаться с Xeon на серверном пространстве, где правят рабочие нагрузки. Но печально видеть, что Zambeziу пал перед мощностью high-end процессора от Intel под нагрузкой, работая как массовые чипы конкурента годичной давности.