Обзор Intel Xeon E5-2600 v2 | Всё о новых процессорах на архитектуре Ivy Bridge-EP
Компания Intel создала немало значимых продуктов. Она успешно продвигает на рынке мобильных решений процессоры с архитектурой Haswell и Silvermont. Компания также предлагает процессоры для мобильных устройств – от планшетов до ноутбуков – с достаточно мощной встроенной графикой и, на наш взгляд, отлично справляется. Планшеты с процессорами на базе архитектуры Bay Trail многообещающе проявили себя в наших тестах, и мы возлагаем большие надежды графику Iris Pro 5200 – наиболее мощную на данный момент встроенную графику от Intel.
Тем не менее, масштаб эволюционных изменений в линейке настольных CPU Intel на протяжении последних двух лет был весьма скромным. Так как THG уделяет наиболее пристальное внимание играм и работе на стационарных ПК, мы разочарованы столь медленным развитием настольных CPU, даже несмотря на то, что Intel предлагает самые быстрые на сегодняшний день решения. Учитывая отсутствие конкуренции со стороны AMD в сегменте производительных CPU, у нас почти не остаётся причин, чтобы рекомендовать обновить процессор, приобретённый во времена архитектуры Sandy Bridge.
Совсем иначе дело обстоит в сегменте процессоров для серверов и рабочих станций. Здесь Intel с успехом использует свой производственный потенциал, чтобы добиться успеха в профессиональных приложениях и повысить энергоэффективность своих CPU. Несколько месяцев назад мы рассматривали процессор Xeon E5-2697 v2 в обзоре “12-ядерный Intel Xeon с кэш-памятью L3 на 30 Мбайт: новый CPU для MacPro?” и выяснили, что этот процессор превосходит по эффективности и восьмиядерный Xeon E5-2687W, и Core i7-3970X – топовый процессор Intel для настольных ПК.
Для данного обзора в нашем распоряжении имеется пара процессоров Xeon E5-2687W v2, основанных на одной и той же архитектуре Ivy Bridge-EP. Хотя они имеют TDP 150 Вт (E5-2697 v2 – 130 Вт), эти процессоры для рабочих станций располагают восемью физическими ядрами, как и соответствующие им по маркировке представители первого поколения E5-2687W. Зато Intel увеличила объём кэш-памяти L3. Повышена максимальная базовая частота и частота Turbo Boost, причём это достигается на более низком напряжении. И хотя обновлённый процессор имеет тот же TDP, благодаря обновлённой архитектуре он требует меньше энергии.
Архитектура Ivy Bridge-EP
В сегодняшнем обзоре мы протестируем 12-ядерные и 8-ядерные процессоры серии Xeon E5-2600. Однако в обновлённой линейке CPU также имеются процессоры с четырьмя, шестью и десятью ядрами. Фактически линейка v2 насчитывает 18 моделей CPU, являющихся производными от трёх физических чипов – с шестью, десятью и двенадцатью ядрами. Понятно, что каждый из трёх базовых чипов изначально выполнен с расчётом на модульную конфигурацию, чтобы упростить создание коммерческих версий CPU.
12-ядерный чип
В наиболее сложной модификации, которую мы рассматривали в обзоре Xeon E5-2697, используются три колонки блоков, включающих ядро CPU и фрагмент кэш-памяти третьего уровня объёмом 2,5 Мбайт, по четыре ряда в каждой колонке. Сдвоенная кольцевая шина обеспечивает взаимодействие между блоками внутри чипа, а мультиплексоры позволяют довести команды до того ядра, к которому они адресованы. Внешняя шина QPI (Quick Path Interconnect), использующаяся для соединения процессоров между собой и с чипсетом, работает на скорости до 9,6 ГТ/с (хотя ныне существующие процессоры ограничены 8 ГТ/с). Встроенный контроллер PCI Express обеспечивает работу 40 линий третьего поколения – таким образом, процессор позволяет использовать две видеокарты на скорости x16, и остаётся ещё восемь линий PCIe, которые можно задействовать при подключении третьей видеокарты или иной карты расширения, требовательной к скорости интерфейса. В 12-ядерном чипе предусмотрено два контроллера памяти, каждый из которых поддерживает работу памяти до DDR3-1866 в двухканальном режиме.
10-ядерный чип
Десятиядерный чип имеет несколько более простую конструкцию. Его конфигурация включает в себя всего две колонки блоков, но по пять рядов в каждой. Шина QPI не подвергалась упрощению, но теперь максимальная скорость обмена данными может достигать не более 8 ГТ/с, тогда как контроллер PCI Express вообще не менялся. 10-ядерная конфигурация имеет один контроллер памяти, который обеспечивает работу всех четырёх каналов. Обмен данными между ядрами обеспечивает кольцевая шина.
Восьмиядерная версия Xeon E5 основана на том же базовом чипе, но в этой модификации отключено два ядра, что не затрагивает остальную функциональность процессора. По этой причине процессор Xeon E5-2687W v2, который мы тестировали при подготовке данного обзора, может иметь восемь ядер, но объём кэша L3 остаётся таким же, как у 10-ядерной версии – 25 Мбайт. Два ядра отключены, но соответствующий кэш L3 остаётся активным.
6-ядерный чип
Как только число ядер снижается до шести, становится выгоднее создать третью версию базового чипа, чем отключать ядра 10-ядерной конфигурации. В шестиядерном чипе также имеется две колонки блоков, каждая из которых включает три ряда. Шина QPI по-прежнему обеспечивает обмен данными на скорости 8 ГТ/с, контроллер PCI Express также не подвергался упрощению. Единственный контроллер памяти отвечает за работу всех четырёх 64-битных каналов памяти DDR3.
Intel использует три базовых чипа, чтобы на их основе создать линейку CPU одного из четырёх уровней: продвинутый, стандартный, базовый и специализированный, – имеющих тепловой пакет от 60 до 150 Вт и базовую частоту от 1,7 до 3,5 ГГц. От самой продвинутой до наиболее дешёвой модели в линейке все процессоры имеют одинаковое исполнение под LGA 2011 (Socket R), как и представители первого поколения линейки. Это означает, что апгрейд существующего сервера или рабочей станции не сложнее, чем обновление прошивки материнской платы. В нашем распоряжении имелась плата Intel W2600CR2, и мы обновили прошивку с парой установленных процессоров Xeon E5-2687W первого поколения на базе архитектуры Sandy Bridge-EP.
Число ядер | Кэш L3 | Шина QPI | Память | Базовая частота | TDP | Цена | |
Продвинутый уровень | |||||||
Xeon E5-2690 v2 | 10 | 25 Мбайт | 8 ГТ/с | DDR3-1866 | 3,0 ГГц | 130 Вт | $2057 |
Xeon E5-2680 v2 | 10 | 25 Мбайт | 8 ГТ/с | DDR3-1866 | 2,8 ГГц | 115 Вт | $1723 |
Xeon E5-2670 v2 | 10 | 25 Мбайт | 8 ГТ/с | DDR3-1866 | 2,5 ГГц | 115 Вт | $1552 |
Xeon E5-2660 v2 | 10 | 25 Мбайт | 8 ГТ/с | DDR3-1866 | 2,2 ГГц | 95 Вт | $1389 |
Xeon E5-2650 v2 | 8 | 20 Мбайт | 8 ГТ/с | DDR3-1866 | 2,6 ГГц | 95 Вт | $1166 |
Стандартный уровень | |||||||
Xeon E5-2640 v2 | 8 | 20 Мбайт | 7,2 ГТ/с | DDR3-1600 | 2,0 ГГц | 95 Вт | $885 |
Xeon E5-2630 v2 | 6 | 15 Мбайт | 7,2 ГТ/с | DDR3-1600 | 2,6 ГГц | 80 Вт | $612 |
Xeon E5-2620 v2 | 6 | 15 Мбайт | 7,2 ГТ/с | DDR3-1600 | 2,1 ГГц | 80 Вт | $406 |
Базовый уровень | |||||||
Xeon E5-2609 v2 | 4 | 10 Мбайт | 6,4 ГТ/с | DDR3-1333 | 2,5 ГГц | 80 Вт | $294 |
Xeon E5-2603 v2 | 4 | 10 Мбайт | 6,4 ГТ/с | DDR3-1333 | 1,8 ГГц | 80 Вт | $202 |
Спец. уровень | |||||||
Xeon E5-2697 v2 | 12 | 30 Мбайт | 8 ГТ/с | DDR3-1866 | 2,7 ГГц | 130 Вт | $2614 |
Xeon E5-2695 v2 | 12 | 30 Мбайт | 8 ГТ/с | DDR3-1866 | 2,4 ГГц | 115 Вт | $2336 |
Xeon E5-2687W v2 | 8 | 20 Мбайт | 8 ГТ/с | DDR3-1866 | 3,4 ГГц | 150 Вт | $2108 |
Xeon E5-2667 v2 | 8 | 25 Мбайт | 8 ГТ/с | DDR3-1866 | 3,3 ГГц | 130 Вт | $2057 |
Xeon E5-2643 v2 | 6 | 25 Мбайт | 8 ГТ/с | DDR3-1866 | 3,5 ГГц | 130 Вт | $1552 |
Xeon E5-2637 v2 | 4 | 15 Мбайт | 8 ГТ/с | DDR3-1866 | 3,5 ГГц | 130 Вт | $996 |
Xeon E5-2650L v2 | 10 | 25 Мбайт | 8 ГТ/с | DDR3-1600 | 1,7 ГГц | 70 Вт | $1219 |
Xeon E5-2630L v2 | 6 | 15 Мбайт | 7,2 ГТ/с | DDR3-1600 | 2,4 ГГц | 60 Вт | $612 |
В группе “продвинутых” процессоров, в основном, представлены 10-ядерные CPU с 25 Мбайт кэша L3, но присутствует здесь и один 8-ядерный процессор с 20 Мбайт кэша. Все процессоры данного класса поддерживают технологии Hyper-Threading и Turbo Boost, шина QPI работает на скорости 8 ГТ/с, контроллер памяти поддерживает скорость до 1866 МТ/с.
Группа “стандартных” процессоров компактнее и включает один восьмиядерный чип, оснащённый 25 Мбайт кэш-памяти L3, и два шестиядерных процессора с 15 Мбайт кэша. Интерфейс QuickPath намеренно ограничен по скорости до 7,2 ГТ/с, также как и максимальная скорость четырёхканального контроллера памяти (все три процессора поддерживают модули памяти до DDR3-1600). Технологии Hyper-Threading и Turbo Boost поддерживаются в полном объёме.
Оба представителя базового класса представляют собой четырёхъядерные CPU с 10 Мбайт общего кэша L3. Скорость передачи данных по шине QPI урезана до 6,4 ГТ/с, а максимальная производительность памяти ограничена DDR3-1333. Таких возможностей всё ещё вполне достаточно, если требуется процессор с невысоким TDP, но, к сожалению, Intel убрала поддержку технологий Hyper-Threading и Turbo Boost в младших моделях Xeon.
Xeon E5-2687W v2: переходим к тяжёлой артиллерии
Конечно, Xeon E5-2687W v2 не попадает ни в одну из перечисленных категорий. Это процессор для рабочих станций, входящий в подкласс специализированных решений и созданный специально для вместительных стоек и корпусов в форм-факторе 4U, для которых отвод тепла от пары процессоров с TDP по 150 Вт каждый не представляет проблемы. Xeon E5-2687W v2 – сбалансированное производительное решение, сочетающее высокую базовую частоту и поддержку вычислений с высокой степенью параллелизма.
Подобно Xeon E5-2687W первого поколения, Xeon E5-2687W v2 является восьмиядерным процессором. Относительно предшественника базовая частота повысилась с 3,1 до 3,4 ГГц, а максимальная частота Turbo Boost – с 3,8 до 4 ГГц. Увеличившийся на 5 Мбайт объём кэш-памяти L3 вряд ли обеспечит обновлённому CPU заметную прибавку в скорости, хотя в наших тестах мы увидим несколько ситуаций, где данный фактор играет свою роль.
Каждый чип Xeon E5-2687W v2 поддерживает работу шины QPI на полной скорости 8 ГТ/с. Четырёхканальный контроллер памяти поддерживает работу на скорости 1866 МТ/с. Теоретически это обеспечивает пропускную способность до 59,7 Гбайт/с на каждый процессор, хотя в реальных приложениях пропускная способность всегда будет ниже максимального значения.
10-ядерный чип, на котором основан тестируемый Xeon E5-2687W v2
Разумеется, процессор Xeon E5 второго поколения основан на архитектуре Ivy Bridge, поэтому он получил все те мелкие усовершенствования, которые впервые появились в процессорах Core для настольных ПК в апреле 2012 года, включая незначительные оптимизации ядра, кэша и контроллера памяти, позволяющие повысить число исполняемых за такт инструкций (IPC) на несколько процентов относительно процессоров поколения Sandy Bridge.
Если соединить в одно целое эволюцию архитектуры, более высокие частоты и больший объём кэша L3, то можно заранее предположить, что следует ждать от перехода с Xeon E5-2687W к Xeon E5-2687W v2. Но это ещё не все отличия. Во время перехода Intel от Sandy к Ivy Bridge акцент делался на внедрении техпроцесса 22 нм на смену 32 нм. Компания сделала шаг вперёд, повысив производительность процессоров линейки Xeon E5. Однако ещё одним важным усовершенствованием стало снижение энергопотребления. Вместе оба фактора – повышение производительности и снижение расхода энергии – позволили значительно повысить энергоэффективность новых CPU. Таким образом, начав с тестов производительности и подкрепив их измерениями расхода энергии, мы соединим оба направления развития линейки Intel при сравнении эффективности CPU.
Обзор Intel Xeon E5-2600 v2 | Тестовый стенд и бенчмарки
С предыдущего обзора в нашем распоряжении остался корпус Intel P4000, и мы решили использовать его при тестировании наших двухпроцессорных конфигураций на Xeon. Кроме того, мы обновили прошивку материнской платы Intel W2600CR2 до последней версии, обеспечивающей поддержку новых процессоров с архитектурой Ivy Bridge-EP.
Xeon E5-2687W v2 официально поддерживает до 256 Гбайт памяти DDR3-1866. Вместе с тем, доступные на сегодня комплекты памяти работают с напряжением 1,5 В и таймингами CAS 13. Наиболее простым решением для нас было использование 64 Гбайт памяти DDR3L-1600 с таймингами CAS 11 – в конце концов, ни один из наших тестовых сценариев не упирается в пропускную способность памяти.
Мы выражаем особую признательность компании Crucial за представленный комплект памяти, а Intel – за платформу, которую мы используем при тестировании серверного “железа” вот уже почти два года.
Конфигурация тестового стенда | |
Процессоры | 2 x Intel Xeon E5-2687W v2 (Ivy Bridge-EP) 3,4 ГГц, восемь ядер, LGA 2011, шина QPI 8 ГТ/с, общий кэш L3 25 Мбайт, Hyper-Threading вкл., энергосбережение вкл. 2 x Intel Xeon E5-2687W (Sandy Bridge-EP) 3,1 ГГц, восемь ядер, LGA 2011, шина QPI 8 ГТ/с, общий кэш L3 20 Мбайт, Hyper-Threading вкл., энергосбережение вкл. 1 x Intel Core i7-4960X (Ivy Bridge-E) 3,6 ГГц, шесть ядер, LGA 2011, общий кэш L3 15 Мбайт, Hyper-Threading вкл., энергосбережение вкл. |
Материнские платы | Intel W2600CR2 (LGA 2011) Intel 5520/ICH10R, BIOS версии 02.01.0002 MSI X79A-GD45 Plus (LGA 2011) Intel X79 Express, BIOS версии 17.5 |
Память | Crucial 64 Гбайт (8 x 8 Гбайт) DDR3-1600 регистровая память с коррекцией ошибок (ECC), MT36KSF1G72PZ-1G6M1HF G.Skill 32 Гбайт (4 x 8 Гбайт) DDR3-1600 небуферизованная память, F3-12800CL9Q2-32GBZL |
Жесткий диск | Intel SSDSA2BZ200G3 200 Гбайт SATA 3 Гбит/с (SSD 710) |
Видеокарта | Nvidia Quadro FX 1800 |
Блок питания | Intel DPS-750XB A 750 W Chicony CPB09-003A 1000 W |
Системное ПО и драйверы | |
Операционная система | Windows 8 Professional 64-битная |
Версия DirectX | DirectX 11 |
Видеодрайвер | Драйвер Nvidia Quadro 331.87 |
Конфигурация бенчмарков | |
Adobe Creative Suite | |
Adobe After Effects CC | Версия 12.0.0. 404 x64: создание видео, три потока, 210 кадров, рендеринг множества кадров одновременно |
Adobe Photoshop CC | Версия 14.0 x64, наложение фильтров на изображение в формате TIF объемом 15,7 Мбайт: Radial Blur, Shape Blur, Median, Polar Coordinates |
Adobe Premeire Pro CC | Версия 7.0.0.0, вывод проекта MXF объемом 6,61 Гбайт H.264 в H.264 Blu-ray, разрешение 1920×1080, макс. качество |
Кодирование аудио/видео | |
iTunes | Версия 11.0.4.4 x64: Audio CD (Terminator II SE), 53 мин, формат AAC по умолчанию |
LAME MP3 | Версия 3.98.3: Audio CD “Terminator II SE”, 53 мин, конвертация WAV в MP3, ключи командной строки: -b 160 –nores (160 Кбит/с) |
Hand Brake CLI | Версия: 0.9.9, видеозапись на Canon Eos 7D (1920×1080, 25 кадров) 1 мин 22 с, звук – PCM-S16, 48 000 Гц, два канала. Конвертация в формат: видео – AVC1, звук – AAC (High Profile) |
Total Code Studio 2.5 | Версия: 2.5.0.10677, MPEG2 в H.264, MainConcept H.264/AVC Codec, 28 с HDTV 1920×1080 (MPEG2), звук: MPEG2 (44,1 КГц, два канала, 16-бит, 224 Кбит/с), кодек: H.264 Pro, режим: PAL 50i (25 FPS), профиль: H.264 BD HDMV |
Приложения продуктивности | |
ABBYY Fine Reader | Версия 11.0.102. 583: чтение PDF, сохранение в Doc, источник: Political Economy (J. Broadhurst 1842) 111 стр. |
Adobe Acrobat XI | Версия 11.0.0: печать PDF из PowerPoint 115 стр., шифрование 128-бит RC4 |
Autodesk 3ds Max 2012 и 2013 | Версия 14.0 x64: Space Flyby Mentalray, 248 кадров, 1440×1080 |
Blender | Версия 2.68a, Cycles Engine, Syntax blender -b thg.blend -f 1, 1920×1080, сглаживание 8x, Render THG.blend frame 1 |
VisualStudio 2010 | Версия 10.0, компиляция Google Chrome, скриптовая |
Cinebench | Cinebench R15.0, компонент CPU |
Euler3D | CFD-симуляция аэродинамического теста NACA 445.6 модели крыла Mach.5 |
Autodesk Maya 2014 | Рендеринг логотипа THG в mental ray, 1920×1080, фильтры global illumination, photo-realistic motion blur, ray-traced shadows. Тест OpenGL: генерация Playblast-анимации (OpenGL-превью) на RAM-диск |
e-on Software Vue 2014 PLE | Кастомный сценарий – рендеринг пейзажа (сгенерирован в полной версии Vue 8 и импортирован в PLE) |
Сжатие данных | |
WinZip | Версия 18.0 Pro, тестовый набор файлов THG (1,3 Гбайт), сжатие в ZIP, командные ключи “-a -ez -p -r” |
WinRAR | Версия 5.0, тестовый набор файлов THG (1,3 Гбайт), сжатие в ZIP, командные ключи “winrar a -r -m3” |
7-Zip | Версия 9.30 Alpha, тестовый набор файлов THG (1,3 Гбайт), сжатие в .7z (LZMA2), командные ключи “a -t7z -r -m0=LZMA2 -mx=5” |
Синтетические тесты и настройки | |
3DMark | Версия: 1.1, только бенчмарк |
SiSoftware Sandra 2014 | Версия: 2014.02.20.10, бенчмарки CPU = CPU Arithmetic, Multimedia, Cryptography, Memory Bandwidth |
Обзор Intel Xeon E5-2600 v2 | Результаты тестов
Sandra 2014 и 3DMark
В материале “Intel Xeon E5-2600: обзор двухпроцессорной системы” мы убедились, насколько быстрее пара процессоров Xeon E5 с архитектурой Sandy Bridge-EP по сравнению с Xeon на архитектуре Westmere-EP и Nehalem-EP. Когда дело доходит до продуктов корпоративного класса, Intel ещё агрессивнее продвигает свои новинки, чем в случае настольных CPU. Таким образом, переход от четырёх к шести ядрам, а затем и к восьми на каждый процессорный сокет превращается в значительный шаг вперёд с точки зрения производительности в многопоточных приложениях.
Переход на 22-нанометровый техпроцесс позволил Intel нарастить количество ядер во флагманской модели Xeon E5-2600 v2 до двенадцати. Тем не менее, на смену первой версии Xeon E5-2687W пришёл обновлённый восьмиядерный CPU. Вместо увеличения количества ядер Intel увеличила объём кэш-памяти L3 до 25 Мбайт и повысила тактовые частоты. Эти отличия, помноженные на изменения в архитектуре Ivy Bridge, приводят к небольшому преимуществу в тесте на целочисленные операции Sandra и более заметённому выигрышу в операциях с двойной точностью.
Разумеется, обе двухпроцессорные конфигурации демонстрируют значительное преимущество в “сырой” вычислительной производительности относительно системы с десктопным процессором Core i7-4960X.
Как мы знаем из статьи “Обзор Ivy Bridge и Intel Core i7-3770K: максимально подробно”, Intel не предлагает большого количества значительных изменений в архитектуре Ivi Bridge. Xeon E5-2687W v2 на самом деле извлекает преимущество из более агрессивной тактовой частоты относительно своего предшественника, но инструкции AVX поддерживают все три тестовые конфигурации.
Даже в однопроцессорной конфигурации четырёхканальный контроллер памяти Intel обеспечивает значительную пропускную способность. Core i7-4960X поддерживает работу с более чем 40 Гбайт оперативной памяти на скорости DDR3-1866. Два процессора Xeon E5-2687W почти удвоили его результат, используя память DDR3-1600 и достигнув пропускной способности 74 Гбайт/с. Система с двумя Xeon E5-2687W v2 обеспечивает 10%-ный прирост пропускной способности памяти относительно аналогичной двухпроцессорной конфигурации на процессорах первого поколения, достигнув значения 80 Гбайт/с.
Мы также знаем, что поддержка шифрования AES-NI во всех трёх конфигурациях означает, что такие инструкции будут выполняться настолько быстро, насколько они поступают из оперативной памяти, что делает производительность в таких задачах зависящей от пропускной способности памяти. Производительность масштабируется именно так, как и можно было предполагать.
Тест на хэширование нагружает ядра x86, поэтому легко объяснимо, что шестиядерный Core i7-4960X обеспечивает менее половины пропускной способности обеих 16-ядерных конфигураций.
Учитывая использование в тестовой системе старой видеокарты для рабочих станций, среди входящих в состав 3DMark единственным представляющим интерес является многопоточный тест Physics. Очевидно, что данный бенчмарк не масштабируется в зависимости от количества ядер. Преимущество нового Xeon E5-2687W v2, судя по всему, объясняется большим объёмом кэша L3 и более высокими стоковыми тактовыми частотами.
Adobe CC
Нынешняя тема заставляет нас рассмотреть одно из следствий растущего внимания к гетерогенным вычислениям. Когда мы переносим часть вычислений на встроенную или дискретную графику, для многоядерных CPU остаётся меньше работы.
Хотя есть соблазн рассмотреть результаты и предположить, что ускорение CUDA помогает стабилизировать производительность, тогда как Quadro FX 1800 становится “бутылочным горлышком”, более старая графика Nvidia профессионального класса не входит в список видеокарт, поддерживаемых Adobe. Мы дважды запустили тест и удостоверились, что GPU не принимает участия в данном тесте: вся нагрузка ложится на CPU.
В нашем последнем обзоре мы также выяснили, что рендеринг видео в Premiere Pro задействует много ядер. Вероятно, наш тест не является достаточно тяжёлой нагрузкой, чтобы продемонстрировать, на что способны два восьмиядерных процессора. Тест Paladin, который мы ранее использовали, представлял собой более интенсивную нагрузку, но создавался для Premiere Pro CS5. Наш тестовый сценарий Hollywood для последней версии Premiere попросту не является копией более старого теста.
То же самое можно сказать о тесте After Effects, который может получить ускорение при использовании CUDA/OpenCL-совместимых карт, но не имеет нативной поддержки Quadro FX 1800. В прошлом данный тест ограничивался тремя клипами QuickTime, которые не задействовали многопоточность. Мы заменили их последовательностью PNG, чтобы устранить данное ограничение. Теперь мы видим 100% загрузку, но масштабирование производительности не так явно привязано к хостовому процессору.
Наконец, когда мы добрались до Photoshop CC, поддержка OpenCL обеспечивается нашей Quadro FX 1800. Вместе с тем интересно, что переход к карте Nvidia с большим количеством ядер x86 не помогает повысить производительность фильтров, использующих аппаратное ускорение. Фактически имеет место обратное: обе двухпроцессорные рабочие станции работают медленнее, чем компьютер на Core i7.
Ситуация меняется, когда мы переходим к серии фильтров, задействующих многопоточность. Два процессора Xeon E5-2687W v2 выполняют тестовый сценарий примерно вдвое быстрее, чем один Core i7-4960X. В данном случае мы видим, за что платим деньги. Некоторые фильтры быстрее работают на настольных CPU с более высокой тактовой частотой. Другие фильтры максимально задействуют многоядерные конфигурации, а некоторые лучше оптимизированы под OpenCL.
Кодирование мультимедиа
Производительность в TotalCode Studio от компании Rovi, конечно, не масштабируется в прямой зависимости от количества ядер или стоимости. Тем не менее, пара Xeon E5-2687W v2, действительно, быстрее Xeon E5-2687W предыдущего поколения, которые, в свою очередь, быстрее Core i7-4960X. Но поскольку преимущество настолько мало, у вас вряд ли возникнет желание приобрести дорогостоящую двухпроцессорную конфигурацию для кодирования видео в TotalCode.
Конвертация видеоклипов кодеком H.264 в HandBrake масштабируется намного лучше. Это особенно интересно, так как HandBrake использует кодировщик x264, который действительно хорошо оптимизирован для многоядерных CPU. Кроме того, существуют сборки HandBrake с поддержкой технологии Quick Sync от Intel и OpenCL, что позволяет перенести часть вычислений на GPU.
Кроме того, из обзора “Next-Gen Video Encoding: x265 Tackles HEVC/H.265” (англ.) мы знаем, что кодировщики следующего поколения будут весьма требовательны к производительности, поскольку они обеспечат более высокое качество при том же самом битрейте либо то же качество при меньшем битрейте по сравнению с H.264. Когда требуемый уровень качества требует использовать программный кодировщик, более производительные двухпроцессорные конфигурации обеспечат лучший пользовательский опыт.
Подобно Photoshop, для более быстрого выполнения тестового сценария Sony Vegas задействует ускорение OpenCL. Уровень загрузки графики Quadro FX 1800 составил около 82%, но ядра CPU на Core i7 были загружены менее чем на 25%. Как и в случае Photoshop, производительность на платформе с большим количеством ядер не повышается. Вместо этого Core i7 обеспечил наилучший результат, и конфигурации на процессорах Xeon ему заметно уступают.
LAME и iTunes, будучи однопоточными приложениями, отражают один и тот же факт: Ivy Bridge на более высоких частотах быстрее, чем Sandy Bridge на более низких. Значительную роль в этом играет переход Intel с 32 на 22-нанометровый техпроцесс, позволивший использовать более агрессивные параметры в рамках того же самого теплового пакета.
Рендеринг
Релиз Cinebench R15 от компании Maxon, основанный на ПО Cinema 4D, отличается от предыдущих версий бенчмарка. Он позволяет задействовать до 356 ядер (физических или логических) для рендеринга сцены, содержащей около 2000 объектов, состоящих из более 300000 полигонов. Maxon настолько изменила подход к рендерингу, что масштабирование результатов намного заметнее, чем при использовании предыдущих версий бенчмарка, и именно по этой причине мы видим здесь показатели, которые намного выше, чем в более ранних тестах.
Результаты однопоточного теста отражают разницу между архитектурами Sandy и Ivy Bridge. Между тем, многопоточный компонент теста иллюстрирует разницу между 6 и 16 ядрами. Более того, основанные на архитектуре Ivy Bridge-EP процессоры Xeon E5-2687W v2 получают дополнительное преимущество благодаря более новой архитектуре и более высоким тактовым частотам.
Наш тест в 3ds Max представляет собой сценарий на базе реальной работы, поэтому здесь не стоит ожидать столь же значительного масштабирования производительности, как в синтетических тестах, предназначенных для того, чтобы выжать из тестируемого “железа” максимальную производительность. Учитывая данное обстоятельство, мы видим массивный прирост производительности при переходе от одного процессора Core i7 к двухпроцессорным конфигурациям. Ivy Bridge-EP незначительно быстрее Sandy Bridge-EP, но этого можно было ожидать, принимая во внимание равное число ядер и небольшое преимущество по частоте у более новой архитектуры. Действительно заметную прибавку в результатах мы надеемся увидеть в тестах на эффективность, где объединятся небольшие улучшения в производительности и потреблении энергии.
Как выясняется, всё-таки можно выжать максимальную производительность в реальных приложениях! Наш тест в Blender выявил явные различия между самым быстрым настольным процессором и двухпроцессорными конфигурациями на Xeon E5 для рабочих станций.
И вновь, сравнивая между собой результаты Xeon E5-2687W и Xeon E5-2687W v2, мы видим относительно небольшие различия. Расход энергии – та область, где разница между процессорами двух поколений должна быть более заметной.
Vue 2014 от e-on Software представляет собой ещё один тест, в котором выявляется значительная разница между лучшей конфигурацией, которую можно собрать на настольной платформе LGA 2011, и тем, что можно получить, если сделать выбор в пользу рабочих станций на Xeon. Рендеринг тестовой пейзажной сцены на Core i7 потребовал более 22 минут. Переход к паре Xeon E5-2687W снизил время рендеринга до 10 минут, а два Е5-2687Wv2 справились с задачей менее чем за девять минут.
Наша playblast-анимация в Maya 2014 внесла путаницу в результаты. Лучшее объяснение, что мы можем предложить, заключается в том, что та же проблема с использованием GPU, которая препятствовала занять первые места двухпроцессорным конфигурациям в приложениях с OpenCL-ускорением вроде Vegas и Photoshop, вновь приводит к лидерству систему с процессором Core i7.
Рабочие приложения
Компиляция браузера Google Chrome в Visual Studio 2010 показывает другую сильную сторону наших двухпроцессорных машин. Не все проекты могут извлечь так же много пользы от многоядерной конфигурации, однако в данном конкретном тесте для Core i7-4960X потребовалось больше 15 минут. Система с двумя Xeon E5-2687W предыдущего поколения выполнила тест менее чем за 10 минут, а новые Xeon E5-2687W v2 справились с задачей менее чем за девять минут.
Тест Euler3D базируется на программе расчёта гидродинамики STARS Euler3D. Тест симулирует итерации вычислений, связанных с динамикой жидкостей и газов (AGARD 445.6 aeroelastic test wing, Mach 0.5). Подробнее о данном тесте можно узнать на сайте разработчика – лаборатории Computational AeroServoElasticity (CASE) Университета штата Оклахома. Тест является 32-битным, так как разработчики полагают, что 64-битные компиляторы не являются достаточно зрелыми, и предпочитают придерживаться стандартизованных результатов. Тем не менее, он хорошо оптимизирован под многопоточность, автоматически определяет количество ядер CPU и запускает соответствующее количество потоков. Тест выдаёт два результата: число итераций в секунду, которые были выполнены тестом (в герцах), и время, которое ушло на завершение всего теста (в секундах).
Поскольку каждый процессор Xeon E5-2687W v2 имеет по восемь ядер, конфигурация на базе Ivy Bridge-EP более чем в два раза опережает шестиядерный Core i7-4960X. Кроме того, процессоры Xeon также оказались немного быстрее предшественников благодаря более высоким тактовым частотам.
Компания ABBYY прикладывает немало усилий для оптимизации под многопоточные вычисления, и последняя версия FineReader по-прежнему способна задействовать все доступные ресурсы хоста до тех пор, пока на каждое ядро остаётся не менее 512 Мбайт оперативной памяти. Вряд ли можно считать оптическое распознавание текста тяжёлой вычислительной нагрузкой, но система на базе двух Xeon E5-2687W v2 выполнила наш тестовый сценарий в два раза быстрее, чем флагманский настольный процессор Core i7.
В отличие от предыдущего теста, конвертация презентации PowerPoint в PDF-файл является в большей степени однопоточной нагрузкой, и в данном тесте заметной пользы от большого количества ядер не наблюдается. Но благодаря переходу на 22-нанометровый техпроцесс Xeon E5-2687W v2 может работать на частоте 4 ГГц, если активно только одно ядро. Как результат – новый Xeon работает примерно на уровне шестиядерного Core i7-4960X на базе архитектуры Ivy Bridge и примерно на 10% опережает первую версию Xeon E5-2687W.
Сжатие данных
Как правило, мы рассматриваем 7-Zip как архиватор, наиболее оптимизированный для многопоточных вычислений. Тот факт, что обе конфигурации на Xeon E5-2687W финишировали одновременно, указывает на то, что производительность ограничивает какой-то иной фактор. При прочих равных параметрах мы рассчитывали увидеть, что версия на базе Ivy Bridge выиграет за счёт более высоких тактовых частот, большего объёма кэша и дополнительной пропускной способности памяти.
В любом случае, двухпроцессорные конфигурации, по меньшей мере, заметно быстрее, чем один Core i7-4960X.
WinRAR в больше степени известен как архиватор, максимально задействующий преимущество по показателям тактовой частоты. Неудивительно, что обе конфигурации с процессорами Ivy Bridge финишировали первыми, опередив систему на базе архитектуры Sandy Bridge-EP.
Тестовая диаграмма WinZip включает в себя три отдельных бенчмарка, и результаты последней новинки Intel сложны для интерпретации.
Начнём с самого длинного столбика, соответствующего тесту EZ. Он представляет максимальную степень сжатия. Core i7 и двухпроцессорная конфигурация на Xeon с архитектурой Sandy Bridge-EP в этом тесте показали близкие результаты. Между тем, Xeon E5-2687W v2 оказался в несколько раз быстрее. Фактически с этим же мы сталкивались и в обзоре “12-ядерный Intel Xeon с кэш-памятью L3 на 30 Мбайт: новый CPU для Mac Pro?”, поэтому можно не сомневаться в постоянстве результатов данного бенчмарка.
Затем идёт общий тест CPU. WinZip 18.0 оптимизирован для многопоточных вычислений, и данный тест отдаёт предпочтение обеим двухпроцессорным конфигурациям вместо Core i7.
Наконец, тест с ускорением OpenCL выполняется быстрее на Core i7, но медленнее на двухпроцессорных конфигурациях, в отличие от теста, задействующего только CPU. Но даже эти не самые выдающиеся результаты, тем не менее, всё равно быстрее, чем показывает Core i7. Возможно, причина заключается в том, что WinZip распределяет нагрузку на графический процессор лишь при сжатии файлов объёмом более 8 Мбайт. Поскольку наш тестовый набор состоит из файлов различного объёма, использование OpenCL-ускорения приводит к снижению производительности при 16-ядерных конфигурациях. Между тем, шестиядерный Core i7 получает некоторую прибавку в производительности от видеокарты Nvidia Quadro FX 1800. В конечном счёте, однако, оптимизированный для многопоточных вычислений движок архиватора всё равно справляется с задачей быстрее на процессорах Xeon.
Потребление энергии и эффективность
Наш тестовый пакет автоматизирован таким образом, что всякий раз тесты выполняются в одной и той же последовательности, с одинаковыми промежутками между командами. Присутствует даже период простоя в конце набора, что позволяет отразить реальную ситуацию использования рабочей станции, поскольку даже рабочие станции класса high-end не работают 24 часа 7 дней в неделю. По завершении периода простоя система автоматически выключается.
Когда это происходит, мы фиксируем данные о расходе энергии. На представленной выше диаграмме отражены данные об энергопотреблении, зафиксированные во время прогона пакета тестов. Мы также учитываем, как много времени потребовалось системе для выполнения тестового пакета, отмечая продолжительность каждого прогона. Сразу становится понятно, что двухпроцессорная система на Xeon E5-2687W v2 выполняет наш набор тестов быстрее, чем система на процессорах E5-2687W первого поколения, и при этом потребляет меньше энергии.
Сложив воедино зафиксированные результаты, мы видим, что новые процессоры Xeon расходуют на 20 Вт меньше энергии при прохождении нашего пакета тестов. Это весьма примечательно, если принять во внимание следующее:
- Новые Xeon работают на более высоких тактовых частотах под нагрузкой и в приложениях со слабой поддержкой многопоточности.
- Новые Xeon имеют на 5 Мбайт больше общего кэша L3 (на каждый процессор).
- Средние результаты учитывают значительный объём однопоточных вычислений и период простоя. Если принимать во внимание только сценарии, оптимизированные для многопоточных вычислений, то ситуация усугубится.
Конечно, средняя величина расхода энергии сама по себе не отражает, насколько быстро данная платформа выполнила свою работу, перешла в режим простоя и прекратила потреблять энергию. Для этого нам необходимо зафиксировать общий объём израсходованной энергии, умножив среднее значение (в ваттах) на время, которое потребовалось для выполнения тестового пакета.
Значительный объём однопоточных вычислений и присутствие в тесте периода простоя дают Core i7 большое преимущество, когда дело доходит до среднего значения расхода энергии. Тем не менее, поскольку два Xeon E5-2687W v2 справляются с задачей намного быстрее, они сокращают отрыв, когда мы учитываем скорость выполнения задачи.
По сравнению с процессорами Xeon E5 первого поколения, новые Xeon E5-2687W v2 расходуют меньше энергии и работают быстрее. Это и есть причина ощутимого отрыва от предшественников по результатам эффективности (иногда 42 Втч).
Обзор Intel Xeon E5-2600 v2 | Ivy Bridge-EP: более быстрые и эффективные решения на старой платформе
Системные администраторы редко сталкиваются с необходимостью вынуть процессоры предыдущего поколения из рабочих станций и установить вместо них новые, но с технической точки зрения линейка Intel Xeon E5-2600 v2 позволяет осуществить подобный апгрейд. Компания успешно завершила переход с 32-нанометрового на 22-нанометровый техпроцесс, одновременно представив более сложные процессоры (до 12 физических ядер и 20 Мбайт общего кэша L3) и сохранив ранее принятые значения TDP и совместимость с существующими платами на LGA 2011 (разумеется, после соответствующего обновления прошивки).
Помимо увеличения количества ядер, кэша и тактовых частот, стоит отметить, что процессоры Xeon E5-2600 v2 также основаны на архитектуре Ivy Bridge. Таким образом, в них реализован ряд улучшений, повышающих производительность за такт относительно архитектуры Sandy Bridge. Наконец, некоторые входящие в линейку процессоры используют более агрессивные параметры работы с памятью, в некоторых случаях поддерживая работу в режиме DDR3-1866.
Ни один из тестовых сценариев, которые мы запускали, не требует столь значительной пропускной способности. Тем не менее, наши тесты с лёгкостью выявили, в чём Xeon E5-2687W v2 превосходит своего предшественника. Более высокие частоты Turbo Boost означают, что процессоры второго поколения лучше справляются с однопоточными тестами. Повышена и базовая тактовая частота, поэтому повышение производительности можно ждать при полной загрузке ядер CPU. Независимо от типа тестовой нагрузки, потребление энергии процессорами с архитектурой Ivy Bridge-EP ниже, несмотря на то, что TDP по-прежнему составляет 150 Вт.
Конечно, можно сэкономить кучу денег и даже на счетах за электричество, выбрав Core i7-4960X. В некоторых случаях это действительно обоснованно. Всё больше приложений сегодня оптимизированы для гетерогенных вычислений. Для таких приложений видеокарта с производительным GPU обеспечит более заметный прирост производительности, чем второй процессор. С другой стороны, мы только что видели несколько примеров, как двухпроцессорная конфигурация на Xeon E5-2600 v2 сокращает в два раза (или более) время компиляции кода, оптического распознавания текста и рендеринга.
У нас могут быть вопросы к команде Intel, занятой разработкой настольных CPU, так как в последних двух поколениях реализованы лишь незначительные улучшения. Переход от Sandy Bridge к Ivy Bridge вызвал разочарование у компьютерных энтузиастов. Точно так же новейшая архитектура Haswell не даёт оснований для восхищения. Те же четыре ядра, общий кэш L3 объёмом 8 Мбайт, 16 линий PCIе и незначительное повышение скорости, связанное с эволюцией самой архитектуры.
Но в мире серверных процессоров Intel реализовала потенциал перехода на более тонкий техпроцесс, предложив большее количество ядер, более высокие частоты либо просто сравнимый уровень производительности при сниженном потреблении энергии. Именно инноваций такого характера ожидают компьютерные энтузиасты.