Тайны нового графического процессора NVIDIA Tesla A100 стали раскрываться

14 мая 2020, 14:27

Благодаря утечке, на сайте VideoCardz появилось неофициальное изображение новой графической карты NVIDIA Tesla A100 следующего поколения.

Карта Tesla A100 разработана специально для поддержки AI-приложений, требующих большого объема вычислительной работы. Изделие работает на базе неизвестного графического процессора крупного размера, разработанного специально под новый фирменный сокет SXM от NVIDIA.

NVIDIA Tesla A100

Ранее высказывались предположения, что новый GPU NVIDIA будет установлен в разъем своего предшественника – графического процессора Volta V100 предыдущего поколении. Предположение обосновывалось тем, что тот похож на новый разъем SXM. Однако позднее выяснилось, что монтажные точки были перенесены в другое место. Это позволило сделать вывод том, что для установки потребуется абсолютно новая системная плата.

Tesla A100 построен на графическом ядре GA100, данные по которому пока неизвестны. Если внимательно разглядеть рисунок, то можно заметить, что к шести модулям высокопроизводительной памяти HBM (High Bandwidth Memory), располагающимся по краям, подключен один очень большой полупроводниковый кристалл в центре. Скореt всего, это память с высокой пропускной способностью HBM2E третьего поколения, которая получила название Flashbolt.

Другие детали пока неизвестны. Ожидается, что более подробная информация появится сегодня на онлайн-выступлении GTC 2020.

Новые характеристики процессора

Варианты представления числовых значений

Позднее, из других источников, опубликованных на сайте TechPowerUp, стало известно, что новый процессор NVIDIA позволяет добиваться 20-кратного роста в производительности на таких разноплановых прикладных вычислительных операциях, как вычисления для ИИ и целочисленные вычисления с одинарной точностью (FP32).

Сравнения проводились по предшественнику – Tesla Volta V100. В операциях с плавающей точкой и двойной точностью (FP64) новый чип Tesla A100 показал рост производительности в 2,5 раза по сравнению с Volta.

Отметим сразу новшество. NVIDIA ввела новый формат представления числа для AI-вычислений. Он получил название TF32 (tensor float 32). TF32 представляет собой пару чисел – 10-битная мантисса FP16 и 8-битная экспонента FP32. Это напоминает представления иррациональных чисел в математике. Такое новшество позволило NVIDIA перейти к более эффективному формату хранения данных. Именно благодаря применению нового формата хранения чисел NVIDIA объясняет достигнутый 20-кратный рост производительности по сравнению с Volta V100.

Тензорные расчеты и нейронные сети

Отметим, что тензорное расчетное ядро 3-го поколения, которое имеется в архитектуре Ampere, изначально поддерживает FP64.

Следующим ключевым элементом, который NVIDIA использовала при проектировании нового процессора Tesla A100, стало использование явления «разреженности» (“sparsity”) в нейронных сетях. Как объясняет NVIDIA, благодаря алгоритмическому сужению размера этих сетей, удается добиваться существенного прироста производительности.

Композитный графический процессор

Еще одна новая функция, которая появилась в A100 и имеет прямое отношение к высокопроизводительным вычислениям (HPC) – это возможность создавать на базе одного физического графического процессора кластер, состоящий из нескольких графических виртуальных процессоров. В результате один физический процессор превращается в композитный многоэлементный графический вычислительный блок, благодаря чему несколько приложений могут одновременно работать на одном «композитном» графическом процессоре без разделения системных ресурсов между собой. Например, это может быть использование ресурсов пропускной способности памяти.

Как это будет выглядеть в реальной жизнь?

Теперь пользователь может разделить физический A100, скажем, на семь виртуальных графических процессоров. Каждый из них будет иметь свои характеристики, которые могут отличаться от других. Приложение, запускаемое в работу на одном из таких vGPU, сможет получать доступные системные ресурсы, «не крадя» их у других приложений, работающих на том же физическом процессоре, но с другим vGPU.

Установка графического модуля в сервере DGX-A100

Результаты тестирования

Первые полученные результаты по оценке реальной производительности показали, как утверждает NVIDIA, что новый процессор A100 превзошел V100 в семь раз на тесте BERT.

Применяя в составе сервера DGX-A100, одна «графическая карта» на базе нового процессора A100, теперь способна показать вычислительную производительность до 5 петафлопс «на один узел».

Ранее редакция THG.ru опубликовала предварительный обзор AMD Ryzen 3 3100 и Ryzen 3 3300X. Во время презентации AMD Ryzen 3 3100 и Ryzen 3 3300X компания ничего не сказала о производительности новых процессоров. Но сегодня у нас наконец-то появилась возможность рассказать о том, что из себя представляют эти крайне доступные и очень интересные процессоры AMD на деле. Подробнее об этом читайте в статье “Предварительный обзор AMD Ryzen 3 3100 и Ryzen 3 3300X: PCIe 4.0 в массы”.