![]() |
09:05 [Андрей Шуклин]
В мире суперкомпьютеров
Только что кончилось шоу SuperComputer 2003 Summer, и, как вы уже догадались, рейтинг пятисот самых быстрых суперкомпьютеров был снова обновлен. На первом месте по-прежнему держится дорогущий японский суперкомпьютер, принадлежащий NEC Earth Simulator. Однако за ним теперь идут большие кластеры, построенные из 64-битных, а иногда и 32-битных серверов.
Номером два в этом списке стала система ASCI Q, расположенная в лабораториях Лос Аламос (Los Alamos Labs). Это самый большой суперкомпьютер Alpha, содержащийа 2,048 четырехпроцессорных блоков (всего в нем 8,192 процессоров с частотой 1,25 ГГц). Эта система работает под управлением Tru64 UNIX, а ее производительность оценивается 20,48 триллионами операций с плавающей точкой в секунду при пиковых нагрузках и 13,88 триллионами при постоянной работе.
Каждый процессор такой монстроподобной системы обладает 13 Мб кэша, работающим вдвое медленнее собственной частоты процессора. Зачем это надо? А затем, чтобы минимизировать задержки при доступе к разделам памяти, относящимся к другим процессорам. В системе установлено 33 Тб оперативной памяти, и чтобы добиться эффективного ее использования, нужен действительно большой объем кэша.
Третью позицию занимает кластер MCR, работающий под управлением Linux. Эта машина установлена в лабораториях Лоуренс Ливермор (Lawrence Livermore Lab) и насчитывает в своих недрах 1,152 систем с двумя процессорами Intel Xeon 2,4 ГГц и 4,6 Тб оперативной памяти. Суперкомпьютер, занимающий шестое место в рейтинге, изготовлен фирмой IBM и расположен там же, где и третий. Он используется для генетических исследований и насчитывает 960 блоков по 2 процессора Intel Xeon. Производительность этой системы составляет 9,216 Тфлоп в пиках и 6,586 при постоянной нагрузке.
Система, занимающая восьмое место, снова обладает 64-битной архитектурой. Это самый мощный в мире кластер на процессорах Intel Itanium, расположенный в Pacific Northwest Labs. Система составлена из 770 платформ HP McKinley, каждая из которых содержит по 2 процессора Intel Itanium 1 ГГц. Его производительность оценивается 6,160/4,881 Тфлоп. За ним идут два кластера на процессорах Alpha, расположенные в питсбургском университете и во французском департаменте атомной энергетики.
Но, познакомившись с десятком лучших суперкомпьютеров, мы, пожалуй, добрались до самого интересного. Что же позволяет этим кластерам, составленным из более-менее нормальных серверов показывать столь серьезные результаты? Конечно, это метод соединения, так называемый интерконнект. Хотите верьте, хотите нет, но чудо, которое объединяет всех этих монстров, было разработано в Бристоле (Великобритания), где в свое время появился Transputer.
Quadrics, технология, которая сейчас принадлежит компании Finmeccanica, расположенной в Италии, вместе с EV-7, присущей Alpha, и HyperTransport, которым обладают процессоры Opteron, по сути, являются идеологическими потомками Transputer, причем немалая часть команды, занимавшейся этим проектом, участвовали в разработке Quadrics.Пожалуй, это была первая инициатива, реализовавшая подключение с разделением памяти, основанное на SPARC. Но, как всегда, прекрасная технология не получила никакой маркетинговой поддержки и никакого внимания от государства, в то время как подобные проекты в США моментально зарабатывали всеобщее признание. Как видите, Великобритания чем-то похожа на нашу страну, но сейчас речь не об этом. Компания Finemeccanica стала своего рода рыцарем на белом коне, который спас прекрасную Quadrics. Теперь же эта технология используется во множестве огромных кластеров, обеспечивая эффективный совместный доступ к памяти тысяч процессоров.
Пожалуй, стоит немного рассказать о разделении памяти. Подобный подход позволяет программисту адресовать все свободное пространство оперативной памяти во всем кластере для своей задачи. Таким образом, в 64-битном кластере, состоящим из 128 систем, каждая из которых обладает 16 Гб оперативной памяти, вы можете развернуть свое творчество на 2 Тб. Восхищает? Конечно, удаленная память несколько медленнее собственной, но удачные приемы программирования практически сведут все задержки на нет.
Решая некоторые задачи, такие как квантовое моделирование, вы можете убедиться на своем опыте (если дома стоит кластер, стоимостью…:) ), что программирование, учитывающее обращение к “чужой” памяти позволяет достичь значительно больших результатов, чем обычная методика MPI, когда вы обрабатываете большие массивы данных. Дело в том, что MPI не позволяет напрямую обращаться к неродной памяти, тормозя тем самым весь процесс.
Соединение Quadrics позволяет получить выигрыш как при использовании MPI, так и при разделении памяти. К тому же оно может работать с системами на Alpha, на процессорах Intel, и в скором времени ожидается поддержка AMD (хотя непонятно, почему процессоры Power остались не у дел). Так что сегодня узким местом по праву может считаться шина PCI и даже PCI-X, ведь кластер сам по себе начинает работать быстрее интерфейса ввода/вывода, благодаря хорошему инетрконнекту, поэтому сегодня системам необходимы действительно высокоскоростные соединения, такие как POWER5 GX+, AMD HyperTransport или Alpha IO7.
Что касается Quadrics, сегодня ее главными оппонентами можно считать Gigabit LAN и, может быть, Myrinet.
Введите ключевые слова для поиска и нажмите Enter. |