РЕКЛАМА
ИНФОРМАЦИЯ
Rambler's Top100 Рейтинг@Mail.ru

НОВОСТИ

RSS

Microsoft и NVIDIA создали ИИ-модель генерации естественного языка Мегатрона-Тьюринга

15 октября 2021, 13:23




Компании Microsoft и NVIDIA объявили о совместном создании новой ИИ-модели генерации естественного языка, получившей название Megatron-Turing Natural Language Generation (MT-NLG) («Модель генерации естественного языка Мегатрона-Тьюринга»). Со слов разработчиков, созданная ИИ-модель является крупнейшей в мире и наиболее эффективной уже обученной моделью естественного языка, пригодной для «монолитной трансформации».

Чтобы получить представление, насколько велика новая система, можно сравнить ее с ИИ-моделью GPT-3, разработанной компанией OpenAI. В последнее время о ней много говорилось в новостях. GPT-3 называлась наиболее крупной и продвинутой языковой моделью в мире. Она пригодна для решения «любых лингвистических задач на английском языке».

Microsoft и NVIDIA создали ИИ-модель генерации естественного языка Мегатрона-Тьюринга

Тенденция изменения размеров современных NLP-моделей с течением времени


Языковая ИИ-модель GPT-3 в настоящее время насчитывает 175 млрд параметров. Новая модель MT-NLG охватывает 105 слоев и не менее 530 млрд параметров. Это позволяет уже ее назвать самой большой и наиболее мощной монолитной, обученной трансформаторной языковой моделью.

ИИ-модель MT-NLG является преемником моделей Turing NLG 17B и Megatron-LM. Она смогла продемонстрировать «непревзойденную точность» в различных задачах естественного языка, таких как понимание прочитанного, рассуждения здравого смысла, предсказание завершения текста по смыслу, различение смысла слов с несколькими значениями, генерация логических выводов и создание заключений на естественном языке.

Microsoft и NVIDIA создали ИИ-модель генерации естественного языка Мегатрона-Тьюринга

Изображение: графический процессор Nvidia A100


Обучение столь мощной модели стало возможным благодаря многочисленным инновациям в области разработки современной инфраструктуры обучения на основе GPU (NVIDIA), которые были использованы вместе с передовым программным стеком распределенного обучения (Microsoft).

Обучение этой гигантской модели ИИ проводилось на суперкомпьютере под названием Selene. Эта система состояла из 560 серверов Nvidia DGX A100, каждый из которых содержал по восемь графических процессоров A100 с 80 Гбайт видеопамяти, подключенной через интерфейсы NVLink и NVSwitch. Эта конфигурация аналогична эталонной архитектуре, используемой в облачных суперкомпьютерах Azure NDv4.

Интересно, что Selene также работает на процессорах AMD EPYC 7742. Как заявляли разработчики этой машины из компании The Next Platform, строительство Selene обошлось примерно в 75-85 млн долларов.

При разработке ИИ-модели MT-NLG было создано 15 наборов данных естественного языка, содержащих более 339 млрд токенов. Наборы данных были взяты из англоязычных веб-источников, таких как академические журналы, онлайн-сообщества (Wikipedia и Stack Exchange), репозитории кода (GitHub), новостные сайты и другие. Самый большой набор данных называется The Pile и весит 835 Гбайт.

Microsoft и NVIDIA создали ИИ-модель генерации естественного языка Мегатрона-Тьюринга


Помимо этого, были разработаны методы обучения для повышения эффективности и стабильности оптимизации.



Ранее редакция THG.ru опубликовала статью об искусственном интеллекте. Искусственный интеллект уже давно занял важное место в научно-фантастической литературе и голливудских блокбастерах. Именно они формируют мнение большинства людей о том, что из себя представляет ИИ, и чего от него следует ожидать. Но насколько это мнение соответствует реальному положению вещей? Давайте разбираться. Подробнее об этом читайте в статье "Искусственный интеллект: правда и вымысел".

Читайте также:

  • Microsoft не рекомендует устанавливать Windows 11 на процессоры AMD Ryzen до 19 октября
  • Samsung Galaxy Unpacked состоится 20 октября: повестка пока неизвестна
  • Google собирается расширить совместимость ОС Fuchsia на «устройства разных форм-факторов»
  • Samsung анонсировала SDK для управления памятью CXL
  • AMD и Microsoft выявили 15% потерю производительности процессоров под Windows 11
  • следующая новость
    Геймерские модули памяти GALAX Gamer DDR5 RGB созданы в стиле LEGO

    предыдущая новость
    Народный флагман Samsung Galaxy S21 FE выйдет 11 января

     



    Свежие статьи
    RSS
    Ноутбук греется во время игры: как решить проблему Лучший процессор для игр: текущий анализ рынка Обзор беспроводных полноразмерных наушников JBL Tune 710BT и Tune 760NC Лучший SSD: текущий анализ рынка Главные новости за неделю
    Ноутбук греется во время игры Лучший процессор для игр Обзор TWS-наушников Sony WF-1000XM4 Лучший SSD Главные новости за неделю
    РЕКЛАМА
    РЕКОМЕНДУЕМ ПРОЧЕСТЬ!
    ПОСЛЕДНИЕ НОВОСТИ

    В Индии взорвался очередной смартфон POCO


    1 декабря, 2021

    Amazon представила чипсеты Graviton3 на базе Arm и инстансы EC2 C7g на их основе

    Scythe объявила о выпуске термопасты Thermal Elixer G нового поколения

    Qualcomm и Google будут совместно разрабатывать ИИ-механизм Google Cloud Vertex AI NAS

    Motorola собирается выпустить смартфон с подэкранной камерой

    D-Link выпустила беспроводной маршрутизатор DIR-615/Z

    Полупрозрачные наушники AirPods и адаптер Apple 29W оказались инженерными прототипами

    Xiaomi зарегистрировала товарный знак Xiaomi Pay

    Анонс Qualcomm Snapdragon 8 Gen 1: 4-нм чипсет для флагманов следующего поколения


    30 ноября, 2021

    Утечка данных о Qualcomm Snapdragon 8 Gen1 и G3x: тайное стало явным за день до анонса

    Анонс Redmi Note 11T 5G: мощная камера, емкая батарея и 5G за $226

    Innosilicon выпустила два семейства видеокарт Fantasy One - Type A и Type B


    29 ноября, 2021

    Intel Core Alder Lake 12-го поколения «проявились» на снимках

    ASUS Republic of Gamers представила футуристический роутер Rapture GT-AX6000

    NVIDIA попробует устранить дефицит видеокарт за счет выпуска RTX 2060 12 GB

    MediaTek готовит новый мобильный чипсет Dimensity 7000

    ССЫЛКИ