Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC

07 декабря 2021, 23:44

На ежегодной конференции по системам обработки информации для нейросетей (NeurIPS) состоялась презентация двух крупнейших в мире датасетов естественного языка для ИИ-систем автоматического транскрибирования и перевода.

Первый датасет называется People’s Speech («Устная речь»). Он предназначен для использования в ИИ-системах «автоматического распознавания речи» и ее транскрибирования в текст.

Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC

Второй датасет получил название Multilingual Spoken Words Corpus (MSWC) – «Многоязычная речь». Он используется для установления соответствия между односмысловыми словоформами естественного устного языка разных народов мира.

Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC

Разработка проектов People’s Speech и MSWC началась в 2018 году. Инициатором исследований выступила Ассоциация ML Commons, известная разработкой бенчмарков для ИИ-систем MLPerf. Задачей исследовательских проектов было выявление и классификация 50 наиболее активно используемых в мире разговорных языков. Результатом стал набор примитивов. По имеющимся оценкам, созданные дата-сеты являются наиболее полными среди всех существующих в мире, аналогичных наборов.

В разработке участвовали группы исследователей из Intel, Гарварда, Alibaba, Oracle, Landing AI, Мичиганского университета, Google, Baidu и ряда других центров.

Особенностью полученных датасетов стало то, что при обучении использовались данные с фоновым шумом и неформальными речевыми оборотами в различных акустических средах. Исследователи сразу отказались от применения «идеального» контента, например, аудиокниг, принимая во внимание, что неадаптированный оригинальный контент позволяет получать более точные результаты при реальном использовании обученных датасетов.

В датасет People’s Speech входят десятки тысяч часов разговорных записей. В настоящее время это один из крупнейших в мире наборов данных для распознавания устной речи на английском языке. Он лицензирован для академического и коммерческого применения и доступен для бесплатной загрузки.

Анонс двух крупнейших в мире ИИ-датасетов естественного языка People's Speech и MSWC

Набор аудиоречевых данных MSWC содержит более 300 000 ключевых слов на десятках языков мира. По данным Intel, его аудитория составляет более пяти млрд человек. Этот набор также имеет значительные возможности для лицензирования, включая коммерческое применение.

Ранее редакция THG.ru опубликовала статью об искусственном интеллекте. Искусственный интеллект уже давно занял важное место в научно-фантастической литературе и голливудских блокбастерах. Именно они формируют мнение большинства людей о том, что из себя представляет ИИ, и чего от него следует ожидать. Но насколько это мнение соответствует реальному положению вещей? Давайте разбираться. Подробнее об этом читайте в статье “Искусственный интеллект: правда и вымысел”.