Международная исследовательская группа доказала, что применение нового метода искусственного интеллекта станет более безопасным. Результаты работы исследователей представил на международной конференции по обработке естественного языка EMNLP в Сингапуре студент магистратуры Университета Иннополис, победитель программы «УМНИК» Данис Алукаев.
Данис Алукаев стал победителем программы «УМНИК» в 2020 году с проектом «Разработка облачной платформы для детектирования патологий на биомедицинских изображениях с помощью нейронных сетей».
Современные модели глубокого обучения занимаются машинным переводом на все языки мира, выдают рекомендации пользователям киносервисов и маркетплейсов, строят графы знаний, генерируют изображения по тексту и диагностируют заболевания по медицинским снимкам. Однако человеку по-прежнему сложно интерпретировать решения моделей, что может тормозить внедрение ИИ-технологий в критически важные сферы, например, в медицину.
«Обычно модель машинного обучения воспринимается как чёрный ящик: на “вход” мы подаём какую-то информацию, на “выходе” - получаем результат. Но на практике специалистам, принимающим решения при помощи ИИ-сервисов, важно понимать причины, почему результат получился таким. Большинство современных моделей машинного обучения - чёрные ящики, в них нет механизмов для объяснения поведения модели. Наша научная работа и полученные результаты позволили приблизиться к пониманию того, что происходит внутри инструментов, основанных на искусственном интеллекте», - рассказал Данис Алукаев, студент Университета Иннополис.
По словам группы исследователей из России, Дании и Великобритании, объяснение принятых решений моделей машинного обучения увеличит доверие врачей и других специалистов при работе с искусственным интеллектом. Так, рентгенолог будет видеть не только поставленный ИИ-сервисом диагноз - пневмонию лёгкого, но и то, что решение вынесено из-за обнаруженных на анализируемом рентгеновском снимке признаков «матового стекла» - участков уплотнения лёгочной ткани.
Одним из подходов для повышения интерпретируемости решений моделей глубокого обучения учёные называют концептуализированную модель, или Concept Bottleneck Models. В этом подходе искусственный интеллект сначала предсказывает набор концептов, описывающий понятную человеку абстракцию: размер, позицию, текстуру, цвет, форму. Затем на основе полученного набора концептов модель делает предсказание: обнаружена ли на рентгеновском снимке патология органа, или нет. Такое предсказание авторы называют целевым. Основная идея исследователей — для объяснения целевого предсказания решения модели глубокого обучения достаточно посмотреть на предсказанные концепты и на их основе сделать вывод о достоверности предсказания.
«При таком подходе необходимо заранее выбрать набор концептов. Но возникают вопросы: на каких данных обучать модели и как разметить обучающие примеры, ведь разметка требует много времени и делается человеком вручную? Для своих экспериментов наша команда использовала 18 620 рентгеновских изображений разных органов, аннотаций врачей, разметок патологий и симптомов, которые мы использовали в других ИИ-исследованиях в этой области. Уникальность медицинских данных в том, что в них хранятся много как изображений, так и текстовых описаний — заключений рентгенологов. Мы разработали подход, где вместо набора концептов используются текстовые описания — это принципиально отличает наш метод от уже существующих», - заявил Илья Першин, руководитель Лаборатории искусственного интеллекта в медицине Университета Иннополис.
Илья Першин, будучи студентом Казанского (Приволжского)федерального университета, также стал победителем программы «УМНИК» в 2021 году с проектом «Разработка комплекса программ для высокопроизводительного моделирования антенн сложной геометрии в области телекоммуникационных систем».
Исследователи выяснили, что при совместном использовании изображения и текста искусственный интеллект учится лучше и лучше обобщает закономерности, поэтому при атаке злоумышленников модель останется устойчивой. Кроме того, для предложенного авторами метода не требуется ручная разметка концептов — они автоматически выделяются моделью во время обучения, что позволяет создать оптимальный набор концептов и не тратить человеческий ресурс на рутинное аннотирование.
Напомним, в 2022 году на базе Центра «Мой бизнес» Республики Татарстан было открыто региональное представительство Фонда содействия инноваций. Центр «Мой бизнес» осуществляет общую интеграцию процесса реализации каждого конкретного проекта-победителя конкурса «Студенческий стартап» с предприятиями, с ВУЗами, с министерствами и ведомствами Республики Татарстан для дальнейшей коммерциализации технологических проектов в рамках нацпроекта «Малое и среднее предпринимательство».