При этом в будущем возможно будет влиять на ответы ИИ, повышая их точность и качество. Отмечается, что данное исследование особенно важно для качественной работы ИИ в критически важных сферах, например, в медицине, финансовой отрасли и безопасности.
Наши исследования в области интерпретируемости ИИ направлены на то, чтобы сбои можно было заметить и быстро исправить их без дорогостоящего переобучения модели,
рассказал руководитель научной группы LLM Foundations T-Bank AI Research Никита Балаганский
Данное открытие – первый шаг к созданию более надежного ИИ. В лаборатории также сообщили, что результаты исследования будут представлены на Международной конференции по обучению представлений (ICRL) – одном из ведущих мероприятий в сфере машинного обучения и искусственного интеллекта.
Отмечается, преимущество SAE Match в том, что для работы не нужны дополнительные данные и вычислительные ресурсы. Это делает технологию особенно ценной для небольших исследовательских групп, не обладающих возможностями для масштабной обработки данных.