VideoCAD обучает агентов ИИ на реальном интерфейсе САПР
Новые исследования могут привести к упрощению автоматизированной генерации моделей САПР в будущем.
Исследователи Массачусетского технологического института создали VideoCAD — набор из 41 005 видеоданных взаимодействий CAD-системы Onshape, а затем обучили преобразователь, который предсказывает следующие щелчки, нажатия клавиш и перемещения курсора, необходимые для воссоздания целевой модели.
Исследователи создали набор данных, который обучает модели ИИ «управлять» профессиональным интерфейсом САПР, что является менее заметным, но потенциально важным шагом на пути к практическим вторым пилотам САПР.
От последовательностей CAD к действиям пользовательского интерфейса
Работа называется VideoCAD, и её суть проста: вместо того, чтобы напрямую генерировать CAD-файл, изучить длинную и сложную последовательность взаимодействия с пользовательским интерфейсом (UI), которая создаёт деталь в реальном программном обеспечении. Команда сосредоточилась на Onshape, браузерной CAD-платформе, и преобразовала параметрические истории построения в исполняемые UI-инструкции, которые бот может воспроизводить, одновременно записывая изображение с экрана.
Каждый пример включает в себя полное видео пользовательского интерфейса и два уровня аннотаций с временными метками: низкоуровневые действия (щелчки, ввод текста, движение мыши) и высокоуровневые САПР-операции, привязанные к примитивам, таким как эскизы и выдавливания. Другими словами, важно не только «как выглядит конечный результат», но и «что пользователь делал, когда и где на экране», чтобы его получить.
Высокоточные данные, полученные трудным путем
VideoCAD генерируется на основе разработанных человеком CAD-проектов, преобразуется в шаги пользовательского интерфейса и затем выполняется в Onshape с использованием гибридного подхода к автоматизации. Авторы используют Selenium для автоматизации на уровне DOM и PyAutoGUI для управления на уровне пикселей, намеренно избегая внутреннего API Onshape. Они также добавляют эвристики, характерные для человеческого восприятия, такие как рандомизированные задержки и масштабирование, чтобы сделать взаимодействие более приближенным к реальному использованию.
Качество — важный вопрос для синтетических данных пользовательского интерфейса, поэтому реконструкции фильтруются путем сравнения финального изометрического рендера с референсом, полученным с помощью машинного зрения, с использованием встроенного визуального восприятия и порога подобия. После фильтрации извлекаются ключевые кадры, соответствующие журналам действий, чтобы модели могли обучаться на основе пар кадров, соответствующих времени действия. Результирующий набор данных содержит 41 005 видеоматериалов по строительству в САПР.
Трансформер, который предсказывает щелчки и координаты
Чтобы доказать пригодность набора данных для использования, команда обучает VideoCADFormer — авторегрессионный преобразователь, который прогнозирует следующее действие пользовательского интерфейса на основе целевого изображения САПР и последних кадров пользовательского интерфейса.
Действия представлены в виде структурированной команды с параметрами, включая координаты указателя и числовые значения, включая такие команды, как MoveTo, PressKey, Scroll, Type и Click. Параметры распределены примерно по 1000 классам, что превращает задачу в классификацию, а не в свободную регрессию.
Эти категории выявляют главную проблему для всех, кто сталкивался с ошибками в автоматизации САПР: малейшие ошибки указателя приводят к поломке эскизов. В анализе ошибок, представленном в статье, отмечается, что неточные прогнозы по осям x и y могут, например, оставить контур эскиза открытым, что препятствует выдавливанию, и что модель иногда путает линии и дуги, когда кривизна визуально неоднозначна.
Результаты, которые многообещающие, а не волшебные
В тестах, представленных в статье, VideoCADFormer превосходит несколько базовых показателей клонирования поведения. Сообщаемая точность команд достигает 98,08%, а точность параметров — 82,35%, с более высокой долей идеально предсказанных действий, чем у методов сравнения. Они также оценивают геометрическую точность, выполняя предсказанные действия в Onshape и оценивая полученную модель с помощью Chamfer Distance.
В этом тесте, основанном на выполнении, показатели успешности всё ещё далеки от «автоматического САПР». Но тенденция заметна: общий показатель успешности повышается по сравнению с базовым уровнем VPT, а процент недействительных моделей снижается — именно то, что нужно UI-агенту, которому необходимо выдерживать длительные периоды работы, когда мелкие ошибки накапливаются.
Почему AM-разработчикам это тоже должно быть интересно
Если вы работаете в сфере аддитивного производства, то вы наверняка знаете, что время САПР часто является скрытым центром затрат: приспособления, кронштейны, кондукторы, печатаемые на месте механизмы и бесконечные правки по принципу «просто подправьте скругление».
Большинство проектов САПР с использованием ИИ направлены на прямую генерацию геометрии, но производители по-прежнему используют стандартные рабочие процессы в своих основных САПР, включая шаблоны, PDM, контроль версий и контрольные списки. Компетентный агент уровня пользовательского интерфейса теоретически мог бы встроиться в существующую цепочку инструментов, не требуя от всего мира внедрения новой САПР.Результаты, которые многообещающие, а не волшебные
В тестах, представленных в статье, VideoCADFormer превосходит несколько базовых показателей клонирования поведения. Сообщаемая точность команд достигает 98,08%, а точность параметров — 82,35%, с более высокой долей идеально предсказанных действий, чем у методов сравнения. Они также оценивают геометрическую точность, выполняя предсказанные действия в Onshape и оценивая полученную модель с помощью Chamfer Distance.
В этом тесте, основанном на выполнении, показатели успешности всё ещё далеки от «автоматического САПР». Но тенденция заметна: общий показатель успешности повышается по сравнению с базовым уровнем VPT, а процент недействительных моделей снижается — именно то, что нужно UI-агенту, которому необходимо выдерживать длительные периоды работы, когда мелкие ошибки накапливаются.
Почему AM-разработчикам это тоже должно быть интересно
Если вы работаете в сфере аддитивного производства, то вы наверняка знаете, что время САПР часто является скрытым центром затрат: приспособления, кронштейны, кондукторы, печатаемые на месте механизмы и бесконечные правки по принципу «просто подправьте скругление».
Большинство проектов САПР с использованием ИИ направлены на прямую генерацию геометрии, но производители по-прежнему используют стандартные рабочие процессы в своих основных САПР, включая шаблоны, PDM, контроль версий и контрольные списки. Компетентный агент уровня пользовательского интерфейса теоретически мог бы встроиться в существующую цепочку инструментов, не требуя от всего мира внедрения новой САПР.
В статье также используется набор данных для создания небольшого бенчмарка VQA для видео, ориентированного на САПР. Результаты подтверждают реальность: даже сильные мультимодальные модели испытывают трудности с такими задачами, как упорядочивание кадров и подсчёт выдавливания. Авторы сообщают, что агенты пользовательского интерфейса на базе LLM также не справляются даже с короткими задачами САПР, когда им предлагают работать в Onshape, используя действия на уровне пикселей, что подтверждает, что САПР — это не «ещё одна веб-форма».
Недостающие части
VideoCAD — это не полноценная вселенная САПР. Он ориентирован на рабочие процессы выдавливания эскизов, использует единую платформу, а траектории генерируются ботом, что ограничивает возможности по времени и разнообразию стратегий. Авторы подробно перечисляют будущие проекты, такие как добавление демонстрационных программ (включая обучающие материалы по САПР), расширение до расширенных функций, таких как скругления, протягивания и лофты, а также поддержка дополнительных САПР, таких как Fusion 360 и FreeCAD.
Если они смогут выйти за рамки выдавливания эскизов и повысить устойчивость к небольшим геометрическим ошибкам, наиболее интересным результатом может стать не полностью автоматизированное производство деталей, а автодополнение в САПР: возможность выбрать готовую модель и надёжно завершить этапы раскроя. А для аддитивного производства этапы раскроя — это то место, где умирают все графики.
По вопросам 3d печати, 3d сканированию, обучению в Краснодаре писать сюда:
телеграм — https://t.me/fidller
max — https://max.ru/u/f9LHodD0cOIGiBB1zqbYHFbw7XCslKRI5o6aikK4IGNDZtFio4aCgGJ1gUQ
почта — shope@fidller.com
все о кино тут — https://news.fidller.com
наш магазин — https://fidller.com
мы в телеграм — https://t.me/fidller_com
группа 3д печати — https://vk.com/3d_krd_123
https://t.me/pechat3dkrd















Спасибо!
Теперь редакторы в курсе.