AI代理走纯视觉方案是否可行?

尝试了几种AI代理,都是在各种实现方式里面循环尝试和打转,api、UI、com等等,每到一个新的场景或新的软件,就需要各种新任务拆分和路径尝试,有没有可能,仅用截图+OCR文字识别+图片理解+模拟键鼠,自建一个电脑端的通用AI代理?

1 个帖子 - 1 位参与者

via - (author: lfy)

标签: none

评论已关闭