AI代理走纯视觉方案是否可行?
AI代理走纯视觉方案是否可行?
尝试了几种AI代理,都是在各种实现方式里面循环尝试和打转,api、UI、com等等,每到一个新的场景或新的软件,就需要各种新任务拆分和路径尝试,有没有可能,仅用截图+OCR文字识别+图片理解+模拟键鼠,自建一个电脑端的通用AI代理?
1 个帖子 - 1 位参与者
via - (author: lfy)
AI代理走纯视觉方案是否可行?
尝试了几种AI代理,都是在各种实现方式里面循环尝试和打转,api、UI、com等等,每到一个新的场景或新的软件,就需要各种新任务拆分和路径尝试,有没有可能,仅用截图+OCR文字识别+图片理解+模拟键鼠,自建一个电脑端的通用AI代理?
1 个帖子 - 1 位参与者
via - (author: lfy)
评论已关闭