AI代理走纯视觉方案是否可行？

尝试了几种AI代理，都是在各种实现方式里面循环尝试和打转，api、UI、com等等，每到一个新的场景或新的软件，就需要各种新任务拆分和路径尝试，有没有可能，仅用截图+OCR文字识别+图片理解+模拟键鼠，自建一个电脑端的通用AI代理？

1 个帖子 - 1 位参与者

via - (author: lfy)