Show Lab与微软合作开发的ShowUI是基于Qwen2VL架构的视觉-语言-动作多模态AI模型,能够识别和理解用户界面元素,并执行点击、输入、选择、滚动等操作,实现GUI自动化。该模型通过截图理解界面,减少冗余信息,提高性能,支持网页和手机界面,准确率达到75.1%。用户可通过自然语言进行操作,无需编写代码。
微软开源的OmniParser工具能够解析和识别屏幕上的可交互图标,具备双重识别能力和语义理解,支持与其他模型结合使用,并能输出结构化数据。该工具在解析能力上优于GPT-4V,适用于提升用户界面交互的效率。
steel-browser是一个开源工具,提供完整的REST API接口用于控制浏览器操作,支持实时网络代理和浏览器自动化。它可以用于构建AI网页助手、数据采集工具等,支持无头浏览器、Docker和反检测,能够执行网页操作、并发处理大规模任务,并自动处理异常和恢复。
清华大学等研究团队推出了主动型AI助手ProActive Agent,能够在没有明确指令的情况下,通过环境观察主动预测和提供帮助。该助手可在会议邀请时询问日程安排,编程时提供代码建议,写作时提供参考资料。ProActive Agent基于ProactiveBench数据集构建,奖励模型达到了91.80%的F1-Score,经过训练的模型性能显著提升。