微软开源的OmniParser工具能够解析和识别屏幕上的可交互图标,具备双重识别能力和语义理解,支持与其他模型结合使用,并能输出结构化数据。该工具在解析能力上优于GPT-4V,适用于提升用户界面交互的效率。
微软开源的OmniParser工具能够解析和识别屏幕上的可交互图标,具备双重识别能力和语义理解,支持与其他模型结合使用,并能输出结构化数据。该工具在解析能力上优于GPT-4V,适用于提升用户界面交互的效率。
steel-browser是一个开源工具,提供完整的REST API接口用于控制浏览器操作,支持实时网络代理和浏览器自动化。它可以用于构建AI网页助手、数据采集工具等,支持无头浏览器、Docker和反检测,能够执行网页操作、并发处理大规模任务,并自动处理异常和恢复。
前端可视化框架
清华大学等研究团队推出了主动型AI助手ProActive Agent,能够在没有明确指令的情况下,通过环境观察主动预测和提供帮助。该助手可在会议邀请时询问日程安排,编程时提供代码建议,写作时提供参考资料。ProActive Agent基于ProactiveBench数据集构建,奖励模型达到了91.80%的F1-Score,经过训练的模型性能显著提升。
Stream4Flow
最近一年贡献:149 次
最长连续贡献:8 日
最近连续贡献:1 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。