仓库 - Donkey (dkyzhengwork)

1

0

0

Donkey/ultralytics

YOLO视觉模型系列

最近更新：1年前

1

0

0

Donkey/ShowUI

Show Lab与微软合作开发的ShowUI是基于Qwen2VL架构的视觉-语言-动作多模态AI模型，能够识别和理解用户界面元素，并执行点击、输入、选择、滚动等操作，实现GUI自动化。该模型通过截图理解界面，减少冗余信息，提高性能，支持网页和手机界面，准确率达到75.1%。用户可通过自然语言进行操作，无需编写代码。

最近更新：1年前

1

3

0

Donkey/OmniParser

微软开源的OmniParser工具能够解析和识别屏幕上的可交互图标，具备双重识别能力和语义理解，支持与其他模型结合使用，并能输出结构化数据。该工具在解析能力上优于GPT-4V，适用于提升用户界面交互的效率。

最近更新：1年前

1

1

1

Donkey/steel-browser

steel-browser是一个开源工具，提供完整的REST API接口用于控制浏览器操作，支持实时网络代理和浏览器自动化。它可以用于构建AI网页助手、数据采集工具等，支持无头浏览器、Docker和反检测，能够执行网页操作、并发处理大规模任务，并自动处理异常和恢复。

最近更新：1年前

1

1

0

Donkey/ProactiveAgent

清华大学等研究团队推出了主动型AI助手ProActive Agent，能够在没有明确指令的情况下，通过环境观察主动预测和提供帮助。该助手可在会议邀请时询问日程安排，编程时提供代码建议，写作时提供参考资料。ProActive Agent基于ProactiveBench数据集构建，奖励模型达到了91.80%的F1-Score，经过训练的模型性能显著提升。

最近更新：1年前