AI新工具
banner

Self-Operating Computer Framework


介绍:

一个用多模型能够操作计算机的框架。









Self-Operating Computer Framework

Self-Operating Computer Framework是一个可以让多模态模型操作计算机的框架。它使用与人类操作者相同的输入和输出,观察屏幕并决定一系列鼠标和键盘操作以达成目标。

功能点包括:

  • 兼容性:为各种多模态模型设计。
  • 集成:目前默认与GPT-4v集成,同时对Gemini Pro Vision提供扩展支持。
  • 未来计划:支持额外的模型。
  • Agent-1-Vision模型的API访问。
  • 使用Gemini模型进行操作。
  • 光学字符识别模式(OCR)。
  • Set-of-Mark(SoM)提示支持。
  • 声音模式。
  • 兼容性:支持Mac OS、Windows和已安装X服务器的Linux。
可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621