Self-Operating Computer Framework
Self-Operating Computer Framework是一个可以让多模态模型操作计算机的框架。它使用与人类操作者相同的输入和输出,观察屏幕并决定一系列鼠标和键盘操作以达成目标。
功能点包括:
- 兼容性:为各种多模态模型设计。
- 集成:目前默认与GPT-4v集成,同时对Gemini Pro Vision提供扩展支持。
- 未来计划:支持额外的模型。
- Agent-1-Vision模型的API访问。
- 使用Gemini模型进行操作。
- 光学字符识别模式(OCR)。
- Set-of-Mark(SoM)提示支持。
- 声音模式。
- 兼容性:支持Mac OS、Windows和已安装X服务器的Linux。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621