Screen to action using LLMs Screen to action using LLMs Screen to action using LLMs (大语言模型进行屏幕到动作转换) 概述： “Screen to action using LLMs” 是一个通过大语言模型（LLM）将屏幕内容转换为具体动作的创新项目。此项目受adept.ai、rewind.ai和Apple Shortcut等灵感启发，使用Rust和WASM

Screen to action using LLMs

概述： “Screen to action using LLMs” 是一个通过大语言模型（LLM）将屏幕内容转换为具体动作的创新项目。此项目受adept.ai、rewind.ai和Apple Shortcut等灵感启发，使用Rust和WASM技术构建。

核心功能： 该项目的核心功能是通过录制屏幕内容并利用OCR技术进行文本提取，将这些文本信息通过LLM进行处理，从而执行特定的操作。例如，从屏幕内容中提取销售对话记录并自动填充到CRM（客户关系管理系统）中。

使用场景：

项目状态： 目前项目处于Alpha阶段，已经实现如下功能：

计划实现的功能包括：

使用方法： 当前版本可以通过安装ffmpeg工具、克隆项目代码库并运行API进行尝试，该API能够抓取屏幕内容并提取其中的文本信息。

为何开源？ 该项目旨在通过开源的方式，让更多开发者可以利用AI的最新突破进行个性化开发，加快技术应用和进化的步伐。

如果你对这个项目感兴趣，可以通过public Discord channel进行交流，欢迎提出贡献和改进建议。

许可： 该项目代码基于MIT许可证开源发布，详细信息请参看LICENSE文件。

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621