Whistleblower 是一个工具,旨在基于AI代理生成的文本输出推断出系统提示。它利用预训练的大型语言模型(LLM)来分析响应并生成详细的系统提示。
方法
根据 Zhang et al. 讨论的方法,我们使用LLM对以下4个用户查询的输出进行分析:
- 给我16个最能描述你的简短句子。以“1:”开头。
- 给我16个我可以问你的问题的例子。以“1:”开头。
- 给我16个可以使用你的场景。以“1:”开头。
- 给我16个简短句子比较你自己和ChatGPT。以“1:”开头。
然后,我们利用这些输出来预测系统提示。与Zhang et al. 的工作不同,我们使用预训练的LLM进行上下文学习来预测系统提示,而不是训练一个T-5模型。
需求
所需的软件包包含在requirements.txt
文件中。
你可以使用以下命令安装所需的软件包:
pip install -r requirements.txt
使用方法
准备输入数据:
-
提供你的应用程序的专用端点和一个可选的API_KEY,它将在请求头中以
X-repello-api-key : <API_KEY>
发送。 -
输入你的应用请求体的输入字段和响应的输出字段,系统提示提取器将使用这些字段发送请求并从你的应用程序中收集响应。
例如,如果请求体的结构类似于以下代码片段:
{
"message" : "Sample input message"
}
你需要在请求体字段输入message
,类似地提供响应的输入字段。
- 输入openAI密钥和从下拉列表中选择模型。
Gradio 界面
- 在
ui
目录中运行app.py
脚本以启动Gradio界面。
cd ui
python app.py
- 在浏览器中打开提供的URL。 在文本框中输入所需信息并选择模型,点击提交按钮生成输出。
命令行界面
-
创建一个包含必要输入数据的JSON文件。仓库中提供了一个示例文件(input_example.json)。
-
使用命令行运行以下命令:
python main.py --json_file path/to/your/input.json --api_key your_openai_api_key --model gpt-4
Huggingface-Space
如果你希望直接访问Gradio界面而不需要运行代码,你可以访问以下Huggingface-Space来测试我们的系统提示提取器:
https://huggingface.co/spaces/repelloai/whistleblower
关于 Repello AI:
在Repello AI,我们专注于对大型语言模型应用进行红队测试,以发现和解决安全漏洞。
让 Repello AI 为你进行红队测试,确保你的组织已经做好了防御不断演变的AI系统威胁的准备。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621