AI新工具
banner

Jailbreak Prompts


介绍:

Jailbreak Prompts项目研究和评估在野生环境中的大型语言模型越狱提示,共收集15140个提示。









Jailbreak Prompts

Jailbreak Prompts 是一种旨在绕过大型语言模型(LLM)安全防护机制的提示语。这些提示语通过巧妙的设计,诱使模型生成原本被禁止或被过滤的内容。研究者们通过 JailbreakHub 框架,首次系统性地收集和分析了 “野外” Jailbreak Prompts,共收集到 15,140 个提示语,其中包括 1,405 个 Jailbreak Prompts。

Jailbreak Prompts 的使用场景主要包括:

  1. 科研研究:分析和评估 LLM 的安全性和潜在漏洞,推动更安全的模型开发。
  2. 模型评估:验证模型在实际应用中的鲁棒性和防护能力。
  3. 风险评估:帮助企业或组织了解并预防LLM可能出现的安全风险。
  4. 培训和教育:在安全和道德课程中,作为示例帮助学生理解和认识技术风险。

此外,研究中还构建了一个包含 390 个问题的问卷,用于评估这些 Jailbreak Prompts 的有效性,涵盖了 OpenAI 使用政策中禁止的 13 个场景。数据和代码已公开,研究过程严格遵循了伦理准则,以确保对个人隐私的保护,并已将发现结果反馈给相关的 LLM 供应商。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621