Jailbreak Prompts
Jailbreak Prompts 是一种旨在绕过大型语言模型(LLM)安全防护机制的提示语。这些提示语通过巧妙的设计,诱使模型生成原本被禁止或被过滤的内容。研究者们通过 JailbreakHub 框架,首次系统性地收集和分析了 “野外” Jailbreak Prompts,共收集到 15,140 个提示语,其中包括 1,405 个 Jailbreak Prompts。
Jailbreak Prompts 的使用场景主要包括:
- 科研研究:分析和评估 LLM 的安全性和潜在漏洞,推动更安全的模型开发。
- 模型评估:验证模型在实际应用中的鲁棒性和防护能力。
- 风险评估:帮助企业或组织了解并预防LLM可能出现的安全风险。
- 培训和教育:在安全和道德课程中,作为示例帮助学生理解和认识技术风险。
此外,研究中还构建了一个包含 390 个问题的问卷,用于评估这些 Jailbreak Prompts 的有效性,涵盖了 OpenAI 使用政策中禁止的 13 个场景。数据和代码已公开,研究过程严格遵循了伦理准则,以确保对个人隐私的保护,并已将发现结果反馈给相关的 LLM 供应商。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621