PERSONA HUB
PERSONA HUB是一种前所未有的角色驱动数据合成方法,利用大型语言模型(LLM)中的各种视角来创建多样的合成数据。通过从网络数据中自动策划出十亿个多样化角色,PERSONA HUB能够在几乎所有视角中提取LLM内所包含的世界知识,从而大规模生成多样化的合成数据用于各种场景。
使用场景
- 数学和逻辑推理问题:生成高质量的数学和逻辑问题,用于学术研究和教育领域。
- 指令(用户提示):创建多样化的用户提示,提升交互系统的响应质量。
- 知识丰富的文本:撰写高度知识化的内容供知识库或内容管理系统使用。
- 游戏NPC:生成各种游戏中的非玩家角色(NPC),丰富游戏剧情和互动性。
- 工具(函数):创建多样化的函数或工具,用于软件开发或自动化任务。
数据发布
PERSONA HUB项目还发布了一部分合成数据和角色数据,包括:
- 50,000道数学题目
- 50,000道逻辑推理题目
- 50,000条指令
- 10,000篇知识丰富的文本
- 10,000个游戏NPC
- 5,000个工具(函数)
另外,还发布了200,000个角色的子集,供研究者快速预览使用。
运行演示
用户可以通过运行简单的脚本来尝试使用PERSONA HUB进行数据合成,这些脚本包括基于GPT-4o(OpenAI)或开源模型(vllm)的数据合成演示。
联系方式
如有任何疑问,可以通过邮箱联系 [email protected]
或 [email protected]
。
声明
PERSONA HUB旨在为研究合成数据提供便利,但是在实际应用中需注意避免滥用以及确保道德使用,防止隐私侵犯等问题。此外,所有数据皆由公开可用的模型生成,仅供研究使用,使用时须遵循这些模型的许可协议和使用政策。
PERSONA HUB展示了角色驱动数据合成方法在规模化、灵活性和易用性方面的强大能力,可能会对LLM的研究和开发产生深远影响。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621