AI新工具
banner

Refined-Anime-Text


介绍:

用于语言模型的持续预训练的高质量动漫主题文本数据









Refined-Anime-Text

该数据集是一个全新合成的动漫主题子集,包含超过一百万条、约4400万个 GPT-4/3.5 token的文本数据。 数据集的创建成本约为 2.5 万美元,其中 GPT-4-32K 占比不低于 25%,主要用于处理更具挑战性的中文任务。 数据集旨在用于研究大型语言模型中网络亚文化的数据治理,以及探索持续预训练问题,如特定主题的知识蒸馏和对未见知识的持续学习。

可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621