Kolors
Kolors介绍
Kolors是由快手的Kolors团队开发的一种基于潜在扩散的文本到图像生成模型。它经过了数十亿对文本和图像数据的训练,在视觉质量、复杂语义准确性以及中文和英文文本渲染方面都表现出显著的优势。Kolors支持中英文输入,在理解和生成中文特定内容方面有着出色的表现。
Kolors的使用场景
- 高质量人像生成:Kolors能够生成高质量的真人肖像,适用于摄影、艺术创作等场景。
- 中文元素生成:由于其在中文内容生成方面的出色表现,Kolors特别适用于需要生成含有丰富的中文元素的图像。
- 复杂语义理解:Kolors擅长处理复杂语义,可用于需要准确呈现复杂场景描述的应用。
- 文本渲染:Kolors在文本渲染方面的出色表现使其适用于需要高精度文本生成的领域,如标牌设计、广告创意等。
Kolors的评估和表现
- 人类评价:在50名图像专家的评估中,Kolors在视觉吸引力、文本忠实度和整体满意度方面都获得了最高分。
- 机器评价:通过多维人类偏好得分(MPS),Kolors在所有参评模型中得分最高,表现一致领先。
使用指南
-
环境需求:
- Python 3.8或更高版本
- PyTorch 1.13.1或更高版本
- Transformers 4.26.1或更高版本
- 推荐使用 CUDA 11.7或更高版本
-
安装步骤:
- 克隆项目并安装依赖:
apt-get install git-lfs git clone https://github.com/Kwai-Kolors/Kolors cd Kolors conda create --name kolors python=3.8 conda activate kolors pip install -r requirements.txt python3 setup.py install
- 下载模型权重:
或
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
- 进行推理:
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
- 克隆项目并安装依赖:
许可证和引用
- 许可证:Kolors完全开源供学术研究使用。商业用途需填写商业授权申请书并发送至指定邮箱进行注册。
- 引用:如果使用Kolors,请引用相关论文。
联系我们
- 加入微信群或者通过邮箱([email protected])联系我们的研发团队和产品团队。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621