AI新工具
banner

Kolors


介绍:

Kolors是基于潜在扩散的大规模中英双语文本生成图像模型。









Kolors

Kolors介绍

Kolors是由快手的Kolors团队开发的一种基于潜在扩散的文本到图像生成模型。它经过了数十亿对文本和图像数据的训练,在视觉质量、复杂语义准确性以及中文和英文文本渲染方面都表现出显著的优势。Kolors支持中英文输入,在理解和生成中文特定内容方面有着出色的表现。

Kolors的使用场景
  1. 高质量人像生成:Kolors能够生成高质量的真人肖像,适用于摄影、艺术创作等场景。
  2. 中文元素生成:由于其在中文内容生成方面的出色表现,Kolors特别适用于需要生成含有丰富的中文元素的图像。
  3. 复杂语义理解:Kolors擅长处理复杂语义,可用于需要准确呈现复杂场景描述的应用。
  4. 文本渲染:Kolors在文本渲染方面的出色表现使其适用于需要高精度文本生成的领域,如标牌设计、广告创意等。
Kolors的评估和表现
  • 人类评价:在50名图像专家的评估中,Kolors在视觉吸引力、文本忠实度和整体满意度方面都获得了最高分。
  • 机器评价:通过多维人类偏好得分(MPS),Kolors在所有参评模型中得分最高,表现一致领先。
使用指南
  1. 环境需求

    • Python 3.8或更高版本
    • PyTorch 1.13.1或更高版本
    • Transformers 4.26.1或更高版本
    • 推荐使用 CUDA 11.7或更高版本
  2. 安装步骤

    • 克隆项目并安装依赖:
      apt-get install git-lfs
      git clone https://github.com/Kwai-Kolors/Kolors
      cd Kolors
      conda create --name kolors python=3.8
      conda activate kolors
      pip install -r requirements.txt
      python3 setup.py install
      
    • 下载模型权重:
      huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
      
      git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
      
    • 进行推理:
      python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
      
许可证和引用
  • 许可证:Kolors完全开源供学术研究使用。商业用途需填写商业授权申请书并发送至指定邮箱进行注册。
  • 引用:如果使用Kolors,请引用相关论文。
联系我们
  • 加入微信群或者通过邮箱([email protected])联系我们的研发团队和产品团队。
可关注我们的公众号:每天AI新工具

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621