Hunyuan-DiT Hunyuan-DiT Hunyuan-DiT功能及使用指南什么是Hunyuan-DiT？腾讯宣布旗下的混元文生图大模型升级并对外开源Hunyuan-DiT，Hunyuan-DiT是一款多分辨率扩散Transformer 模型，专门用于中文和英文文本到图像的生成。

Hunyuan-DiT

Hunyuan-DiT功能及使用指南

什么是Hunyuan-DiT？

腾讯宣布旗下的混元文生图大模型升级并对外开源Hunyuan-DiT，Hunyuan-DiT是一款多分辨率扩散Transformer 模型，专门用于中文和英文文本到图像的生成。它可以从输入的文本描述生成高质量的图像，并能够处理多轮对话的文生图任务（即根据用户的多个连续输入生成图像）。

主要功能

中英文双语理解：Hunyuan-DiT模型能够理解中英文的文本输入，并生成相应的图像。
多轮文本到图像生成：支持根据用户的多个连续文本输入逐步生成和优化图像。
细粒度语言理解：利用多模态大语言模型（MLLM），能够理解和细化复杂的文本描述，生成更符合预期的图像。

什么时候使用Hunyuan-DiT？

Hunyuan-DiT非常适合以下场景：

内容创作：需要根据文本描述生成配图，例如书籍插图、广告设计等。
多轮对话生成：用户希望通过多次输入逐步绘制出自己的构想。
中文文生图需求：用户需要生成包含大量中文元素的图像。

如何使用Hunyuan-DiT？

安装和配置

克隆仓库

git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT

创建并激活Conda环境

conda env create -f environment.yml
conda activate HunyuanDiT

安装pip依赖

python -m pip install -r requirements.txt

（可选）安装Flash Attention加速

python -m pip install git+https://github.com/Dao-AILab/[email protected]

下载预训练模型

python -m pip install "huggingface_hub[cli]"
mkdir ckpts
huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts

推理方式

使用Gradio界面

python app/hydit_app.py  # 默认中文界面
python app/hydit_app.py --lang en  # 英文界面

使用命令行

python sample_t2i.py --prompt "渔舟唱晚"
python sample_t2i.py --prompt "渔舟唱晚" --no-enhance  # 仅文本到图像，无增强
python sample_t2i.py --infer-mode fa --prompt "渔舟唱晚"  # 使用Flash Attention
python sample_t2i.py --prompt "渔舟唱晚" --image-size 1280 768  # 修改图像尺寸

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621

Hunyuan-DiT

介绍：

Hunyuan-DiT

Hunyuan-DiT功能及使用指南

什么是Hunyuan-DiT？

主要功能

什么时候使用Hunyuan-DiT？

如何使用Hunyuan-DiT？

安装和配置

推理方式