AI新工具

blog-thum
BetterWhisperX

BetterWhisperX是WhisperX的改进版本,支持快速的多语种自动语音识别与说话人分离。

read more
blog-thum
VITA-1.5

VITA-1.5是一款强大的开源交互式多模态大语言模型,支持实时视觉与语音交互。

read more
blog-thum
open-pi-zero

open-pi-zero是基于Physical Intelligence的pi0模型,采用MoE架构和预训练的3B PaliGemma VLM实现。

read more