AI新工具(20250226) 阿里巴巴开源视频模型Wan2.1;DeepSeek开源第二天加强节点通信能力;防止被检测为机器人的工具

✨ 1: Wan2.1
Wan2.1是一款开源的视频生成模型,支持多种任务和分辨率,性能领先于现有模型。
Wan2.1 是一套全面开放的视频生成模型,采用主流的扩散变换器(diffusion transformer)范式,旨在推动视频生成的极限。其主要特点和功能包括:
SOTA性能:在多个基准测试中,Wan2.1持续超越现有的开源和商业解决方案,表现优异。 支持消费级GPU:最小化的显存需求使其在普通消费级GPU上也能高效运行,能够生成480P的5秒视频。 多任务支持:Wan2.1能够处理文本到视频、图像到视频、视频编辑、文本到图像以及视频到音频等多种任务。 强大的语言生成能力:首次支持中英文文本生成,增强了其实际应用价值。 高效视频变分自编码器(VAE):可以无损编码和解码不限长度的1080P视频,适合视频生成任务。
地址:https://github.com/Wan-Video/Wan2.1
✨ 2: DeepEP
DeepEP是一个专为混合专家和专家并行设计的通信库,提供高吞吐量、低延迟的GPU内核。
DeepEP是一个专为混合专家(Mixture-of-Experts, MoE)和专家并行(Expert Parallelism, EP)设计的通信库。它提供了高吞吐量和低延迟的全互联GPU内核,主要用于MoE的调度和组合。该库还支持低精度操作,包括FP8格式。
为使其与DeepSeek-V3论文中提出的基于组限制的门控算法相一致,DeepEP提供了一套针对不对称域带宽转发优化的内核,例如从NVLink域转发到RDMA域的数据。这些内核能够实现高吞吐量,适用于训练和推理预填充任务。此外,它们还支持流处理器(SM)数量的控制。
对于延迟敏感的推理解码,DeepEP包含一组低延迟的内核,使用纯RDMA以最小化延迟。此外,该库引入了一种基于钩子的通信与计算重叠方法,不会占用任何SM资源。
地址:https://github.com/deepseek-ai/DeepEP
✨ 3: Puppeteer Real Browser
Puppeteer Real Browser 是一个防止被检测为机器人的工具,支持通过验证码。
Puppeteer Real Browser 是一个基于 Puppeteer 的工具库,旨在模拟真实浏览器的行为,以避免在使用自动化脚本时被网站检测为机器人。它可以有效绕过像 Cloudflare 这样的安全服务,并能够自动处理验证码(如 Captchas),从而提升自动化任务的成功率。
此库主要通过针对浏览器的最小修改,保持其自然状态,确保最佳的运行结果,尤其是在需要复杂的用户交互时(例如填写表单、点击按钮等)。
地址:https://github.com/ZFC-Digital/puppeteer-real-browser
✨ 4: DeepSeek RAG Chatbot
DeepSeek RAG Chatbot 3.0 是一个免费、私密的本地聊天机器人,支持文档检索和聊天记忆集成。
DeepSeek RAG Chatbot 3.0是一个功能强大的聊天机器人,支持本地安装,无需互联网连接。该版本集成了GraphRAG和聊天历史记录功能,能够快速、准确且可解释地从PDF、DOCX和TXT文档中检索信息。其核心技术包括DeepSeek-7B、BM25、FAISS、神经重排序(Cross-Encoder)、GraphRAG和聊天记忆集成,提供更高质量的交互体验。
地址:https://github.com/SaiAkhil066/DeepSeek-RAG-Chatbot
✨ 5: Coding Tutors
该研究探讨了大语言模型作为编程辅导老师的潜力,并提出了有效的验证工具和评估协议。
Coding Tutors 是一项探索使用大语言模型 (LLMs) 作为编程辅导工具的研究。该研究提出了一种名为 Trace-and-Verify(Traver)的有效代理工作流程,结合知识追踪和逐步验证,以解决编程辅导中的关键挑战。尽管该研究主要聚焦于编程教学,但其方法同样适用于其他任务辅导场景,能够根据用户不同的知识背景调整内容。
此外,研究还引入了“对话式编程辅导” (DICT) 的新评估协议,结合了学生模拟与编程测试,以评估辅导员的表现。这样的自动化评估对于开发任务辅导代理至关重要,因为它支持系统化的开发和评估周期。
地址:https://github.com/iwangjian/Coding-Tutor
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621