AI新工具(20241106) 腾讯一口气发布了两个开源AI大模型；AI实现web页面交互；使用Claude 实现图像中物体的检测和可视化 ✨ 1: Hunyuan-Large Hunyuan-Large是腾讯发布的开源MoE大模型，拥有3890亿参数，适用于多种AI任务。 Hunyuan-Large（Hunyuan-MoE-A52B）是腾讯最新发布的开源混合专家（Mixture of Experts, MoE）模型，拥有3890亿

AI新工具(20241106) 腾讯一口气发布了两个开源AI大模型；AI实现web页面交互；使用Claude 实现图像中物体的检测和可视化

By AiBard123
November 6, 2024 - 2 min read

✨ 1: Hunyuan-Large

Hunyuan-Large是腾讯发布的开源MoE大模型，拥有3890亿参数，适用于多种AI任务。

Hunyuan-Large（Hunyuan-MoE-A52B）是腾讯最新发布的开源混合专家（Mixture of Experts, MoE）模型，拥有3890亿参数和520亿有效参数，成为行业内最大的开源Transformer基础MoE模型。该模型通过优化资源消耗和维持高性能的平衡，推动了自然语言处理、计算机视觉以及科学任务等多个领域的技术进步。

Hunyuan-Large 通过开放源码和技术细节，旨在激励更多研究者进行创新，从而共同推动AI技术的发展。同时，Hunyuan-Large 提供了处理长文本能力的优势，可支持多种语言和任务的广泛应用，大大提升了模型在实际应用中的有效性和安全性。

地址：https://github.com/Tencent/Tencent-Hunyuan-Large

✨ 2: Hunyuan3D-1

Hunyuan3D-1是腾讯推出的统一框架，可实现文本和图像到3D的快速生成。

Hunyuan3D-1是腾讯推出的一个统一框架，旨在实现文本到3D模型和图像到3D模型的生成。该框架分为两个阶段：第一阶段使用多视图扩散模型，能够在大约4秒内生成多角度的RGB图像，从而丰富3D资产的细节；第二阶段则引入前馈重建模型，在约7秒内忠实重建3D资产。该框架结合了文本到图像模型Hunyuan-DiT，支持文本和图像的条件生成，以显著提升生成速度和质量。

地址：https://github.com/Tencent/Hunyuan3D-1

✨ 3: Browser-Use

Browser-Use是一个开源项目，利用大型语言模型实现自然的网站自动化交互。

Browser-Use 是一个开源的网页自动化工具，利用大语言模型（LLMs）与网站自然交互。该项目旨在简化用户与网页之间的交互，使得开发者可以通过简单的指令，使用语言模型进行复杂的浏览器操作。

用户只需创建虚拟环境，安装依赖库，设置API密钥，就可以迅速上手，使用支持的多个语言模型进行浏览器操作。

Browser-Use 使得与网页的互动更加智能和高效，适合需要自动化在线任务的用户和开发者。

地址：https://github.com/gregpr07/browser-use

✨ 4: Claude Vision Object Detection

Claude Vision Object Detection 是一款强大的 Python 工具，利用 Claude 3.5 API 实现图像中物体的检测和可视化。

Claude Vision Object Detection是一个强大的Python工具，利用Claude 3.5 Sonnet Vision API对图像中的物体进行检测和可视化。该工具能够自动在检测到的物体周围绘制边界框，标注物体，并显示置信度分数，从而方便用户理解检测结果。

地址：https://github.com/Doriandarko/Claude-Vision-Object-Detection

✨ 5: WebRL

WebRL是一个自我进化的在线课程学习框架，用于训练Web代理，目标是WebArena环境。

WebRL是一个旨在训练网页代理的自我进化在线课程学习框架，特别针对WebArena环境。该框架使用强化学习技术，能够通过在线课程的自我演化逐步提升大语言模型（LLM）的表现。

WebRL在自动化和智能代理的开发领域展现了广阔的应用前景，并为基于大语言模型的智能系统提供了新的训练方法。

地址：https://github.com/THUDM/WebRL

更多AI工具，参考国内AiBard123，Github-AiBard123 公众号：每日AI新工具

可关注我们的公众号：每天AI新工具

广告：私人定制视频文本提取，字幕翻译制作等，欢迎联系QQ:1752338621