AI新工具(20241106) 腾讯一口气发布了两个开源AI大模型;AI实现web页面交互;使用Claude 实现图像中物体的检测和可视化
✨ 1: Hunyuan-Large
Hunyuan-Large是腾讯发布的开源MoE大模型,拥有3890亿参数,适用于多种AI任务。
Hunyuan-Large(Hunyuan-MoE-A52B)是腾讯最新发布的开源混合专家(Mixture of Experts, MoE)模型,拥有3890亿参数和520亿有效参数,成为行业内最大的开源Transformer基础MoE模型。该模型通过优化资源消耗和维持高性能的平衡,推动了自然语言处理、计算机视觉以及科学任务等多个领域的技术进步。
Hunyuan-Large 通过开放源码和技术细节,旨在激励更多研究者进行创新,从而共同推动AI技术的发展。同时,Hunyuan-Large 提供了处理长文本能力的优势,可支持多种语言和任务的广泛应用,大大提升了模型在实际应用中的有效性和安全性。
地址:https://github.com/Tencent/Tencent-Hunyuan-Large
✨ 2: Hunyuan3D-1
Hunyuan3D-1是腾讯推出的统一框架,可实现文本和图像到3D的快速生成。
Hunyuan3D-1是腾讯推出的一个统一框架,旨在实现文本到3D模型和图像到3D模型的生成。该框架分为两个阶段:第一阶段使用多视图扩散模型,能够在大约4秒内生成多角度的RGB图像,从而丰富3D资产的细节;第二阶段则引入前馈重建模型,在约7秒内忠实重建3D资产。该框架结合了文本到图像模型Hunyuan-DiT,支持文本和图像的条件生成,以显著提升生成速度和质量。
地址:https://github.com/Tencent/Hunyuan3D-1
✨ 3: Browser-Use
Browser-Use是一个开源项目,利用大型语言模型实现自然的网站自动化交互。
Browser-Use 是一个开源的网页自动化工具,利用大语言模型(LLMs)与网站自然交互。该项目旨在简化用户与网页之间的交互,使得开发者可以通过简单的指令,使用语言模型进行复杂的浏览器操作。
用户只需创建虚拟环境,安装依赖库,设置API密钥,就可以迅速上手,使用支持的多个语言模型进行浏览器操作。
Browser-Use 使得与网页的互动更加智能和高效,适合需要自动化在线任务的用户和开发者。
地址:https://github.com/gregpr07/browser-use
✨ 4: Claude Vision Object Detection
Claude Vision Object Detection 是一款强大的 Python 工具,利用 Claude 3.5 API 实现图像中物体的检测和可视化。
Claude Vision Object Detection是一个强大的Python工具,利用Claude 3.5 Sonnet Vision API对图像中的物体进行检测和可视化。该工具能够自动在检测到的物体周围绘制边界框,标注物体,并显示置信度分数,从而方便用户理解检测结果。
地址:https://github.com/Doriandarko/Claude-Vision-Object-Detection
✨ 5: WebRL
WebRL是一个自我进化的在线课程学习框架,用于训练Web代理,目标是WebArena环境。
WebRL是一个旨在训练网页代理的自我进化在线课程学习框架,特别针对WebArena环境。该框架使用强化学习技术,能够通过在线课程的自我演化逐步提升大语言模型(LLM)的表现。
WebRL在自动化和智能代理的开发领域展现了广阔的应用前景,并为基于大语言模型的智能系统提供了新的训练方法。
地址:https://github.com/THUDM/WebRL
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621