AI新工具(20240731) Meta发布SAM 2分割图片和视频;CatVTON实现简单高效的虚拟试穿;模拟人类思维的开源深度 AI 搜索引擎框架
✨ 1: SAM 2
Meta发布SAM 2,是一种用于图像和视频的高效实时可提示分割模型。
SAM 2 (Segment Anything Model 2) 是由Meta的AI研究部门(FAIR)开发的一个基础模型,旨在解决图像和视频中的可提示(promptable)视觉分割问题。与前代模型SAM仅支持静态图像分割不同,SAM 2将图像视为只有一帧的视频,从而扩展了功能,能够处理实时视频分割任务。它采用了简单的Transformer架构,配合流式存储器,实现对视频的实时处理。
此外,SAM 2通过一个模型参与的数据引擎收集了SA-V数据集,这是迄今为止最大的一个视频分割数据集。通过用户交互,这个数据引擎不断改进模型和数据,从而提升了性能。SAM 2在各种任务和视觉领域中表现优异。
SAM 2的使用场景包括(但不限于):
-
图像分割:具有与SAM相似的静态图像分割功能。可以通过提供提示(prompts)来分割图像中的对象。
-
视频分割和跟踪:能够在视频中进行对象的分割和跟踪。用户可以添加新的提示并立即在相同帧上获取输出,或在视频中传播提示以获取整个视频中的目标掩码(masks)。
这种模型对各种现实应用场景,如自动驾驶、安防监控、视频编辑、医学影像分析等领域,都具有重要的潜在应用价值。
地址:https://github.com/facebookresearch/segment-anything-2
✨ 2: ComfyUI-segment-anything-2
有人在ComfyUI的基础上也推出了类似 SAM 2的功能。
地址:https://github.com/kijai/ComfyUI-segment-anything-2
✨ 3: CatVTON
CatVTON使用扩散模型实现简单高效的虚拟试穿,网络轻量并支持高分辨率推理。
CatVTON 是一种简单且高效的虚拟试衣开发模型,利用扩散模型实现虚拟试穿效果。它具有以下特点:轻量级网络(总参数量为899.06M)、参数高效训练(可训练参数49.57M)和简化推理(在1024x768分辨率下仅需不到8G的显存)。
在线服装试穿:通过虚拟试衣功能,用户可以在购买前看到自己穿上不同服装的效果,提高在线购物的体验和满意度。 个性化推荐:在线电商平台可以利用虚拟试衣技术,为用户推荐更适合他们的服装款式和搭配。 服装设计与展示:设计师可以在没有实际制作衣物的情况下,提前看到设计效果,并进行调整和优化。 游戏和虚拟现实:为游戏角色提供虚拟换装效果,提高用户的沉浸体验。
地址:https://github.com/Zheng-Chong/CatVTON
✨ 4: MindSearch
MindSearch 是一个模拟人类思维的开源深度 AI 搜索引擎框架。
MindSearch是一个开源的AI搜索引擎框架,具备类似Perplexity.ai Pro的性能。用户可以通过使用闭源LLMs(如GPT、Claude)或开源LLMs(如InternLM2.5-7b-chat)来简单地部署自己风格的搜索引擎。其主要特点包括:
全面提问支持:MindSearch旨在解决生活中的各种问题,并使用网络知识进行回答。 深入的知识发现:通过浏览数百个网页,MindSearch提供更深、更广泛的知识基础答案。 详细解决路径:MindSearch公开所有细节,让用户可以查看所有内容,从而大大提高最终回答的可信度和可用性。 优化的UI体验:提供了包括React、Gradio、Streamlit和终端在内的各种接口,用户可以根据需要选择任何一种。 动态图构建过程:MindSearch将用户查询分解为图中的原子子问题节点,并根据WebSearcher的搜索结果逐步扩展图。
地址:https://github.com/InternLM/MindSearch
✨ 5: nanoPerplexityAI
nanoPerplexityAI 是一款简洁直观的开源大语言模型服务PerplexityAI实现工具。
nanoPerplexityAI是一个简单且直观的开源实现版本,灵感来源于perplexity.ai。perplexity.ai 是一个大型语言模型(LLM)服务,通过谷歌来引用信息。nanoPerplexityAI不涉及复杂的GUI或LLM代理,仅使用100行Python代码即可实现其功能。
功能架构
获取用户查询
通过谷歌搜索找到相关网页URL并获取文本内容
使用系统提示 + 网页内容 + 用户查询
构建提示
调用LLM API生成答案
格式化引用并将LLM答案保存为Markdown文件以供可视化
地址:https://github.com/Yusuke710/nanoPerplexityAI
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621