AI新工具(20240702) 腾讯开源高质量人类运动视频的框架;通过音频指令修改图像;利用YOLO分析网球视频;Gemma-2中文微调模型
✨ 1: MimicMotion
MimicMotion 腾讯开源的通过姿态指导生成高质量任意长度人类运动视频的框架
MimicMotion 是一种可控视频生成框架,旨在生成高质量的任意长度人物动作视频,采用带有置信度的姿态引导,并通过区域损失放大来缓解图像失真。其主要特点包括丰富的细节、良好的时间连贯性和能够生成长视频。
地址:https://github.com/Tencent/MimicMotion
✨ 2: Tennis Analysis
该项目利用YOLO和CNN分析网球视频中的选手和球速。
网球分析项目通过分析视频中的网球选手来测量他们的速度、球拍击球速度以及击球次数。该项目使用YOLO技术检测选手和网球,并利用卷积神经网络(CNN)提取球场关键点。这个实践项目非常适合提升你的机器学习和计算机视觉技能。
地址:https://github.com/abdullahtarek/tennis_analysis
✨ 3: Gemma 2 9B Chinese Chat
Gemma-2-9B-Chinese-Chat是首个为中英文用户设计的指令微调语言模型,具备角色扮演等多种能力。
Gemma-2-9B-Chinese-Chat 是一个基于 Google/gemma-2-9b-it 构建的指令微调语言模型,专门为中英双语用户设计,具备角色扮演和工具使用等多种能力。它由王慎执和郑耀威开发,并采用了ORPO算法在超过10万条偏好数据集上进行训练,以改善原始模型在回答中文问题时使用英文回答和中英混合回答的问题。
这个模型支持 BF16 和 GGUF 格式,并提供了不同版本以便根据用户需求进行选择和使用。BF16 版本需要在Python环境中进行部署,而GGUF版本可以在 LM Studio 中使用。
Gemma-2-9B-Chinese-Chat在多个领域表现出色,例如角色扮演、函数调用和数学问题解决,同时也具备安全过滤功能,确保不会提供危害性的指导或信息。该模型在 Hugging Face 平台上有详细的使用指南和丰富的示例,展示其在写作、编程等方面的应用效果。用户若对模型感兴趣,可以通过具体代码片段和示例来体验模型的功能,并通过引用来标注使用权。
如果你喜欢这个模型,请在 Hugging Face 的仓库上赞一下,并在使用过程中引用相关信息。
地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
✨ 4: Solos AirGo Vision
Solos AirGo Vision智能眼镜对抗Meta的Ray-Ban,通过支持ChatGPT-4o提供更先进的AI功能。
Solos AirGo Vision是Solos公司推出的一款智能眼镜,旨在挑战Meta的Ray-Ban智能眼镜。其主要特点包括:
先进的AI集成:AirGo Vision是首款使用ChatGPT-4o的智能眼镜,预计提供比竞争对手更先进的AI功能。用户还可以切换到Google的Gemini或Anthropic的Claude AI模型,增加灵活性和未来适应性。
摄像头和交互功能:内置前置摄像头,支持视觉搜索和互动功能,能够提供实时信息,如购物总结、导航和烹饪食谱建议等。虽然可以拍照,但暂不支持视频录制。
可换镜框系统:用户可以替换框架,去掉摄像头,仅保留扬声器和LED通知功能,或者将透明镜片换为太阳镜。
价格和上市时间:基本款(不含摄像头的版本)售价为249美元,含摄像头的版本价格尚未公布。额外的镜框起售价为89美元。预计将于2024年7月上市。
这款眼镜不仅在设计上与Meta的Ray-Ban有相似之处,还在价格上具有竞争优势,预示着Solos在智能眼镜市场上将获得更大的影响力。
地址:https://littwebsite.com/2024/07/01/solos-airgo-vision-launch-features-photos-price/
✨ 5: AAIELA
AAIELA允许用户通过音频指令修改图像,实现语言与视觉的无缝转换。
AAIELA项目旨在让用户通过简单的音频指令来修改图像。它结合了开放源码的AI模型,包括计算机视觉、语音转文本、大型语言模型(LLMs)和文本到图像的修复,创造了一种将口语与视觉转换无缝连接的编辑体验。
地址:https://github.com/ShaShekhar/aaiela
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621