Datalore
Datalore 是一个基于人工智能的数据分析工具,结合了Anthropic的Claude API以及多种数据分析库和自定义函数,提供了一个用户能够使用自然语言命令进行数据分析的互动界面。
✨ 主要功能
- 🗣️ 通过自然语言进行数据分析
- 🧠 集成了Anthropic的Claude API,提供高级语言处理功能
- 📁 支持从各种文件格式加载数据(如CSV、Excel、JSON)
- 🧹 数据预处理和清洗
- 🔬 探索性数据分析(EDA)
- 📈 统计分析
- 📊 数据可视化
- 🐍 执行自定义Python代码以完成复杂操作
- 💬 管理对话历史
- 🎨 彩色终端输出以增强可读性
📋 要求
- Python 3.7以上版本
- Anthropic API密钥
🚀 安装步骤
-
克隆代码库:
git clone https://github.com/yourusername/datalore.git cd datalore
-
安装所需的包:
pip install -r requirements.txt
-
设置Anthropic API密钥:
- 在项目根目录创建
.env
文件 - 添加你的API密钥:
ANTHROPIC_API_KEY=your_api_key_here
- 在项目根目录创建
🎮 使用方法
运行主脚本:
python datalore.py
根据提示与Claude进行互动,可以提问、请求数据分析任务或执行自定义的Python代码。
例如:
- “加载 sales_data.csv 文件”
- “给我看一个数据总结”
- “创建一个价格对数量的散点图”
- “对数据运行线性回归”
💻 自定义代码执行
你可以使用 execute_code
工具执行自定义的Python代码,这允许进行更复杂的操作和数据处理。代码将在沙盒环境中执行,以确保安全性。
示例:
# 假设 'current_df' 已经载入了你的数据
current_df = current_df.dropna() # 移除含有缺失值的行
current_df['new_column'] = current_df['existing_column'] * 2 # 创建一个新列
current_df = current_df[current_df['some_column'] > 0] # 过滤行
🛡️ 安全性与限制
- 工具包含代码执行的安全检查,以防止恶意操作。
- 大数据集可能影响性能,建议初期使用样本数据进行分析。
- 该工具依赖于Anthropic API,因此需要互联网连接。
🤝 贡献
欢迎对Datalore做出贡献!请随时提交拉取请求(Pull Request)。
📄 许可证
该项目基于MIT许可证发布 - 详见LICENSE文件。
🙏 致谢
- 感谢Anthropic提供的Claude API
- 感谢开源社区提供的各种数据分析库
Datalore适用于需要简化数据分析流程的场景,如数据科学研究、商业数据分析和教育培训等。通过自然语言和自定义代码的结合,Datalore使得数据处理更加直观和高效。
广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:1752338621