使用Airbyte将数据加载到本地JSON文件

Airbyte 是一个数据集成平台，专门用于将API、数据库和文件中的数据提取、加载和转换(ELT)到数据仓库和数据湖中。它拥有最大的ELT连接器目录，可以很方便地将数据从各种来源转移到目标数据仓库中。然而，有时候我们可能需要将这些数据存储在本地文件如JSON文件中以便开发或测试的需求。

fgayif

472人浏览 · 2025-02-28 09:17:34

fgayif · 2025-02-28 09:17:34 发布

技术背景介绍

核心原理解析

Airbyte 可以通过其用户界面配置数据源（如API或数据库）和数据目标（如本地文件或数据仓库），并通过选择和配置连接器来完成数据流。本文将重点介绍如何将数据源的数据加载到本地JSON文件中。

代码实现演示

以下步骤将演示如何使用 Airbyte 将数据从任何来源加载到本地JSON文件，并使用 AirbyteJSONLoader 读取这些数据。

1. 安装和配置Airbyte

首先，确保你的系统上安装了 Docker Desktop。然后，执行以下命令克隆 Airbyte 仓库并启动它：

# 克隆 Airbyte 仓库
git clone https://github.com/airbytehq/airbyte.git
# 进入 Airbyte 目录
cd airbyte
# 启动 Airbyte
docker compose up

2. 配置Airbyte源和目标

在浏览器中访问 http://localhost:8000，输入默认用户名 airbyte 和密码 password。然后执行以下步骤：

设置任意数据源（例如PostgreSQL，MySQL，REST API等）。
设置数据目标为本地JSON，指定目标路径（例如 /json_data）。
配置手动同步。
运行连接。

3. 读取并加载数据

运行连接后，数据将被保存到指定路径，比如 /tmp/airbyte_local/json_data/_airbyte_raw_pokemon.jsonl。使用以下代码加载数据：

from langchain_community.document_loaders import AirbyteJSONLoader

# 指定数据文件路径
file_path = "/tmp/airbyte_local/json_data/_airbyte_raw_pokemon.jsonl"

# 加载数据
loader = AirbyteJSONLoader(file_path)
data = loader.load()

# 打印部分数据内容
print(data[0].page_content[:500])