使用Google BigQuery实现高效数据查询

zbb258

541人浏览 · 2025-06-19 13:50:21

zbb258 · 2025-06-19 13:50:21 发布

使用Google BigQuery实现高效数据查询

Google BigQuery 是谷歌云平台的一部分，作为无服务器且经济高效的企业数据仓库，它具有跨云和随数据规模扩展的能力。这篇文章将带您学习如何在 BigQuery 中加载查询结果，每行一个文档。

技术背景介绍

Google BigQuery 是专为处理大规模数据而设计的，它使得数据科学家和分析人员可以快速、高效地进行数据分析。通过支持标准SQL和无服务器架构，用户可以轻松地在各类云环境中执行复杂的查询。

核心原理解析

BigQuery提供了强大的数据处理能力，并且具备极高的可扩展性，这使其成为分析海量数据的理想工具。其无服务器架构允许用户不必管理任何基础设施即可进行数据查询和分析。

代码实现演示

下面我们将通过示例代码展示如何使用 langchain-google-community 库从 BigQuery 加载数据，并处理成文档格式。

基础用法

首先，我们需要安装必要的库：

%pip install --upgrade --quiet langchain-google-community[bigquery]

然后，通过 BigQueryLoader 类来加载数据：

from langchain_google_community import BigQueryLoader

# 定义查询语句
BASE_QUERY = """
SELECT
  id,
  dna_sequence,
  organism
FROM (
  SELECT
    ARRAY (
    SELECT
      AS STRUCT 1 AS id, "ATTCGA" AS dna_sequence, "Lokiarchaeum sp. (strain GC14_75)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 2 AS id, "AGGCGA" AS dna_sequence, "Heimdallarchaeota archaeon (strain LC_2)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 3 AS id, "TCCGGA" AS dna_sequence, "Acidianus hospitalis (strain W1)." AS organism
    ) AS new_array
  ),
  UNNEST(new_array)
"""

# 创建BigQueryLoader对象
loader = BigQueryLoader(BASE_QUERY)

# 加载数据
data = loader.load()

# 打印结果
print(data)

运行以上代码将从BigQuery中加载数据，并将其转换为文档格式。

指定内容和元数据列

我们可以指定哪些列是文档内容，哪些是元数据：

loader = BigQueryLoader(
    BASE_QUERY,
    page_content_columns=["dna_sequence", "organism"],
    metadata_columns=["id"],
)

data = loader.load()

print(data)

这样可以更灵活地处理您的数据结构。

添加元数据来源信息

在需要的情况下，可以为元数据添加来源信息：

ALIASED_QUERY = """
SELECT
  id,
  dna_sequence,
  organism,
  id as source
FROM (
  SELECT
    ARRAY (
    SELECT
      AS STRUCT 1 AS id, "ATTCGA" AS dna_sequence, "Lokiarchaeum sp. (strain GC14_75)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 2 AS id, "AGGCGA" AS dna_sequence, "Heimdallarchaeota archaeon (strain LC_2)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 3 AS id, "TCCGGA" AS dna_sequence, "Acidianus hospitalis (strain W1)." AS organism
    ) AS new_array
  ),
  UNNEST(new_array)
"""

loader = BigQueryLoader(ALIASED_QUERY, metadata_columns=["source"])

data = loader.load()

print(data)