pyspark 数据写入hive_pyspark读取和存入数据的三种方法

pyspark读取数据方法一：从hdfs读取# -*- coding: utf-8 -*from pyspark.sql import SparkSession, HiveContext,DataFrameWriterimport argparseimport timeimport numpy as npimport pandas as pdspark = SparkSession.builder

weixin_39517199

1346人浏览 · 2020-12-23 18:52:47

weixin_39517199 · 2020-12-23 18:52:47 发布

pyspark读取数据

方法一：从hdfs读取

# -*- coding: utf-8 -*

from pyspark.sql import SparkSession, HiveContext,DataFrameWriter

import argparse

import time

import numpy as np

import pandas as pd

spark = SparkSession.builder.enableHiveSupport().appName("test").getOrCreate()

start = time.time()

### 数据载入方法1： hdfs上载入parquent格式

input = "/aaa/bbb/ccc"

data = spark.read.parquet(input)

data.show(5)

+-------------------+------+--------------------+

| START_TIME|amount| payerCode|

+-------------------+------+--------------------+

|2019-06-28 21:04:37| 10.7|692200000XXXXXXX|

|2018-11-24 20:15:40| 19.9|602200000XXXXXXX|

|2019-06-19 12:33:14| 2.0|692200000XXXXXXX|

|2019-07-03 23:04:12| 5.27|622200000XXXXXXX|

|2018-11-26 21:26:30| 2.0|622200000XXXXXXX|

+-------------------+------+--------------------+

## pyspark读取数据方法二：从hive中读取

方法二：数据从数据库读取

####### 生成查询的SQL语句，这个跟hive的查询语句一样，所以也可以加where等条件语句

hive_context= HiveContext(spark)

hive_read = "select * from {}.{}".format(hive_database, hive_table2)

####### 通过SQL语句在hive中查询的数据直接是dataframe的形式

read_df = hive_context.sql(hive_read)

read_df.show(5)

+-------------------+------+--------------------+

| START_TIME|amount| payerCode|

+-------------------+------+--------------------+

|2019-06-28 21:04:37| 10.7|692200000XXXXXXX|

|2018-11-24 20:15:40| 19.9|602200000XXXXXXX|

|2019-06-19 12:33:14| 2.0|692200000XXXXXXX|

|2019-07-03 23:04:12| 5.27|622200000XXXXXXX|

|2018-11-26 21:26:30| 2.0|622200000XXXXXXX|

+-------------------+------+--------------------+

方法3：读取hdfs上的csv文件

tttt = spark.read.csv(filepath,header=’true’,inferSchema=’true’,sep=’,’)

pyspark数据存储

方法1：以parquent格式存储到hdfs

data1.write.mode(SaveMode.Overwrite).parquet(output)

方法2：以Table的格式存入hive数据库

##### 数据存入数据库

hive_database = "testt0618"

data1 = data.limit(10)

1: 用saveAsTable()方法存入hive数据库

hive_table1 = "ii"

data1.write.format("hive").mode("overwrite").saveAsTable('{}.{}'.format(hive_database, hive_table1))

2：利用sql语句存入hive数据库

hive_table2 = "lll"

data1.registerTempTable('test_hive')

sqlContext.sql("create table {}.{} select * from test_hive".format(hive_database, hive_table2))

方法3：以csv格式存储到hdfs

output = “/aaa/bbb/ccc”

data1.coalesce(1).write.option("sep", "#").option("header", "true").csv(output + "_text",mode='overwrite')

参考相关：

www.zzvips.com/article/73466.html

https://zhuanlan.zhihu.com/p/34901558

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

深度解析工程化基石：构建自动化测试的“安全带”——Harness 模式实践指南

在未来的工程实践中，随着基础设施即代码（IaC）的普及，将 Harness 与基础设施自动化工具（如 Terraform 或 Pulumi）深度融合，将成为构建“自愈型”研发流水线的必然选择。你可以将其想象为工业机器人手臂上的“卡盘”，无论夹持的是什么样的零件，卡盘的接口永远是标准化的。在一个成熟的工程中，Harness 应该负责解析容器内的 Bean 依赖，并在测试运行前将 Mock 的接口实例

DAMO开发者矩阵

从 Prompt 对话到 OpenClaw：Agent 是怎么一步步发展出来的？

Agent 的发展，不是简单从“聊天机器人”变成“更聪明的聊天机器人”。文本生成→ 中间推理→ 外部知识→ 工具调用→ 循环执行→ 工程框架→ 协议标准→ 真实工作流其中每一步都在解决一个实际问题。Prompt 对话：模型只生成答案CoT：让模型生成推理步骤RAG：让模型接入外部知识ReAct：让模型把推理和行动交替起来Toolformer / Function Calling：让行动变成工具调用