【HIVE】系统数据分析实战 汽车销售数据随机生成
【代码】【HIVE】系统数据分析实战 汽车销售。
·
一、生成测试数据
# 利用Python随机生成一份汽车销售数据,共100行,包括销售时间、销售地点、车辆类型、车辆型号、制造商、排量、功率、发动机型号、
# 燃料种类、车辆长宽高、轴距、驱动方式、轮胎规格、轮胎数量、载客数量、所有权、购买人等相关信息。并将生成的数据写入Excel。
import random
import pandas as pd
def generate_car_sales_data():
# 销售时间
sale_time = random.choice(['2023-12-01', '2023-12-02', '2023-12-03', '2023-12-04', '2023-12-05'])
# 销售地点
sale_location = random.choice(['beijing', 'shanghai', 'guangzhou', 'shenzhen', 'hangzhou'])
# 车辆类型
vehicle_type = random.choice(['CAR', 'SUV', 'MPV', 'Pickup'])
# 车辆型号
vehicle_model = random.choice(['Model 3', 'Model Y', 'Model S', 'Model X'])
# 制造商
manufacturer = random.choice(['tesla', 'BYD', 'BC', 'BMW', 'AODI'])
# 排量
displacement = random.choice(['1.5L', '2.0L', '2.5L', '3.0L', '3.5L'])
# 功率
power = random.choice(['100kW', '150kW', '200kW', '250kW', '300kW'])
# 发动机型号
engine_model = random.choice(['L4', 'V6', 'V8', 'W12'])
# 燃料种类
fuel_type = random.choice(['gasoline', 'diesel', 'GAS', 'electric'])
# 车辆长宽高
length, width, height = [random.randint(4000, 5000) for _ in range(3)]
# 轴距
wheelbase = random.randint(2500, 3000)
# 驱动方式
drive_type = random.choice(['Front-wheel', 'Rear-wheel', 'Four-wheel'])
# 轮胎规格
tire_specification = random.choice(['205/55R16', '215/60R17', '225/65R18', '235/70R19', '245/75R20'])
# 轮胎数量
tire_number = random.choice([4, 5])
# 载客数量
passenger_capacity = random.choice([4, 5, 6, 7])
# 所有权
ownership = random.choice(['personal', 'company', 'lease'])
# 购买人
purchaser = random.choice(['zhangsan', 'lisi', 'wangwu', 'zhaoliu'])
# 返回生成的数据
return {
'销售时间': sale_time,
'销售地点': sale_location,
'车辆类型': vehicle_type,
'车辆型号': vehicle_model,
'制造商': manufacturer,
'排量': displacement,
'功率': power,
'发动机型号': engine_model,
'燃料种类': fuel_type,
'车辆长宽高': [length, width, height],
'轴距': wheelbase,
'驱动方式': drive_type,
'轮胎规格': tire_specification,
'轮胎数量': tire_number,
'载客数量': passenger_capacity,
'所有权': ownership,
'购买人': purchaser
}
# 生成汽车销售数据
car_sales_data = [generate_car_sales_data() for _ in range(1000)]
# 创建一个 DataFrame 对象
df = pd.DataFrame(car_sales_data)
# 将 DataFrame 对象保存为 Excel 文件
df.to_csv('car_sales_data.csv', index=False)
二、创建HIVE数据库
1.创建数据库
CREATE EXTERNAL TABLE car_sales_data (
-- 销售时间
sale_time string comment '销售时间',
-- 销售地点
sale_location string comment '销售地点',
-- 车辆类型
vehicle_type string comment '车辆类型',
-- 车辆型号
vehicle_model string comment '车辆型号',
-- 制造商
manufacturer string comment '制造商',
-- 排量
displacement string comment '排量',
-- 功率
power string comment '功率',
-- 发动机型号
engine_model string comment '发动机型号',
-- 燃料种类
fuel_type string comment '燃料种类',
-- 车辆长宽高
vehicle_length string comment '车辆长度',
vehicle_width string comment '车辆宽度',
vehicle_height string comment '车辆高度',
-- 轴距
wheelbase string comment '轴距',
-- 驱动方式
drive_type string comment '驱动方式',
-- 轮胎规格
tire_specification string comment '轮胎规格',
-- 轮胎数量
tire_number string comment '轮胎数量',
-- 载客数量
passenger_capacity string comment '载客数量',
-- 所有权
ownership string comment '所有权',
-- 购买人
purchaser string comment '购买人'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/car_sales';
2.装载数据
load data local inpath '/资源路径/car_sales_data.csv' overwrite into table stutest.car_sales_data;
3.查看数据
select * from car_sales_data limit 10;

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)