目录

前言

什么是数据分析?

当数据分析师与AI 发生了碰撞

一、TableAgent介绍

二、 TableAgent体验

三、样例数据集体验

1. 如下图所示我们选择 银行客户流失预警的样例数据集

2. 数据集导入

3. 数据分析

4. 深度提问

5. 总结

四、南京二手房数据采集与可视化分析

1. 网站结构分析

2. 目标数据

3. 数据清洗

4. 导入数据到 TableAgent 中

5. 数据可视化分析基本步骤

6. 使用TableAgent 对各个区域二手房房源数量分析

7. 使用TableAgent 对二手房房屋用途分析

8. 使用TableAgent 对各区域二手房平均单价分析

9. 使用TableAgent 对各区域二手房总价箱线图分析

10. 使用TableAgent 对各区域二手房单价箱线图分析

11. 其他问题分析方向

五、总结


前言

什么是数据分析?

数据分析就是利用数学、统计学理论相结合科学统计分析方法对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息形成结论并进行展示的过程。

数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后,将有用的信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出决策和判断。

对于一名数据分析师来说,进行数据分析无疑是复杂的, 学习成本也是较高的

当数据分析师与AI 发生了碰撞

TableAgent数据分析智能体是在九章云极 DataCanvas 自主研发的 DataCanvasAlaya 九章元识大模型基础上开发的能够实现私有化部署的企业级数据分析的智能体,有非常强大的意图理解能力、分析建模能力和洞察力。TableAgent 在充分的理解用户意图后,自主的利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供分析观点和指导行动的深刻见解。

接下来我们是使用 TableAgent 来了解目前市面上二手房各项基本特征及房源分布情况

一、TableAgent介绍

九章云极DataCanvas公司主任架构师杨健介绍称,TableAgent在Alaya元识基础上进化而来,是从0到1的交互式结构化数据分析的突破,是企业数据分析的全新方式,让“人人都是数据分析师”得以从梦想照进现实。

TableAgent是能够实现私有化部署 的企业级数据分析智能体,有非常强大的意图理解能力、分析建模能力和洞察力。在充分的理解用户意图后,TableAgent能够自主地利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供分析观点和指导行动的深刻见解。这种启发式和引导式分析 能力,能够从深度和广度上不断挖掘数据中的信息和价值,帮助用户完成高质量的分析工作。

二、 TableAgent体验

  1. 点击链接 进入TableAgent 公测地址

  1. 点击立刻体验, 输入手机号,验证码开启体验之旅

  1. TableAgent 界面

三、样例数据集体验

1. 如下图所示我们选择 银行客户流失预警的样例数据集

2. 数据集导入

如下图所示, 将样例数据集导入之后, 在主体内容中会有相关的数据分析提示, 接下来我们根据已给的提示进行提问

3. 数据分析

问题: 帮我统计流失客户主要集中在哪些年龄段

回复:

TableAgent给出的柱状数据图如下

接下来我们看下 TableAgent 给出的文字分析

4. 深度提问

问题: 根据客户的职业,统计不同领域客户的信用卡消费总金额和平均支出金额。

回复:

柱状图如下:

文字分析如下

  1. 对于初级教育水平的客户,他们的信用卡消费总金额为13184500,平均支出金额为100110。
  2. 对于中级教育水平的客户,他们的信用卡消费总金额为48802100,平均支出金额为99657.2。
  3. 对于高级教育水平的客户,他们的信用卡消费总金额为33627400,平均支出金额为100500。
  4. 对于未知教育水平的客户,他们的信用卡消费总金额为447622,平均支出金额为101732。

这些数据表明,不同领域的客户的信用卡消费总金额和平均支出金额是有差异的。这可能与客户的收入水平、消费习惯等因素有关。

从图中可以看出,初级教育水平的客户的信用卡消费总金额和平均支出金额最小,这可能是因为他们收入水平较低,消费能力较弱。而高级教育水平的客户的信用卡消费总金额和平均支出金额最大,这可能是因为他们收入水平较高,消费能力较强。

这些数据为我们提供了关于客户信用卡消费行为的有价值的信息,可以帮助我们更好地理解和服务我们的客户。

5. 总结

通过对TableAgent 的提问 及回复我们发现对于样例数据集的分析还是相对准确的,

同时在 TableAgent 回复之后依旧会给一些接下来提问的角度,为用户提供了思考方向

四、南京二手房数据采集与可视化分析

首先通过网络爬虫采集链家网上所有南京二手房的房源数据,并对采集到的数据进行清洗;然后,使用TableAgent对清洗后的数据进行可视化分析

1. 网站结构分析

链家网二手房信息界面如下:

2. 目标数据

我们需要采集的目标数据就在该页面,包括基本信息、房屋属性和交易属性三大类。

各类信息包括的数据项如下:

  • 基本信息:小区名称、所在区域、总价、单价。
  • 房屋属性:房屋户型、所在楼层、建筑面积、户型结构、套内面积、 建筑类型、房屋朝向、建筑结构、装修情况、梯户比例、配备电梯、产权年限。
  • 交易属性:挂牌时间、交易权属、上次交易、房屋用途、房屋年限、产权所属、抵押信息、房本备件。

3. 数据清洗

对于爬虫程序爬下来的数据并不能直接进行数据分析,需要先去掉一些“脏”数据,修正一些错误数据

数据清洗前

数据清洗后

数据集点击下载 📎ershoufang-clean-utf8-v1.1.csv

4. 导入数据到 TableAgent 中

如下图所示我们通过py 获取了20018 条数据

接下来我们将处理好的数据导入到TableAgent 中, 需要注意的是 导入文件大小不得超过5MB

5. 数据可视化分析基本步骤

数据可视化分析, 主要是对数据从整体上做一个探索性分析并把数据进行可视化呈现,帮助人们更好、更直观的认识数据,把隐藏在大量数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。我们主要对二手房房源的总价、单价、面积、户型、地区等数据项进行分析。

6. 使用TableAgent 对各个区域二手房房源数量分析

提问对于数据集中 “所在区域”列的二手房房源数量进行折线图分析


回复

  1. 首先 TableAgent 给出了各个区域数据的统计, 然后绘制折线图进行数据分析

  1. 对比

TableAgent 分析结果

我自己分析结果

从图中可以看出,房源数量随着时间的推移有一定的波动,这可能与市场需求、供需关系等因素有关。同时,我们也可以看出,每个地区的房源数量都有所不同,这可能与该地区的经济发展水平、房地产市场政策等因素有关。

总的来说,这个数据和图形可以帮助我们更好地理解南京市的房地产市场,从而做出更好的决策。

  1. 江宁在售的房源数量最多,高达5000多套,占了总量的1/4。
  2. 相反的是六合区,六合区在售的房源数量仅有1套,数量太少
  3. 其他各区的数量相差不多。

所以,后面关于六合区的分析都会存在一定误差。

7. 使用TableAgent 对二手房房屋用途分析

提问 对数据集中“房屋用途” 列的二手房房屋用途进行柱状图分析

回复

  1. TableAgent 回复的数据如下

  1. 对比

TableAgent 分析结果

我自己分析结果

  • 我们可以看出,普通住宅的数量最多,达到了19615个,占总数的49.2%。
  • 其次是别墅,数量为202个,占总数的4.9%。商业办公类和酒店式公寓的数量分别为89个和40个,分别占总数的2.1%和1.9%。
  • 车库的数量为24个,占总数的0.6%。

这个分布表明,虽然商业办公类和酒店式公寓的数量较少,但它们在总数中的比例并不高。

这可能是因为这些类型的房屋在市场上的需求量较小,或者这类房屋的价值较低,因此商家更倾向于选择其他类型的房屋。

总的来说,我们的数据显示,虽然商业办公类和酒店式公寓的数量较少,但它们在总数中的比例并不高。这可能是因为这些类型的房屋在市场上的需求量较小,或者这类房屋的价值较低,因此商家更倾向于选择其他类型的房屋。

从图中可以看出:

  • 房屋用途类型有:普通住宅、别墅、商业办公、酒店式公寓、车库5种类型
  • 普通住宅类型近20000套,占总量绝大部分

所以,没有剔除掉房屋用途为其他类型的记录,这些类型在房源整体样本中占比相当少,基本不会影响后面的分析结果,同时它们也属于二手房的范畴内。

8. 使用TableAgent 对各区域二手房平均单价分析

提问 对数据集“所在区域”和“单价(元/平米)” 列的各区域二手房平均单价进行柱状图分析, 每个区域用不同颜色表示

回复

  1. 回复的表格如下

  1. 对比

TableAgent 分析结果

我自己分析结果

从这个图中,我们可以更直观地看到,各个区域的平均二手房单价差异较大。这可能意味着,如果我们在选择二手房时,除了考虑房源的具体信息,如房源类型、房源质量等,还需要考虑我们所在的区域。

从图中可以看出:

  • 建邺区和鼓楼区二手房平均单价最高,近40000元/平米
  • 从整体上来看,南京市各个区域均价都已经远远的超过20000元/平米了

9. 使用TableAgent 对各区域二手房总价箱线图分析

提问: 对数据集“所在区域”和“单价(元/平米)” 列的各区域二手房总价箱线图分析

回复

  1. 回复的表格如下

  1. 对比

TableAgent 分析结果

我自己分析结果

从图中我们可以看出,

  • 大部分地区的二手房价格都在一定的范围内,这说明二手房市场的价格相对稳定。同时,我们也可以看出,有些地区的二手房价格分布较广,有些地区的二手房价格则相对集中。
  • 这些信息对于买房者来说非常有帮助。买房时,买者可以根据自己的预算和对房源的需求来选择合适的地区。同时,卖房者也可以根据市场情况来调整价格,以达到更好的销售效果。

从图中可以看出:

  • 鼓楼、建邺这两个单价最高区域,500万元的二手房以分布在正常值范围内了。
  • 南京其他各区域二手房价格大部分都集中在200~400万元之间,下四分位数都十分靠近200万。
  • 江宁、栖霞虽然在单价上不高,但总价不低,尤其是近几年房价涨幅比较高的江宁,500万以上异常值都已经比较多了。
  • 浦口区总价数据分布最为集中,绝大部分数据都200~300万区间内。

10. 使用TableAgent 对各区域二手房单价箱线图分析

提问: 对数据集“所在区域”和“单价(元/平米)” 列的各区域二手房单价箱线图分析

回复

  1. 回复的表格如下

  1. 对比

TableAgent 分析结果

我自己分析结果

从这个图中:

  1. 我们可以看到每个地区的房源价格分布情况。
  2. 箱线图中的上边缘、上四分位数、中位数、下四分位数和下边缘分别对应的是最大值、第三四分位数、中位数、第一四分位数和最小值。如果一个地区的房源价格分布均匀,那么箱线图中的箱子就会越大。反之,如果一个地区的房源价格分布不均匀,那么箱线图中的箱子就会越小。

总的来说,我们的数据显示,各个地区的房源价格箱线图差异较大,这可能反映了房源价格的地理差异。

从图中可以看出:

  • 建邺和鼓楼两个区域房源单价正常值分布都不是太集中,50%的单价分布在30000~50000的区间内,区间跨度比其他区都要大。
  • 虽然建邺区平均单价略高于鼓楼区,但鼓楼区的异常值特别多
  • 玄武区和秦淮区单价正常值分布较为集中50%的数据都分布在30000~40000之间,但这两个异常值也比较多,单价上限也非常高。

所以,综合以上情况来看,鼓楼区应该是南京市单价最高的区域。与鼓楼区相邻的这些区域单价如此多的异常值,可能是与该地区的设置资源有关

11. 其他问题分析方向

上面我们进行了 5个方向的分析,其他方面的分析这里也提供一下,供大家去测试哦!!

  • 各区域二手房单价最好TOP20的数据进行分析
  • 各区域二手房单价热力图数据进行分析
  • 各区域二手房总价热力图数据进行分析
  • 南京二手房总价200万以下的区域分布图
  • 南京二手房建筑面积分布区间图
  • 南京各区域二手房平均建筑面积柱状图
  • 南京二手房总价与建筑面积散点图
  • 南京二手房单价与建筑面积散点图
  • 南京二手房房屋户型饼状图
  • 南京二手房房屋装修饼状图
  • 南京二手房房屋朝向柱状图
  • 南京二手房建筑类型饼状图

注意 : 这里提供的为数据分析方向哦! 每个问题可以结合数据集来进行具体的微调才会有更好的效果

五、总结

通过 样例数据集我们自己的数据集 对TableAgent 进行测试之后我们会更加直观立体的认识了数据,并可以把隐藏在大量数据背后的信息集中的提炼出来,总结出所研究对象的内在规律。

在通过分析南京二手房的数据集我们会发现, TableAgent生成的数据分析图与我们自己分析的图可以说是没有什么误差, 唯独只有对于图解这里会出现分歧, 但也只是方向不一致而已, 通过这一点可以确切的说:当数据分析与AI 相碰撞之后 人人都是数据分析师 的时代已经来临, 而TableAgent正在也在这一方向提供了巨大的助力,

正如九章云极DataCanvas公司主任架构师杨健所言:

当前市场呈现出丰富多样的生成式AI形态,拨开一众表面浮夸的形态和场景“数据分析”是大模型和具体业务融合的更深一步,是最能为用户产生直接商业价值的核心领域,也将是企业真正需要沉淀的、最有业务价值的领域。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐