请选择 进入手机版 | 继续访问电脑版
查看: 193|回复: 0

[数据清洗] EXCEL数据如何去重? Python:这事我比你熟

[复制链接]

301

主题

301

帖子

1071

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1071
 楼主| 发表于 2021-9-28 01:45:51 | 显示全部楼层 |阅读模式
1.png

  数据出现重复值是我们日常工作中经常会遇到的问题,例如下面这个EXCEL表格里,订单编号这一列里出现了多个重复值,这个时候我们就要对数据进行去重了。去重的方法有很多,这里介绍两种方法:1、通过EXCEL去重;2、通过Python去重。

2.png

  先给大家说一下在EXCEL里去重的基本方法,非常简单,先点击EXCEL工具栏上的“删除重复项”:

3.png

  在弹出的界面里可以对去重的字段进行勾选,默认是全选的状态下,EXCEL会对所有相同行数的字段进行去重,如果只勾选某一列,EXCEL会对该列里重复的字段进行去重,这里我们只勾选订单编号这个字段:

4.png

  点击确定,EXCEL便会完成去重的操作,这个方法非常简单,相信很多小伙伴都知道如何操作,下面重点给大家介绍一下如何通过Python进行去重。

5.png

  用Python做数据分析需要先到官网安装Python的程序和PyCharm等其他的编辑器,还得安装一些数据分析常见的库,例如pandas,整个过程需要耗费不少时间。如果嫌麻烦,你也可以不用安装,直接登录智分析的官网并利用ETL功能去编写Python脚本,一样也可以实现Python的全部功能。

  话不多说,我们进入智分析的网页端,把数据源上传到网页端,然后进入ETL的界面,把关系数据源的组件用鼠标拖拽到中间,这个时候我们需要对数据源进行选择,点击右边的参数,我们可以找到上传到网页端上的数据源文件,执行这个程序,数据源便可以成功加载到ETL里:

6.png

  数据源加载后,我们可以用鼠标点击关系数据源组件对数据源进行预览,我们可以看到这份数据源有8568条,并且订单编号这一列是有重复值的:

7.png

  这个时候我们点击左边脚本模块里的下拉菜单,把Python脚本的组件拉拽进来,并与关系数据源的组件进行相连:

8.png

  点击Python脚本的参数设置,便会弹出Python的脚本编辑框,以下脚本是系统默认的存在的,已经提前预置的:

9.png

  我们只需要在最后一句代码里加入drop_duplicates这个去重函数,然后指定是哪一列就可以了,这里我们以第一列为去重的目标字段:

10.png

  最后我们看一下数据去重后的效果,去重后的数据只剩下了5489条:

11.png

  完成去重后,我们可以选择把数据源以EXCEL的形式进行输出,这里教大家一个非常方便的方法,在ETL里选择已数据集的形式进行输出,然后在EXCEL进行调用是最方便的。我们先把数据集的组件拉拽过去,与上面的组件进行相连,并点击执行:

12.png

  回到EXCEL里,打开智分析插件里的数据集面板,搜索刚刚保存成功的数据集,把数据集拉拽到EXCEL里,点击刷新,通过Python去重后的数据源便会全部显示在EXCEL中,是不是非常方便和简单呢?

13.png

14.png

  通过上面的案例,我们可以看到Python结合ETL的功能去对数据进行清洗是非常方便的,一来是可以节省大量写代码的时间,二来可以利用ETL去和EXCEL完美地结合起来,真正地让EXCEL与其他工具做到无缝连接,在实际工作中真是非常的实用,如果你想学习Python但是苦于没有学习的方法的话,就赶紧来学习一下这种新的数据清洗方法吧。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表