麦粉社区
>
建议征集
>
帖子详情

Excel探索性数据分析--亚马逊智能产品评论

建议征集 发表于 2020-2-23 11:26
发表于 2020-2-23 11:26:32
Excel数据分析步骤:
一、提出问题
1)什么样的产品更受用户喜爱("用户喜爱"的定义:评论数多或是评分高)?它存在那些特性(特性可以通过帮助性分子数较高或是评论被推荐后从关键字或评论内容中提取)?
2)哪些品牌的产品更受用户喜爱?
3)ID出现频次最高的用户评分分布与对产品的偏爱情况是如何?
二、理解数据
在上一篇文章中已讲解过,链接如下:凰羽凤冠之木:亚马逊智能产品评论数据的描述统计分析
三、数据清洗
先将原始数据复制备份后再进行后续操作
1.选择子集: 通过对每列数据计数统计后发现,评论购买、评论用户编号、评论者所在城市和评论者所在省份四列所包含的有效数据量太少,不具分析性,因此直接删除;
总计数与评论购买、评论用户编号、评论者所在城市、评论者所在省份数据对比表
然后根据提出的问题所需,将不必要的字段隐藏起来,因此最终保留的字段为:
id-用户编号
name-产品名称
brand-品牌
categories-产品类别
keys-类别关键字
doRecommend-评论是否被推荐
numHelpful-帮助性分子数
rating-评分
reviews.text-评论文字内容
2.列表重命名:
将英文字段的列名更改为中文
3.删除重复值:
由于本次探究的是评论的数据,因此选择评论文字内容为查找重复项的关键字段,未发现重复值
4.缺失值处理:
通过数据透视表对各列数据进行计数统计后发现存在缺失值,但由于评论数据无法通过相关数据进行替代,因此选择删除缺失值的操作方式
5.一致化处理:
通过对每列数据的筛选与观察,并未发现需要修改的数据
6.数据排序:
按照评分数值进行降序排列
7.异常值处理:
通过对每列数据的筛选与观察,并未发现异常值
四、构建模型
1.分组:
根据问题对数据进行初步分组,从3个问题中可以提取字段:问题1是针对产品,因此先对产品名称进行分组;问题2是针对品牌,因此对品牌进行分组;问题3是针对用户,因此对用户编号进行分组;
针对产品名称分组针对品牌分组针对用户编号的分组
2.整理与分析
根据分类对三个问题逐一解决
1)根据问题1中的需求,从产品名称分类中查找出评论数较多的前三名产品和平均评分较高的产品,通过观测可看出平均评分较高的产品,其评论基数较少,不具代表性,因此关于问题1的分析直接按评论数前三名的产品下手,观测这三个产品的类别,以及帮助性分子数较高和被推荐的评论,提取相关信息
评论数前三名平均评分较高评论数前三名产品的类别亚马逊Kindle纸白色电子书阅读器按评论推荐和帮助性分子数筛选的评论内容回声(白色)按评论推荐和帮助性分子数筛选的评论内容Fire平板电脑按评论推荐和帮助性分子数筛选的评论内容
2)通过数据清洗和数据分组之后,发现只保留一种品牌,因此问题2作废
3)根据问题3中的需求,先从用户编号的分组中找到评分次数最高的用户AVphgVaX1cnluZ0-DR74,从原始的评论数据中筛选出该用户,对其评分列进行描述性分析,而后归类其购买的产品信息
3.总结
通过上述分析可看出,针对问题1产品方面:平板、电子书阅读器以及有趣适用的电子配件类产品更受到用户的偏爱,从用户的评论内容可看出性价比,屏幕的分辨率,携带便捷和实用性是用户在购买时比较关注的层面;针对用户方面;从评分次数最高用户的分析数据来看,该用户倾向于购买平板电脑,购买占比达到98.04%,而其评分数据的中位数和众数均为5分,可看出该用户好评占比比较高。

Smartbi智分析

        +  保留你的EXCEL操作习惯

        +  超级数据量在EXCEL的应用

        +  即时数据加工不求人

        +  企业服务器业务数据与个人本地数据自主整合

        +  完整的权限管理

        +  强大的数据源管理

        +  发布共享、微信、钉钉分享



文章正文来源:知乎--
凰羽凤冠之木


高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0回帖数 0关注人数 1974浏览人数
最后回复于:2020-2-23 11:26
快速回复 返回顶部 返回列表