使用数据挖掘产品统计分析文本（一）

zhangchenggang · 发表于 2020-1-15 13:17:53

数据中经常有一段文字，例如“上海黄浦区经开家园二区15栋201”，还有开头是北京、天津、重庆等，需要将这段文字里的区划名称提取出来分组并做数量统计。下面利用数据挖掘产品里的数据预处理功能及文本分析，来实现这个需求。
第一种方法：首先通过文本分析实现这个需求
1、准备好数据。使用txt文本文件自己编辑一个txt的文件，然后利用数据连接，将txt的数据导入到高速缓存库中，如下图所示：

2、切换到数据挖掘页面，在数据源中选择“关系数据源”，拖到空白区，并在右侧选择数据源、SCHEMA、表名（etltest1）。右键关系数据源选择执行到此处，将数据加载进来。

3、从左侧导航栏中选择文本分析中的分词，点击字段选择，选择列“b”，对b列中的文字进行分词，如下图所示：

4、从导航栏里选择数据预处理中的分列，并在右侧参数中配置列和分隔符，生成单独的地区名字段列

5、利用数据预处理中的聚合生成地区名分组和地区名数量统计，右键执行到此处，右键查看结果，即可得到结果，如下图：

0回帖数	0关注人数	2309浏览人数
最后回复于：2020-1-15 13:17

头像	昵称	操作
	Eva_Li	邀请TA
	鬼仔性格	邀请TA
	小麦数据猿	邀请TA
	脑袋空空	邀请TA
	Apanda	邀请TA
	huuuuu	邀请TA