使用数据挖掘产品统计分析文本（二）

zhangchenggang · 发表于 2020-1-15 13:38:07

在使用数据挖掘产品统计分析文本（一）中，使用了文本分析中的分词和数据预处理中的分列、聚合将文本中的地区名提取出来并进行分组统计。下面使用另外一种方法，来实现文本中的地名提取并统计。
1、数据准备和“在使用数据挖掘产品统计分析文本（一）”中的一样，这里就再演示步骤，参考在使用数据挖掘产品统计分析文本（一）即可。
2、关系数据源加载，同在使用数据挖掘产品统计分析文本（一）”
3、选择数据预处理中的派生列，点击进入派生列配置

4、利用内置的字符串截取函数，对字段列b进行字符截取操作，提取的地名生成单独的列，如下图：

5、聚合上一步骤中生成的单独的列，分组地区名和地区数量统计，得到结果。

最后总结下这两种方法提取统计文本中的地名。第一种方法使用了文本分析中的分词，并利用数据预处理中的分列和聚合，将字段列b中的地名提取并统计。这个方法相比第二种方法稍微有些复杂，并且分组后的地名中有别的符号（不影响分组统计结果）。第二种方法很简单，直接将关系数据源中的b字段列按照位置进行截取，生成固定的两个字的地名，且分组后的地名没有别的符号。但是第二种方法也有局限，就是如果地名中有的是2个汉字，有的是3个，有的是多个的时候，这种方法就不能很好的提取地名了；而第一种方法因为使用了文本分析，不管是几个字，都可以比较智能的提取出来做统计。

我把过程录成操作视频，谁需要可以联系我！

kindaries · 发表于 2020-6-10 16:54:02

厉害

1回帖数	0关注人数	2704浏览人数
最后回复于：2020-6-10 16:54

头像	昵称	操作
	小麦数据猿	邀请TA
	鬼仔性格	邀请TA
	君茗	邀请TA
	清澈的愚蠢	邀请TA
	打工人的一天	邀请TA
	Xichen	邀请TA