麦粉330599 发表于 2020-8-14 10:21:05

数据挖掘中的采样

有没有大佬解决一下数据挖掘中的采样:
随机抽样比例为啥有时候,不按照比例抽取?
分层抽样30条数据分3层,抽4条数据,但是显示出6条?
权重抽样中的权重是怎么评判的,就是按照官方说的按照数字的大小吗?

麦粉119167 发表于 2020-8-14 11:11:18

目前采样方法是调用spark接口,spark官网说明采样只是获取一个近似比例的数据,无法得到精准比例的数据,该功能对于大数据量的需求影响不大,而后续也会对这个问题进行优化的。而加权采样是按照权重列大小来评判的,权重列值越大越有可能会被采样。
页: [1]
查看完整版本: 数据挖掘中的采样