麦粉社区
>
帖子详情

数据挖掘关键技术、步骤与算法发展历史,超全总结!

独家观点 发表于 2021-10-11 14:36
发表于 2021-10-11 14:36:23
数据挖掘关键技术
  • 人工智能
  • 机器学习
  • 模式识别
  • 统计学
  • 数据库
  • 可视化技术

数据挖掘主要步骤
1. 数据准备
2. 规律寻找
3. 规律表示

数据挖掘发展历史及各阶段的主要算法简介
<20世纪70年代
  • 人工智能
  • 知识发现
  • 稳健统计
  • 描述统计
  • 探索性分析

70~80年代
  • 广义线性模型
  研究响应值的非正态分布以及非线性模型的线性转化
  • EM算法
  从非完整数据集中对参数进行MLE估计;
  应用:处理缺失数据、截尾数据、带有噪声等的不完整数据

80年代~
  • 支持向量机SVM算法
  应用:小样本、非线性及高维模式识别,函数拟合
  • 神经网络
  • Bootstrap
  在已知数据的基础上,模拟N->无穷大时的情况;
  通过重抽样的方法扩充数据量
  • 核光滑
  非参数领域

未来发展
  • 算法效率和可伸缩性
  • 处理不同类型的数据和数据源
  • Web挖掘
  • 数据挖掘中的信息保护和数据安全
  • 数据挖掘系统的交互性
  • 探索新的应用领域
  • 数据挖掘语言或相关方面的标准化工作
  • 数据挖掘结果的可用性、确定性及可表达性
  • 各种数据挖掘结果的表达
  • 可视化数据挖掘

1.png


关于Smartbi Mining企业数据挖掘平台
  思迈特企业数据挖掘平台(Smartbi Mining)是用于预测性分析的独立产品,旨在为企业所做的决策提供预测性智能。该平台不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的数据预处理操作。此外,它内置了多种实用的、经典的机器学习算法,这些算法配置简单降低了机器学习的使用门槛,大大节省了企业成本,并支持标准的PMML模型输出,可以将模型发送到Smartbi统一平台,与商业智能平台实现了完美整合。

2.png

  Smartbi Mining数据挖掘平台支持多种高效实用的机器学习算法,包含了分类、回归、聚类、预测、关联,5大类机器学习的成熟算法。其中包含了多种可训练的模型:逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、K均值、DBSCAN、高斯混合模型。除提供主要算法和建模功能外,Smartbi Mining数据挖掘平台还提供了必不可少的数据预处理功能,包括字段拆分、行过滤与映射、列选择、随机采样、过滤空值、合并列、合并行、JOIN、行选择、去除重复值、排序、增加序列号、增加计算字段等。

参考文献 《数据挖掘算法原理与实现》王振武,如有疑侵权联系删除!


高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0回帖数 0关注人数 928浏览人数
最后回复于:2021-10-11 14:36
快速回复 返回顶部 返回列表