数据挖掘之七种常用的方法

数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

        利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 

分类

       分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别,用于预测数据对象的离散类别。

       分类技术在很多领域都有应用,它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。

当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别。比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征。

 其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。

       而主要分类方法有决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。

回归分析

       回归分析一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系

       其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

       回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

主要表现

(1) 判别自变量是否能解释因变量的显著变化----关系是否存在。

(2) 判别自变量能够在多大程度上解释因变量----关系的强度。

(3) 判别关系的结构或形式----反映因变量和自变量之间相关的数学表达式。

(4) 预测自变量的值。

(5) 当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。

聚类

       聚类,顾名思义就是按照相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。与分类不同的是聚类不依靠给定的类别对对象进行划分。 

分析算法分类

(1)划分方法

(2)层次的方法

(3)基于密度的方法

(4)基于网格的方法

(5)基于模型的方法

       它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。如谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、年龄、职业等等;还有银行信用卡的黄金客户,按储蓄额、刷卡消费金额和诚信度等。 

关联规则


关联规则是描述数据库中数据项之间所存在的关系的规则以从一件事情的发生,来推测另外一件事情的发生,即隐藏在数据间的关联或相互关系,从而更好地了解和掌握事物的发展规律等等。

关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。于是沃尔玛将啤酒与尿布一起销售,**提高了销售额。

       关联规则的实际应用包括:交叉销售、邮购目录的设计、商品摆放、流失客户分析、基于购买模式进行客户区隔等等……

      在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。 

  特征

       特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。特征选择的目的在于从海量数据中提取出有用信息,从而提高数据的使用效率。

      其中,特征有效性的选择评价有概率论、数理统计、信息论、IR领域的度量、学**相关的度量等。

      如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

变化和偏差分析

       偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。偏差分析是一个有趣的数据挖掘任务,其目的是发现与大部分其他对象不同的对象。如分类中的反常实例,模式的例外,观察结果对期望的偏差等。

       在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

       而其成因有数据源于不同的类、自然变异、数据测量或收集误差等。 

Web页挖掘

       通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

      Web数据挖掘的研究对象是以半结构化和无结构文档为中心的Web,这些数据没有统一的模式,数据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅仅依靠HTML语法对数据进行结构上的描述。 

可完成任务

  (1)网络流量分配情况、随时间变化情况分析。

    (2)网站广告点击率、投资收益比分析。

    (3)用户从哪里进入网站、跳出网站,进入感兴趣的页的方式等出入口分析。

    (4)用户来源分析。

    (5)访问站点的用户的浏览器和平台分析。

    (6)发现经常被用户一起访问的页面集合,作为优化站点的参照。

    (7)聚类行为模式相似的用户,形成智能推荐模式;聚类同一群用户访问的页面,帮助发现站点设计的不合理之处。

    (8)预测用户可能访问的页面,行为趋势分析和用户分类等。


       数据挖掘是一种决策支持过程,它通过高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策,这对于一个企业的发展十分重要。
相关推荐
EIS 环境下的数据挖掘技术的研究.caj FCC油品质量指标智能监测系统的数据挖掘与修正技术.caj IDSS 中数据仓库和数据挖掘的研究与实现.caj InternetWeb数据挖掘研究现状及最新进展.caj Internet数据挖掘原理及实现.caj Min-Max模糊神经网络的应用研究.pdf OLAP与数据挖掘一体化模型的分析与讨论.caj OLAP和数据挖掘技术在Web日志上的应用.caj ON-LINE REDUCING MACHINING ERRORS IN BORING OPERATIONBY FORECASTING COMPENSATORY CONTROL TECHNIQUE.pdf SDSS中空间数据挖掘部件的设计与实现.kdh swlms.pdf Web上的数据挖掘技术和工具设计.kdh Web使用模式研究中的数据挖掘.caj Web数据挖掘技术及工具研究.kdh Web数据挖掘技术探讨.kdh Web数据挖掘的BN实现方案.kdh XML与面向Web的数据挖掘技术.caj 一个新的数据挖掘模型与算法.caj 一个面向电子商务的数据挖掘系统的设计与实现.caj 一种估计人工神经网络泛化误差的新方法.pdf 一种基于数据仓库的数据挖掘系统的结构框架.caj 一种基于神经网络的数据挖掘方法.caj 一种基于遗传算法的模糊神经网络最优控制.pdf 一种实时过程控制中的数据挖掘算法研究.caj 一种建立模糊模型的粗糙集方法.pdf 一种新型数据分析技术——数据挖掘.caj 一种新的高效关联规则数据挖掘算法.caj 一种有效的用于数据挖掘的动态概念聚类算法.caj 一种测试数据挖掘算法的数据源生成方法.caj 一种自适应模糊控制器.pdf 一类递归RBF神经网络模型的稳定性讨论.pdf 不确定性线性系统模型处理的一种新方法.pdf 中介粗集及其在数据挖掘中的应用.caj 二进神经网络隐元数目最小上界研究.pdf 以地物识别和分类为目标的高光谱数据挖掘.caj 信息技术在全球银行业的应用(六)——数据挖掘技术及其应用.kdh 信息技术在全球银行业的应用(六)——数据挖掘技术及其应用1.kdh 信息检索中的数据挖掘技术.caj 信息系统中一种面向粗糙集的数据挖掘方法.caj 全连接回归神经网络的稳定性分析.pdf 关注政府上网后的数据挖掘.kdh 决策支持分析新技术——数据挖掘.caj 分类特征规则的数据挖掘技术.caj 利用决策树进行数据挖掘中的信息熵计算.caj 利用模糊神经网络进行数据挖掘的一种算法.caj 前向网络bp算法在数据挖掘中的运用.caj 区间值属性不完全信息下的数据挖掘.caj 可视化数据挖掘技术及其应用.caj 在IDS中利用数据挖掘技术提取用户行为特征.caj 基于CORBA的数据挖掘工具KDD-DC.caj 基于Web的数据仓库与数据挖掘技术.caj 基于Web的数据挖掘技术及访问路径模式的研究.caj 基于XML的WEB数据挖掘技术.kdh 基于中心流形定理的永磁同步电动机模型的分支分析.pdf 基于云模型的Web日志数据挖掘技术.caj 基于代理的分布式数据挖掘系统设计.caj 基于信息熵的地学空间数据挖掘模型.caj 基于关联规则的舰艇故障诊断数据挖掘系统结构框架.caj 基于增强型算法并能自动生成规则的模糊神经网络控制器.pdf 基于多媒体数据库的数据挖掘系统原型.caj 基于小波理论的数据挖掘方法研究.caj 基于属性分类的数据挖掘方法.caj 基于改进Elman网的非线性系统的自适应建模与预估.pdf 基于数据抽取器实现数据挖掘.caj 基于数据挖掘建立动态人事管理决策系统.kdh 基于数据挖掘建立高校系科办学评估体系的合理性评价系统.caj 基于数据挖掘技术的抽油机泵参调整DSS决策支持系统.caj 基于数据挖掘方法的电子邮件过滤.caj 基于数据挖掘模型的高压输电线系统故障诊断.caj 基于数据挖掘的地下硐室围岩稳定性判别.caj 基于数据挖掘的普通话韵律规则学习.caj 基于数据挖掘的智能化入侵检测系统.caj 基于数据挖掘的深部采场岩爆知识的自动获取.caj 基于数据挖掘的知识发现在MDSS中的应用研究.caj 基于数据挖掘的类比推理技术在石油产品分析系统中的实现.caj 基于数据挖掘的类比推理技术在石油产品分析系统中的实现1.caj 基于数据挖掘的群决策模型.caj 基于智能化数据挖掘的高新技术监测分析技术研究.caj 基于模糊对向神经网络的非线性动态系统辨识器.pdf 基于模糊规则的非线性系统建模方法.pdf 基于模糊逻辑的一类非线性系统直接自适应控制.pdf 基于相联规则的数据挖掘理论.caj 基于知识应用的数据挖掘技术理论分析与应用研究.caj 基于神经网络的多模
©️2020 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页