数据挖掘的基本任务包括分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中的商业价值,提高企业的竞争力。
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么,系统能达到什么样的效果。因此,我们必须分析应用领域(包括应用中的各种知识和应用目标),了解相关领域的有关情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须对挖掘目标有清晰明确的认识,即决定到底想干什么。
针对餐饮行业的数据挖掘应用,可以定义以下挖掘目标:
在明确了数据挖掘的目标后,接下来就需要从业务中抽取一个与挖掘目标相关的样本数据子集。
抽取数据的标准:
进行数据样本取样时要注意数据的质量。因为数据挖掘是要探索系统或企业运作的内在运行规律,如果原始数据有误,那么一方面将很难探索出其规律,另一方面即使探索出了规律,也将是错误的规律,再依次指导工作,进行相关决策,很可能造成误导。要从正在运行的系统中进行数据取样,更要注意数据的完整性和有效性。
衡量取样数据质量的标准包括:资料完整无缺,各类指标齐全;数据准确无误,反映的都是正常状态下的水平。
对获取的数据再从中作 抽样操作 。常见的抽样方式包括:
随机抽样:采用随机抽样的方式,数据集中的每一组观测值都有相同的被抽取概率。
等距抽样:等距抽样是将总体中各单位按一定顺序排列,然后按相等的间隔抽取样本单位。等距抽样的特点是实施过程简单,且抽出的单位在总体中均匀分布2。
等距抽样的公式是:$\text{抽样间隔}=\text{总体单位数}( N )/ \text{样本单位数}( n )$
分层抽样:首先将样本总体分为若干层次。每个层次中的观测值都具有相同的被选用的概率 ,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。
按起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。
分类抽样:前面几种抽样方式中,并不考虑样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集,如按地址区域。分类抽样的选取方式就是前面所述的几种方式,知识抽样以类为单位。
当我们拿到一个样本数据后,其是否达到我们原来设想的要求,有没有什么明显的规律、有没有出现从未设想过的数据状态、属性特征之间有什么相关性、可以分为怎样的类别……这些都是数据探索的内容。
对所抽取的样本数据进行探索、加工处理等,能保证最终的挖掘模型的质量。
数据探索主要包括异常值分析、缺失值分析、相关性分析、周期性分析等。
当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。
由于采样数据中常常包含许多含有噪声、不完整甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。
数据预处理主要包括数据筛选、数据变量转换、缺失值处理坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。
样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或智能推荐)?选用哪种算法进行模型构建?
这一步是数据挖掘工作的核心环节。针对餐饮行业的数据挖掘应用,挖掘建模主要包括基于关联规则算法的动态菜品智能推荐、基于聚类算法的餐饮客户价值分析、基于分类与预测算法的菜品销量预测、基于整体优化的新店选址。
挖掘建模过程会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个结果最好的模型。针对分类、回归和聚类分析等不同任务的评价方法是不同的。