数据挖掘基础

Bridge619

2023-02-27 / 0 评论 / 904 阅读 / 0 点赞

02/27

1.1 数据挖掘的基本任务

数据挖掘的基本任务包括分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中的商业价值，提高企业的竞争力。

针对具体的数据挖掘应用需求，首先要明确本次的挖掘目标是什么，系统能达到什么样的效果。因此，我们必须分析应用领域（包括应用中的各种知识和应用目标），了解相关领域的有关情况，熟悉背景知识，弄清用户需求。要想充分发挥数据挖掘的价值，必须对挖掘目标有清晰明确的认识，即决定到底想干什么。

针对餐饮行业的数据挖掘应用，可以定义以下挖掘目标：

在明确了数据挖掘的目标后，接下来就需要从业务中抽取一个与挖掘目标相关的样本数据子集。

抽取数据的标准：

进行数据样本取样时要注意数据的质量。因为数据挖掘是要探索系统或企业运作的内在运行规律，如果原始数据有误，那么一方面将很难探索出其规律，另一方面即使探索出了规律，也将是错误的规律，再依次指导工作，进行相关决策，很可能造成误导。要从正在运行的系统中进行数据取样，更要注意数据的完整性和有效性。

衡量取样数据质量的标准包括：资料完整无缺，各类指标齐全；数据准确无误，反映的都是正常状态下的水平。

对获取的数据再从中作 抽样操作 。常见的抽样方式包括：

随机抽样：采用随机抽样的方式，数据集中的每一组观测值都有相同的被抽取概率。
等距抽样：等距抽样是将总体中各单位按一定顺序排列，然后按相等的间隔抽取样本单位。等距抽样的特点是实施过程简单，且抽出的单位在总体中均匀分布2。

等距抽样的公式是：$\text{抽样间隔}＝\text{总体单位数}( N )/ \text{样本单位数}( n )$
分层抽样：首先将样本总体分为若干层次。每个层次中的观测值都具有相同的被选用的概率，但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性，进而使模型具有更好的拟合精度。
按起始顺序抽样：这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比，或者直接给定选取观测值的组数。
分类抽样：前面几种抽样方式中，并不考虑样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集，如按地址区域。分类抽样的选取方式就是前面所述的几种方式，知识抽样以类为单位。