如何使用sklearn进行数据挖掘

11月10日,2021 技术知识 PPT教程网 163次

如何使用sklearn进行数据挖掘

09月22日, 2014 163次

今天我就和大家聊聊如何用sklearn进行数据挖掘，可能很多人都不太懂。为了让大家更好地了解，边肖为大家总结了以下内容。希望你能从这篇文章中有所收获。从10到1010的数据挖掘通常包括数据收集、数据分析、特征工程、训练模型、模型评估等步骤。借助sklearn工具，可以方便地进行特征工程和模型训练。在《使用sklearn做单机特征工程》中，我们最终留下了一些疑问：特征处理类有fit、transform和fit_transform三种方法，而fit方法与模型训练方法fit同名(不仅同名，而且参数列表也相同)是巧合。显然，这不是巧合。这是sklearn的设计风格。我们可以更优雅地使用sklearn进行特征工程和模型训练。此时，我们不妨从一个基本的数据挖掘场景开始：如何使用sklearn进行数据挖掘第1张

数据挖掘过程我们使用sklearn来完成虚线框中的工作(sklearn也可以提取文本特征)。通过分析sklearn源代码，我们可以看到，除了训练、预测和评估之外，处理其他任务的类已经实现了三种方法：fit、transform和fit_transform。从命名中，我们可以看到fit_transform方法首先调用fit，然后调用transform。我们只需要注意拟合方法和变换方法。变换方法主要用于变换特征。从可获得的信息来看，转换可以分为非信息转换和信息转换。无信息变换是指没有任何其他信息的变换，如指数和对数函数变换。有信息的变换从是否使用目标值向量可以分为无监督变换和有监督变换。无监督变换是指只利用特征的统计信息，包括均值、标准差、边界等的变换，如标准化、PCA降维等。监督变换是指同时利用特征信息和目标值信息的变换，如模型特征选择和LDA方法降维。通过总结常用的转换类，我们得到下表：如何使用sklearn进行数据挖掘第2张

不难看出，只有带有信息的转换类的fit方法才是真正有用的。显然，拟合方法的主要工作是获取特征信息和目标值信息。在这方面，模型训练中的fit方法和fit方法可以联系在一起：它们都是通过分析特征和目标值来提取有价值的信息，这是对变换类的一些统计，可能是特征对模型的权重系数。此外，只有监督变换类的拟合和变换方法需要两个参数：特征和目标值。无用拟合方法并不意味着没有实现，但是除了有效性检查之外，它不处理特征和目标值。规格化器的拟合方法实现如下：如何使用sklearn进行数据挖掘第3张

如果没有基于这些特征处理工作的通用方法，那么想象一下它们是否可以组合在一起？在本文假设的场景中，我们可以看到这些任务有两种组合：流水线和并行。基于流水线组合的工作需要依次进行，前一个工作的输出就是下一个工作的输入；基于并行的工作可以同时进行，使用相同的输入。所有工作完成后，它们各自的输出被合并，然后输出。Sklearn提供封装流水线来完成流水线和并行工作。 00-1010不在这里，所以我们还是用IRIS数据集进行说明。为了适应提议的场景，需要对原始数据集进行轻微处理：如何使用sklearn进行数据挖掘第4张

1.1 数据挖掘的步骤

并行处理、流水线处理、参数自动调整和持久化是优雅地使用sklearn进行数据挖掘的核心。并行处理和流水线处理将多个特征处理任务，甚至模型训练工作组，组合成一个任务(从代码的角度来看，多个对象组合成一个对象)。在组合的前提下，自动参数调节帮助我们省去了手动参数调节的防抱死。训练好的模型是存储在内存中的数据，可以通过持久化的方式保存在文件系统中，然后不需要训练就可以直接从文件系统中加载。

1.2 数据初貌

并行处理允许并行执行多个特征处理作业。根据特征矩阵的不同读取方式，可分为整体并行处理和部分并行处理。整体并行处理，即并行处理中每项工作的输入都是特征矩阵的整体；部分并行处理可以定义每个作业需要输入的特征矩阵的列。 00-1010流水线包为整体并行处理提供了特性联合类：

formation/20210521/347/354403.png alt= 如何使用sklearn进行数据挖掘

整体并行处理有其缺陷，在一些场景下，我们只需要对特征矩阵的某些列进行转换，而不是所有列。pipeline并没有提供相应的类，需要我们在FeatureUnion的基础上进行优化。

在本文提出的场景中，我们对特征矩阵的第1列(花的颜色)进行定性特征编码，对第2、3、4列进行对数函数转换，对第5列进行定量特征二值化处理。使用FeatureUnionExt类进行部分并行处理的代码如下：

如何使用sklearn进行数据挖掘第5张

3 流水线处理

pipeline包提供了Pipeline类来进行流水线处理。流水线上除最后一个工作以外，其他都要执行fit_transform方法，且上一个工作输出作为下一个工作的输入。最后一个工作必须实现fit方法，输入为上一个工作的输出;但是不限定一定有transform方法，因为流水线的最后一个工作可能是训练!

根据本文提出的场景，结合并行处理，构建完整的流水线的代码如下：

如何使用sklearn进行数据挖掘第6张