sklearn中文文档,sklearn中文教程

作者：admin 发布时间：2024-02-18 14:00 分类：资讯浏览：102 评论：0

导读：假设检验:使用p值来接受或拒绝你的假设1、零假设是在假设为真的前提下，检验假设是否可能被拒绝。类似无罪的概念。我们假定无罪，直到我们有足够的证据证明嫌疑人有罪。简单地说，我们可以...

假设检验:使用p值来接受或拒绝你的假设

1、零假设是在假设为真的前提下，检验假设是否可能被拒绝。类似无罪的概念。我们假定无罪，直到我们有足够的证据证明嫌疑人有罪。简单地说，我们可以把零假设理解为已经被接受的陈述，例如，天空是蓝色的。我们已经接受这个声明。

2、假设检验就是先对要研究的问题，提出一个假设，通过统计量的计算得出P值，来接受或者拒绝这个假设，从而得出结论。有备择假设和原假设，备择假设一般为实验想要证明的方向，一般多为小概率发生的方向。原假设是它的对立面。

3、拒绝H0，接受H1，因为认为在整体中抽样，抽得这样一个样本的几率p，是小概率事件。小概率事件在一次抽样过程中不会发生。第一类错误，也就是拒绝正确的原假设。

4、p值是统计量出现更坏结果的可能。p值越小说明这种情况更不支持h0，所以统计量p值越小越拒绝原假设。首先假设检验的思想是概率反证法思想。

5、例如T统计量的P值，是指参数接近0的概率（因为原假设是参数为0），我们一般用5%的显著性水平，如果P值小于0.05，即参数等于0的概率小于0.05，我们就可以认为，拒绝原假设了，即通过了显著性检验。

步骤3中，我们用来找出n个新特征向量，让数据能够被压缩到少数特征上并且中信息量不损失太多的技术就是矩阵分解，PCA与SVD是两种不同的降维算法，但是都遵从上面的过程来降维，只是两种算法的矩阵分解的方法不同，信息量的衡量指标不同。

解决方法：希望投影后的投影值尽量地分散。满足的条件是：比较大，所以使用作为基重要的参数是 n_components ，降维之后需要保留的特征数量，取值在 [0， min（X.shape）] 。

这表明其是内置在LDA分类器中，通过线性投影在 K - 1 维度空间上的降维操作。

首先使用Iris dataset可视化说明t-SNE与PCA的线性与非线性可视化：如下图所示：类别只有三类的情况下，我们看到t-SNE和PCA都可以较好的分类并进行可视化。

不支持导入图片这类功能。因此，如果需要导入自己的图片，需要使用其他的库来实现，如Pillow、OpenCV等。sklearn库的共分为6大部分，分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。

Orange是一种带有图形用户界面的库，在分类、聚集和特征选择方法方面，相当齐全，还有交叉验证的方法。PyMVPA PyMVPA是一种统计学习库，包含交叉验证和诊断工具，但没有Scikit-learn全面。

DBSCAN算法的主要思想是，认为密度稠密的区域是一个聚类，各个聚类是被密度稀疏的区域划分开来的。也就是说，密度稀疏的区域构成了各个聚类之间的划分界限。

代表：kmeans算法代表：CURE算法代表：STING算法代表：DBSCAN算法代表：SOM算法代表：谱聚类算法一个好的聚类方法可以产生高品质簇，是的簇内相似度高，簇间相似度低。

学习内容：无监督聚类算法K-Means k-means：模型原理、收敛过程、超参数的选择聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。

聚类效果的好坏依赖于两个因素：衡量距离的方法（distance measurement）聚类算法（algorithm）聚类分析常见算法 K-均值聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。

常见的 K-Means 便是基于簇中心来实现聚类；混合高斯聚类则是基于簇分布来实现聚类。

sklearn中文文档,sklearn中文教程