EM算法

EM算法,即最大期望算法(Expectation-maximization algorithm),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型 依赖于无法观测的隐性变量

Mehr lesen

降维算法一览

在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为 “ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关,这也就意味着有的特征是冗余存在的。基于这些问题,降维思想就出现了。
降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。通过降维,可以方便数据可视化+数据分析+数据压缩+数据提取等。

Mehr lesen

xgboost&lightgbm调参指南

本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见集成学习,以下内容主要来自xgboostLightGBM的官方文档。

Mehr lesen

集成学习

集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。
目前主流方法有三种:
1.Boosting方法:包括Adaboost,GBDT, XGBoost等
2.Bagging方法:典型的是Random Forest
3.Stacking算法

Mehr lesen

机器学习基础概念

记录一些常见的机器学习基础概念。

Mehr lesen

决策树模型

决策树的目标是从一组样本数据中,根据不同的特征和属性,建立一棵树形的分类结构。
决策树的学习本质上是从训练集中归纳出一组分类规则,得到与数据集矛盾较小的决策树,同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数,通常采用启发式方法,近似求解这一最优化问题。

Mehr lesen

支持向量机模型

支持向量机模型(SVM)是一个二分类模型,基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,其学习策略便是间隔最大化,最终化为一个凸二次规划问题的求解。
SVM可分为线性可分支持向量机、线性支持向量机和非线性支持向量机。

Mehr lesen

逻辑回归模型

逻辑回归模型是针对线性可分问题的一种易于实现而且性能优异的分类模型。
它假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降法来求解参数,来达到将数据二分类的目的。

Mehr lesen

最大熵模型

最大熵模型是指在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型。

Mehr lesen

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Mehr lesen