coding...
GBDT算法 GBDT算法
前向分布算法AdaBoost 就是一种前向分布算法,可以认为Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。 加法模型: 对于加法模型,在给定训练数据及损失函数L(y
2019-03-03
随机森林算法 随机森林算法
集成学习集成学习通过构建并结合多个学习器来完成学习任务,通常获得比单一学习器更好的泛化性能,这针对弱学习器尤为明显 个体学习器个体学习器通常由一个现有的算法从训练数据产生,集成中若只包含同种类型的个体学习器,那么称之为同质集成,若包含
2019-03-01
PRML第二章笔记part2 PRML第二章笔记part2
指数族分布参数为 \(\eta\) 的变量为 \(x\) 的指数族分布的定义为: 这里 \(\eta\) 被称为概率分布的自然参数,\(g(\eta)\) 可以被看成系数,它确保概率分布的归一化。 接下来证明我们本章讨论过的概率分布的
2018-05-13
PRML第二章笔记part1 PRML第二章笔记part1
概率分布本章主要研究某些特殊的概率分布,它们是构成复杂模型的基石。 本章中假设数据点独立同分布,我们考虑离散随机变量的二项分布和多项式分布,以及连续随机变量的高斯分布,这些分布都是参数分布的典型例子。在给定数据集的条件下,我们想确定参数
2018-05-12
PRML第一章笔记 PRML第一章笔记
贝叶斯概率\(p(D \ | \ w)\) 由观测数据集 \(\mathcal{D}\) 来估计,称作似然函数,它表达了在不同的参数向量 \(w\) 下,观测数据出现的可能性的大小。 在贝叶斯观点和频率学家观点中,似然函数 \(p(D
2018-05-07
AdaBoost实现 AdaBoost实现
在分类问题中,boosting通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合来提高分类的性能 如何将弱学习算法提升成强学习算法,AdaBoost是个不错的算法,它通过改变训练数据的概率分布(权值分布),针对不同的训练
2018-04-29
SVM实现 SVM实现
软间隔最大化对于线性不可分的数据集,通常情况是会有一些outliers(离群点),将这些outliers去掉,剩下的大部分样本就是线性可分的了。实际上我们是引入松弛变量来达到这一效果 软间隔的支持向量在间隔边界上,或者在间隔边界与分离
2018-04-28
Logistic回归 Logistic回归
梯度上升法确定最佳回归系数梯度上升法用来求函数的最大值,而梯度下降法用来求函数的最小值,其实就是一个东西换了个说法而已 def loadDataSet(): dataMat = [] labelMat = [] wi
2018-04-27
决策树实现 决策树实现
决策树构造from math import log def createDataSet(): dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
2018-04-24
西瓜书笔记——第十四章 概率图模型 西瓜书笔记——第十四章 概率图模型
14.1 隐马尔科夫模型概率模型(probabilistic model)将学习任务归结于计算变量的概率分布,在概率模型中,利用已知变量推测未知变量的分布称为推断概率模型的学习,基于训练样本来估计变量分布的参数往往很困难,为了便于研究高
2018-03-22
西瓜书笔记——第十章 降维与度量学习 西瓜书笔记——第十章 降维与度量学习
10.1 k近邻学习k近邻(k-Nearest Neighbor,简称kNN)是一种常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来预测,它没有显示的训练过程,是懒惰学习
2018-03-21
西瓜书笔记——第九章 聚类 西瓜书笔记——第九章 聚类
9.1 聚类任务无监督学习目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster),通过这样的划分,每个簇可能对应于一些潜在的概念,这些概念对
2018-03-16
1 / 3