从Seq2seq到Attention模型到Self Attention

2019-06-22

Seq2seq

Seq2seq全名是Sequence-to-sequence，也就是从序列到序列的过程，是近年当红的模型之一。Seq2seq被广泛应用在机器翻译、聊天机器人甚至是图像生成文字等情境。
seq2seq 是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。

RNN基础

2019-06-20

RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
RNN的应用领域有很多, 可以说只要考虑时间先后顺序的问题都可以使用RNN来解决.这里主要说一下几个常见的应用领域:

自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理
机器翻译, 机器写小说
语音识别
图像描述生成
文本相似度计算
音乐推荐、网易考拉商品推荐、Youtube视频推荐等新的应用领域.

深度排序模型概述（二）PNN/NFM/AFM

2019-06-01

在CTR预估中，为了解决稀疏特征的问题，学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系，无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系，因此学者们通过Deep Network来建模更高阶的特征之间的关系。
因此,FM和深度网络DNN的结合也就成为了CTR预估问题中主流的方法。有关FM和DNN的结合有两种主流的方法，并行结构和串行结构。两种结构的理解以及实现如下表所示：

深度排序模型概述（一）Wide&Deep/xDeepFM

2019-05-28

本文记录几个在广告和推荐里面rank阶段常用的模型。
广告领域机器学习问题的输入其实很大程度了影响了模型的选择，因为输入一般维度非常高，稀疏，同时包含连续性特征和离散型特征。模型即使到现在DeepFM类的方法，其实也都很简单。模型的发展主要体现于对特征的充分挖掘上，比如利用低阶和高阶特征、尝试自动学习交叉特征而非手动、尝试更精准地实现高阶特征(bounded-degree)。

FM系列

2019-05-27

在计算广告中，CTR是非常重要的一环。对于特征组合来说，业界通用的做法主要有两大类：FM系列和Tree系列。这里我们来介绍一下FM系列。
在传统的线性模型中，每个特征都是独立的，如果需要考虑特征与特征之间的相互作用，可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换，但是在特征高度稀疏的情况下，并不能很好的进行学习。现在有很多分解模型可以学习到特征之间的交互隐藏关系，基本上每个模型都只适用于特定的输入和场景。推荐系统是一个高度稀疏的数据场景，由此产生了FM系列算法。
本文主要涉及四种FM系列算法：FM，FFM，DeepFM,DeepFFM

概率图模型

2019-05-14

概率图模型（PGM）是一种对现实情况进行描述的模型。其核心是条件概率，本质上是利用先验知识，确立一个随机变量之间的关联约束关系，最终达成方便求取条件概率的目的。
概率图中的节点分为隐含节点和观测节点，边分为有向边和无向边，节点对应于随机变量，边对应于随机变量的依赖或相关关系。
概率图模型分为贝叶斯网络和马尔科夫网络两大类。贝叶斯网络可以用一个有向图表示，马尔科夫网络可以用一个无向图表示。更详细的说，概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔科夫模型、条件随机场、主题模型等。