从Seq2seq到Attention模型到Self Attention

Seq2seq

Seq2seq全名是Sequence-to-sequence,也就是从序列到序列的过程,是近年当红的模型之一。Seq2seq被广泛应用在机器翻译、聊天机器人甚至是图像生成文字等情境。
seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。

Mehr lesen

RNN基础

RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
RNN的应用领域有很多, 可以说只要考虑时间先后顺序的问题都可以使用RNN来解决.这里主要说一下几个常见的应用领域:

  • 自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理
  • 机器翻译, 机器写小说
  • 语音识别
  • 图像描述生成
  • 文本相似度计算
  • 音乐推荐、网易考拉商品推荐、Youtube视频推荐等新的应用领域.

Mehr lesen

深度排序模型概述(二)PNN/NFM/AFM

在CTR预估中,为了解决稀疏特征的问题,学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系,无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系,因此学者们通过Deep Network来建模更高阶的特征之间的关系。
因此,FM和深度网络DNN的结合也就成为了CTR预估问题中主流的方法。有关FM和DNN的结合有两种主流的方法,并行结构和串行结构。两种结构的理解以及实现如下表所示:

Mehr lesen

深度排序模型概述(一)Wide&Deep/xDeepFM

本文记录几个在广告和推荐里面rank阶段常用的模型。
广告领域机器学习问题的输入其实很大程度了影响了模型的选择,因为输入一般维度非常高,稀疏,同时包含连续性特征和离散型特征。模型即使到现在DeepFM类的方法,其实也都很简单。模型的发展主要体现于对特征的充分挖掘上,比如利用低阶和高阶特征、尝试自动学习交叉特征而非手动、尝试更精准地实现高阶特征(bounded-degree)。

Mehr lesen

FM系列

在计算广告中,CTR是非常重要的一环。对于特征组合来说,业界通用的做法主要有两大类:FM系列和Tree系列。这里我们来介绍一下FM系列。
在传统的线性模型中,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换,但是在特征高度稀疏的情况下,并不能很好的进行学习。现在有很多分解模型可以学习到特征之间的交互隐藏关系,基本上每个模型都只适用于特定的输入和场景。推荐系统是一个高度稀疏的数据场景,由此产生了FM系列算法。
本文主要涉及四种FM系列算法:FM,FFM,DeepFM,DeepFFM

Mehr lesen

推荐系统概述(二)

如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动的问题。
冷启动问题(cold start)主要分3类。
用户冷启动
物品冷启动
系统冷启动
1)用户冷启动可以利用用户注册信息,也可以选择合适的物品启动用户的兴趣(基于NLP方向的推荐)
2)物品冷启动可以利用物品的内容信息
3)系统冷启动可以发挥专家的作用
本文重点介绍文本处理(基于用户冷启动的NLP推荐算法)。

Mehr lesen

推荐系统概述(一)

推荐系统是一种信息过滤系统,用于预测用户对物品的评分或偏好。解决的是信息过载和长尾问题(长尾理论)。它的本质是通过一定的方式将用户和物品联系起来。
推荐系统在为用户推荐物品时通常有两种方式:
1.评分预测
2.TopN推荐

主流的推荐系统算法可以分为协同过滤推荐(Collaborative Filtering Recommendation)、基于内容推荐(Content-basedRecommendation)和混合推荐等。

Mehr lesen

概率图模型

概率图模型(PGM)是一种对现实情况进行描述的模型。其核心是条件概率,本质上是利用先验知识,确立一个随机变量之间的关联约束关系,最终达成方便求取条件概率的目的。
概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边,节点对应于随机变量,边对应于随机变量的依赖或相关关系。
概率图模型分为贝叶斯网络和马尔科夫网络两大类。贝叶斯网络可以用一个有向图表示,马尔科夫网络可以用一个无向图表示。更详细的说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔科夫模型、条件随机场、主题模型等。

Mehr lesen

百面机器学习

百面机器学习是一本记录面试问题的书,一方面,学习里面的问题和解答有助于我们更好的掌握机器学习,另一方面,以目录为索引,可以扩展我们的知识面,掌握应届生从事机器学习必备的技能。下面以章节为单位,记录书本的大纲内容。

Mehr lesen

聚类算法一览

聚类是机器学习中一种重要的 无监督算法,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。

Mehr lesen