Word2Vec 词向量
- one-hot p=[0,.,0,1,0,..0]用 Hash 表给每个词分配一个编号
- 维数灾难;词汇鸿沟”现象:任意两个词之间都是孤立的。
- deeplearning:Distributed Representation实数向量[0.792, −0.177, −0.107, 0.109, −0.542, …]维度以 50 维和 100 维比较常见。相似的词可以计算距离or Cos
Distributed representation 用来表示词,通常被称为“Word Representation”或“Word Embedding”,中文俗称“词向量”。
相似词的词向量距离相近,这就让基于词向量设计的一些模型自带平滑功能,让模型看起来非常的漂亮。
σ() softmax number -> 分布
- ??证明σ(-x) = 1-σ(x)
skip gram
一个词有两个向量,v 中心词向量 u 上下文向量
U(like)’V(deep) 两个词共同出现的概率(max)
分母是词汇表
binary logistic regression
J(θ):T窗口;j~P(w)随机抽取语料库的单词(min)
- 随机 unigram distribution U(w) 3/4
Stochastic gradients
- continuous bag of words(CBOW):通过周围词向量的和来预测中心词而不是单个邻接词(skip gram)
- Cross entropy 交叉熵(loss for softmax)
Context({})向模板提供数据
- 对co-occurrence矩阵降维: !!!SVD singular value decomposition
奇异值分解$A=UΣV^T$
- m*n的矩阵对角化->特征值、行列式、幂、指数函数
- A(mxn)->$AA^T$为m阶实对称$A^TA$n阶实对称
- $R^n->R^m x->Ax$变换
- $x-V^Tx$旋转
- $Σ$ 对前r个分量做伸缩
- ??交叉熵与Kullback-Leibler
- derivative导数,gradient梯度
- $timeit
- max-margin
- sigmoid函数求导:$ \frac{σ(y)}{dy}=σ(y)·(1-σ(y))$,接近0 梯度最大
语言模型
Dynamic Memory Network
Dynamic Memory Network
A Joint Many-Task Model:Growing a Neural Network for Multiple NLP Tasks
统计学习方法
学习策略
- 感知机:
- $w·x+b=0$是平面
- 误分点到平面距离$(w·x_i+b)$,乘错误点的输出$·y_i$ 正确的点 输出和平面函数是一样的。
- 损失函数:所有误分点距离取正
- min损失函数,对w,b求导;梯度下降 w+学习率(0,1]·对w求导;同理b。
- 损失函数3种:
- 结构风险函数:
- 正则化