CS224

deeplearning：Distributed Representation实数向量[0.792, −0.177, −0.107, 0.109, −0.542, …]维度以 50 维和 100 维比较常见。相似的词可以计算距离or Cos

Distributed representation 用来表示词，通常被称为“Word Representation”或“Word Embedding”，中文俗称“词向量”。
相似词的词向量距离相近，这就让基于词向量设计的一些模型自带平滑功能，让模型看起来非常的漂亮。
σ() softmax number -> 分布

一个词有两个向量，v 中心词向量 u 上下文向量
U(like)’V(deep) 两个词共同出现的概率（max)
分母是词汇表

Context({})向模板提供数据

m*n的矩阵对角化->特征值、行列式、幂、指数函数
- n阶矩阵相似于对角阵 <=>有n个线性无关的特征向量
  - 实对称正交相似于对角阵
  - $Q^TAQ=Λ=diag(λ1…λn)$（特征值）
  - 正交矩阵$Q=(v_1…v_n)$：$Av_i=λ_iv_i$ $Q^TQ=E$
  - $AV = UΣ$->V和U展开->Σ展开->r=rank(A)->$Av_i=σ_iu_i(i∈（1,r));Av_j=0$->两边转置->$A^TU=VΣ^T$->$A^Tu_i=σ_iv_i$
  - $A^TAv_i = σ_i^2v_i$(特，特向)
  - $AA^Tu_i = σ_i^2u_i$
    原理
A(mxn)->$AA^T$为m阶实对称$A^TA$n阶实对称
1. 特征值非负证明：$x^TA^TAx = λx^Tx$->$||Ax||^2(>=0)=λ||x||^2(>0)$
2. $A^TA$与$AA^T$非零特征集合相同证明:$r(AA^T)=r(A^T),r(A^TA)=r(A)$-> $r(AA^T)=r(A^TA)=r(A)=R$
  几何意义：旋转、伸缩、旋转
$R^n->R^m x->Ax$变换
$x-V^Tx$旋转
$Σ$ 对前r个分量做伸缩