落花盈香: n-gram算法

2017年7月4日星期二

n-gram算法

我的简单理解：
依赖于隐马尔科夫模型进行大规模语言识别的一种模型。
One question: 可以用来做什么
Two:详细过程

通常计算一句话的概率：如（w1,w2,w3,w4,w5,...,wn）为：
p(w1,w2,w3,...,wn)=p(w1)*p(w2|w1)*p(w3|w1,w2)*...*p(wn|w1,w2,...,w n-1)

但是在n-gram中，假设一个单词只跟前n即后n字词相关

即若为1-gram的话，
p(w1,w2,w3,...,wn)=p(w1)*p(w2|w1)*p(w3|w2)*...*p(wn|w n-1)

若为2-gram的话，
p(w1,w2,w3,...,wn)=p(w1)*p(w2|w1)*p(w3|w2，w1)*...*p(wn|w n-1,w n-2)

以此类推

没有评论:

发表评论

订阅：博文评论 (Atom)