2017年7月4日星期二

n-gram算法



我的简单理解:
  依赖于隐马尔科夫模型进行大规模语言识别的一种模型。
  One question: 可以用来做什么
  Two:详细过程

通常计算一句话的概率:如(w1,w2,w3,w4,w5,...,wn)为:
p(w1,w2,w3,...,wn)=p(w1)*p(w2|w1)*p(w3|w1,w2)*...*p(wn|w1,w2,...,w n-1)

但是在n-gram中, 假设一个单词只跟前n即后n字词相关

即若为1-gram的话,
p(w1,w2,w3,...,wn)=p(w1)*p(w2|w1)*p(w3|w2)*...*p(wn|w n-1)

若为2-gram的话,
p(w1,w2,w3,...,wn)=p(w1)*p(w2|w1)*p(w3|w2,w1)*...*p(wn|w n-1,w n-2)

以此类推

没有评论:

发表评论

leetcode 17

17.   Letter Combinations of a Phone Number Medium Given a string containing digits from   2-9   inclusive, return all possible l...