机器理解语言

机器是如何理解自然语言的 ch1

  • 机器如何理解自然语言的

    1. 词性

      句子压缩
      中文分词

    2. 句子成分
      主谓宾
    3. 概率统计
      齐夫定律:词频 ∝ 1/ranks

      齐夫定律(英语:Zipf’s law,IPA英语发音:/ˈzɪf/)是由哈佛大学语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言语料库里,一个单词出现的频率与它在频率表里的排名成反比。

      香农:信息论

  • 概率论

    以下内容,来自维基百科。

    概率论(英语:Probability theory)是集中研究概率及随机现象的数学分支,是研究随机性或不确定性等现象的数学。概率论主要研究对象为随机事件随机变量以及随机过程。对于随机事件是不可能准确预测其结果的[1],然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等,会呈现出一定的、可以被用于研究及预测的规律[2],两个用来描述这些规律的最具代表性的数学结论分别是大数定律中心极限定理

    基本原理

    联合概率:P(A,B) = P(B,A)
    条件概率:P(A|B=1).公式:P(A|B)=P(A,B)/P(B)
    

    一事件A在一事件B确定发生后会发生的概率称为B给之A条件概率;其数值为P(B\A)\P(B)。若B给之A的条件概率和A的概率相同时,则称AB为独立事件。且AB的此一关系为对称的,这可以由一同价叙述:“当AB为独立事件时,P(A\B)=P(A)P(B)。”中看出。
    概率论中的两个重要概念为随机变数和随机变数的概率分布两种。

  • 概率语言模型

    计算句子的概率:P(S)=P(w1,w2,w3,…,wn)

    用处:句子错误检查

    统计:数据太稀疏

    P(w1w2)=P(w2|w1)*P(w1) 公式拆解,并没有影响样本空间的大小
    粗糙的假设:P(w2|w2)≈P(w2)