机器是如何理解自然语言的 ch1
机器如何理解自然语言的
概率论
以下内容,来自维基百科。
概率论(英语:Probability theory)是集中研究概率及随机现象的数学分支,是研究随机性或不确定性等现象的数学。概率论主要研究对象为随机事件、随机变量以及随机过程。对于随机事件是不可能准确预测其结果的[1],然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等,会呈现出一定的、可以被用于研究及预测的规律[2],两个用来描述这些规律的最具代表性的数学结论分别是大数定律和中心极限定理。
基本原理
联合概率:P(A,B) = P(B,A) 条件概率:P(A|B=1).公式:P(A|B)=P(A,B)/P(B)
一事件A在一事件B确定发生后会发生的概率称为B给之A的条件概率;其数值为P(B\A)\P(B)。若B给之A的条件概率和A的概率相同时,则称A和B为独立事件。且A和B的此一关系为对称的,这可以由一同价叙述:“当A和B为独立事件时,P(A\B)=P(A)P(B)。”中看出。
概率论中的两个重要概念为随机变数和随机变数的概率分布两种。
概率语言模型
计算句子的概率:P(S)=P(w1,w2,w3,…,wn)
用处:句子错误检查
统计:数据太稀疏
P(w1w2)=P(w2|w1)*P(w1) 公式拆解,并没有影响样本空间的大小
粗糙的假设:P(w2|w2)≈P(w2)