理论基础
什么是语言模型
一段自然语言文本可以看作是一个给定一个长度为T T T 的词的离散时间序列w 1 , w 2 , … , w T w_1, w_2, \ldots, w_T w 1 , w 2 , … , w T ,这就是语言模型.语言模型的目标就是评估该序列是否合理,即计算该序列的概率:
P ( w 1 , w 2 , … , w T ) . P(w_1, w_2, \ldots, w_T).
P ( w 1 , w 2 , … , w T ) .
数学表示 - Chain Rule
假设序列w 1 , w 2 , … , w T w_1, w_2, \ldots, w_T w 1 , w 2 , … , w T 中的每个词是依次生成的,则有:
P ( w 1 , w 2 , … , w T ) = ∏ t = 1 T P ( w t ∣ w 1 , … , w t − 1 ) = P ( w 1 ) ⋅ P ( w 2 ∣ w 1 ) ⋅ P ( w 3 ∣ w 1 2 ) ⋯ P ( w T ∣ w 1 T − 1 ) \begin{aligned}
P(w_1, w_2, \ldots, w_T)
&= \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1})\\
&= P(w_1)·P(w_2 \mid w_1)·P(w_3 \mid w_{1}^{2}) \cdots P(w_T \mid w_{1}^{T-1})
\end{aligned}
P ( w 1 , w 2 , … , w T ) = t = 1 ∏ T P ( w t ∣ w 1 , … , w t − 1 ) = P ( w 1 ) ⋅ P ( w 2 ∣ w 1 ) ⋅ P ( w 3 ∣ w 1 2 ) ⋯ P ( w T ∣ w 1 T − 1 )
其中,w 1 k w_{1}^{k} w 1 k 表示从第1 1 1 个到第k k k 个词构成的词串。
语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。假设训练数据集为一个大型文本语料库,根据大数定理,词的概率可以通过该词在训练数据集中的相对词频来计算,这样,w k w_k w k 的概率可以计算为:
p ( w k ∣ w 1 k − 1 ) = p ( w 1 k ) p ( w 1 k − 1 ) ≈ c o u n t ( w 1 k ) c o u n t ( w 1 k − 1 ) p(w_{k} \mid w_{1}^{k-1})= \frac{p(w_{1}^{k})}{p(w_{1}^{k-1})}\approx \frac{count(w_{1}^{k})}{count(w_{1}^{k-1})}
p ( w k ∣ w 1 k − 1 ) = p ( w 1 k − 1 ) p ( w 1 k ) ≈ c o u n t ( w 1 k − 1 ) c o u n t ( w 1 k )
其中c o u n t ( w 1 k − 1 ) count(w_{1}^{k-1}) c o u n t ( w 1 k − 1 ) 表示词串w 1 k w_{1}^{k} w 1 k 在语料中出现的次数。
可见,随着序列长度增加,计算和存储多个词共同出现的概率的复杂度会呈指数级增加。解决这一问题,需要引入马尔可夫假设。
马尔可夫假设与N N N -Gram
马尔科夫假设是指一个词的出现只与前面n n n 个词相关,这样一来,上式可以改写为:
P ( w k ∣ w 1 k − 1 ) ≈ P ( w k ∣ w k − n + 1 k − 1 ) ≈ c o u n t ( w 1 k ) c o u n t ( w k − n + 1 k − 1 ) P(w_{k}\mid w_{1}^{k-1}) \approx P(w_{k}\mid w_{k-n+1}^{k-1}) \approx \frac{count(w_{1}^{k})}{count(w_{k-n+1}^{k-1})}
P ( w k ∣ w 1 k − 1 ) ≈ P ( w k ∣ w k − n + 1 k − 1 ) ≈ c o u n t ( w k − n + 1 k − 1 ) c o u n t ( w 1 k )
以上也叫N N N 元语法(N N N -Gram),它是基于n − 1 n-1 n − 1 阶马尔可夫链的概率语言模型。
当n n n 分别为1 1 1 、2 2 2 和3 3 3 时,我们将其分别称作一元语法(unigram)、二元语法(bigram)和三元语法(trigram)。例如,长度为4 4 4 的序列w 1 , w 2 , w 3 , w 4 w_1, w_2, w_3, w_4 w 1 , w 2 , w 3 , w 4 在一元语法、二元语法和三元语法中的概率分别为
P ( w 1 , w 2 , w 3 , w 4 ) = P ( w 1 ) P ( w 2 ) P ( w 3 ) P ( w 4 ) , P ( w 1 , w 2 , w 3 , w 4 ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 2 ) P ( w 4 ∣ w 3 ) , P ( w 1 , w 2 , w 3 , w 4 ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) P ( w 4 ∣ w 2 , w 3 ) . \begin{aligned}
P(w_1, w_2, w_3, w_4) &= P(w_1) P(w_2) P(w_3) P(w_4) ,\\
P(w_1, w_2, w_3, w_4) &= P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_2) P(w_4 \mid w_3) ,\\
P(w_1, w_2, w_3, w_4) &= P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_2, w_3) .
\end{aligned}
P ( w 1 , w 2 , w 3 , w 4 ) P ( w 1 , w 2 , w 3 , w 4 ) P ( w 1 , w 2 , w 3 , w 4 ) = P ( w 1 ) P ( w 2 ) P ( w 3 ) P ( w 4 ) , = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 2 ) P ( w 4 ∣ w 3 ) , = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) P ( w 4 ∣ w 2 , w 3 ) .
当n n n 较小时,N N N -Gram往往并不准确。例如,在一元语法中,由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而,当n n n 较大时,n n n 元语法需要计算并存储大量的词频和多词相邻频率。
N N N -Gram模型的实践
对于参数n n n 的选取,要考虑计算复杂度 和模型效果 两方面
计算复杂度:由于参数的个数是N + N 2 + ⋯ + N n N + N^{2} + \cdots + N^{n} N + N 2 + ⋯ + N n 个,很明显,n n n 越大,计算复杂度将呈指数级增大;
模型效果:理论上n n n 是越大越好,但是n n n 越大的时候,模型效果提升幅度就会越小。例如n n n 从3到4的效果提升可能就远比不上从2 2 2 到3 3 3 的效果提升。
因此,实际工作中,最多的情况是取n = 3 n=3 n = 3 。
此外,还需要考虑到数据稀疏 的问题:在文本中经常出现的现象是,有些词出现的频率很低,但是很重要,有些词(如“的”、“和”)出现次数很多,但不重要。假如重要的词串在统计时计数为0 0 0 ,即c o u n t ( w k − n + 1 k − 1 ) = 0 count(w_{k-n+1}^{k-1})=0 c o u n t ( w k − n + 1 k − 1 ) = 0 ,我们并不能认为P ( w k ∣ w 1 k − 1 ) = 0 P(w_{k}\mid w_{1}^{k-1})=0 P ( w k ∣ w 1 k − 1 ) = 0 ,否则会导致连乘的时候,整个词串的概率都为0 0 0 ,这时需要考虑使用『平滑化 』。
概率模型函数化
通常构造的目标函数是『最大似然函数 』
∏ w ∈ C p ( w ∣ C o n t e x t ( w ) ) \prod_{w\in C} p(w|Context(w))
w ∈ C ∏ p ( w ∣ C o n t e x t ( w ) )
其中
C C C 是语料库(Corpus)
C o n t e x t ( w ) Context(w) C o n t e x t ( w ) 是词w w w 的上下文(Context),对于N-gram来说,C o n t e x t ( w i ) = w i − n + 1 i − 1 Context(w_i)=w_{i-n+1}^{i-1} C o n t e x t ( w i ) = w i − n + 1 i − 1
实际上由于连乘可能导致概率极小,所以经常采用的是『最大对数似然 』,即目标函数为:
L = ∑ w ∈ C l o g p ( w ∣ C o n t e x t ( w ) ) 将 条 件 概 率 p ( w ∣ C o n t e x t ( w ) ) 视 为 关 于 w 和 C o n t e x t ( w ) 的 函 数 = ∑ w ∈ C l o g F ( w , C o n t e x t ( w ) , θ ) \mathcal{L}=\sum_{w\in C}log \, p(w|Context(w)) \\ 将条件概率p(w|Context(w))视为关于w和Context(w)的函数 \\ = \sum_{w\in C}log \, F(w,Context(w),\theta)
L = w ∈ C ∑ l o g p ( w ∣ C o n t e x t ( w ) ) 将 条 件 概 率 p ( w ∣ C o n t e x t ( w ) ) 视 为 关 于 w 和 C o n t e x t ( w ) 的 函 数 = w ∈ C ∑ l o g F ( w , C o n t e x t ( w ) , θ )
其中是θ \theta θ 待定参数集。因此一旦对上式进行优化得到最优参数集θ ∗ \theta^* θ ∗ 之后,F F F 也就唯一确定。如果选取合适的方法来构造函数F F F ,可以使得θ \theta θ 中参数的个数远小于N-gram模型中参数的个数。
动手实践 - 预处理语言模型数据集
数据集(点击查看下载) 是周杰伦从第一张专辑《Jay》到第十张专辑《跨时代》中的歌词,这里将其转换成字符级循环神经网络所需要的输入格式,之后将用于循环神经网络来训练一个语言模型。
读取数据与字符索引
deeplearning_02.py view raw 1 2 3 4 5 6 7 8 9 10 11 12 def load_data_jay_lyrics () : with open('../jaychou_lyrics.txt' ) as f: corpus_chars = f.read() corpus_chars = corpus_chars.replace('\n' , ' ' ).replace('\r' , ' ' ) corpus_chars = corpus_chars[0 :10000 ] idx_to_char = list(set(corpus_chars)) char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)]) vocab_size = len(char_to_idx) corpus_indices = [char_to_idx[char] for char in corpus_chars] return corpus_indices, char_to_idx, idx_to_char, vocab_size
时序数据的采样
在训练时需要每次随机读取小批量样本和标签。注意,时序数据的一个样本通常包含连续的字符,而样本的标签序列为这些字符分别在训练集中的下一个字符。
以如下序列为例,假设时间步数为5,有以下可能的样本和标签:
想要有直升机,想要和你飞到宇宙去
X X X :“想要有直升”,Y Y Y :“要有直升机”
X X X :“要有直升机”,Y Y Y :“有直升机,”
X X X :“有直升机,”,Y Y Y :“直升机,想”
…
X X X :“要和你飞到”,Y Y Y :“和你飞到宇”
X X X :“和你飞到宇”,Y Y Y :“你飞到宇宙”
X X X :“你飞到宇宙”,Y Y Y :“飞到宇宙去”
可见,如果序列的长度为T T T ,时间步数为n n n ,那么一共有T − n T-n T − n 个合法的样本。但是这些样本有大量的重合,通常采用随机采样或相邻采样来对时序数据进行采样。
随机采样
下面的代码每次从数据里随机采样一个小批量。其中批量大小batch_size
指每个小批量的样本数,num_steps
为每个样本所包含的时间步数。 在随机采样中,每个样本是原始序列上任意截取的一段序列。相邻的两个随机小批量在原始序列上的位置不一定相毗邻。因此,无法用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态。在训练模型时,每次随机采样前都需要重新初始化隐藏状态。
deeplearning_02.py view raw 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 import torchimport randomdef data_iter_random (corpus_indices, batch_size, num_steps, device=None) : num_examples = (len(corpus_indices) - 1 ) // num_steps example_indices = [i * num_steps for i in range(num_examples)] random.shuffle(example_indices) def _data (i) : return corpus_indices[i: i + num_steps] if device is None : device = torch.device('cuda' if torch.cuda.is_available() else 'cpu' ) for i in range(0 , num_examples, batch_size): batch_indices = example_indices[i: i + batch_size] X = [_data(j) for j in batch_indices] Y = [_data(j + 1 ) for j in batch_indices] yield torch.tensor(X, device=device), torch.tensor(Y, device=device)
相邻采样
在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻。
deeplearning_02.py view raw 1 2 3 4 5 6 7 8 9 10 11 12 13 def data_iter_consecutive (corpus_indices, batch_size, num_steps, device=None) : if device is None : device = torch.device('cuda' if torch.cuda.is_available() else 'cpu' ) corpus_len = len(corpus_indices) // batch_size * batch_size corpus_indices = corpus_indices[: corpus_len] indices = torch.tensor(corpus_indices, device=device) indices = indices.view(batch_size, -1 ) batch_num = (indices.shape[1 ] - 1 ) // num_steps for i in range(batch_num): i = i * num_steps X = indices[:, i: i + num_steps] Y = indices[:, i + 1 : i + num_steps + 1 ] yield X, Y
采样测试
这里构造一个数字序列,设置batch_size
=2
, num_steps
=6
来测试上述采样代码
deeplearning_02.py view raw 1 2 3 4 5 test_seq = list(range(100 )) for X, Y in data_iter_random(test_seq, batch_size=2 , num_steps=6 ): print('随机采样测试:' , '\nX: ' , X, '\nY:' , Y, '\n' ) for X, Y in data_iter_consecutive(test_seq, batch_size=2 , num_steps=6 ): print('相邻采样测试:' , '\nX: ' , X, '\nY:' , Y, '\n' )
随机采样测试:
X: tensor([[78, 79, 80, 81, 82, 83], [72, 73, 74, 75, 76, 77]])
Y: tensor([[79, 80, 81, 82, 83, 84], [73, 74, 75, 76, 77, 78]])
X: tensor([[18, 19, 20, 21, 22, 23], [36, 37, 38, 39, 40, 41]])
Y: tensor([[19, 20, 21, 22, 23, 24], [37, 38, 39, 40, 41, 42]])
X: tensor([[ 0, 1, 2, 3, 4, 5], [84, 85, 86, 87, 88, 89]])
Y: tensor([[ 1, 2, 3, 4, 5, 6], [85, 86, 87, 88, 89, 90]])
…
X: tensor([[48, 49, 50, 51, 52, 53], [42, 43, 44, 45, 46, 47]])
Y: tensor([[49, 50, 51, 52, 53, 54], [43, 44, 45, 46, 47, 48]])
相邻采样测试:
X: tensor([[ 0, 1, 2, 3, 4, 5], [50, 51, 52, 53, 54, 55]])
Y: tensor([[ 1, 2, 3, 4, 5, 6], [51, 52, 53, 54, 55, 56]])
X: tensor([[ 6, 7, 8, 9, 10, 11], [56, 57, 58, 59, 60, 61]])
Y: tensor([[ 7, 8, 9, 10, 11, 12], [57, 58, 59, 60, 61, 62]])
…
X: tensor([[42, 43, 44, 45, 46, 47], [92, 93, 94, 95, 96, 97]])
Y: tensor([[43, 44, 45, 46, 47, 48], [93, 94, 95, 96, 97, 98]])
总结
图中每个框的宽度代表num_steps
,每一个小框(颜色相同)代表一个样本,batch_size
个样本组成一个batch。