如何让机器拥有人类的智慧?| 论文访谈间 #09

  • 时间:
  • 浏览:1
  • 来源:uu快3和值_uu快3app_计划师

来源:paperweekly

随后在张嘉成等人的工作中,另一个人将公式 (2) 中的约束集合替换为对数线性模型表示的先验分布,如公式 (3),(4) 所示。公式 (4) 中的 ϕ(x,y) 代表“价值形式函数”,对于不同句对 (x, y),先求出其价值形式值并乘以权重参数 γ,再经过 softmax 得到先验分布 Q(y|x),该分布即为原最好的办法中的 q(y)。经过许多改进,使得模型可需要直接利用基于导数的优化最好的办法训练,而不需使用 EM 算法进行求解。一起,价值形式函数 ϕ(x,y) 可需要有不同的定义,随后增大了模型的通用性和可扩展性。

作者表示该工作的创新点在于利用后验正则化思想,将离散的先验知识融入 NMT 框架中 。一起,改进了原后验正则化最好的办法,使其可需要直接基于导数优化,也能利用上不同的先验知识。对于该工作尚存在的过低,作者认为权重参数意味 具有先验知识重要性的物理意义,应该存在比训练得到更优的获取方案。

原文链接

另一个人常常将“人类的聪慧”称为“先验知识(prior knowledge)”。怎么才能 才能 将“先验知识”融合到机器学习模型中?该工作沿用了 Kuzman Ganchev 等人在 2010 年提出的“后验正则化(Posterior Regularization, PR)”最好的办法。该最好的办法可需要表示为公式 (1),(2)。其中公式 (2) 代表先验知识的约束;公式 (1) 表示为使得模型求出的后验分布 P(y|x) 和先验分布 q(y) 尽意味 地接近,将两者的 KL 距离作为模型目标函数的正则项。随后许多最好的办法难以直接应用到 NMT 领域,意味 有两点:1)对于不同的先验知识,不难 给出一有有一个 固定的 b 作为边界值;2)训练目标是一有有一个 max-min 问题,需要通过 EM 算法求解,难以通过基于导数的优化最好的办法训练。

在神经机器翻译(Neural Machine Translation, NMT)中,意味 机器不具另一个人类的聪慧,随后常常会犯许多低级的错误。类似 ,在中-英翻译中,原中文的话含晒 10 个词,而机器却有时翻译出一有有一个 含晒 400 个词的的话意味 是只含晒 2 个词的的话。 不管内容怎么才能 才能 ,在人类看来曾经的翻译很显然是不对的。这麼怎么才能 才能 能让机器拥另一个人类的聪慧,从而处里许多低级的错误呢?近日,另一个人有幸采访到了清华大学的张嘉成,介绍他发表在 ACL2017 上的工作 - Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization。 

1. 双语词典价值形式:人的先验知识含晒 晒 词和词的对应关系,类似 ,爱-love。随后,对于双语词典 D 中的任意一有有一个 词对 <x, y>,该价值形式值定义为公式 (5)。含义为,意味 该词对出先在翻译句对中,则记 1。也只是对于一有有一个 翻译句对,该价值形式表示“原句和翻译句中出先的词对的数量”。目的是鼓励按照词典进行翻译。

2. 短语表价值形式:同样,人还知道词组和词组的对应关系,类似 :纽约- New York。随后许多价值形式的定义和双语词典价值形式类似 ,如公式(6)所示。对于内部人员短语表中的任意短语对<x ̃, y ̃>, 意味 出先在翻译句对中,则记1。也只是对于一有有一个 翻译句对,该价值形式表示“原句和翻译句中出先的短语对的数量”。目的是鼓励按照短语表进行翻译。

文章中使用的数据集是 1.25M 的中英句对,实验显示该模型能有效地增强翻译效果,可需要提升 2+ 的 BLEU 值,如下图所示。

最后,意味 在训练过程中不意味 穷尽所有意味 的翻译,随后采用了近似的最好的办法,采样一每项意味 的翻译进行 KL 距离的估计,如公式 (9) 所示。在解码时,采用“重排序”的最好的办法,即先使用 NMT 得到 k 个候选翻译,随后使用价值形式对其进行重新打分,确定得分最高的作为最终翻译结果。

3. 覆盖度惩罚价值形式:人的先验知识认为原句中的词都在提供信息量,都应该参与翻译。文章沿用了 Yonghui Wu 等人在提出的覆盖度惩罚的定义,如公式 (7) 所示。其中 α_ij 是 NMT 注意力机制中第 j 个目标词对第 i 个源端词的注意力,随后在很少得到注意的源端词处惩罚较大。目的是惩罚源语言中这麼被充分翻译的词。

4. 长度比例价值形式:类似 ,人知道一般情形下英文句长度约为对应中文句的 1.2 倍。随后文章定义了公式 (8) 所示的长度比例价值形式,目的是鼓励翻译长度落在合理的范围内。

为引入不同的先验知识,文章中采用了 4 类价值形式: