avatar

目录
基于无监督的事件抽取

理论基础

目前无监督事件抽取方法主要有两种理论基础:

  1. 分布假设(Distributional Hypothesis): 如果两个词的用法相似及出现在相同上下文中,那么这两个词就意思相近。相应的,在事件抽取中,如果候选事件触发词或者候选事件元素具有相似的语境,那么这些候选事件触发词倾向于触发相同类型的事件,相应的候选事件元素倾向于扮演相同的事件元素;
  2. 强化学习(Reinforcement Learning, RL): 假设实例和标签会产生不同程度的困难,并且预期收益和惩罚(Rewards)是不同的,根据实际真相(Expert)和抽取器(Agent)所做的标记之间的差异利用鉴别器来估计适当的报酬,这样模型就会自动学习到如何正确识别出事件。

技术方法和研究现状

聚类

基于特征选择

Nallapati[1] 提出使用余弦相似度、地点和人物特征的加权和来计算新闻间的语义相似性,然后将时间跨度纳入新闻相似度衰减的考量中,最后利用层次聚类进行事件的抽取。
Jia 等[2] 借鉴Single-Pass 聚类算法思想进行新闻事件探测,图2-1为其算法流程图,该方法首先统计分析文档中的词汇,然后根据词频筛选出文档特征,再由文档特征得到事件模板(即事件的关键词集),之后借鉴倒排文档频率(IDF)思想过滤事件关键词,从而更新事件模板,最后使用聚类的方式从事件模板中抽取事件,聚类过程中考虑了时间间隔因素来提高分类精度。

Stokes 等[3] 提出了一种基于文档多层表示的事件抽取方法,不仅利用WordNet 来构建文本词汇链从而对文档进行深层语义表示,还利用专有名词构建文档的句法表示,最后同时利用两种表示用聚类的方式对事件进行抽取。

基于概率模型

Li 等[4] 利用概率模型完成了新事件的识别和抽取,首先将事件(Event)定义为由人物、地点、关键字和时间构成的集合,然后分别使用单元语法模型(Unigram Model)和高斯模型对事件内容的三个特征(Person、Location、Keywords)和事件时间单独建模,整体模型框架如图 2-2所示。

之后通过hill-climbing算法找到文章数量随时间变化的分布函数的峰值点,即对应待抽取出的事件类别数,如图 2-3所示。最后使用最大似然估计来构建目标函数,并使用EM算法对上述参数进行优化迭代。但是该算法选取某类事件中的一篇文章来表示抽取出的事件。

基于信息检索

Yang 等[5] 提出将信息检索的方法应用到基于事件抽取的问答任务中,如图 2-4所示,首先使用Web搜索引擎检索出更多相关的事件元素,然后利用WordNet中的语义信息进行筛选,最后使用线性加权法和构建事件语义框架法分别得到两组扩展的元素集。

基于联合模型

值得关注的是Huang 等[6] 提出联合抽取事件和事件结构信息的方法,如图 2-5所示,首先该方法利用符号特征构建事件语义框架,同时利用分布式特征来表示候选事件触发词和事件元素的词汇级特征,然后使用自动递归编码,将有上述两者联合建模成基于张量的事件结构树,之后利用一个聚类模型同时抽取事件的触发词、事件元素和事件元素扮演的角色。最后,为了确定每个类别的含义,使用了FrameNet、PropBank等外部知识对类别命名。

基于图结构

比较有意思的是Kuzey 等[7] 将每个新闻文档看成一个节点,并通过新闻之间的相似度建立节点之间的边,形成图的结构,基于图对新闻文档进行聚类,每个类作为一个事件,同时得到事件之间的时序和层次关系(如图2-6所示)。

对抗式生成网络(GAN)

最近两年出现了使用GANs进行事件抽取建模,在PipeLine和Joint两种模式下都展露出很好的效果。
Zhang等[8] 用强化学习(RL)的方法对事件抽取任务建模,将事件抽取器看作RL中的Agent,并使用GAN作为RL框架中的Reward机制从而影响抽取器的决策(如图 2-7所示)。之后Zhang[9] 还将这类模型运用到联合事件抽取任务上,也取得不错的效果。

Wang等[10] 将GAN引入开放域事件抽取,使得模型效果获得了显著提升。该模型架构如图 2 8所示,首先从语料中采样从而获得文档表示,然后使用生成网络产生含有实体、地点、关键词和时间特征分布的假文档,接着将两类文档整合并使用鉴别网络从所有文档中鉴别出真文档,从而完成抽取。

隐狄利克雷分布(LDA)

NewsMiner[11] 通过LDA模型将新闻按照事件组织,并分析新闻和评论之间的联系,在对事件、话题以及实体之间的关系深入分析的基础上提供新闻多刻面搜索。随着相似事件的不断重复发生,事件知识可以通过增量学习得到积累完善。

深度信念网络(DBN)

Zhang等[12] 提出一种基于深度信念网络的事件识别模型。首先通过分词系统从CEC2.0中文语料中获得候选词并将它们分为五种类型(触发词、参与者、对象、时间和地点),然后选择六种识别特征(词性、依存语法、长度、位置、词与核心词的距离和触发词频度)并制定相应的特征表示规则来生成候选词的特征向量,最后通过深度信念网络抽取词的深层语义信息,并由BP神经网络识别事件。同时还提出了一种融合无监督和有监督两种学习方式的混合监督深度信念网络,提高了识别精度,并缩短了训练时间。图2-9为两种网络性能对比。

异常检测

该方法首先假设某个重大事件的发生会导致新闻媒体或社交网络上涌现出大量的相关报道或讨论;反之,关于某一主题的报道或讨论突然增多则暗示着某一重大事件的发生。一般是用统计的方法对文档整体的异常情况进行分析或对每个词频进行异常检测,该方法只能识别出新事件,不能识别其具体信息。

总结

  1. 无监督的方法在事件抽取方面,研究起步较晚,且发展相对缓慢。较多的学者采用相似度聚类的方法进行事件识别和抽取,工作大多聚焦在数据预处理、特征选取或聚类算法改进环节上;
  2. 无监督事件抽取方法可以发现新的事件,但其发现的新事件往往是相似模板的聚类,难以规则化,很难被用来构建知识库,需要将其同现有知识库的事件框架进行对齐,或者通过人工的方式来给每个聚类事件簇赋予语义信息;
  3. 事件抽取可以采用数据挖掘中的方法,类似的课题有新闻热点跟踪、主题探测和追踪(topic detection and t racking , TDT)等研究课题。

参考文献

[1] Ramesh Nallapati, Ao Feng, Fuchun Peng, and James Allan. Event threading within news topics. In Proceedings of the thirteenth Association for Computing Machinery international conference on Information and knowledge management, pages 446–453. Association for Computing Machinery, 2004.
[2] Jia Ziyan, He Qing, Zhang Haijun, Li Jiayou, and Shi Zhongzhi. A news event detection and tracking algorithm based on dynamic evolution model. Journal of Computer Research and Development, 41(7):1273–1280, 2004.
[3] Nicola Stokes and Joe Carthy. Combining semantic and syntactic document classifiers to improve first story detection. In Proceedings of the 24th annual international Association for Computing Machinery SIGIR conference on Research and development in information retrieval, pages 424–425. Association for Computing Machinery, 2001.
[4] Zhiwei Li, Bin Wang, Mingjing Li, and Wei-Ying Ma. A probabilistic model for retrospective news event detection. In Proceedings of the 28th annual international Association for Computing Machinery SIGIR conference on Research and development in information retrieval, pages 106–113. Association for Computing Machinery, 2005.
[5] Hui Yang, Tat-Seng Chua, Shuguang Wang, and Chun-Keat Koh. Structured use of external knowledge for event-based open domain question answering. In Proceedings of the 26th annual international Association for Computing Machinery SIGIR conference on Research and development in informaion retrieval, pages 33–40. Association for Computing Machinery, 2003.
[6] Lifu Huang, Xiaocheng Feng, Heng Ji, and Jiawei Han. Liberal event extraction and event schema induction. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2016.
[7] E. Kuzey, J. Vreeken, G. Weikum, a fresh look on knowledge bases: Distilling named events from news, In Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, 2014, pp. 1689–1698.
[8] Tongtao Zhang and Heng Ji. 2018. Event extraction with generative adversarial imitation learning. arXiv preprint arXiv:1804.07881.
[9] Tongtao Zhang, Heng Ji, and Avirup Sil. Joint Entity and Event Extraction with Generative Adversarial Imitation Learning. Data Intelligence 2019 1:2, 99-120.
[10] Wang, R., Zhou, D., and He, Y. Open event extraction from online text using a generative adversarial network. arXiv preprint arXiv:1908.09246, 2019.
[11] Hou L, Li J, Wang Z, et al. Newsminer: multifaceted news analysis for event search[J]. Knowledge-Based Systems, 2015, 76: 17-29.
[12] 张亚军,刘宗田,周文. 基于深度信念网络的事件识别[J]. 电子学报,2017,45(06):1415-1423.

文章作者: Kolen
文章链接: http://mrkolen.github.io/2020/04/24/%E5%9F%BA%E4%BA%8E%E6%97%A0%E7%9B%91%E7%9D%A3%E7%9A%84%E4%BA%8B%E4%BB%B6%E6%8A%BD%E5%8F%96/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Kolen's Nest
打赏
  • 微信
    微信

评论