国科大 自然语言处理 期末复习总结

这篇博客是国科大自然语言处理期末复习的总结,涵盖上次考试重点如编辑距离、有限状态自动机与正则文法转化、分词算法等,并强调了问答系统、TF-IDF、熵率等概念题知识点。博主分享了复习策略,指出这三门课程不难,通过复习笔记和老师PPT足以应对考试。

学长的话:之前做的笔记(写的有点乱不要在意),现在拿出来翻了一翻,我研一一直在实验室搬砖,课基本没怎么上,期末剩下两周开始复习nlp,ml,ai三门专业课,均分也有90+。所以现在还没复习的学弟学妹们不要慌,这三门考试都不难,看看我整理的两个复习笔记,再看看老师的ppt,没问题的!

上次考试知识点
  • 连词引起歧义的结构

  • 编辑距离(插入、删除、替换、交换
    在这里插入图片描述

  • 有限状态自动机与正则文法之间的转化

  • 复杂特征集的交集

  • 三元文法(Tri-grams)

  • 评价机器翻译译文质量的方法

  • 分词系统的准确率、召回率和F1

  • 依存关系树的性能指标

  • 正向最大分词算法,逆向最大分词算法

  • 线图句法分析算法(Chart Parser)

概念题知识点
  • 问答式检索应用——Watson(沃森),DeepQA 问 答 系 统 是Watson实现的核心

  • TF-IDF的公式要记住
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 熵,联合熵,条件熵,连锁规则,熵率,相对熵(KL距离),交叉熵,困惑度,互信息,双字耦合度
    在这里插入图片描述

  • 文本摘要中消除冗余句子的方法是CSIS,MMR

  • ROUGE评测方法
    在这里插入图片描述
    在这里插入图片描述

  • 语料库(corpus) 是存放语言材料的仓库 ( 语言数据库)

  • 基于语料库进行语言学研究,被称为语料库语言学

  • 词汇知识库的四种语义关系:同义关系,反义关系,上下位关系,部分关系

    <
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值