【2019-CS224n】Lecture 01 Introduction and Word Vectors

本文探讨了词向量的概念,从早期的WordNet到分布式语义模型,详细解析了word2vec的工作原理。介绍了如何通过word2vec学习单词的密集向量表示,及其在计算单词相似度和上下文预测中的应用。

plan

我们如何表达一个词的意思?

  • 早期方法比如WordNet:建立包含同义词synonym和上位词hypernym(即“is a"的关系)的词库
    • 缺少细微差别,一词多义
    • 缺少单词新的含义,不能及时更新
    • 构建过程过于主观
    • 人工构造
    • 无法计算准确的单词相似度
  • 离散符号-OneHot:在这里插入图片描述
    • 词汇表太大
    • 无法有效的表示两个向量间的相似度
  • 词汇的含义可能与上下文相关,尤其是多义词。
    分布式语义( Distributional semantics):一个词的含义经常由出现在它附近的词所决定。
    在这里插入图片描述
    在这里插入图片描述

word vector

是dense vector(即大多数元素不为零且维度较小的向量),也被称为word embedding 或word representation。它们是分布式表示。
维度:通常不低于50。降为二维进行可视化。
这里是以SKip-gram为例展开的。

papers

Efficient Estimation of Word Representations in Vector Space(original word2vec paper)
Distributed Representations of Words and Phrases and their Compositionality (negative sampling paper)
Word2vec是一个学习单词向量的框架

idea

  • 固定词汇表中的每个单词都由一个向量表示
  • 遍历文本中的每个位置t,其中有一个中心词c和上下文(外部)单词o
  • 使用向量c和o的相似度来计算给定c的o的概率(反之亦然)
  • 不断调整单词向量,以使得上下文词出现概率最大(Skip-Gram
    如图是窗口大小为2,中心词为into的context words的概率表示(预测每个单词周围的单词):
    在这里插入图片描述
    扫描到下一个位置:
    在这里插入图片描述

objective function

  • 极大似然估计:(最大化):这些条件概率的累乘积
    对于每个位置 t = 1 , . . . , T t=1, ..., T t=1,...,T,给定中心单词 w j w_j wj,预测固定大小 m m m的窗口内的概率最大上下文单词
    在这里插入图片描述
    objective function也叫cost or loss function。
    取对数和负平均
  • 目标函数为 ( 平 均 ) 负 对 数 似 然 {\color{Red} (平均)负对数似然} ()(最小化)
    在这里插入图片描述
    最小化目标函数 ⇔ \Leftrightarrow 最大化似然函数 ⇔ \Leftrightarrow 最大化准确率。
  • 如何计算每个条件概率?
    每个词w用两种向量表示:
    • v w v_w vw:是中心词的词向量;
    • u w u_w uw是上下文的词向量.
      因为同一个词,在不同时刻可能作为中心词也可能作为上下文的词。
      prediction function:
      在这里插入图片描述
  • 利用梯度下降算法优化参数训练模型
    这里的 θ \theta θ v c v_c vc,对 v c v_c vc求偏导:
    在这里插入图片描述
    在这里插入图片描述

Gensim本身不支持Glove Vector,需要将Glove文件格式转换为word2vec文件格式
在这里插入图片描述

【2019-CS224n】Assignment1

源码链接: https://pan.quark.cn/s/fa13cd6c6c8d Chrome浏览器作为一款备受青睐的网页浏览器,凭借其出色的稳定性和运行速度获得了广泛认可。 然而出于安全考量,Chrome系统默认不兼容ActiveX插件,因为ActiveX技术主要应用于Internet Explorer,它赋予网页内容与用户本地系统交互的能力,但同时也可能引发潜在的安全隐患。 不过在某些特定工作场景下,比如在企业内部网络环境或需要与老旧应用程序整合时,可能仍需在Chrome中启用ActiveX控件。 为此我们必须掌握在Chrome浏览器下加载和运用ActiveX的方法。 首先需要明确ActiveX的本质。 ActiveX是由微软设计的一种技术框架,旨在开发可在网页环境中运行的控件,这些控件能够完成多种功能,包括视频播放、应用程序组件运行或与硬件设备通信等。 ActiveX控件多以OCX(OLE控件)格式发布。 在Chrome浏览器中启用ActiveX需要采取额外措施,因为该浏览器本身并不支持此项技术。 以下是几种常见的解决方案: 1. **应用Chrome的兼容性设置**:部分Chrome版本提供了" --enable-internal-activex"命令行参数,可通过此参数使浏览器具备加载ActiveX控件的能力。 用户可在启动Chrome时,于快捷方式的目标路径后附加该参数来激活此功能。 例如:"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --enable-internal-activex。 2. **安装第三方插件**:市面上存在一些第三方插件,例如"IE Tab"或"ActiveX Con...
标题SpringBoot与微信小程序结合的健康饮食平台研究AI更换标题第1章引言介绍健康饮食平台的研究背景、意义、国内外研究现状、论文方法及创新点。1.1研究背景与意义阐述健康饮食平台在当前社会的重要性及其市场需求。1.2国内外研究现状分析国内外健康饮食平台的发展现状及趋势。1.3研究方法及创新点概述本文采用的研究方法和技术创新点。第2章相关理论总结健康饮食、SpringBoot及微信小程序的相关理论。2.1健康饮食理论介绍健康饮食的基本原则和营养学知识。2.2SpringBoot框架阐述SpringBoot框架的特点、优势及在项目中的应用。2.3微信小程序技术介绍微信小程序的开发技术、特点及其用户群体。第3章健康饮食平台设计详细介绍健康饮食平台的设计方案,包括前端和后端设计。3.1平台架构设计给出平台的整体架构、模块划分及交互流程。3.2数据库设计介绍数据库的设计思路、表结构及数据关系。3.3前后端交互设计阐述前后端数据交互的方式、接口设计及安全性考虑。第4章微信小程序实现介绍微信小程序的具体实现过程,包括页面设计、功能实现等。4.1页面设计与布局给出微信小程序的页面设计思路、布局及交互效果。4.2功能实现与测试详细介绍微信小程序各项功能的实现过程及测试方法。4.3用户体验优化阐述如何提升微信小程序的用户体验,包括界面优化、性能优化等。第5章平台测试与优化对健康饮食平台进行测试,并根据测试结果进行优化。5.1测试环境与数据介绍测试环境、测试数据及测试方法。5.2测试结果分析从功能、性能、用户体验等方面对测试结果进行详细分析。5.3平台优化策略根据测试结果提出平台优化策略,包括代码优化、功能改进等。第6章结论与展望总结本文的研究成果,并展望未来的研究方向。6.1研究结论概括本文的主要研究结论和平台实现效果。6.2展望指出本文研究的不足之处以及未来研究的方向和改进点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值