ICTCLAS代码学习笔记之CsegGraph类

本文介绍CsegGraph类的实现细节,包括原子切分和词图生成两个核心功能。探讨了词图的存储方式及其在汉语分词中的作用,并提出改进方案。
CsegGraph类的相关笔记,这个类为词图类,主要是词的有向图。提供两个核心函数,一个是原子切分,一个是生成词图。为了保存相关的信息,有三个成员变量m_sAtom,m_nAtomLength和m_nAtomPOS分别存储句中的词(字符串)、每个词的长度(字符串长度)及该词的词性。由于都是预定义大小的buffer,因此还需要一个无符号整型变量m_nAtomCount来记录切分后词的个数。另外,在粗分时可能产生的多个切分结果存储在一个动态数组CdynamicArray类的对象m_segGraph中。
这里的三个成员变量都是预定义大小的buffer。句子长度不超过2000个字符,而且词长不超过200。如果改用vector来存储则可以避免这种预定义在某些极端情况下造成访问越界的情况。可以考虑用一个vecotr<struct{}>来存储,其中结构体只需要两个变量,一个是string类型的词串,一个是其词性
nPOS,而原来需要的词长这个属性string本身就可以提供了。
词图要求为行优先存储。原子切分这个环节,原始的版本判断比较简单,将句子起始符号和结束符号当作一个整体切开,如果读入的类型是汉字(CT_CHINESE)、索引(CT_INDEX)、分割符(CT_DELIMITER)或者其他(CT_OTHER)则切开成一个单独的结点。否则(就是数字、单字节字符或者字母),如果类型相同则连在一起,否则就切开成单独的原子结点。将这些粗分好的结果分别存入三个成员变量中,而词性一行的值就直接为charType函数返回的结果,只是一个初步的判断。目前版本的函数中只会重置m_sAtom和m_nAtomLength而m_nAtomPOS在结束位没有相应置空,目前不会引起bug。
需要说明的是,原子切分这个环节,对于由汉字组成的数词串都切开了而在后面并不一定都能很好的合起来,一方面是概率竞争不过一方面是判断数词串的函数有不全面的部分。另外,由于我修改的版本引入了两个新的类型,因此在原子切分时需要特别处理一下。
GenerateWordNet函数根据核心词典将原始的句子生成词图并存储在m_segGraph中。首先会将句子进行原子切分,然后利用词典中的词及词性词频信息来置相应的权重值。第三个参数bOriginalFreq的默认取值为flase,当这个值为false时为非原始的频率值,一般采用默认值最大的或者0来设置,具体规则见后。如果为true则是利用词典中获取的频率值来做相应的设置。
对于粗切好的每个原子结点,在非原始频率的情况下,如果类型为汉字,则设置词图,其value值取log最大频率,词性为0即未知状态,词本身也不需要存储;如果为其他类型,则需要额外判断一下是不是一些特别的类型,比如说CT_INDEX、CT_NUM和CT_SINGLE_NUM都被判断为未处理数,设置相应的词性-27904及value值(0),分割符为30464而value值为最大频率等,不一一列举。value值为0而词性为修改后结果。
第二步词图生成是根据已有的词典,会有一个规则是不要把“月”和“份”切开,这个不太合时宜,呵呵。然后对于粗分后的每个词,如果在词典中找到最大匹配,则需要重新估算其频率值,同样的有一个对于组合数词的判断。如果生成的结果只有一个词性则更新value值时同时置这个明确的词性,否则只更新value。这一步是个最大匹配的过程,而且每个匹配的中间部分都会被记录下来。(粗分结果),在其中还会有一个关于时间词串的扩展规则,也不太合时时宜,主要是针对类似“1年内、1999年末”这种词,将末尾的诸如“末内中底前间初”的词处理一下。
词图类CSegGraph的总结:
根据论文,这是第五层和第四层、第三层的HMM过程,非常重要,是后续工作的基础。针对数词串的处理还不够完美,考虑是换个地方处理还是重新完善一下规则。
下载代码方式:https://pan.quark.cn/s/a4b39357ea24 依据所提供的资料,我们深入剖析此问题以及所给出的两种算法方案。 ### 问题背景 该问题源自王晓东编撰的《算法设计与实验题解》一书,书中阐述了一个值得注意的数学议题:针对一本页码从1到n顺序编号的书籍,要求统计所有页码中数字0至9各自出现的频次。例如,若n=13,则页码序列为1、2、...、13,其中数字1出现5次(体现在1、10、11、12、13中),数字0出现1次(体现在10中)。 ### 问题描述 具体而言,我们需要开发一种算法,其输入参数为一个正整数n,输出结果需为0至9这十个数字各自出现的频次。所有页码均以十进制形式呈现,且不包含任何前导零,即不会出现如006之的页码表示。 ### 解决方案一:时间复杂度为O(n*log10(n))的算法 首先,介绍一种时间复杂度为O(n*log10(n))的算法实现。其核心构思在于遍历从1到n的每一个数值,然后逐一分解每个数值的各个位,并统计各数字出现的频次。具体步骤如下: 1. 初始化一个长度为10的数组`count`,用于记录0至9每个数字出现的频次,初始值均为0。 2. 从1开始遍历至n,对于每一个数值i,将其转换为整数并进行以下操作: - 利用循环结构,持续将当前数值除以10,获取余数(即当前最低位的数字),并累加到对应的计数器中。 3. 遍历完成后,输出`count`数组中的每一个元素,即为所求的结果。 ### 解决方案二:优化算法 为了提升效率,提出了一种更为优越的算法。该算法基于以下观察:在1到10^n-1之间的任意区间内,每一种数字0至9出现的频次是相等的。例如,在1到999之间,每一种数字0至9出现的频次均相...
内容概要:本文档详细介绍了基于直驱永磁同步发电机(PMSG)的1.5MW风力发电系统在Simulink环境下的建模与仿真方法,涵盖风力机、传动系统、PMSG本体及电力电子变换器等核心组件的数学建模与系统集成。通过构建完整的风电系统仿真平台,实现了对风速扰动、机械动力学响应、电磁能量转换及并网运行特性的动态模拟,重点解析了PMSG在不同工况下的运行行为与先进控制策略的设计与实现,如最大功率点跟踪(MPPT)和矢量控制技术。该模型不仅可用于风电系统的性能评估与优化,还可作为控制器设计与算法验证的有效工具,支持新能源领域的教学、科研与工程应用。; 适合人群:具备电力系统、电机控制或可再生能源发电等相关背景的科研人员、工程技术人员及高校研究生;熟悉MATLAB/Simulink仿真环境者尤佳。; 使用场景及目标:①开展风力发电系统的动态特性分析与先进控制策略研究;②完成课程设计、学位论文或科研项目中的系统建模任务;③复现高水平学术论文中的风电仿真案例,支撑科研成果的验证与发表。; 阅读建议:建议结合文档中提到的相关控制算法与优化策略进行拓展学习,重点关注模型结构搭建、参数配置与仿真调试过程,并通过改变风速输入、负载条件等变量开展多工况仿真实验,深入理解系统动态响应机制与控制效果。
内容概要:本文系统研究了基于粒子群PSO、灰狼GWO、鲸鱼WOA、哈里斯鹰HHO、蜣螂DBO、麻雀SSA等多种智能优化算法的无人机三维路径规划方法,利用Matlab代码实现了在复杂三维环境下的路径搜索与避障功能,并构建包含路径长度、飞行高度、障碍物规避、转弯代价等多维度的综合成本函数体系,对各算法的收敛速度、寻优能力、路径平滑性及全局搜索性能进行了定量对比分析。研究不仅展示了各群智能算法在路径规划中的实现机制与参数敏感性,还提供了可复现的仿真平台,为无人机自主导航系统的开发与优化提供了理论依据和技术支撑。; 适合人群:具备Matlab编程基础和基本优化算法知识,从事无人机路径规划、智能控制、自动化、机器人技术等相关领域的科研人员、工程技术人员及高校研究生。; 使用场景及目标:① 对比分析主流群智能优化算法在复杂三维空间路径规划中的性能差异与适用条件;② 构建并优化多目标成本函数以提升路径规划的安全性与经济性;③ 为科研项目、学术论文撰写或实际工程应用提供可靠、可复现的Matlab代码参考与仿真框架; 阅读建议:建议读者结合所提供的Matlab代码逐模块调试运行,深入理解各算法的迭代机制与路径生成过程,重点关注参数设置对优化结果的影响,并可根据具体应用场景调整环境建模与成本权重,进一步拓展和优化算法性能。
内容概要:本文围绕“风光制氢合成氨系统优化研究”展开,详细介绍了利用Python代码对该综合能源系统进行建模与优化的全过程。通过复现高水平学术论文,构建了集成风能、光伏等可再生能源的制氢及合成氨系统模型,充分考虑了可再生能源出力的随机性与波动性、关键设备运行的技术约束以及系统整体的经济性目标,采用先进的数学优化算法对系统的容量配置与运行调度策略进行联合求解,旨在提升绿氢与绿氨生产的效率,促进可再生能源的高效消纳并推动工业领域深度脱碳。文中提供了完整的Python代码实现方案,涵盖数据处理、模型构建、求解器调用与结果可视化等环节,具有较强的可复现性和二次开发价值。; 适合人群:具备一定Python编程基础和优化建模能力,从事新能源系统规划、综合能源系统优化、绿色化工、电力系统调度及相关领域的科研人员、工程技术人员和高校研究生。; 使用场景及目标:①深入学习并复现风光耦合电解水制氢与合成氨的集成系统优化模型;②掌握基于Python的能源系统建模、多目标优化与不确定性处理方法;③应用于绿色氨生产系统设计、可再生能源大规模消纳、低碳工业流程优化等前沿科研与工程项目。; 阅读建议:建议读者结合文中提供的完整代码,使用实际气象与负荷数据进行调试与验证,深入理解目标函数的构建逻辑、各物理与运行约束的数学表达以及优化求解器(如Pyomo+CBC或Gurobi)的具体应用,进而可拓展至考虑更多不确定性因素(如价格波动)或多能互补(如储能)的复杂场景研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值