摘要:在统计计算机专业7年的毕业论文主题后,从意义角度分析毕业论文主题的相似性,为论文主题的论文调查和分类提供了依据。首先,对毕业论文题目获得特征词汇,再计算特征词的加权构成论文题目的矢量表示。PI.SA提取方法得到的主题向量,最后以相似度比较意思向量,得到论文主题的相似性。根据实验结果,与以往的VSM法相比,从意义的角度来看,与论文的主题相类似性更加合理有效。毕业论文是考察关于学生的综合运用所学的专业基础知识、独立分析、解。作为解决实际问题的重要手段之一,论文的主题综合体现了学生在大学期间的知识和能力,所以论文的主题设定非常重要。检查毕业论文题目的相似性。另一方面,有助于同一研究领域的学生之间的合作。作为判别的依据.论文题目的分析属于文本处理的范畴。以前的处理方法是以文字或词为单位构建特征向量来表示文字。根据特征向量的运算实现文本信息的分类、聚类或检索。一般来说,文本包中包含的字和词比较多,可以用统计词、TFT-IIDF等古典方法来平衡。测量各特征的重量,再构成文本的特征矢量。近几年,短文本(短消息、微博客、BBS话题等)成为了文本处理的研究热点之一。例如,文献[1]用于对Twitter等信息提出短文本的不完整聚类思想,提高短文本信息的聚类性能。文献[2]研究了微博客的短文本,提出了新的检测。我们分别研究了短文本的分类问题。从方法的观点来看,短文本的研究大致分为两种。一个是基于规则的方法。如果采用正则表达式,则会处理短文本作为生成规则的依据。使用相关规则来扩展概念短语的特征。3等,还有一种基于语义的方法,例如使用文本的语义特征图对文本进行分类j,基于领域知识主体的研究方法《83等.毕业论文题目与其他种类的短文本相比,题目中包含的词组非常有限。一篇论文的题目中只有几个不重复的词。另外,同一个词在不同的文字中出现的次数比长的文件要小得多,所以要用传统的方法制作论文主题的特写。招募矢量时得到的数据非常稀疏,难以正确判断论文主题之间的相似性。为了解决这些数据的稀疏性问题,可以利用搜索引擎扩展短文本的上下文来填充数据的凹部。文本显示[1.另外,不同的词与主题的意思不同,所以在构成论文主题的文本显示中,必须考虑到这些差异,尽量平衡各个词的重要性。在自然语言处理领域,文章由不同的语言构成。单词和词之间有某种联系。不同词语的组合表示特定主题的意思。把一个文档看作多个主题的组合从这个角度,先确定文档的构成形式的主题的意思,在特定的主题下选择适当的词。文档的各主题是意思。从语义上来说,某种程度上,同样的意思可以表示为相同的意思,多义词在意义上被区别开来。潜在意义分析(1atent)语义关联性,LSA是经典意义提取方法……1I使用奇异值分解技术将高维矢量空间模型(VSM)表示中的文档映射到低维潜在意义空间,并将与表面无关的单词表示为空之间显示了深层关系。潜在概率论分析(probabi-listiclatentsemanttic)分析、PLSA)能够概率地说明文档的结构,通过提取信息而比LSA更好地提供L1……由于似然函数L的表达式有对数内部的加法,L不是闭路解,但可以通过期望最大化(EM)的算法获得类似解。最大化算法可以在两个步骤中交替计算。第1步计算期待(E-Step),利用现有的对隐式变量的估计,计算之后的概率。第2步是最大化期间。望(M-Step)将第一步求出的后验概率最大化,计算参数。论文的主题只有在提取单词后才能使用PL-SA进行语义计算。因此,必须分词论文的主题,获得由单词构成的矢量。助词的结果对最后的意思表示有非常重要的影响。因此,本文选择了中国科学院计。计算技术研究所开发的ICTCLAS系统虽然作为分词工具起着作用,但是论文主题中的一部分用语是有专业性的,所以使用分词工具后,对得到的结果进行进一步调整,除去题目中没有意义的虚词,整理一部分专业用语,集中词汇中添加,最终可以获得论文主题的矢量显示。本论文的实验数据来自毕业论文的题目。总共有540个。研究领域有软件设计、网页制作、动画动画动画动画、智能算法、网络安全、嵌入式系统、手机开发等。因为和专业知识有关联,所以主题中相同的单词比较多。这里提取的特征语共794个。将整个数据分成两部分,随机选择90%。主题是用来训练PI。SA模型的参数剩下的10%用于测试意思的类似度。本文为了测量意思相似性的性能,将文档处理中常用的检查率、检查率、F1值作为测量基准来使用。对于属于同一研究领域的论文题目,分别抽取其意思,计算整体率、检查率、F1值。将其平均值作为这些主题的性能指标。因为每个毕业论文的题目在严格意义上是完全不同的,所以将判定基准定义为检索同一研究领域的题目。本文的方法与经典文本相类似度的比较方法VSM模型相比较,验证本方法的性能。实验结果如表1所示。从表格中的数据可以看出。