构建了一个语义关联库,称为Corpus库,该库使用词语空间和关系空间结构化地存储了词语和其上下文之间的统计信息,并通过阅读大量的预料数据来训练其相关数据。详细介绍了Corpus库的训练方法,并对训练过程中出现的大量关...
文本分类中的两个关键问题,算法和特征提取。贝叶斯算法是最有效的文本分类算法之一,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型提出了一种改进型的贝叶斯方法;传统的特征抽取方法有词频法、...
词语的相似度度量方法背广泛的应用在智能信息检索等领域,本文通过构建存储词语共现信息的Corpus实现了一种度量词语相似度的方法。同时,为了控制词语关系的空间,给出了相应的关系空间裁剪方法。实验证明这是一种有效...
本文比较研究了在文档分类中特征抽取方法对分类效果的影响。考察分析了词频法,互信息法,CHI统计,信息增益法等特征抽取方法。经分析,上述方法对于词条的权重未作考虑,引进tf—idf作为权重的表征方式。并给出了经过改...
嵌入式数据库技术及其在智能电视节目选择系统中的实现 CNKI文献
随着智能信息家电对数据管理要求的不断提高,嵌入式数据库技术显得日益重要。本文在分析和研究通用嵌入式数据库的基础上,设计实现了一个更为精简、高效并适合于资源有限的嵌入式设备应用的数据库sjtuedb,并给出了较为...