您当前的位置:科技专利 > 基于特征选择的网页文本分类方法

基于特征选择的网页文本分类方法

1102019/10/30
基本信息
  • 专利类型 高等院校
  • 委托机构 西安理工大学
  • 专利持有方 西安理工大学
  • 行业领域 其他电子信息
  • 项目名称 基于特征选择的网页文本分类方法
  • 知识产权 发明专利
  • 项目简介 基于特征选择的网页文本分类方法,首先,把由大量的网页构成的数据集分为训练集和测试集两部分;然后,根据网页标签域中的信息表达网页内容的能力赋予标签不同的权重,并计算训练集中每个网页内特征词的权重(归一化后的词频与反文档频率之积);在所得权重的基础上结合类内分布率和类间偏差,计算训练集中每个网页的特征向量,继而计算训练集中每个类的特征向量;最后,计算测试集中每个网页内特征词的词频,以及待分类网页与训练集中每一个类之间的相似度,采用相似度最大的类作为待分类网页的所属类,得到分类结果。
交易信息
  • 意向交易额 面议
  • 挂牌时间 2021/10/15
  • 委托机构 西安理工大学
  • 分享至: