博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
文本数据特征选取的四种方法
阅读量:5012 次
发布时间:2019-06-12

本文共 691 字,大约阅读时间需要 2 分钟。

     目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。

基于频率的过滤方法

    基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果一个词语包含另一个词语,则被包含的词语的次数不能加一,例如第一条留言中出现“清楚”,包含“清”,第二条留言中包含“清”,则“清出现的次数只能是一次,而不是两次”,还有一种特殊情况是“松”被分作了两个词性,“松/a”和“松/ng”,对于这种情况我们把所有词语的词性去掉之后再统计这个词语出现的次数。

基于信息增益的过滤方法

基于信息增益的过滤方法中,根据IG计算公式计算需要留下的IG值,

c表示类别,属于此类或者不属于;τ表示此特征出现与否,布尔型。若特征与类别无关,则IG=0。

1.1.1      基于条件概率比的过滤方法

基于条件概率比的过滤方法,根据下面公式计算,

                                          

 

在这里越小越好,即其值越小越有意义,说明word在不同类别中出现的概率差异大。若

,说明word的出现与类别判断无关,可去掉;若

 

,说明word的出现与类别高度有关,此类词语需保留。

1.1.2      基于期望值差异的过滤方法

基于期望值差异的过滤方法,根据以下计算方法计算,一个词项word在类中出现的期望值=word在所有数据表中出现的总次数,令=word在类中出现的实际次数,则

,                                           

 

对于E值,E越大越有意义。

 

转载于:https://www.cnblogs.com/nurbs/p/6568951.html

你可能感兴趣的文章
考研路茫茫--单词情结 - HDU 2243(AC自动机+矩阵乘法)
查看>>
HTTP运行期与页面执行模型
查看>>
tableView优化方案
查看>>
近期思考(2019.07.20)
查看>>
Apache2.4使用require指令进行访问控制
查看>>
冗余关系_并查集
查看>>
做最好的自己(Be Your Personal Best)
查看>>
如何搭建github+hexo博客-转
查看>>
HW2.2
查看>>
将Windows Server 2016 打造成工作站(20161030更新)
查看>>
5大主浏览器css3和html5兼容性大比拼
查看>>
hdu-5894 hannnnah_j’s Biological Test(组合数学)
查看>>
scss常规用法
查看>>
css定位position属性深究
查看>>
android中不同版本兼容包的区别
查看>>
Static 与 new 的问题【待解决】
查看>>
xml
查看>>
在 mvc4 WebApi 中 json 的 跨域访问
查看>>
敏捷开发文章读后感
查看>>
xposed获取context 的方法
查看>>