文本分类入门（十一）特征选择方法之信息增益

博客分类：

经验总结

前文提到过，除了开方检验（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化，关联性越强，特征得分越高，该特征越应该被保留。在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。因此先回忆一下信息论中有关信息量（就是“熵”）的定义。说有这么一个变量X，它可能的取值有n多种，分别是x1，x2，……，xn，每一种取到的概率分别是P1，P2，……， ...

2013-05-22 09:03
浏览 1656
评论(0)
分类:研发管理

SVM入门（十）将SVM用于多类分类

博客分类：

经验总结

svm

从 SVM的那几张图可以看出来，SVM是一种典型的两类分类器，即它只回答属于正类还是负类的问题。而现实中要解决的问题，往往是多类的问题（少部分例外，例如垃圾邮件过滤，就只需要确定“是”还是“不是”垃圾邮件），比如文本分类，比如数字识别。如何由两类分类器得到多类分类器，就是一个值得研究的问题。还以文本分类为例，现成的方法有很多，其中一种一劳永逸的方法，就是真的一次性考虑所有样本，并求解一个多目标函数的优化问题，一次性得到多个分类面，就像下图这样：多个超平面把空间划分为多个区域，每个区域对应一个类别，给一篇文章，看它落在哪个区域就知道了它的分类。看起来很美对不对？只可惜这种算 ...

2013-05-22 09:03
浏览 781
评论(0)
分类:研发管理

SVM入门（九）松弛变量（续）

博客分类：

经验总结

svm

接下来要说的东西其实不是松弛变量本身，但由于是为了使用松弛变量才引入的，因此放在这里也算合适，那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题：注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重视离群点，C越大越重视，越不想丢掉它们）。这个式子是以前做SVM的人写的，大家也就这么用，但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子，我们完全可以给每一个离群点都使用不同的C，这时就意味着你对每个样本的重视程度都不一样，有些样本丢了也就丢了，错了也就错了，这些就给一个比较小的C；而有些样本很重要，决不能分类错误（比如中央下达的文件啥的，笑），就给一个很大的C ...

2013-05-22 09:03
浏览 654
评论(0)
分类:研发管理

SVM入门（八）松弛变量

博客分类：

经验总结

svm

现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们 ...

2013-05-22 09:03
浏览 905
评论(0)
分类:研发管理

文本分类入门（番外篇）特征选择与特征权重计算的区别

博客分类：

经验总结

svm

在文本分类的过程中，特征（也可以简单的理解为“词”）从人类能够理解的形式转换为计算机能够理解的形式时，实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初� ...

2013-05-22 09:02
浏览 1934
评论(0)
分类:研发管理

SVM入门（七）为何需要核函数

博客分类：

经验总结

svm

生存？还是毁灭？——哈姆雷特可分？还是不可分？——支持向量机之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？有！其思想说来也简单，来用一个二维平面中的分类问题作例子，你一看就会明白。事先声明，下面这个例子是网络早就有的，我一时找不到原作者的正确信息，在此借用，并加进了我自己的解说而已。例子是下面这张图：我们把横轴上端点a ...

2013-05-19 16:27
浏览 842
评论(0)
分类:研发管理

SVM入门（六）线性分类器的求解——问题的转化，直观角度

博客分类：

经验总结

svm

让我再一次比较完整的重复一下我们要解决的问题：我们有属于两个类别的样本点（并不限定这些点在二维空间中）若干，如图，圆形的样本点定为正样本（连带着，我们可以把正样本所属的类叫做正类），方形的点定为负� ...

2013-05-19 16:26
浏览 809
评论(0)
分类:研发管理

SVM入门（五）线性分类器的求解——问题的描述Part2

博客分类：

经验总结

SVM

从最一般的定义上说，一个求最小值的问题就是一个优化问题（也叫寻优问题，更文绉绉的叫法是规划——Programming），它同样由两部分组成，目标函数和约束条件，可以用下面的式子表示：（式1）约束条件用函数c来表示， ...

2013-05-19 16:25
浏览 742
评论(0)
分类:研发管理

SVM入门（四）线性分类器的求解——问题的描述Part1

博客分类：

经验总结

SVM

上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看我们对间隔和几何间隔的定义：间隔：δ=y(wx+b)=|g(x)| 几何间隔：可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的，因此最大化几何间隔与最小化||w||完全是一回事。而我们常用的方法并不是固定||w||的大小而寻求最大几何间隔，而是固定间隔（例如固定为1），寻找最小的||w||。而凡是求一个函数的最小值（或最大值）的问题都可以称 ...

2013-05-19 16:25
浏览 777
评论(0)
分类:研发管理

SVM入门（一）至（三）Refresh

博客分类：

经验总结

SVM

（一）SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法� ...

2013-05-19 16:24
浏览 747
评论(0)
分类:研发管理

win 64 安装 sql server 2000、出现挂起解决

博客分类：

工作、项目

SQL Server

装过那么多次，还是值得自己收藏下，供参考： 1. x86\setup目录下找到文件setupsql.exe ，双击安装就可以了2 安装好之后，再返回之前的文件夹，安装 “补丁”SQL2000-KB884525-SP4-x86-CHS.EXE 挂起解决： 1、在开始->运行中输入regedit 2、到HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager 位置 3、选择文件->导出,保存（安全起见） 4、在右边窗口右击PendingFileRenameOperations，选择删除 ...

2013-05-09 09:53
浏览 716
评论(0)
分类:数据库

matlab文件及文件夹操作

博客分类：

工作、项目
经验总结
matlab

文件操作

1.matlab中读取一行多个字符的文本 fid = fopen(''); while ~feof(fid) tline=fgetl(fid); [row col] = size(tline); print = findstr(tline,'print'); vein = findstr(tline,'vein') ; user_id = findstr(tline,'user_id'); p_value = str2num(tline(1,print ...

2013-02-23 13:07
浏览 8340
评论(0)
分类:编程语言

再给我四年

生活

有种想改身份证的冲动，把出生日期向后推迟四年，四年前我这样，日子肯定过的很好了可惜，想想当初励志几年这样，再几年那样，到头来结果还是这样东西倒是会了不少，可成果到底是什么呢？自己耽误了自己？还是别人耽误了自己自己愧对自己的过去愧对这个世界末日愧对世界没有灭亡愧对第二天还是那样愧对第二天想写结果第三天了才写走过那么多年月了觉得人最对不起的是自己失败的是自己的成果被别人收货其实可能大概这就是命运不过过完年就要三十了......

2012-12-23 20:29
浏览 729
评论(0)
论坛回复 / 浏览 (2 / 2614)
分类:非技术

matlab 矩阵求和计算

博客分类：

经验总结
工作、项目
matlab

matlab中针对的数据大多是以矩阵形式来处理，求和函数是sum 下面通过几个例子来介绍求和函数的应用： matlab中： a=sum(A) %列求和b=sum(A,2) %行求和c=sum(A(:)) %矩阵求和假定A为一个矩阵： sum(A)以矩阵A的每一列为对象，对一列内的数字求和。 sum(A,2)以矩阵A的每一行为对象，对一行内的数字求和。 a(:,1)是求矩阵的第一列 a(1,:)是求矩阵的第一行，以此类推。通过下面的例子，可以明白： >> a=[1 2 3; 4 5 6; 7 8 9] a = 1 ...

2012-11-10 12:50
浏览 1720
评论(0)
分类:编程语言

MATLAB图像处理-特征提取-形状特征比较启蒙的帖子适合领导总结（转）

博客分类：

matlab 图像

matlab

MATLAB图像处理-特征提取-形状特征形状特征（一）特点：各种基于形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索，但它们也有一些共同的问题，包括：①目前基于形状的检索方法还缺乏比较完善的数学模型；②如果目标有变形时检索结果往往不太可靠；③许多形状特征仅描述了目标局部的性质，要全面描述目标常对计算时间和存储量有较高的要求；④许多形状特征所反映的目标形状信息与人的直观感觉不完全一致，或者说，特征空间的相似性与人视觉系统感受到的相似性有差别。另外，从 2-D 图像中表现的 3-D 物体实际上只是物体在空间某一平面的投影，从 2-D 图像中反映出来的形状常不是 3-D ...

2012-10-18 09:18
浏览 7859
评论(0)
分类:行业应用

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

文本分类入门（十一）特征选择方法之信息增益

SVM入门（十）将SVM用于多类分类

SVM入门（九）松弛变量（续）

SVM入门（八）松弛变量

文本分类入门（番外篇）特征选择与特征权重计算的区别

SVM入门（七）为何需要核函数

SVM入门（六）线性分类器的求解——问题的转化，直观角度

SVM入门（五）线性分类器的求解——问题的描述Part2

SVM入门（四）线性分类器的求解——问题的描述Part1

SVM入门（一）至（三）Refresh

win 64 安装 sql server 2000、出现挂起解决

matlab文件及文件夹操作

再给我四年

matlab 矩阵求和计算

MATLAB图像处理-特征提取-形状特征比较启蒙的帖子适合领导总结（转）

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>