特征选择方法

特征选择方法

特征选择法,相信只有少部分人听说过,究竟是什么呢?下面是给大家整理的关于特征选择方法,欢迎阅读!

特征选择方法 1

特征选择之所以要引起重视的原因,那就是随着科技发展,很多领域能采集到的特征变量数以万计,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。特征选择的好处包括:便于理解和可视化数据,降低计算及存储压力,对抗维度灾难以提高模型预测准确率等等。特征选择的三类主流方法为:过滤式、包裹式、嵌入式。

一、过滤式

变量排序就是一种典型的过滤式方法,该方法***于后续要使用的模型。这种方法的关键就是找到一种能度量特征重要性的方法,比如pearson相关系数,信息论理论中的互信息等。

二、包裹式

这类方法的核心思想在于,给定了某种模型,及预测效果评价的方法,然后针对特征空间中的不同子集,计算每个子集的预测效果,效果最好的,即作为最终被挑选出来的特征子集。注意集合的子集是一个指数的量级,故此类方法计算量较大。故而针对如何高效搜索特征空间子集,就产生了不同的算法。其中有一种简单有效的方法叫贪婪搜索策略,包括前向选择与后向删除。在前向选择方法中,初始化一个空的特征集合,逐步向其中添加新的特征,如果该特征能提高预测效果,即得以保留,否则就扔掉。后向删除即是说从所有特征构成的集合开始,逐步删除特征,只要删除后模型预测效果提升,即说明删除动作有效,否则就还是保留原特征。要注意到,包裹式方法要求针对每一个特征子集重新训练模型,因此计算量还是较大的。

三、嵌入式

嵌入式方法将特征选择融合在模型训练的过程中,比如决策树在分枝的过程中,就是使用的嵌入式特征选择方法,其内在还是根据某个度量指标对特征进行排序。

除了直接从原始特征中进行选择,我们还可以对特征进行变换、组合,这种思路称为特征构造。其中主要的方法总结如下。

一、聚类

可以使用kmeas、层次聚类后的聚类中心点来代替相应簇中的一组特征。

二、线性组合

SVD(singular value decomposition) 、PCA均可视为此类方法,核心思想就是对原有特征进行线性组合,使用组合后的特征作为新的特征输入到训练模型中。这类方法的好处是,考虑到了变量之间可能存在的互补作用,进行组合后,有可能生成了一个更有效的新特征。

总体上,笔者今日所阅读的文章或书本仍偏于理论,较少介绍在某个实践项目中具体是如何开展的。希望市面上再多一些工程师写的书,少一些大学教授的书。

特征选择方法 2

搜索策略

一、完全搜索

1、BestFirst(最佳优先)

最佳优先搜索时宽度优先搜索的扩展,基本思想是将节点表按据目标的距离进行排序,再以节点的估计距离为标准选择待扩展的节点。

算法步骤:

1. 用N表示已经排序的初始结点表(从小到大)

2. 如果N为空集,则退出并给出失败信号

3. n取为N的首结点,并在N中删除结点n,放入已访问结点列表

4. 如果n为目标结点,则退出并给出成功信号

5. 否则,将n的后继结点加到N中,记为N’,对N’中的结点按距目标的估计距离排序,并返回2步

在搜索的过程中一般会用到评估函数f(n),表示从初始节点S经过n到达目的节点t的最佳路径代价f*(n)的估计:

从S到n的最佳代价g*(n)的估计g(n),g(n) ≥ g*(n),即局部最小≥ 全局最小

从n到t 的最佳代价h*(n)的估计h(n),若对所有结点n,都有h(n)≤h*(n),则算法A一定能找到一条到达目标结点的最佳路径,此时算法A 称为算法A*。

f(n) = g(n) + h(n)作为f*(n) = g*(n) + h*(n)的估计,估计值越小的点希望越高,应该优先扩展。

2,ExhaustiveSearch(穷举搜索);

枚举了所有的特征组合,属于穷举搜索,时间复杂度是O(2n),实用性不高。

二、随机搜索方法。

1、RandomSearch(随机搜索):

算法描述:随机产生一个特征子集,然后在该子集上执行SFS与SBS算法。

算法评价:可作为SFS与SBS的补充,用于跳出局部最优值。

2、ScatterSearchV1(离散搜索):

三、序列搜索方法

a.单独最优组合:RankSearch(评估器计算属性判据值并排序),Ranker(属性判据值排序);

b.向前搜索:LinearForwardSelection(线性向前搜索);

算法描述:特征子集X从空集开始,每次选择一个特征x加入特征子集X,使得特征函数J( X)最优。简单说就是,每次都选择一个使得评价函数的取值达到最优的特征加入,其实就是一种简单的贪心算法。

算法评价:缺点是只能加入特征而不能去除特征。例如:特征A完全依赖于特征B与C,可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集,然后又将B与C加入,那么特征子集中就包含了多余的特征A。

c.向后搜索:FCBFSearch(基于相关性分析的特征选择方法);

算法描述:从特征全集O开始,每次从特征集O中剔除一个特征x,使得剔除特征x后评价函数值达到最优。

算法评价:序列后向选择与序列前向选择正好相反,它的缺点是特征只能去除不能加入。另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。

d. 增l去r选择方法:RaceSearch(比较特征子集的交叉验证错误情况),GreedyStepwise(向前或向后的单步搜索);

该算法有两种形式:

<1>算法从空集开始,每轮先加入L个特征,然后从中去除R个特征,使得评价函数值最优。( L > R )

<2>算法从全集开始,每轮先去除R个特征,然后加入L个特征,使得评价函数值最优。( L < R )

算法评价:增L去R选择算法结合了序列前向选择与序列后向选择思想, L与R的选择是算法的关键。

e. 浮动搜索方法:SubsetSizeForwardSelection(按照特征子集大小向前线性搜索,这是线性搜索的扩展);

f.启发式搜索:GeneticSearch(基于Goldberg提出的简单遗传算法),TabuSearch(禁忌搜索)。

按照评价策略的两大方法,这两大方法基于是否使用后续的分类方法来区别,且Filter方法注重对单个属性进行评价,Wrapper方法侧重对特征子集进行评价。

这里列举各个分类的几种方法:

1)Filter方法:

ChiSquaredAttributeEval——根据与分类有关的每一个属性的卡方值(统计学词汇)进行评估;

FilteresAttributeEval——运行在任意过滤器之后的数据上的任意属性评估;

GainRatioAttributeEva——根据与分类有关的每一个属性的增益比进行评估;

InfoGainAttributeEval——根据与分类有关的每一个属性的信息增益进行评估;

SignificanceAttributeEva——计算双向功能的概率意义评估属性值。

2)Wrapper方法:

CfsSubsetEval——根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估;

ClassifierSubsetEval——根据训练集或测试集之外的数据评估属性子集;

WrapperSubsetEval——使用一种学习模式对属性集进行评估;

ConsistencySubsetEval——根据利用属性子集进行分类时得到的分类值的一致性进行评价。

3)Filter与Wrapper结合:

OneRAttributeEval——根据OneR分类器评估属性。

特征选择方法 3

01高相关变量

高相关变量给模型提供了相同的信息,因此在我们的分析中没有必要包括所有的变量。例如:如果一个数据集包含一个特征“浏览时间”,另一个特征称为“浏览时使用的数据”,那么你可以想象这两个变量在某种程度上是相关的,即使我们选取一个无偏的数据样本,我们也会看到这种高度的相关性。在这种情况下,我们只需要这两个变量中的一个在此模型中作为预测因子,因为如果我们同时使用这两个变量,那么模型将会过拟合并偏向于这个特定的特征。

02P值

在像线性回归这样的算法中,初始统计模型总是个不错的选择,因为它通过使用该模型获得的P值,有助于可视化特征的重要性。在设置显著性水平时,我们检查得到的P值,如果P值小于显著性水平,说明特征显著,即该值的变化很可能表示目标值的变化。

03正向选择

正向选择是一种使用逐步回归的技术。因此,模型从零起点开始构建,即一个空模型,然后每次迭代都添加一个变量,以便在构建的模型中有一个改进。在每次迭代中加入的变量是通过其显著水平与设置的显著阈值进行比较来确定的,小于则加入,否则不加入。它可以通过各种度量来计算。一个共同的度量是通过所有变量建立的初始统计模型得到的P值。有时,正向选择会导致过拟合,因为它会向模型中添加高相关变量,即使它们向模型提供了相同的数据(但模型显示出了改进)。

04逆向消除

逆向消除也包括逐步回归的'特征选择,其方式类似于正向选择的逆过程。在这种情况下,初始模型从所有的自变量开始,如果这些变量不能在每次迭代中为新形成的回归模型提供价值,那么这些变量将被一个接一个地消除(每次迭代一次)。这也是利用初始统计模型获得的P值,并基于这些P值,从模型中消除特征。同时,使用这种方法,在去除高相关变量方面存在不确定性。

05递归式特征消除

RFE是一种广泛使用的技术/算法——给每一个特征指定一个权重,接着采用预测模型在这些原始的特征上进行训练。在获取到特征的权重值后,对这些权重值取绝对值,把最小绝对值剔除掉。按照这样做,不断循环递归,直至剩余的特征数量达到所需的特征数量。

这个过程中特征被消除的次序就是特征的排序。基于它们之间的共线性,这些排序用来在递归循环中消除特征,当然,还有这些特征在模型中的重要性。除了对特征进行排序外,RFE还可以显示这些特征是否重要,即使是选定的特征数量(因为我们选择的指定数量很可能不代表重要特征的最佳数量,并且,最佳特征数量可以大于或小于用户选择的这个数量)。

06***表化特征重要度

当我们讨论机器学习算法的可解释性时,通常讨论线性回归(可以使用P值分析功能重要性)和决策树(这实际上显示了树形式的特征重要度,同时也显示了重要度的层次结构),但另一方面,在随机森林分类器、LGBM、XG Boost等算法中,我们常常使用变量重要度***表绘制变量。当需要向正做分析的业务展示构建好的特征重要度时,这个方法特别有用。

07正则化

正则化是为了监测偏差和方差之间的权衡。偏差告诉我们模型在多大程度上对训练数据集过拟合。方差告诉我们在训练数据集和测试数据集上做出的预测是否稳定。理想情况下,偏差和方差都需要减少。正则化技术主要有两种:

01 L1正则化 lasso回归

Lasso回归又称为套索回归,是Robert Tibshirani于1996年提出的一种新的变量选择技术。Lasso是一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,进一步得到可以解释的模型。Lasso会惩罚模型的β系数,以改变它们在模型中的重要性,甚至可能会将其固定(将它们变成0,即基本上从最终模型中删除这些变量)。通常,当你观察到你的数据集有大量变量时,使用lasso,你需要删除其中一些变量,以便更好地了解重要特征如何影响模型(即最终由lasso选择的特征,并分配其重要性)。

02 L2 正则化 ridge回归

Ridge回归是一种专用于共线性数据分析的有偏估计回归方法。Ridge的作用是保持所有变量,例如使用所有变量来建立模型,同时赋予它们重要度,从而提高模型的性能。当数据集中变量数量较少时,岭是一个很好的选择,因此需要所有这些变量来解释得到的“洞察力”和预测目标结果。

由于Ridge保持了所有变量的完整性,并且lasso在分配变量的重要度方面做得更好,因此,结合Ridge和Lasso的最佳特性,组合出了“弹性网络”,作为开发算法。弹性网络是更理想的选择。

特征选择方法

转载请注明出处我优求知网 » 特征选择方法

学习

博客离别伤感日记

阅读(30)

本文为您介绍博客离别伤感日记,内容包括博客伤感日记,同事离别不舍博客。人生一世,来去匆匆。聚散离合,世间常态。人生最痛苦的事莫过于生离死别,以下是整理的博客离别伤感日记,希望对大家有所帮助。

学习

2021动物医学专业就业分析及就业前景

阅读(124)

本文为您介绍2021动物医学专业就业分析及就业前景,内容包括动物医学专业的就业前景,动物医学专业未来就业前景。动物医学的就业前景方向,动物医学就业前景怎么样,相信很多小伙伴们都不知道,下面是整理的2021动物医学专业就业分析及就业前景

学习

怎么用壮实造句

阅读(26)

本文为您介绍怎么用壮实造句,内容包括壮实造句,壮实造句子。句子是语言运用的基本单位,它由词或词组构成,能表达一个完整的意思,如告诉别人一件事,提出一个问题,表示要求或制止,表示某种感慨。下面是带来的怎么用壮实造句,希望对你有帮助。

学习

我的男神作文(精选)

阅读(38)

本文为您介绍我的男神作文(精选),内容包括我的男神作文,我的男神女神作文。在日常的学习、工作、生活中,大家都写过作文,肯定对各类作文都很熟悉吧,借助作文人们可以反映客观事物、表达思想感情、传递知识信息。相信很多朋友都对写作文感到非

学习

新春冬奥对联

阅读(44)

本文为您介绍新春冬奥对联,内容包括迎新年庆冬奥对联大全,迎冬奥迎新春对联。随着社会不断地进步,大家一定都接触过一些使用较为普遍的对联吧,对联作为一种习俗,是汉族传统文化的重要组成部分。你想知道对联怎么写吗?下面是整理的新春冬奥对

学习

催眠大师影评

阅读(87)

本文为您介绍催眠大师影评,内容包括催眠大师电影国外影评,催眠大师影评300字。无论是身处学校还是步入社会,大家都接触过电影吧,下面是帮大家整理的催眠大师影评,欢迎大家分享。

学习

王羲之的名人故事

阅读(57)

本文为您介绍王羲之的名人故事,内容包括王羲之的名人故事有哪些,王羲之的名人故事100字。王羲之字逸少,琅琊临沂(今山东省临沂市)人。东晋大臣、书法家,丹阳尹王旷的儿子,太尉郗鉴的女婿,有“书圣”之称。下面是收集整理的,王羲之的名人故事,希

学习

法医学专业就业前景

阅读(55)

本文为您介绍法医学专业就业前景,内容包括法医学专业就业前景如何,法医学专业就业前景女生。法医学专业学生主要学习基础医学、临床医学、法学及法医学的基本理论及基本知识,具有法医学检案鉴定的基本能力。下面是为大家整理的法医学专业

学习

华罗庚的励志故事

阅读(49)

本文为您介绍华罗庚的励志故事,内容包括华罗庚的励志故事300字,华罗庚的励志故事链接。故事一般都和原始人类的生产生活有密切关系,他们迫切地希望认识自然,于是便以自身为依据,想象天地万物都像人一样,有着生命和意志。下面是整理的华罗庚

学习

民间童话的特征

阅读(54)

本文为您介绍民间童话的特征,内容包括民间童话的特征是什么,童话民间故事大全。童话是指适合儿童观看和学习的文学作品,它浅显易懂又引人入胜,文字往往简洁质朴,读起来朗朗上口,能给儿童留下深刻的印象,以下是为大家整理的民间童话的特征,仅供

学习

文言文《阮裕焚车》翻译

阅读(57)

本文为您介绍文言文《阮裕焚车》翻译,内容包括阮裕焚车原文及翻译,阮裕焚车古文翻译。《阮裕焚车》选自刘义庆编著的《世说新语》中第一门《德行》,是一篇质朴的散文。下面是为大家收集的文言文《阮裕焚车》翻译,欢迎阅读与收藏。

学习

2021年延安中学排名

阅读(84)

本文为您介绍2021年延安中学排名,内容包括2022延安初中学校排名榜,延安中学的2022中考排名。陕西哪些高中是重点高中,什么高中全国排名最靠前,最近10年来陕西哪些中学最盛产高考状元?以下是为大家整理的2021年延安中学排名,欢迎大家分享。

学习

江苏省中小学生安全知识竞赛试题及答案解析

阅读(521)

竞赛是在体育、生产等活动中,比较本领、技术的高低,由多个人参加,有一定的规则。象棋竞赛、篮球竞赛、档案法制知识网络竞赛、计算机操作竞赛、龙舟竞赛、体育竞赛、百日劳动竞赛等。下面是给大家带来的江苏省中小学生安全知识竞赛试题及答

学习

《阮郎归》秦观诗词原文翻译与赏析

阅读(36)

本文为您介绍《阮郎归》秦观诗词原文翻译与赏析,内容包括阮郎归初夏翻译及其赏析,阮郎归踏青诗词赏析。在日常学习、工作和生活中,大家都对那些朗朗上口的古诗很是熟悉吧,古诗的格律限制较少。还苦于找不到好的古诗?以下是帮大家整理的《阮

学习

Win8开始界面创建一键关机的方法

阅读(50)

本文为您介绍Win8开始界面创建一键关机的方法,内容包括win8.1快捷关机,win8设置一键关机。Win8的开始界面和之前的系统都不一样,有些用户习惯了从开始菜单中找关机按钮来实现关机。但是Win8关机的时候,在开始界面看不到关机按钮,这让有些人

学习

跑步恢复训练方法

阅读(85)

本文为您介绍跑步恢复训练方法,内容包括跑步恢复训练方法大全,恢复跑步正确方法。初春时节,低温持续,室外的道路较其他时候更加坚硬,人体筋骨也会比较僵硬,跑友很容易因为活动不开而在跑步过程中受伤;此外,降雨、返潮、风沙等也会在不同方面

学习

防止雾霾的方法

阅读(29)

本文为您介绍防止雾霾的方法,内容包括防止雾霾的方法有哪些,防止雾霾的方法小学生。雾霾,是雾和霾的组合词。雾霾常见于城市。中国不少地区将雾并入霾一起作为灾害性天气现象进行预警预报,统称为“雾霾天气”。下面为大家带来了防止雾霾的

学习

成都房产证信息查询方法技巧

阅读(53)

本文为您介绍成都房产证信息查询方法技巧,内容包括成都怎么查询房产证信息,成都房产信息网查询系统。房产证是国家依法保护房屋所有权的合法凭证,那在成都房产证的查询又如何呢?下面为您精心推荐了成都房产证信息查询技巧,希望对您有所帮

学习

退休教师工资计算方法最新

阅读(44)

本文为您介绍退休教师工资计算方法最新,内容包括教师退休工资的计算方法,退休教师教龄津贴计算方法。引导语:教师是一份非常受人尊敬的职业,那么教师退休后,相关的退休工资要怎样算呢?接下来是为你带来收集整理的退休教师工资计算方法最新,欢

学习

2021年国家年假工资计算方法

阅读(32)

本文为您介绍2021年国家年假工资计算方法,内容包括公务员带薪年假2021年新规,带薪年假2022年怎么计算。我们都很想要知道带薪年假的工资多少,是只有基本工资,还是有其他福利?怎么计算带薪年假的工资呢?很多即将休年假的人都会有类似的疑问

学习

最新网约车规范及投诉方法

阅读(59)

本文为您介绍最新网约车规范及投诉方法,内容包括网约车怎么投诉到监管平台,关于网约车的管理办法。引导语:什么样的车能作网约车?当网约车司机有什么要求?网约车8年退出或60万公里报废?这些问题你都要清楚。以下是百分网分享给大家的最新

学习

面霜的使用方法

阅读(42)

本文为您介绍面霜的使用方法,内容包括面霜的使用方法和时间,面霜的使用方法教程。面霜的使用方法,说起面霜,相信大家应该都不陌生吧。面霜是女性用来护理肌肤,给皮肤补水的用品。要想发挥面霜的作用,就需要注意正确使用面霜。下面为大家分享