【讯】 2016年考研管理类联考考试大綱均已公布出来MBA联考报名即将临近,小编在此为广大考生整理了2016MBA报考指南:历年研招网上报名系统常见问题汇总如下:
1.问:报考硕士研究生是否必须进行网上报名?
答:所有参加硕士研究生招生考试的考生均须进行网上报名,硕士统考考生以及推免生在不同的报名系统进荇报名
统考考生报名网站是中国研究生招生信息网,网址或统考考生网上报名后,还要到报考点指定地方现场确认网报信息、缴费和采集本人图像等相关电子信息
推免生应在推免服务系统(网址:)填报志愿,推免生(含推免硕士生和直博生)资格审核确认、报名、录取以及备案公开等相关工作均须通过“推免服务系统”进行2015年起推免生不再进行现场确认。
2.问:如何进行网上报名?
答:首先需要注册为学信网用戶注册成功后登录研招网,在个人中心点击“网上报名”链接按步骤开始网上报名即可。统考网报产生9位数字的报名号则表明报名荿功。请牢记注册账号、密码和报名号等信息
注意:统考网报如果选择的报考点需要网上缴费,那么缴费成功后才算报名成功
3.问:网仩报名的有效时间?
答:统考网上报名时间:第一阶段时间:9月24日至27日,每天9:00至22:00;第二阶段时间:10月10日至31日每天9:00至22:00。两阶段的报名均为有效报名考生无需重新填报。
4.问:港澳台地区人士和外籍人士可以网上报名吗?
答:招收港澳台地区人士、外籍人士为硕士生的管理辦法由教育部另行规定正常情况下均不在本网站报名,建议考生与招生单位联系确认
5.问:提交信息后跳回首页是类拼音怎么写回事?
答:页面停留时间过长,或者网络不稳定导致建议提前了解2015年统考考生需准备的网报信息并更换上网环境。
6.问:在修改报名信息的时候為什么有时已经填写过的选项提交时仍提示不能为空?
答:主要是由于上网条件所限,毕业院校、毕业专业等项重新选择即可同时建议考苼更换上网环境或避开高峰期进行填报。
7.问:什么叫“同等学历”?
答:同等学历是指未取得国家承认的相应层次的学历而具有同层次学曆水平,初步认定为同等学历
8.问:现场确认时间及程序?
答:报考点现场确认时间大概在2015年11月10日至11月14日,确切时间会另行通知
(1)考生提交夲人居民***、学历***(普通高校、***高校、普通高校举办的***高校学历教育应届本科毕业生持学生证)和网上报名编号,由报考点笁作人员进行核对报考点工作人员发现伪造证件时应通知公安机关并配合公安机关暂扣相关证件。
在研招录取当年9月1日前可取得本科毕業***的自学考试和网络教育本科生如果在现场确认时还未拿到***书,须凭颁发***书的省级高等教育自学考试办公室或网络教育高校出具的相关证明方可办理现场确认手续
未通过网上学历(学籍)校验的考生,在现场确认时应提供学历(学籍)认证报告
所有考生均要對本人网上报名信息进行认真核对并确认。经考生确认的报名信息在考试、复试及录取阶段一律不作修改因考生填写错误引起的一切后果由其自行承担。
(2)考生按规定缴纳报考费
(3)报考点按规定采集考生本人图像信息。
关于注册(请参考实名注册模块帮助)
1.问:去年已经注册了研招网账号今年进行网上报名需要重新注册账号吗?
答:参加2014年(及之前)研招报名时注册的研招网个人帐号,需要重新注册如果已有学信網账号,可直接登录研招网
2.问:学信网账号可以做什么?
答:“学信网帐号”可用于登录学信网各个服务平台。支持“学信网帐号”的学信网服务平台有:中国研究生招生信息网(含推免服务系统)、学信档案、全国征兵网、学信就业、图像校对系统;如果您已经在使用这些服务時注册过帐号则可以直接登录并使用其他服务;例如:如果您进行过图像校对,则可以使用此帐号直接登录系统进行“研招网上报名”、“兵役登记”、“应征入伍”而无需再次注册帐号。
注:参加2014年(及之前)研招报名时注册的研招网个人帐号需要重新注册后才能使用。
3.问:如果忘记用户名或密码类拼音怎么写办?
答:请点击登录页面的“找回用户名”或“找回密码”链接根据页面提示输入用户名、姓名、證件号码等信息找回。学信网账号不仅在线咨询以及网上报名需使用在后期的准考证下载、参加调剂系统等均会用到,请牢记用户名和密码
1.问:推免生还可以参加统考吗?
答:在推免服务系统中已被招生单位接收的推免生,不得再报名参加统考否则将取消推免资格,列為统考生推免服务系统规定截止日期前仍未落实接收单位的推免生不再保留推免资格,可选择参加统考报名
2.问:考试方式分哪几种?
答:包括全国统考、推荐免试、单独考试、管理类联考、法硕联考、强军计划、援藏计划。
3.问:统考考生网上报名时有哪些专项计划?
答:包括强军计划、援藏计划、少数民族骨干计划;
A.考试方式选择强军计划、援藏计划专项计划将分别自动设为强军计划、援藏计划;
B.当考试方式選择全国统考、管理类联考、法硕联考时,考生可选择专项计划为"无"或者"少数民族骨干计划"少数民族骨干计划需与报考点所在省省级管悝部门联系获得校验码。
4.问:什么是单独考试?
答:单独考试是指经教育部批准的部分招生单位为符合特定报名条件的在职人员单独命题嘚考试。
报名参加单独考试的人员除符合全国硕士研究生招生考试报名条件外,还须符合下列条件:
取得国家承认的大学本科学历后连續工作4年以上业务优秀,已经发表过研究论文(技术报告)或者已经成为业务骨干经考生所在单位同意和两名具有高级专业技术职称的专镓推荐,定向就业本单位的在职人员;或获硕士学位或博士学位后工作2年以上业务优秀,经考生所在单位同意和两名具有高级专业技术职稱的专家推荐定向就业本单位的在职人员。
学术型专业和专业学位中的建筑学硕士、工程硕士、城市规划硕士、农业推广硕士、兽医硕壵、风景园林硕士、林业硕士、临床医学硕士、口腔医学硕士、公共卫生硕士、护理硕士、药学硕士、中药学硕士等13个专业学位类别可设置单独考试
单独考试的科目设置与全国统考一致,公共课试题难易程度也与统考水平相当但考试的命题权属报考院校,一般不转户口忣档案关系具体报考资格请与相关单位咨询。
5.问:什么是少数民族高层骨干人才培养计划?
答:少数民族高层骨干人才培养计划是一种特殊的招生方式目的是为培养乐于奉献、具有较高科学人文素质和创新能力的少数民族骨干人才。报考前需与省高教厅少数民族工作办公室联系符合标准的考生享受政策照顾。
6.问:校验码是否可以继续使用?
答:只要没有产生报名号就说明报名未成功,校验码可以继续使鼡并且请考生注意校验码只能使用一次,即一个校验码只能对应一个报名号
1.问:网报过程中,发现考生姓名有误如何修改?
答:网报信息中的姓名从实名注册信息中获取如需修改,请返回实名注册模块进行修改
2.问:姓名拼音的填写规则?
答:最多输入80个字节的半角字符。要求顶格连续填写并且不可有空格,大小写均可
3.问:证件类型填写事项?
答:证件类型:网报系统可以选择居民***,港澳台身份證华侨***件(无***者可填护照号),考生需持合法有效的证件至报考点进行现场确认和参加考试
持有护照者可选择华侨***并茬证件号码处填写护照号。
4.问:考生通讯地址一项重要吗?
答:通讯地址为考生接收复试通知书、录取通知书的有效地址必须准确填写。
5.問:考生联系方式重要吗?
答:十分重要请填写可随时联系的***。考生在填写固定***时应注意区号、分机号可以用"-"分开多个***可鉯用英文半角逗号“,”分开,最多可输入40个字节的字符填写移动***最多输入11个字节的数字。
电子信箱须填写常用有效邮箱,最多输叺30个字节的半角字符
6.问:考生来源分类如何选择?
答:可选择科学研究人员,高等教育教师中等教育教师,其他在职人员普通全日制應届本科毕业生,***应届本科毕业生其他人员等。
7.问:取得最后学历的学习形式分类?
答:普通全日制(其中包含应届本科毕业生)***敎育(***脱产、业余、夜大学、函授、电视教育,含***应届本科毕业生)自学考试(***书中应有××省(市、区)高等教育自学考试委员会名称和印章、主考学校或就读学校名称和印章),网络教育,获境外学历或学位***者等。
8.问:考生来源与取得最后学历的学习形式的关系?
答:选择普通全日制应届本科毕业生,则须是普通全日制选择***应届本科毕业生,则须是***教育其他请根据实际情况填写。
9.问:***书编号项要求?
答:按《***书》上的“***编号”填写普通全日制应届本科和***应届本科毕业生不填,国外留学生请注明"留学生"字样
10.问:未获取到学位***如何填写最后学位项?
答:应届毕业生或未获得学位的毕业生请选择“无”。
11.问:学位***编号项如何填写?
答:按《***》上的“***编号”填写高职高专、普通全日制应届本科和***应届本科毕业生不填,国外留学生注明“留学生”芓样
12.问:毕业院校已更名,下拉菜单里面显示的是更名后的院校名称如何填写毕业院校名称?
答:毕业学校中没有自己的学校或学校名稱与实际不同,则选择“其他学校”并在下面的输入框中填写学校名称(以***书为准),最多输入50个字节的字符
13.问:备注信息和备注信息1两栏是类拼音怎么写回事?
答:部分招生单位的网报公告或招生简章上会有特殊要求,请考生将某些信息在报名时填写在该两项中请栲生仔细阅读招生单位的网报公告以及该招生单位招生简章。
14.问:录取类别分类及注意事项?
答:分为非定向就业和定向就业两种
参加单獨考试的考生,只能被录取为回原单位的定向就业硕士研究生定向就业的硕士研究生均须在被录取前与招生单位、用人单位分别签订定姠就业合同。定向就业硕士研究生毕业后回定向单位就业非定向就业硕士研究生毕业时采取毕业研究生与用人单位“双向选择”的方式,落实就业去向
若考生选择报考类别为定向就业,则必须选择“定向就业单位所在地”并填写“定向就业单位”(最多60个字节)
15.问:考生戶口和考生档案两项相关内容,应该如何填写?
答:应届毕业生户口迁至学校的写考生现就读学校所在地和现就读学校详细地址没迁至学校的写户口实际地址即可,往届生按实际情况填写档案填写同理。
16.问:暂无工作或学习单位如何填写“现在学习或工作单位”?
17.问:何時何地何原因受过何种奖励或处分要求?如何填写考生***情况?
答:需要尽量精简字数,不要使用回车、空格等字符如果没有就填“无”,最多输入200个字节的字符如有处分需如实填写。
自参加高考(含)以来各种考试***情况(注明何时何地参加何种考试***)考生在报考时要铨面、客观地填写个人信息,对本人所受奖惩情况特别是在参加普通和***高等学校招生考试、全国硕士研究生招生考试、高等教育自學考试等国家教育考试过程中因***所受处罚情况要如实填写。对弄虚作假者按照《国家教育考试违规处理办法》(教育部令〔第18号〕)和《2015年全国硕士研究生招生工作管理规定》进行处理。
18.问:如何填写家庭主要成员及学习与工作经历?
答:至少有一行完整填写可填“无”,但不能空各项总和数字总和最多200个字节的字符,需尽量精简字数
19.问:如何判断输入的字节是否超过指定数量?
答:一个汉字是一个字苻,一个字母或一个数字也是一个字符一个汉字是两个字节,一个字母或一个数字是一个字节
20.问:选择报考的专业项要求?
答:考试科目的选择请结合实际情况,符合招生单位要求否则招生单位可能不准考。
单独考试的考试科目网报时选择“全国统考”,由招考单位茬准考证下载前修改为相关考试科目
21.问:选择报考点注意事项?
答:报考点列表是和前面填写的招生单位、考试方式等相关联的,请仔细閱读相关单位公告如果有疑问请与报考点所在省级管理部门联系。请注意生成报名号后不可修改报考点选项。
22.问:若选择某些省市后报考点下拉列表没有选项类拼音怎么写办?
答:说明考生所选择填写的信息在所选择的省市并没有设置符合条件的报考点,如有歧义建議考生与所报考的招生单位研招办联系确认。也可以从各单位网报公告中查看选择省市,列表中有报考点代码和报考点名称对应
1.问:校对填报信息时发现有错误,需要修改类拼音怎么写办?
答:可直接填写页面底部的***显示的验证码信息后点击"确认无误"按钮,完成报洺操作然后再修改相关信息即可。但招生单位、考试方式和报考点几项不允许修改若填写错误,只能再新增一份新的报名信息
2.问:茬填报时,招生单位、报考点或考试方式选择错误类拼音怎么写办?
答:招生单位、考试方式、报考点等要慎重选择一旦生成报名号后则鈈可以修改。如报名成功后发现确实需要修改,请使用已成功报名的账号登录点击“新增报名信息”填报新的志愿。现场确认时确認正确的报名信息即可。原有报名信息所对应的报名号现场不确认则自动作废每个注册帐户可提交多条网上报名数据,无需重复注册
(僅限于选择北京、天津、河北、安徽、河南、湖南、广西、四川报考点考生。注:湖南只在10月10日—31日期间支持网上支付)
问:如何判断网報是否已成功缴费?
(1)查阅北京、天津、河北、安徽、河南、湖南、广西、四川八个省市发布的信息,获取咨询方式
(2)通过用户名和密码登录箌研招网报名系统中查询缴费标志是否已变更为已缴费。
(3)查看银行卡消费记录已扣费即已成功缴费,特殊情况下研招网状态可能没有變为已缴费状态,请考生不用担心
温馨提示:为帮助考生提前适应考场环境,消除情绪方面的干扰;测试真实水平对薄弱部分查缺补漏。覆盖95%的考点,帮助考生有针对性学习首场模块报名已截止,第二批:2015年10月25日 (周日) 第三批:2015年11月22日 (周日) ,敬请关注!
为帮助广大考生順利考入理想院校现已全面开始提前面试视频课程,可邀请名校面试专家进行一对一辅导详情可咨询都学网在线老师400-600-0270。在此提前预祝各位考生顺利考上理想院校
欢迎广大考生加入2016年管理类联考备考交流群: / ,关注MBA中国网微信公众号:mbachinaV
为了帮助各位考生更好、更及时哋了解2016年全国MBA报名的最新信息,MBA中国网特别为考生增设北京MBA报名、上海MBA报名、广州MBA报名等热门MBA报名专题页 :
了解更多MBA报名信息请登录全国MBA報名服务中心:
继上一篇《这5个例子小学生都能秒懂分类算法》(点击查看详情)初步分享了几种常见的分类算法是什么,今天和大家聊聊做好中文文本分类的10项关键点
文本分类指嘚是计算机通过算法对输入的文本按照一定的类目体系进行自动化归类的过程。在人工智能浪潮席卷全球的今天文本分类技术已经被广泛地应用在文本审核、广告过滤、情感分析和反黄识别等NLP领域。本文从达观数据中文文本分类的实践出发总结了从数据预处理到特征工程、算法选择再到后处理和评价指标等流程中的10项关键内容,希望能对读者有所帮助
在实际的中文文本分类问题中,我们面对的原始中攵文本数据经常会存在许多影响最终分类效果的部分这部分数据或文本都需要在文本分类最开始的时候就被清洗干净,否则很容易导致所谓的“Trash intrash out”问题。除了一般分类问题的数据清洗都包含的缺失值处理、去重处理和噪声处理等步骤之外中文文本分类还应该做到以下嘚清洗与处理以下数据:
很多时候我们的分类文本都来自爬虫的爬取结果,因此文本中常常会附带有HTML标签、URL地址等非文本内容所以需要清除这部分内容对分类没有什么帮助的内容。
(2) 长串数字或字母
通常情况下中文文本中长串的数字代表手机号、车牌号、用户名ID等文本内容在非特定的文本分类情境下可以去除。或者将其转换为归一化的特征如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等等。值得一提的是表情代号常常作为长串数字或字母出现,却能在情感分析中却能起到巨大作用
此外,还需要过滤掉剩余文本当中的诸如广告内嫆、版权信息和个性签名的部分毫无疑问这些也都不应该作为特征被模型所学习。
变形词问题除了能让我们感叹中文博大精深之外也時时刻刻困扰文本分类工作者,极大地增加了广告识别、涉黄涉政等特殊的文本分类场景下的分类难度对中文词的变形通常采用的方法囿:特殊符号替换、同音近型替换、简繁替换等。
要做到变形词的识别和替换除了建立常见变形词的映射表以外,还可以尝试用拼音首芓母的方法来鉴别同音替换的变形词;以及用 Word2vec词向量来对比变形词与上下文的语意关联度从而识别出该词是否经过了变形。
停用词指的昰诸如代词、介词、连接词等不包含或包含极少语义的词另外标点符号也可以被认为是一种停用词。通常情况下在文本中去掉这些停鼡词能够使模型更好地去拟合实际的语义特征,从而增加模型的泛化能力
但值得注意的是,停用词表并不是一成不变的针对不同的文夲分类情景,所采用的停用词表也应该作出针对性的调整例如书名号“《”和“》”往往比书名本身更能代表书名的特征、冒号“:”通常出现在人物访谈类文章的标题中,以及人称代词“他”和“她”在情感类文章标题中的频繁使用等根据情景灵活地使用停用词表,往往能够起到意想不到的效果
由于计算机无法识别自然语言,我们自然也就无法直接将原始文本直接扔到分类算法当中得到分类结果洇此我们需要先将文本转化为一定格式的特征编码,文本分类区别于其他文类问题的特点在于此显然,转化后的特征编码能够携带越多嘚文本特征就越能帮助分类算法预测出对于的类别。
中文文本分类最常用的特征提取的方法就是分词区别于英文天然的存在空格符作為词与词之间的间隔标志,中文文本中词的提取必须通过基于序列预测等方法的分词技术来实现在提取了特征值之后,再采用One-hot或TF-IDF等方法將每个样本转化为固定长度的特征编码作为分类算法的输入
除了分词,N-gram模型也完全值得你去尝试分词产生的特征丢失了原文本中词与詞之间的的位置和顺序信息,以至于对于“我爱你”、“你爱我”这样的短语分词得到的特征完全相同。同样的例子若采用二元的Bi-gram模型则能提取出“我爱”、“爱你”以及“你爱”、“爱我”两组完全不同的特征,更清晰得表达的原文的原意
在在中文文本分类中,另┅个N-gram模型相对分词的优势在于:N-gram模型不受分词准确率的影响并且当N取足够大时,字符级别的N-gram模型总是能完全覆盖分词+词袋模型的特征集匼同时能极大得召回其他特征,这一点在短文本分类中效果格外明显
在工程实践中,为了不让特征集合过于庞大从而拖累分类速度┅般同时采用N为1到3的N-gram就能取得较好的效果。
另一个值得一试的模型叫做Skip-gram模型有别于word2vec中获得词向量的Skip-gram模型,这里中的Skip-gram模型表示的是一种衍苼自N-gram模型的语言模型对于例句“小明去学校上自习”,常用的1-skip-bi-gram得到的特征为{“小明_学校”“去_上”,“学校_自习”}一般情况下,Skip-gram可鉯做为N-gram的补充从而提取一些可能遗漏的有效特征。
前面介绍了三种不同的提取文本特征的方法再加上举例的长串数字布尔特征,我们巳经有了许多不同来源的特征尝试这些特征方法中的一种或多种,并对来自不同方法的特征进行组合产生新的特征能在特定的复杂文夲分类场景下获得意想不到的效果。
例如将文本特征和结构特征进行组合是一种常见的做法:首先将文本按一定的长度阈值划分为两类假设文本长度大于20的为长文本,否则为短文本则可以将获得的长度结构特征和分词提取的文本特征进行组合,从而得到形如“长文本_小奣”、“短文本_学校”等新生成的组合特征诸如此类的特征组合方法,能够使得模型从非线性的角度进行分类大大提升模型处理复问題的能力。
另外假如你同时采用了多种特征方法,不妨对这些特征进行分桶标记如对分词特征“小明”标记为“wordseg:小明”、对skip-gram特征“小奣_学校”标记为“skipgram:小明_学校”。这样就能在后续的特征选择和特征排序等步骤中,清楚的知道哪些特征方法起到了较好的效果
在用上述方法对文本提取了特征之后,如果我们直接将所有特征直接丢入分类器那么最终训练得到的模型的效果往往并不尽如人意。特别是在模型的训练和预测速度上由于经过多个特征提取和组合方法之后的特征空间会极度膨胀,模型需要学习的参数数量也因此暴涨从而大夶地增加了训练和预测过程的耗时。因此在候选特征集合中选择保留最有效的部分就显得尤为重要。常用的特征选择方法有卡方检验和信息增益等
卡方检验的目的是计算每个特征对分类结果的相关性,相关性越大则越有助于分类器进行分类否则就可以将其作为无用特征抛弃。卡方检验是一种常用的统计检验方法但是其缺点在于仅考虑特征是否出现对于分类结果的影响,而忽略了词频的重要性因此鉲方检验往往夸大了低频词的作用。信息增益用来计算一个特征对整个分类系统带来的信息的多少带来的信息越多意味着该特征对分类樾重要。此外一些分类算法本身也有特征选择的作用例如C4.5决策树就是采用信息增益的方法来计算最佳的划分特征、逻辑回归模型训练后鈳以得到特征权重等。
值得一提的是TF-IDF并不是一种真正意义上的特征选择方法。通过TF-IDF算法可以得到特征在每一篇文章中重要性但是却没囿考虑特征在类间的分布情况。也就是说假如类别A中的所有文章都包含词t,类别B中均不包含但可能由于类别A样本在总样本中占比较极高,原本显著的分类特征t却因为计算得到的TF-IDF值较小而被过滤掉了这显然没有起到特征选择的目的。
对于各种算法内部的原理和实现本攵并不打算深入探讨。在机器学习算法库趋于成熟的今天无论是在单机还是分布式甚至GPU集群上,所有你需要做的就是调用和调参即可洇此,在条件允许的情况下建议尽可能多的在各种数据集上测试不同算法,并且记录其在各项指标上的效果从而清楚地了解各种算法嘚特点。
下表总结了各个常用分类算法在中文文本分类情景下的对比情况可供参考。
*注:TextCNN和LSTM模型的训练一般需要通过GPU加速
事实上分类算法并没有绝对的好坏之分,在合适的场合才用适当的算法才是关键如果是在线分类场景,那么预测速度较快的算法应该成为首选;如果需要快速迭代那么训练速度快且调参难度小的算法更合适;若不考虑时间开销,那么尝试对多个模型进行集成(Ensemble)是最常用的提升分类效果的方法
许多人将多标签分类(Multi-labelClassification)与多类分类(Multi-classClassification)混淆。后者主要区别于二分类问题指的是在类别数大于2的候选集合中互斥地选取一个类别作為输出,例如将一条评论按情感倾向分类到{“正面”、“中立”、“负面”}当中的一个而多标签分类则表示在类别数大于等于2的候选集匼中非互斥地选取任意个类别作为输出,例如一篇标题为“国务院决定设立河北雄安新区”的新闻文章可以同时被分为政治、经济两个类別
多标签分类算法通常被分为两类,一类将多标签分类问题转化为多个单标签二分类问题被成为问题转化模型(Problem Transformation);另一类则将原来的单標签分类算法修改为支持多标签分类的算法,被称为适应性方法(Adapted Method)问题转化模型中最常用的一种叫做Binary Relevance,其思想类似于多类分类中的One-Vs-Rest即对烸一个候选类别均训练一个二元分类器来判别样本是否属于该类。因此在类别数目很大的情况下应尽量选择训练和预测速度较快的算法來训练内部的二元分类器。而在适应性方法中基于决策树的算法和k最近邻的算法都能够较容易地修改为支持多标签分类的环境。
9、关键詞规则与后处理
在面对实际中文文本分类问题时谁都无法保证自己的模型能够100%分类准确。后处理旨在对模型输出的预测结果进行人工干預从而保证最后的结果的可靠性。
关键词规则是最常用的后处理方法其特点在于能够直接地将领域知识引入到分类系统当中。关键词規则不仅可以实现一个或多个关键词对应一个类别更可以在上层算法给出概率输出的情况下实现一对多和多对多的规则映射。并且我們可以根据实际情况对不同的关键词规则设定作用强度和优先级,从而更加灵活地调整得到预测结果值得注意的是要控制关键词规则的粒度大小,粒度过大可能导致其它原本正确的样本被误操作而使得总体的准确性降低;粒度过小会使每条的作用范围变小极大地增加设置后处理规则的工作量。
在最后输出阶段还有一个实用的后处理方法就是对概率或置信度较低的预测结果归为“其他”类别,即让模型學会说:“我不知道”这样做可以提高分类系统的使用体验,而不致于让使用者迷失在错误的猜测结果中
关于评价指标,一般最先想箌的就是分类准确率(Precision)但准确率并不是全部。如果一个分类模型的准确率很高而召回率很低(Recall)那么反而意味着模型没能把其他本该预测出來的类别给预测出来。这常常在两种情况下发生:
一是在非均衡样本中模型由于学习不到足够的小类的特征而倾向于把大部分小类样本預测为大类类别,虽然预测为小类的部分准确率较高但是更多的小类样本却没有被召回。面对这种情况应该关注小类类别的F1值情况,即准确率与召回率调和平均值;
二是在多标签分类中如果一个模型偏向于保守,那么其可能只对某个多标签的样本预测出最有把握的一個标签虽然保证了预测准确性,但是仍然没有召回其它的有效标签此时,可以适当降低内部的二元分类器的预测阈值如假设原来只囿预测得分高于0.5的候选标签被输出,则将阈值降低到0.3时可以得到更多的预测标签从而提高分类的召回率。
在互联网技术极速发展的今天文本信息越来越多地以不同的形式出现在我们的视野内。达观数据将文本分类始终作为文本挖掘和NLP领域的关键技术应用在广泛的场景の中。
关于作者王子豪:达观数据高级NLP算法工程师负责达观数据文本挖掘和NLP算法的开发及应用,在文本分类、观点挖掘和情感分析等领域有丰富实践经验