什么是 三推一评一选

& 原子核衰变及半衰期、衰变速度知识点 & “____:请从A、B和C三小题中选定两小...”习题详情
0位同学学习过此题,做题成功率0%
&:请从A、B和C三小题中选定两小题作答.若三题都做,则按A、B两题评分
A.(适合选修3-3的考生)如图所示,有一个固定在水平桌面上的汽缸,内部密闭了质量为m的某种理想气体.(1)如果这种理想气体的摩尔质量为M,阿伏伽德罗常数为N,则汽缸中气体分子数:n= &.(2)现向右推动活塞,将气体压缩.则下列说法正确的是 &A.压缩气体过程中外界对气体做了功,气体的内能一定增加.B.气体被压缩前后,如果气体的温度保持不变,则气体一定放出热量.C.如果汽缸壁和活塞是绝热的,气体被压缩后温度一定升高D.气体被压缩的过程中,气体分子间的距离变小了,所以分子的势能变大了.(3)有一个同学对汽缸加热使气体温度升高,为保持气体体积不变,需要增大压力.发现增大的压力与升高的温度成正比.请你解释这个现象.B.(适合选修3-4模块的考生)(12分)如图所示,在平面镜附近有一个单色点光源S.(1)在图中画出点光源S经过平面镜所成的象.(2)下列说法正确的是 &A.光屏上能看到明暗相间的条纹B.如果在点光源S与光屏之间放入一个三棱镜,将会在光屏上看到彩色的光带C.当观察者高速远离点光源时,发现光的波长变长D.透过两个偏振片观察光源,转动其中一块偏振片时,发现光的强度发生变化,说明光波是横波(3)要使光屏上明暗相间的条纹变宽,可以采用什么方法?C.(适合选修3-5模块的考生)(12分)静止的铀238核(质量为mU)发生α衰变,放出一个α粒子(质量为mα)后生成一个新原子核钍(质量为mT).(1)完成上述核反应方程式:92238U→ & &Th+24He(2)列关于天然放射现象的说法中正确的是 &A.一个铀238发生α衰变放出的能量为:E=(mU-mT-mα)c2B.衰变过程中放出的能量等于原子核的结合能C.天然放射性元素发出的射线引入磁场,α粒子和β粒子向相反方向偏转,说明它们带异种电荷.D.铀238衰变为钍的半衰期是4.5&109年,10克铀238要经过9&109年才能全部衰变掉&&&&&&&&&&&&&&&&&&&&&&&&&(3)若测得铀238核发生α衰变时放出的α粒子的动能为E,试估算形成的钍核的反冲速度的大小.&
本题难度:一般
题型:解答题&|&来源:2010-江苏省无锡市惠山区高三(上)期中物理试卷
分析与解答
习题“____:请从A、B和C三小题中选定两小题作答.若三题都做,则按A、B两题评分
A.(适合选修3-3的考生)如图所示,有一个固定在水平桌面上的汽缸,内部密闭了质量为m的某种理想气体.(1)如果这种理想气体的摩...”的分析与解答如下所示:
A.(选修3-3)(1)求出质量为m的气体的物质的量,然后根据阿伏伽德罗常数的物理意义即可正确解答.(2)明确做功、热传递、内能变化之间的关系,根据热力学第一定律可以正确解答.(3)根据气态方程可知,气体体积保持不变,压强与温度成正比,由于气缸横截面积不变,因此推力与压强成正比.B.(选修3-4模块)(1)根据光的反射原理以及平面镜成像可得出光路图.(2)正确解答该题要掌握:发生光的干涉现象的条件,以及干涉条纹的特点;光的色散、偏振、以及光的多普勒效应.(3)根据光的干涉条纹条纹间距的特点可正确解答.C.(选修3-5模块)(1)根据质量数和电荷数守恒可正确写出核反应方程.(2)正确解答本题需要掌握:质能方程的理解和应用;α、β射线的本质特点,以及α、β粒子的带电性质,受力特点等;正确理解半衰期的物理意义.(3)根据衰变过程中,动量和能量守恒可正确解答.A.(选修3-3)(1)该理想气体的物质的量为:,所以该气体中含有的分子数目为:故***为:(2)A、气体被压缩,外界对气体做功,但是气体吸放热情况不知道,因此内能变化不明确,故A错误;B、温度不变,说明气体内能不变,体积被压缩,外界对气体做功,根据热力学第一定律△U=W+Q,可知气体放热,故B正确;C、由于气缸绝热,因此Q=0,气体被压缩,外界对气体做功,根据△U=W+Q可知,内能增加,故温度升高,故C错误;D、理想气体分子之间的作用力为零,因此分子势能为零,故D错误.故选BC.(3)根据气态方程可知,气体体积保持不变,压强与温度成正比即P=kT,推力为:F=Ps=kts,因此增大的压力与升高的温度成正比.B.(选修3-4模块)(1)点光源成像关于平面镜对称,由此得出图象如下:(2)A、由于是同频率的点光源,因此直接照射到光屏和通过平面镜反射的光,相遇时产生干涉现象,所以光屏上能看到明暗相间的条纹,故A正确;B、由于是单色光源,不可能发生色散现象,故B错误;C、当观察者高速远离点光源时,发生多普勒效应,观察者感到频率变小,因此感觉波长变长,故C正确;D、光的偏振现象说明了光是横波,故D正确.故选ACD.(3)本题中,点光源S与点光源S′相当于两个相干光源,条纹间距为:,其中d为两光源之间的距离,因此为了增大条纹间距,应减小两点光源之间距离,即减小点光源S到平面镜的距离.故采取措施为:减小点光源S到平面镜的距离.C.(选修3-5模块)(1)根据衰变过程中质量数和电荷数守恒可知,钍的电荷数为90,质量数为234.故***为:90,234.(2)A、该过程中的质量亏损为△m?(mU-mT-mα),所以一个铀238发生α衰变放出的能量为:E=(mU-mT-mα)c2,故A正确;B、衰变过程中放出的能量与原子核的结合能不是一回事,故B错误;C、粒子和β粒子向相反方向偏转,说明所受洛伦兹力方向不同,因此电性相反,故C正确;D、铀238衰变为钍的半衰期是4.5&109年,10克铀238要经过9&109年,还剩余2.5克,故D错误.故选AC.(3)衰变过程中动量守恒,因此有:m1v1=m2v2①α粒子与钍核的质量之比为:m1:m2=4:234&&& ②③由①②③可得:.故钍核的反冲速度的大小:.
找到***了,赞一个
如发现试题中存在任何错误,请及时纠错告诉我们,谢谢你的支持!
____:请从A、B和C三小题中选定两小题作答.若三题都做,则按A、B两题评分
A.(适合选修3-3的考生)如图所示,有一个固定在水平桌面上的汽缸,内部密闭了质量为m的某种理想气体.(1)如果这种理...
错误类型:
习题内容残缺不全
习题有文字标点错误
习题内容结构混乱
习题对应知识点不正确
分析解答残缺不全
分析解答有文字标点错误
分析解答结构混乱
习题类型错误
错误详情:
我的名号(最多30个字):
看完解答,记得给个难度评级哦!
经过分析,习题“____:请从A、B和C三小题中选定两小题作答.若三题都做,则按A、B两题评分
A.(适合选修3-3的考生)如图所示,有一个固定在水平桌面上的汽缸,内部密闭了质量为m的某种理想气体.(1)如果这种理想气体的摩...”主要考察你对“原子核衰变及半衰期、衰变速度”
等考点的理解。
因为篇幅有限,只列出部分考点,详细请访问。
原子核衰变及半衰期、衰变速度
与“____:请从A、B和C三小题中选定两小题作答.若三题都做,则按A、B两题评分
A.(适合选修3-3的考生)如图所示,有一个固定在水平桌面上的汽缸,内部密闭了质量为m的某种理想气体.(1)如果这种理想气体的摩...”相似的题目:
C.(选修模块3-5)(1)按照玻尔原子模型,氢原子辐射出一个光子后,则&&&&(选填选项前的字母).A.电子绕核旋转半径增大&&& B.氢原子的电势能增大C.原子的能量值增大&&&&&&& D.电子的动能增大(2)如图所示的是工业生产中常用的光控继电器示意图,它由电源、光电管A、放大器、电磁继电器等部分组成.用绿光照射光电管阴极K时,恰能发生光电效应.①要能在电路中形成电流,图中b端应是电源的&&&&极.②如改用强度比绿光小的蓝光照射,电路中&&&&(填“能”或“不能”)形成电流.(3)在真空中,一个原来静止的U发生衰变后变成一个Th并放出一个动能为E1的粒子,①写出衰变的核反应方程;②如衰变时产生的能量全部以动能的形式释放,真空中的光速为c,原子核的质量之比等于质量数之比,.求衰变过程中总的质量亏损.&&&&
下列说法中正确的是&&&&X射线是处于激发态的原子核辐射出的放射性元素发生一次β衰变,原子序数增加1原子核的半衰期不仅与核内部自身因素无关,还与原子所处的化学状态无关光电效应揭示了光具有粒子性,康普顿效应揭示了光具有波动性
放射性元素1123Na经过6h后只剩没有衰变,它的半衰期是&&&&1&h2&h3&h6&h
“____:请从A、B和C三小题中选定两小...”的最新评论
该知识点好题
1放射性元素氡(&22286Rn)经α衰变成为钋&21884Po,半衰期为3.8天;但勘测表明,经过漫长的地质年代后,目前地壳中仍存在天然的含有放射性元素&22286Rn的矿石,其原因是(  )
2(1)有关科学家和涉及的事实,正确的说法是:&&&&A.普朗克在研究黑体辐射现象时提出量子观点B.卢瑟福的原子模型成功地解释了氢原子的光谱;C.康普顿效应使人们认识到原子核结构的复杂性D.核子结合成原子核不一定放出核能E.天然放射现象使人们认识到原子结构的复杂性G.爱因斯坦由光电效应现象提出了光子说H.个别光子体现粒子性,大量光子体现波动性(2)一个静止的铀核&23292U(原子质量为232.0372u)放出一个α粒子(原子质量为4.0026u)后衰变成钍核&22890Th(原子质量为228.0287u).(已知:原子质量单位1u=1.67×10-27kg,1u相当于931MeV)①写出核衰变反应方程;②算出该核衰变反应中释放出的核能;③假设反应中释放出的核能全部转化为钍核和α粒子的动能,则钍核获得的动能与α粒子的动能之比为多少?
3(1)一块含92238U(铀238)的矿石质量为M,其中92238U的质量为m.已知92238U的半衰期为T,则下列说法正确的是&&&&A.经过时间2T后这块矿石中基本不再含有92238U了B.经过时间2T后矿石中的92238U有m4发生了衰变C.经过时间2T后该矿石的质量剩下M+m4D.经过是3T后矿石中92238U的质量还剩m8(2)氡(22286Rn)是肺癌的一个致病因素,2008年在对北京奥运会的场馆验收时,其中就有一项为放射性污染检测.先检测到某种室内装修的花岗岩材料中的22286Rn发生了α衰变,设某次衰变时放出一个α粒子(42He)并生成新核,衰变前22286Rn核静止,发生衰变时释放出的α粒子的速度大小为v,则新生成核的速度大小和方向分别为&&&&.(填选项前的字母)A、2109v,与α粒子速度同向 B、2109v,与α粒子速度反向 C、2111v,与α粒子速度同向 D、2111v,与α粒子速度反向.
该知识点易错题
1μ子在相对自身静止的惯性参考系中的平均寿命t0≈2.0×10-6s.宇宙射线与大气在高空某处发生核反应产生一批μ子,以v=0.99c的速度(c为真空中的光速)向下运动并衰变.根据放射性衰变定律,相对给定惯性参考系,若t=0时刻的粒子数为N(0),t时刻剩余的粒子数为N(t),则有N(t)=N(0)e-t/t′,式中t′为相对该惯性系粒子的平均寿命.若能到达地面的μ子数为原来的5%,试估算μ子产生处相对于地面的高度h.不考虑重力和地磁场对μ子运动的影响.
2(1)有关科学家和涉及的事实,正确的说法是:&&&&A.普朗克在研究黑体辐射现象时提出量子观点B.卢瑟福的原子模型成功地解释了氢原子的光谱;C.康普顿效应使人们认识到原子核结构的复杂性D.核子结合成原子核不一定放出核能E.天然放射现象使人们认识到原子结构的复杂性G.爱因斯坦由光电效应现象提出了光子说H.个别光子体现粒子性,大量光子体现波动性(2)一个静止的铀核&23292U(原子质量为232.0372u)放出一个α粒子(原子质量为4.0026u)后衰变成钍核&22890Th(原子质量为228.0287u).(已知:原子质量单位1u=1.67×10-27kg,1u相当于931MeV)①写出核衰变反应方程;②算出该核衰变反应中释放出的核能;③假设反应中释放出的核能全部转化为钍核和α粒子的动能,则钍核获得的动能与α粒子的动能之比为多少?
3(1)一块含92238U(铀238)的矿石质量为M,其中92238U的质量为m.已知92238U的半衰期为T,则下列说法正确的是&&&&A.经过时间2T后这块矿石中基本不再含有92238U了B.经过时间2T后矿石中的92238U有m4发生了衰变C.经过时间2T后该矿石的质量剩下M+m4D.经过是3T后矿石中92238U的质量还剩m8(2)氡(22286Rn)是肺癌的一个致病因素,2008年在对北京奥运会的场馆验收时,其中就有一项为放射性污染检测.先检测到某种室内装修的花岗岩材料中的22286Rn发生了α衰变,设某次衰变时放出一个α粒子(42He)并生成新核,衰变前22286Rn核静止,发生衰变时释放出的α粒子的速度大小为v,则新生成核的速度大小和方向分别为&&&&.(填选项前的字母)A、2109v,与α粒子速度同向 B、2109v,与α粒子速度反向 C、2111v,与α粒子速度同向 D、2111v,与α粒子速度反向.
欢迎来到乐乐题库,查看习题“____:请从A、B和C三小题中选定两小题作答.若三题都做,则按A、B两题评分
A.(适合选修3-3的考生)如图所示,有一个固定在水平桌面上的汽缸,内部密闭了质量为m的某种理想气体.(1)如果这种理想气体的摩尔质量为M,阿伏伽德罗常数为N,则汽缸中气体分子数:n=____.(2)现向右推动活塞,将气体压缩.则下列说法正确的是____A.压缩气体过程中外界对气体做了功,气体的内能一定增加.B.气体被压缩前后,如果气体的温度保持不变,则气体一定放出热量.C.如果汽缸壁和活塞是绝热的,气体被压缩后温度一定升高D.气体被压缩的过程中,气体分子间的距离变小了,所以分子的势能变大了.(3)有一个同学对汽缸加热使气体温度升高,为保持气体体积不变,需要增大压力.发现增大的压力与升高的温度成正比.请你解释这个现象.B.(适合选修3-4模块的考生)(12分)如图所示,在平面镜附近有一个单色点光源S.(1)在图中画出点光源S经过平面镜所成的象.(2)下列说法正确的是____A.光屏上能看到明暗相间的条纹B.如果在点光源S与光屏之间放入一个三棱镜,将会在光屏上看到彩色的光带C.当观察者高速远离点光源时,发现光的波长变长D.透过两个偏振片观察光源,转动其中一块偏振片时,发现光的强度发生变化,说明光波是横波(3)要使光屏上明暗相间的条纹变宽,可以采用什么方法?C.(适合选修3-5模块的考生)(12分)静止的铀238核(质量为mU)发生α衰变,放出一个α粒子(质量为mα)后生成一个新原子核钍(质量为mT).(1)完成上述核反应方程式:92238U→________Th+24He(2)列关于天然放射现象的说法中正确的是____A.一个铀238发生α衰变放出的能量为:E=(mU-mT-mα)c2B.衰变过程中放出的能量等于原子核的结合能C.天然放射性元素发出的射线引入磁场,α粒子和β粒子向相反方向偏转,说明它们带异种电荷.D.铀238衰变为钍的半衰期是4.5&109年,10克铀238要经过9&109年才能全部衰变掉(3)若测得铀238核发生α衰变时放出的α粒子的动能为E,试估算形成的钍核的反冲速度的大小.”的***、考点梳理,并查找与习题“____:请从A、B和C三小题中选定两小题作答.若三题都做,则按A、B两题评分
A.(适合选修3-3的考生)如图所示,有一个固定在水平桌面上的汽缸,内部密闭了质量为m的某种理想气体.(1)如果这种理想气体的摩尔质量为M,阿伏伽德罗常数为N,则汽缸中气体分子数:n=____.(2)现向右推动活塞,将气体压缩.则下列说法正确的是____A.压缩气体过程中外界对气体做了功,气体的内能一定增加.B.气体被压缩前后,如果气体的温度保持不变,则气体一定放出热量.C.如果汽缸壁和活塞是绝热的,气体被压缩后温度一定升高D.气体被压缩的过程中,气体分子间的距离变小了,所以分子的势能变大了.(3)有一个同学对汽缸加热使气体温度升高,为保持气体体积不变,需要增大压力.发现增大的压力与升高的温度成正比.请你解释这个现象.B.(适合选修3-4模块的考生)(12分)如图所示,在平面镜附近有一个单色点光源S.(1)在图中画出点光源S经过平面镜所成的象.(2)下列说法正确的是____A.光屏上能看到明暗相间的条纹B.如果在点光源S与光屏之间放入一个三棱镜,将会在光屏上看到彩色的光带C.当观察者高速远离点光源时,发现光的波长变长D.透过两个偏振片观察光源,转动其中一块偏振片时,发现光的强度发生变化,说明光波是横波(3)要使光屏上明暗相间的条纹变宽,可以采用什么方法?C.(适合选修3-5模块的考生)(12分)静止的铀238核(质量为mU)发生α衰变,放出一个α粒子(质量为mα)后生成一个新原子核钍(质量为mT).(1)完成上述核反应方程式:92238U→________Th+24He(2)列关于天然放射现象的说法中正确的是____A.一个铀238发生α衰变放出的能量为:E=(mU-mT-mα)c2B.衰变过程中放出的能量等于原子核的结合能C.天然放射性元素发出的射线引入磁场,α粒子和β粒子向相反方向偏转,说明它们带异种电荷.D.铀238衰变为钍的半衰期是4.5&109年,10克铀238要经过9&109年才能全部衰变掉(3)若测得铀238核发生α衰变时放出的α粒子的动能为E,试估算形成的钍核的反冲速度的大小.”相似的习题。“两推一选”的主要程序是什么?
我的图书馆
“两推一选”的主要程序是什么?
“两推一选”的运作过程,大体分为6个阶段,10个步骤。(一)、准备工作阶段(1)组建领导机构。农村党支部换届前,乡镇党委成立换届选举工作领导小组,书记任组长。乡镇党员领导干部都要建立村党支部换届选举工作联系点,负责具体指导村党支部换届选举工作。届中调整的,由乡镇党委具体负责这项工作。(2)调查摸底,制定选举方案。各乡镇党委要组织力量,逐村进行村情、民情调查,全面掌握现任党支部班子、党员队伍、经济发展,社会稳定等基本情况。在此基础上,有针对性地制定选举工作方案。方案要经过充分讨论,征求意见,反复研究,力求达到科学性、严密性,具有较强的可操作性。(二)宣传发动阶段(3)通过广播、板报、宣传栏和召开党员会、村民大会等多种形式,广泛宣传实行“两推一选”办法选举农村党支部班子成员的目的意义、方法步骤和具体要求。(4)公开选拔职数,选拔对象的条件和标准;公开村里经济和社会发展状况;公开任期责任目标等有关情况。(三)公开报名、资格审查阶段(5)农村党支部领导班子成员预备人选,既可由上级党委、上届村党支部和党员推荐,也可由群众推荐或党员个人自荐。(6)对所推荐的候选人,由乡镇党委换届选举工作领导小组按照选拔条件和标准进行资格审查,届中调整的,由乡镇党委负责。在此基础上,确定产生初步候选人,初步候选人数不低于应选职数的20%。(四)民主测评阶段(7)此阶段可采取两种方式进行,具体采用哪种方式,由各乡镇党委根据实际情况而定。第一种方法:通过召开全体党员大会或入户走访,组织党员对初步候选人投推荐票,党员参加人数应不低于应到会党员总数的五分之四;采取入户走访或召开村民(代表)会议的形式,由村民(代表)对初步候选人以无记名形式投信任票,入户走访或参加村民(代表)会议的人数不低于村民(代表)总数的三分之二,然后,分别统计党员推荐票和村民(代表)信任票。第二种方法:召开全体党员和村民(代表)大会,初步候选人就全村经济发展、社会进步和党建工作、精神文明建设等问题发表施政演讲,提出自己的任期责任目标和实现目标的保证措施;就党员和村民(代表)提出的有关问题进行答辩。然后,由党员投推荐票、村民(代表)投信任票进行民主测评。测评前党支部要把测评时间、地点提前通知全体党员和村民(代表),确保党员参加测评人数不低于应到会党员总数的五分之四。测评后,党员测评票和村民(代表)信任票分别统计。(五)组织考察,确定正式候选人阶段(8)测评结果出来后,党员推荐票和村民(代表)信任票比较一致的,按党员推荐票由高到低确定正式候选人,经组织考察后,报乡镇党委审批。党员推荐人选与村民(代表)信任人选不一致的,由乡镇党委根据组织考察的实际情况,具体确定正式候选人,同时要把有关情况向党员和村民(代表)说明。(六)党内选举阶段(9)按照《党章》和《中国***基层组织选举工作暂行条例》的有关规定,召开全村党员大会,差额选举新的支部委员会。支部委员会产生后,选举书记和副书记。(10)选举结果报乡镇党委审批
TA的最新馆藏
喜欢该文的人也喜欢放假在家看项亮的《推荐系统实践》,觉得写得不错。因为我接触推荐系统的时间也不长,这本书正好适合入门。书里面的理论篇幅不多,比较偏重综述和实验分析,让人能有个感性的认识。如果想加强一下理论背景的话,个人推荐《数据挖掘导论》和《机器学习》。写了一份笔记,书里面有一些错误和不清晰的地方,自己做了些修改,本文是前半部分。
推荐系统和搜索引擎都是为了帮助用户从大量信息中找到自己感兴趣的信息。区别是搜索引擎由用户主动提供关键词来查找信息,推荐系统则不需要,而通过分析用户的历史行为给用户的兴趣建模,主动给用户推荐他们可能感兴趣的信息。
从物品的角度出发,推荐系统可以更好地发掘物品的长尾。长尾商品往往代表了一小部分用户的个性化需求,发掘这类信息正是推荐系统的长项。
推荐系统广泛存在于各类网站中,作为一个应用为用户提供个性化推荐。它需要依赖用户的行为数据,因此一般都由后台日志系统、推荐算法系统和前台展示页面3部分构成。
应用推荐系统的领域包括:
电子商务 - 亚马逊:基于物品、好友的个性化推荐,相关推荐,20~30%
电影视频 - Netflix:基于物品的推荐,60%;YouTube、Hulu
音乐 - Pandora:专家标记;Last.fm:用户行为
社交网络 - Facebook、Twitter
阅读 - Google Reader
基于位置的服务 - Foursquare
个性化邮件 - Tapestry
广告 - Facebook
主要有3种评测推荐效果的实验方法:
离线实验:划分训练集和测试集,在训练集训练用户兴趣模型,在测试集预测
优点:快速方便
缺点:无法用真实的商业指标来衡量
用户调查:用抽样的方法找部分用户试验效果
优点:指标比较真实
缺点:规模受限,统计意义不够
在线实验:AB测试
优点:指标真实
缺点:测试时间长,设计复杂
实际中,这三种方法在推荐算法上线前都要完成。
评测指标较多,一些重要的如下:
用户满意度:调查问卷,线上的用户行为统计、其他的指标转化得到
预测准确度:可通过离线实验计算
评分预测,通过均方根误差和平均绝对误差计算,前者更为苛刻。设 \(r_{ui}\)
为用户 \(u\)
对物品 \(i\)
的实际评分, \(\hat{r}_{ui}\)
为预测评分
\begin{equation*}
RMSE = \sqrt{\frac{\sum_{u,i\in{T}}(r_{ui}-\hat{r}_{ui})^2}{|T|}}
\end{equation*}
\begin{equation*}
MAE = \frac{\sum_{u,i\in{T}}\left|r_{ui}-\hat{r}_{ui}\right|}{|T|}
\end{equation*}
TopN推荐,通过准确率或召回率衡量。设 \(R(u)\)
为根据训练建立的模型在测试集上的推荐, \(T(u)\)
为测试集上用户的选择
\begin{equation*}
Precision = \frac{\sum_{u\in{U}}|R(u) \cap T(u)|}{\sum_{u\in{U}}|R(u)|}
\end{equation*}
\begin{equation*}
Recall = \frac{\sum_{u\in{U}}|R(u) \cap T(u)|}{\sum_{u\in{U}}|T(u)|}
\end{equation*}
覆盖率:表示对物品长尾的发掘能力(推荐系统希望消除马太效应)
\begin{equation*}
Coverage = \frac{|\cup_{u\in{U}}R(u)|}{|I|}
\end{equation*}
上面的公式无法区分不同的分布,可以用熵或基尼系数来更准确地表述覆盖率
\begin{equation*}
H = -\sum_{i=1}^n p(i)\log p(i)
\end{equation*}
为物品 \(i\)
的流行度的比例。
\begin{equation*}
G = \frac{1}{n-1}\sum_{j=1}^n (2j-n-1)p(j)
\end{equation*}
为按流行度由小到大排序的物品列表中的第 \(j\)
个物品的流行度的比例。
多样性:推荐需要满足用户的广泛的兴趣,表示推荐列表中物品两两之间的不相似性。设 \(s(i,j)\)
表示物品 \(i\)
之间的相似度
\begin{equation*}
Diversity(R(u)) = 1 - \frac{\sum_{i,j\in{R(u)},i\ne j}s(i,j)}{\frac{1}{2}|R(u)|(|R(u)|-1)}
\end{equation*}
\begin{equation*}
Diversity = \frac{1}{|U|}\sum_{u\in{U}}Diversity(R(u))
\end{equation*}
新颖性:指给用户推荐他们不知道的物品,可以用平均流行度做粗算,或者更精确地通过做用户调查。
惊喜度:推荐和用户的历史兴趣不相似,却使用户满意的物品。
信任度:只能通过问卷调查来评价,可以通过增加推荐系统的透明度和利用好友信息推荐来提高信任度。
实时性:保持物品的时效性,主要涉及推荐系统实时更新和对新物品的处理。
健壮性:开发健壮性高的算法,清理脏数据,使用代价较高的用户行为设计推荐系统。
商业目标:推荐系统对于网站的价值。
作者认为,离线实验的优化目标是在给定覆盖率、多样性、新颖性等限制条件下,最大化预测准确度。
对推荐系统还需要从多维度来评测,如用户维度、物品维度和时间维度,这样可以更全面地了解推荐系统的性能。
用户行为数据一般从日志中获得,可以按反馈的明确性把用户行为分为显性反馈和隐性反馈。
用户行为数据很多满足长尾分布(Zipf定律)
\begin{equation*}
f(x) = \alpha x^k
\end{equation*}
另外,用户活跃度高,倾向于看冷门的物品。
基于用户行为分析的推荐算法一般称为协同过滤算法,包括基于邻域的方法、隐语义模型、基于图的随机游走算法等,应用最广的是基于邻域的方法。
基于邻域的算法可以分为基于用户的协同过滤算法(UserCF)和基于物品的协同过滤算法(ItemCF)。
UserCF算法主要有两步:
找到和目标用户兴趣相似的用户集合
找到这个集合中的用户喜欢的,且目标用户没有听说过的物品,推荐给目标用户
设 \(N(u)\)
为用户 \(u\)
有过正反馈的物品集合, \(N(v)\)
为用户 \(v\)
有过正反馈的物品集合, \(u\)
的兴趣相似度可以用Jaccard公式或余弦相似度计算
\begin{equation*}
w_{uv} = \frac{|N(u)\cap N(v)|}{|N(u)\cup N(v)|}
\end{equation*}
\begin{equation*}
w_{uv} = \frac{|N(u)\cap N(v)|}{\sqrt{|N(u)||N(v)|}}
\end{equation*}
以余弦相似度为例:
1 def calcUserSimilarity1(t):
w = defaultdict(dict)
# 相似度矩阵
for u in t:
for v in t:
if u != v:
w[u][v] = len(t[u] & t[v]) / math.sqrt(len(t[u]) * len(t[v]))
可以利用稀疏矩阵的性质优化上面的算法:
1 def calcUserSimilarity2(t):
itemUsers = defaultdict(set)
# 物品-用户倒排表
n = defaultdict(int)
# 用户喜欢的物品数
w = defaultdict(dict)
# 相似度矩阵
# 建立倒排表
for u, items in t.iteritems():
for i in items:
itemUsers[i].add(u)
# 计算相似度
for i, users in itemUsers.iteritems():
for u in users:
for v in users:
if u != v:
w[u][v] = w[u].get(v, 0) + 1
for u in w:
for v in w[u]:
w[u][v] /= math.sqrt(n[u] * n[v])
然后用上面的相似度矩阵来给用户推荐和他兴趣相似的用户喜欢的物品。用户 \(u\)
对物品 \(i\)
的兴趣程度可以估计为
\begin{equation*}
p(u,i) = \sum_{v\in{S(u,K)\cap N(i)}} w_{uv}r_{vi}
\end{equation*}
\(S(u,K)\)
为和用户 \(u\)
兴趣最接近的 \(K\)
个用户, \(N(i)\)
为对物品 \(i\)
有正反馈的用户集合, \(w_{uv}\)
为用户 \(u\)
和用户 \(v\)
的兴趣相似度, \(r_{vi}\)
为用户 \(v\)
对物品 \(i\)
1 def recommend(u, t, w, k):
rank = defaultdict(float)
# 推荐结果
su = sorted(w[u].items(), key=itemgetter(1), reverse=True)
for v, wuv in su[:k]:
for i, rvi in t[v].iteritems():
if i not in t[u]:
# 排除已经有过反馈的物品
rank[i] += wuv * rvi
return rank
通过对不同 \(K\)
值下的测量发现:
准确率和召回率并不和 \(K\)
成线性关系,通过多次测量可以选择合适的 \(K\)
越大,推荐的结果越热门,流行度增大
越大,推荐结果的覆盖率越低
可以调整计算用户兴趣相似度的公式来改进算法。注意到用户对冷门物品采取同样的行为更能说明他们的兴趣相似度,可以改用下式计算兴趣相似度
\begin{equation*}
w_{uv} = \frac{\sum_{i\in{N(u)\cap N(v)}} \frac{1}{\log(1+|N(i)|)}}{\sqrt{|N(u)||N(v)|}}
\end{equation*}
上式用 \(\frac{1}{\log(1+|N(i)|)}\)
(IIF参数)减小了热门物品对用户兴趣相似度的影响。将 calcUserSimilarity2 第15行改为
1 w[u][v] = w[u].get(v, 0) + 1 / math.log(1 + len(users))
UserCF算法用的并不多。它的问题是运算复杂度大,并且难以解释推荐的结果。
ItemCF算法是目前应用最多的算法。它也主要分为两步:
根据用户行为计算物品之间的相似度
根据物品的相似度和用户的历史行为给用户生成推荐列表
设 \(N(i)\)
为喜欢物品 \(i\)
的用户数, \(N(j)\)
为喜欢物品 \(j\)
的用户数, \(i\)
的相似度可以计算为
\begin{equation*}
w_{ij} = \frac{|N(i)\cap N(j)|}{\sqrt{|N(i)||N(j)|}}
\end{equation*}
这里面包含的假设是每个用户的兴趣都局限在某几个方面。
计算物品相似度使用和计算用户兴趣相似度类似的方法:
1 def calcItemSimilarity(t):
n = defaultdict(int)
# 喜欢物品的用户数
w = defaultdict(dict)
# 相似度矩阵
for u, items in t.iteritems():
for i in items:
for j in items:
if i != j:
w[i][j] = w[i].get(j, 0) + 1
for i in w:
for j in w[i]:
w[i][j] /= math.sqrt(n[i] * n[j])
然后计算用户 \(u\)
对物品 \(i\)
的兴趣程度
\begin{equation*}
p(u,i) = \sum_{j\in{S(i,K)\cap N(u)}} w_{ij}r_{uj}
\end{equation*}
\(S(i,K)\)
为和物品 \(i\)
最相似的 \(K\)
个物品, \(N(u)\)
为用户 \(u\)
喜欢的物品集合, \(w_{ij}\)
为物品 \(i\)
和物品 \(j\)
的相似度, \(r_{uj}\)
为用户 \(u\)
对物品 \(j\)
的兴趣。它的意思是和用户感兴趣的物品越相似的物品,越应该被推荐。
1 def recommend(u, t, w, k):
rank = defaultdict(float)
# 推荐结果
reason = defaultdict(dict)
# 推荐解释
for j, ruj in t[u].iteritems():
sj = sorted(w[j].items(), key=itemgetter(1), reverse=True)
for i, wij in sj[:k]:
if i not in t[u]:
# 排除已经喜欢的物品
rank[i] += wij * ruj
reason[i][j] = wij * ruj
return rank
ItemCF算法的一个好处是可以给出推荐解释。
对不同 \(K\)
值的测量可以看到:
准确率和召回率和 \(K\)
也不成线性关系
和流行度不完全正相关
增大仍会降低覆盖率
活跃用户对物品相似度的贡献要小于不活跃用户,可以用和IIF类似的IUF参数来修正物品相似度的计算公式
\begin{equation*}
w_{ij} = \frac{\sum_{u\in{N(i)\cap N(j)}} \frac{1}{\log(1+|N(u)|)}}{\sqrt{|N(i)||N(j)|}}
\end{equation*}
将 calcItemSimilarity 第9行改为
1 w[i][j] = w[i].get(j, 0) + 1 / math.log(1 + len(items))
实际计算中,对于过于活跃的用户,一般直接做忽略处理。
对ItemCF的另一个改进是将相似度矩阵归一化,这样可以提高推荐的准确率,以及覆盖率和多样性。
\begin{equation*}
w_{ij}' = \frac{w_{ij}}{\max\limits_i w_{ij}}
\end{equation*}
UserCF算法的特点是:
用户较少的场合,否则用户相似度矩阵计算代价很大
适合时效性较强,用户个性化兴趣不太明显的领域
用户有新行为,不一定造成推荐结果的立即变化
对新用户不友好,对新物品友好,因为用户相似度矩阵需要离线计算
很难提供令用户信服的推荐解释
对应地,ItemCF算法的特点:
适用于物品数明显小于用户数的场合,否则物品相似度矩阵计算代价很大
适合长尾物品丰富,用户个性化需求强的领域
用户有新行为,一定导致推荐结果的实时变化
对新用户友好,对新物品不友好,因为物品相似度矩阵需要离线计算
用用户历史行为做推荐解释,比较令用户信服
和UserCF算法相比,ItemCF算法的离线实验结果要差一些,不过这是在两者优化前的结果,实际优化后性能是接近的。原始ItemCF算法的覆盖率和新颖度不高的原因可以归结为哈利波特问题,也就是热门物品和其他物品的相似度都很高,这个问题一个办法是惩罚热门物品,同时可能还需要引入物品的内容数据来修正。
隐语义模型(LFM)最近几年非常热门,核心思想是通过隐含特征联系用户兴趣和物品。简单说就是对物品的兴趣分类,对于用户,首先确定他的兴趣分类,然后从分类中选择他可能喜欢的物品。
这里的对物品分类的问题,可以用隐含语义分析技术较好地解决。它基于用户行为统计做分类,和专家标记相比:
能代表各种用户的看法
能控制分类的粒度
能给一个物品多个分类
带维度属性
可以确定物品在某个分类中的权重
这些都是专家标记不能或者很难做到的。
隐含语义分析技术其他相关的技术:pLSA、LDA、隐含类别模型、隐含主题模型、矩阵***等
LFM如下计算用户 \(u\)
对物品 \(i\)
\begin{equation*}
Preference(u, i) = r_{ui} = p_u^T q_i = \sum_{k=1}^K p_{u,k}q_{i,k}
\end{equation*}
参数 \(p_{u,k}\)
表示用户 \(u\)
的兴趣和第 \(k\)
个隐类的关系度, \(q_{i,k}\)
表示物品 \(i\)
和第 \(k\)
个隐类的关系度。这两个参数需要通过机器学习得到,利用最优化理论,可以通过最小化下式来计算 \(p\)
\begin{equation*}
C = \sum_{u,i\in K} (r_{ui}-\hat{r}_{ui})^2 = \sum_{u,i\in K} (r_{ui}-p_u^T q_i)^2 + \lambda\|p_u\|^2 + \lambda\|q_i\|^2
\end{equation*}
\(\lambda\|p_u\|^2 + \lambda\|q_i\|^2\)
是用来防止过拟合的正则化项, \(\lambda\)
可通过实验获得。
利用随机梯度下降法,令 \(e_{ui} = r_{ui}-p_u^T q_i\)
,求导,得到递推关系
\begin{equation*}
p_u \gets p_u + \alpha(e_{ui}\cdot q_i - \lambda p_u)
\end{equation*}
\begin{equation*}
q_i \gets q_i + \alpha(e_{ui}\cdot p_u - \lambda q_i)
\end{equation*}
\(\alpha\)
为学习速率。
对于隐性反馈数据,LFM的一个问题是如何给每个用户生成负样本。研究表明,较好的方案是:对每个用户,保证正负样本数相近(设比例为 \(R\)
);选取那些热门但用户却没有选择的物品作为负样本(更能明确表明用户对它不感兴趣)。
下面是LFM推荐算法的一个实现:
1 def selectRandomSample(items, positiveItems):
n = len(items)
mp = len(positiveItems)
for i in positiveItems:
# 正样本 rui = 1
for k in range(0, n * 3):
i = items[random.randint(0, n - 1)]
if i in s:
# 负样本 rui = 0
if mn & mp:
# 正负样本比例为1
18 def calcLatentFactorModel(t, k, step, alpha, lamb):
p, q = initModel(t, k)
# numpy.matrix
for j in range(0, step):
for u, positiveItems in t.iteritems():
sampleItems = selectRandomSample(items, positiveItems)
for i, rui in sampleItems.iteritems():
eui = rui - p[u] * q[i]
p[u] = sum(alpha * (eui * q[i] - lamb * p[u]))
q[i] = sum(alpha * (eui * p[u] - lamb * q[i]))
alpha *= 0.9
return p, q
30 def recommend(u, p, q):
# 推荐结果
for i in q:
rank[i] = sum(p[u] * q[i])
return rank
作者通过实验测量了LFM的主要参数 \(K\)
、 \(\alpha\)
、 \(\lambda\)
对推荐效果的影响。实验表明,正负样本比例 \(R\)
对性能的影响最大,随着负样本数增加,准确率和召回率明显提高,但达到10倍以后,就比较稳定了;同时覆盖率降低,流行度增加。即 \(R\)
控制了发掘长尾的能力。
LFM的效果要优于UserCF和ItemCF算法,但是在数据集非常稀疏时比较差。
设有 \(M\)
个用户, \(N\)
个物品, \(T\)
条行为记录,LFM取 \(K\)
个隐类,迭代 \(S\)
次,离线计算时,时间复杂度:UserCF为 \(O(N(\frac{T}{N})^2)\)
,ItemCF为 \(O(M(\frac{T}{M})^2)\)
,LFM为 \(O(TKS)\)
,LFM略高;空间复杂度:UserCF为 \(O(M^2)\)
,ItemCF为 \(O(N^2)\)
,LFM为 \(O(K(M+N))\)
很大时LFM要小很多。
LFM在实际使用中的一个困难是难以实现实时的推荐,它的训练要依赖于所有的用户行为。雅虎提出了一个解决方案,使用用户的历史行为得到的用户兴趣分类和物品内容属性直接生成的物品分类来计算实时的 \(r_{ui}\)
,之后再使用 \(p_u^T q_i\)
来得到更准确的预测值。
用户行为数据可以用二分图来表示,令 \(G(V,E)\)
表示用户物品二分图, \(V=V_U\cup V_I\)
,对于用户行为数据集中的每个二元组 \((u,i)\)
,图中都有一套对应的边 \(e(v_u, v_i)\)
使用二分图,给用户 \(u\)
推荐物品的问题可以转化为度量用户顶点 \(v_u\)
和与它没有边相连的物品顶点在图上的相关性,相关性越高,物品在推荐列表中的权重越高。
相关性高的顶点对一般有:
顶点间的路径数多
顶点间的路径长度都比较短
顶点间的路径不会经过出度比较大的顶点
书中介绍了一种基于随机游走的PersonalRank算法。对用户 \(u\)
,从它对应的顶点 \(v_u\)
开始在二分图上随机游走。在每个顶点,首先按概率 \(\alpha\)
决定是继续游走,还是停止而从 \(v_u\)
重新开始游走,如果继续,就从当前顶点指向的顶点中按均匀分布随机选择一个继续游走。多次游走后,每个物品顶点被访问的概率会收敛到一个值,即推荐列表中物品的权重。
\begin{equation*}
PR(v) = \left\{\begin{array}{11}
\alpha \sum_{v'\in in(v)} \frac{PR(v')}{|out(v')|} & v \ne v_u \\
\alpha \sum_{v'\in in(v)} \frac{PR(v')}{|out(v')|} + (1-\alpha) & v = v_u
\end{array}\right.
\end{equation*}
1 def calcPersonalRank(g, u, step, alpha):
rank = defaultdict(float)
# 推荐结果
rank[u] = 1.0
for k in range(step):
temp = defaultdict(float)
for i in g:
for j in g[i]:
temp[j] += alpha * rank[i] / len(g[i])
if j == u:
temp[j] += 1 - alpha
rank = temp
return rank
PersonalRank算法的问题是时间复杂度很高,可以考虑减少迭代次数或者利用矩阵计算的办法改进。
在没有大量用户数据的情况下设计个性化推荐系统要面对冷启动问题。有三类:解决增加新用户的用户冷启动;解决增加新物品的物品冷启动;解决新上线的网站的系统冷启动。
对于这三类问题,可以考虑下面这些办法:
提供非个性化的推荐。比如使用热门排行榜作为推荐结果,在用户数据充足之后再改为个性化推荐。
利用用户注册信息。可以利用用户注册时填写的年龄、性别、国家、职业等人口统计学信息,让用户填写兴趣描述,从其他网站导入用户行为数据等。
基于用户注册信息的推荐算法核心是计算每种特征 \(f\)
的用户喜欢的物品,或者说对物品 \(i\)
的喜好程度 \(p(f,i)\)
\begin{equation*}
p(f, i) = \frac{|N_u(i)\cap N_u(f)|}{|N_u(i)|+\alpha}
\end{equation*}
\(\alpha\)
是一个比较大的参数,用来解决数据稀疏时没有统计意义的问题。
选择合适的物品启动用户的兴趣。就是在用户首次访问时,通过让用户反馈一些物品来收集用户的兴趣,可以按决策树的思路设计多个步骤。对物品的选择一般需要比较热门,具有代表性和区分性,物品集合需要有多样性。
利用物品的内容信息。前面3个方法针对的是新用户,而物品的冷启动则在物品时效性较强的场景中非常重要。和UserCF相比,ItemCF算法的物品冷启动问题比较严重。解决物品冷启动问题的一个办法是利用内容信息计算物品的内容相似度,给用户推荐内容相似的物品。
物品的内容可以用向量空间模型表示,对于文本,该模型通过分词、实体检测、关键词排名等步骤将文本表示成一个关键词向量 \(\{(e_1,w_1),(e_2,w_2),...\}\)
权重 \(w_i\)
可以用TF-IDF公式计算
\begin{equation*}
w_i = TF(e_i) * IDF(e_i) = \frac{N(e_i)}{\sum_j N(e_j)} \log\frac{|D|}{1+|D_{e_i}|}
\end{equation*}
\(N(e_i)\)
为文本中 \(e_i\)
出现的次数, \(|D|\)
为语料库的文档总数。
物品的内容相似度可以通过向量的余弦相似度来计算,和前面类似,可以通过关键词-物品倒排表降低时间开销。
尽管内容相似度算法简单,又能解决物品冷启动问题,但一般效果要比协同过滤算法差,因为它没有考虑用户行为的影响。
向量空间模型的一个问题是不能理解含义近似的关键词,因此在内容较少时准确度很差。话题模型通过首先计算文本的话题分布,然后再计算相似度来解决这个问题,如LDA模型。LDA包含文档、话题、词3种元素,每个词属于一个话题,通过迭代收敛得到话题的分布,文档的相似度由话题分布的相似度来度量。分布相似度的计算可以用KL散度(相对熵):
\begin{equation*}
D_{KL}(P\|Q) = \sum_i P(i)\ln\frac{P(i)}{Q(i)}
\end{equation*}
KL散度越大,分布相似度越低。
很多推荐系统在刚建立时,既没有用户行为数据,又没有足够的物品内容信息,这时的一个常用办法是对物品做专家标记。这个过程也可以加入机器学习和用户反馈的机制。
/note//recommend-system/

参考资料

 

随机推荐