计算机组成原理第二章 第8讲 定点乘法运算_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
计算机组成原理第二章 第8讲 定点乘法运算
上传于||文档简介
&&计算机组成原理第二章
大小:919.00KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢【图文】计算机组成原理课件第3章_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
计算机组成原理课件第3章
上传于||文档简介
&&计算机组成原理课件
大小:4.94MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢计算机组成原理2_3_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
计算机组成原理2_3
上传于||文档简介
&&计算机组成原理
大小:338.00KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢后使用快捷导航没有帐号?
查看: 1604|回复: 3
【讨论】白中英的不带符号的阵列乘法器
中级战友, 积分 1948, 距离下一级还需 1052 积分
K币1056 元
在线时间391 小时
主题帖子积分
中级战友, 积分 1948, 距离下一级还需 1052 积分
中级战友, 积分 1948, 距离下一级还需 1052 积分
K币1056 元
白中英的不带符号的阵列乘法器的时间估计是怎么来的??
不是很理解
[ 本帖最后由 lonelyskytaut 于
10:39 编辑 ]
K币3383 元
在线时间370 小时
主题帖子积分
K币3383 元
沿着本图中红色路径走,即可推算出最长时间。
注意,最后一行称为“行波进位加法器”,其延时:(n-1)*2T
PS:其实这部分知识非重点,不用深究。
(48.09 KB, 下载次数: 1)
07:44 上传
中级战友, 积分 1948, 距离下一级还需 1052 积分
K币1056 元
在线时间391 小时
主题帖子积分
中级战友, 积分 1948, 距离下一级还需 1052 积分
中级战友, 积分 1948, 距离下一级还需 1052 积分
K币1056 元
谢谢大大............
那个(n-1)*6T 是哪一部分,还不是很理解.............
K币3383 元
在线时间370 小时
主题帖子积分
K币3383 元
课程预告,帮学堂出品
首先,乘法阵列的被加数产生部件是m*n个并行的与门,时延为2T。
根据35页推算,可以知道FA产生本位和的时延为6T,因此时延为(n-1)*6T。
[ 本帖最后由 juxie 于
20:44 编辑 ]
您还剩5次免费下载资料的机会哦~
扫描二维码下载资料
使用手机端考研帮,进入扫一扫在“我”中打开扫一扫,扫描二维码下载资料
||||||||||
Powered by Discuz!在一个周期内处理乘累加运算的制作方法
专利名称在一个周期内处理乘累加运算的制作方法
背景本发明关于基于处理器的系统,更特指,乘法累加单元。
一个乘法累加单元,或MAC,是为执行乘法操作设计的单元。在基于处理器的系统中,此类操作可能很多。
MAC可能用多种逻辑实现。由于有多个乘法运算存在于应用程序中,通常选用最快的MAC。任何MAC的设计成功可能与其耗电量,MAC电路所在位置的大小限制,MAC的用途及其它因素相关。
通常,然而,速度和成本之间的折衷使优化执行的MAC的设计很困难。其成本以附加硬件,容纳硬件所需的芯片空间或驱动硬件所需的耗电量的形式出现。
例如,在很多数字信号处理应用中,或DSP,一些重要的操作涉及一系列的乘和加操作。因此,高吞吐量的MAC对获得高性能是重要的。然而,很多当今的DSP应用要求低耗电量,特别是在便携式电子市场。
因此,对能实现高吞吐量而又不过多耗电的MAC是一种持久的需求。
概要本发明的一个实施例中,一种方法包括在单元的第一部分接收操作数的第一集,在操作数的第一集上执行多个操作产生第一个中间结果并在单元的第一部分接收操作数的第二集。之后,在第一中间结果上执行第二个多个操作产生第一个最终结果,同时第二个多个操作在操作数的第二集上执行产生第二个中间结果。
本发明的优点和其他特性由下面叙述,图和权利要求中变得明显。
附图的简述附图说明
图1为按本发明一个实例的乘累加器的方块图;图2A和2B是使用按照本发明的一个实例如图1的MAC执行的乘法操作的流程图;图3是使用按照本发明的一个实例如图1的MAC的16位乘法操作的执行时间表;图4A-4C是使用按照本发明的一个实例如图1的MAC的一个不指明的被执行的乘法操作的流程图;图5是使用按照本发明的一个实例如图1的MAC的被执行的包装后数据的乘法操作的流程图。
详细描述从最基本的角度讲,MAC接收两个整数值,把两个值相乘并送出操作的结果。对一些应用来说,附加的常数,一个累加值,可能被加到结果中。所以,MAC将生成结果d,由被乘数a乘以乘数b加累加值c,如以下等式所示d=(a*b)+c乘法操作可按一系列部分积的和的方式执行。为获得优化的性能,MAC可能包括执行更快的附加操作或减少必备附加操作数量的特点。
例如,典型的MAC包括一个Booth编码器,也称为Booth重编码器或Booth乘法器。Booth编码器可减少执行乘法步骤的数量。被相加的部分积的数量也因此减少。例如,16位长字,部分积的数量可由16减少到8,除了二。
MAC中另一个特性被称为Wallace树。Wallace树是执行多个加操作的结构。Wallace树通常包括特性,如加法器,帮助执行多个部分积的加法操作。
例如,Wallce树可能包括一组省进位(carry-save)加法器。一个3至2省进位加法器,例如,接收3个输入a,b和c,产生两个输出,一个是和y,一个是进位z,如以下等式a+b+c=y+z*2输出进位是为下个操作被省略的,因此命名。
Wallace树可能组织了省进位加法器或相似逻辑,如一组输入值通常产生两个结果,和值和进位值。例如,四阶段Wallace树可能包括四阶段3至2省进位加法器。该四阶段Wallace树可能接收九个输入向量,并生成一个和向量和一个进位向量作为结果。
许多MAC设计的另一个特性是加所有两个向量位的逻辑以生成最后结果,例如,一个进位预测(carry look-ahead)加法器,或CLA,是一种这样的逻辑设备。CLA能有效的执行两个多位操作数的加法。
特别是对于数字信号处理和其他应用,MAC以很快的速度乘16位带符号整数的能力是一个很重要的考虑因素。为提高16位或更大整数操作数的乘法运算的速度,MAC可包括附加电路。例如,MAC的每个组件可被复制,如此多个操作可同时运行。控制并行操作的控制逻辑也是MAC的一部分。然而,附加硬件可能很贵,可获得空间可能有限,支持性硬件的附加电源可能被使用。
另一个MAC设计是使操作上流水线,这样一种新的乘操作可能在预先操作还没有被MAC硬件完成之前在流水线上某处被处理。流水线化可能涉及几个被执行操作的阶段,每个阶段独立操作。流水线化因此可能使用附加的控制逻辑和硬件,如寄存器,为暂时存储两个,三个或多个由MAC硬件同时执行的独立操作状态。虽然比提供并行硬件便宜,附加的控制逻辑可能增加开发成本和减少可获得的板上或芯片上空间。再有,支持流水线的MAC运行更慢。
更高吞吐量的MAC可能使用常规的结构特性实现,而又不过分的影响硬件的成本或电源需求。在本发明的一些实现中,MAC设计提供的为同时操作MAC的两个功能单元的16位乘法操作的单周期吞吐量。
图1中,按本发明的一个实现,MAC100包括一个Booth编码器10,一个多路复用器,或MUX,阵列14,一个Wallace树20,和一个进位预测加法器,或CLA,30。MAC100可接收两个输入值,被乘数A和乘数B,还有累加数据值C。输入值A,B,C可为16位,32位或更长的带符号整数。
在本发明的一个实施例中,Booth编码器一次接收长至乘数B的16位,因此生成多至8个控制信号12a-12h。MUX阵列14在接收被乘数A的同时由Booth编码器10接收8个控制信号12a-12h。该MUX阵列14产生多至8个部分积,16a-a6h,并被发送到Wallace树20。
在本发明的一个实施例中,该Wallace树20是个四阶段单元,包括一些省进位加法器(没有显示)。该Wallace树20因此接收9个输入信号并输出两个输出信号,一个和向量22a和进位向量22b。和向量22a和进位向量22b被连续的输入CLA30,并被相加。连续的或同时的,和向量22a和进位向量22b可被送回MUX阵列14进行进一步处理。
该MAC100包括3个触发器库6a-6c。触发器6使被乘数A,乘数B和累加数据C的部分被发送到MAC100的其他逻辑部分进一步处理。例如,如果32位乘数B[310]被发送到MAC100作为乘法操作的一部分,触发器6b可在两个16位的部分,B[3116]或B[150],之间转换,控制乘数B的那部分被发送到Booth编码器10。
该MAC100也包括MUX8A-8E。该MUX8可通过MAC100的后来的单元控制信号的接收。例如,MUX8a-8c与触发器6a-6c连接工作以控制被乘数A,乘数B,和累加数C的哪部分被MUX阵列14,Booth编码器10或Wallace树20分别一一对应的接收。该MUX8d通过CLA30控制和向量22a和进位向量22b的接收。该MUX8e使由CLA30来的输出值34在需要时成为符号扩展的。
该MAC100包括两个MUX的库和由Wallace树接收输出信号22a和22b的触发器24a和24b。该MUX和触发器24a被用于输入和向量22a和进位向量22b回MUX阵列14。依执行操作的不同,26a回馈MUX阵列14。该反馈是多阶段MAC操作的通常特点,如为执行32位乘法时。
该MAC100包括一个第二MUX和触发器24b,和向量22a和进位向量22b发到此处。然后,这些值被通过MUX8d发送到CLA30。在本发明的一个实现中,和向量22a和进位向量22b被同时发送到单元24a和24b。
在本发明的一些实施例中,该MAC100包括结构上的提高,此提高可能提高乘法操作的吞吐量。例如,本发明的一个实现中,该MAC100包括两个寄存器,累加器A32a和累加器B32b。该累加器32可由CLA30接收结果向量34。本发明的一个实现中,结果向量34可存于累加器32中。例如,在第一个操作中,可能为中间结果的结果向量,被存于累加器A32a中。下一步操作中,后一个结果向量被存于累加器B32b中。
该累加器32都为递交到Wallace树连接到MUX8c。该配置允许存于任意累加器32的值被作为累加值递交到Wallace树而不是由MAC100的外部源(C)接收累加数据。依以下将显示,累加器32可帮助本发明一个实现中MAC100中执行操作的吞吐量。
该MAC100可支持不明确的指令如不明确的乘法指令。不明确的指令是一种指令在此一个或多个中间结果被存于MAC的内部,如在寄存器中。包括在MAC电路中的寄存器允许MAC避免通过外部总线发送中间结果到MAC外的存储位置。因此,支持不指明操作MAC可处理指令比无此种支持的MAC更快。
对很多乘法操作来说,MAC电路在得到最终结果之前可提供多个中间结果。传统的MAC设计通常由Wallace树接收一个中间结果,一个中间和向量和一个中间进位向量,为下一步处理返回结果到MUX阵列。该方案在必要时被重复。最后,由Wallace树生成的和向量和进位向量代表了最终结果。然后,该值被发送到CLA,在此他们被加到一起后被发送到MAC电路作为最终结果。
在图1的实现中,如需要的话,中间和向量22a和中间进位向量22b在一个周期内可被发送到CLA30。该CLA30可能使中间和向量22a和中间进位向量22b相加,产生存于累加器32之一中的中间结果34。
该MAC100设计中的反馈逻辑允许中间结果34作为累加数据18,通过MUX8c,由累加器32之一返回Wallace树20。回想起Wallace树20包括为累加数据18的输入线18。图1中,MUX8c允许累加数据18的源到包括累加器32。
本发明的一个实施例中,MAC100提供允许同时操作Wallace树20和CLA30的电路。本发明的一个实现中,该电路包括早期中止逻辑50和MAC控制52。该电路通过MAC100可控制多个乘法操作或单个乘法操作的多个部分的同时处理。
在典型的实现中,MAC可接收带符号的二进制值作为操作数。例如,一个二的补充符号可能被使用。在二的补充符号中,最重要的值中的位可代表符号零是正值,一为负值。因此,在二的补充符号中,16位的操作数FFC1h可代表-63d和操作数003Fh可代表+63d。
另外,在一些应用中,16位值可由32位值代表。符号位(第十五位)可因此在十六位上扩展或复制。因此,符号扩展操作数FFFFFFC1h可代表-63d,操作数0000003Fh可代表+6 3d。两个操作数的高十七位是一致的,如符号位(第十五位)被扩展。同样的,对两个值来说,高十六位不需要执行乘法操作。
在本发明的一个实施例中,早期终结逻辑50使用这一带符号二进制值的特性为MAC100的优势。在图1中,早期终结逻辑50在32位的乘数B的高十七位相同时被启用。在这种情况下,乘数B的高十六位在乘法运算中没有被用到。
一旦激活,早期终端逻辑50发送信号到MAC控制逻辑52。该MAC控制逻辑52控制触发器6,MUX8和MUX和触发器24,还有累加器32。该MAC控制逻辑52因此是下一个被乘数A通过触发器6a和MUX8a相连,下一个乘数B通过触发器6b和MUX8b相连,或下一个累加数C通过触发器6c和MUX8c相连。
另外,该MAC控制逻辑52可控制由Wallace树30接收的中间和向量22a,中间进位向量22b和中间进位向量的路径。该MAC控制逻辑52可使MUX和触发器24a,MUX和触发器24b,和MUX8d在需要时有效。
该MAC控制逻辑52进一步控制累加器A寄存器32a和累加器B寄存器32b,以允许在其中的值被作为累加输入18送回Wallace树20。最后,该MAC控制逻辑52可控制MUX8e,如需要最终输出向量34可为符号扩展的,并生成输出值40。
在本发明的一个实施例中,该MAC控制单元52可由MAC100的外部源接收控制信号,如一个指令解码器(没有显示)。该MAC控制单元52也可提交控制信号到另一个MAC100的外部源。
依据被执行操作的不同,该MAC100可产生中间向量值。例如,本发明的一个实现中,Booth编码器10由乘数B接收一个16位值。因此,为了乘两个32位数,或一个16位被乘数和一个32位乘数,该Booth编码器10可在第一个周期接收乘数的低16位然后在第二个周期接收乘数的高16位。同样,MAC100的其他电路可在第一和第二周期都接收数据。该乘法操作因此只用了最少的两个周期。
对于一些操作来说,该MAC100可在完成单周期的输入输出。在本发明的一个实现中,MAC100在执行16位乘法操作时,可获得单周期的输入输出。在操作数的第一集被接收到MAC100后,Wallace树66和CLA68可同时处理后面的操作数。例如,Wallace树可在CLA68为周期n-1处理数据时,处理周期n的数据。
图2A中,一个流程图阐明了MAC100逻辑如何处理乘法或乘/累加操作。在该例中,两个16位操作数是符号扩展后的如32位值的形式。该操作数在DSP应用中是常见的且可特别说明在MAC100中的早期中止逻辑50的性能。然而,MAC100可在具有其他特点的操作数上执行乘或乘/累加操作。
第一个周期,即0周期,开始(块200)。在本发明的一个实现中,乘数B[150]低十六位被发送到Booth编码器10(块202)。MUX阵列14由Booth编码器10接收八个控制信号12和被乘数A[310](块204)。MUX阵列14处理这些信号,Wallace树20从MUX阵列14接收8个部分积向量16。另外,该Wallace树20接收累加数据C[31;0](块206)。从这些数据中,Wallace树20产生一个中间和向量(ISV)22a和中间进位向量(ICV)22b(块208)。该中间和向量22a和中间进位向量22b被发送到MUX和触发器24a和24b(块210)。
独立于前述操作,在0周期的开始(块200),早期中止逻辑50可接收32位的乘数B[310](块212)。因为操作数是符号扩展的16位值,乘数B的高17位是一样的。因此,早期中止逻辑50发送信号以连接处发起6a,6b和6c还有MUX8a,8b和8c(块216)。此方式中,MAC控制逻辑52电路连接下一个MAC操作数A,B和C。
在图2B中,第二周期,即1周期,是图2A操作的延续。在1周期开始时(块230),MAC控制逻辑52发送信号到MUX8d以发布中间和向量22a和中间进位向量22b并发送到CLA30(块234)。因此,CLA30将中间和向量22a和中间进位向量22b相加(块236)。然后,结果40被发送出MAC100(块238)。因此,1周期完成。
在图3中,按本发明的一个实施例使用MAC100的16位乘法操作的单周期输入输出可由图表说明。在图表的顶部,一系列MAC100执行的标记数字后的乘法操作被描述。在图表的左部,在该执行的周期是被特指的。按本发明的一个实现,该图表追踪Wallace树20执行的操作,被标为“W”,由CLA30执行的被标为“C”。
对第一个16位乘法操作,当CLA30在1周期执行时,Wallace树20在0周期执行。对第二个16位乘法操作,当CLA30在2周期执行时,Wallace树20在1周期执行。CLA30对一个乘法操作的执行和Wallace树20对第二个16位乘法操作的执行是同时进行的。如该图表所示,后面的16位乘法操作如以上两个已描述的方式进行。在第15周期结束时,15个16位乘法操作已完成。对于本发明一个实现的一些乘法操作,MAC100因此提供了单周期的输入输出。
累加器32允许MAC100执行不明确的乘法和乘/累加操作。在第二个实现中,MAC100可包括一个单累加器。累加器32可由几个不明确指令以不指明的方式作参数。那种不指明的乘法/累加指令引用了累加器32而不是某个特殊的寄存器作为累加器。
例如,本发明一个实施例中的指令,MAR或MRA可由MAC控制逻辑52为了累加器32可被分别读出和写入而接收。在图4A中,流程图显示了不指明的乘法/累加操作,在此早期中断被启用。回忆以前,为了早期中断被启用,乘数B的另外17位都为0后都为1。
当0周期开始时(块300),乘数B[150]被发送到Booth编码器10(块302)。然后,MUX阵列14由Booth编码器10接收8个控制信号12和被乘数A[310](块304)。
Wallace树由MUX阵列14接收8个部分积。另外,Wallace树20由累加器A32a和累加器B32b接收累加值。然后,Wallace树产生一个中间和向量22a和一个中间进位向量22b(块308)。
在本发明的一个实施例中,进位预测加法器30是一个40位的CLA,可执行16位的DSP操作。同样,累加器A寄存器32a和累加器B寄存器32b是40位寄存器。因此,在下一步操作中,中间和向量22a和中间进位向量22b的低40位被发送到触发器24a和24b(块310)。
仍然在0周期的开始,整个32位的乘数B被发送到早期中断逻辑(EFL)50(块312)。因为乘数B的高17位是一致的,早期中断逻辑50发送信号到MAC控制逻辑52(块314)。然后,MAC控制逻辑52发送信号以连接触发器6a,6b,6c和MUX8a,8b,8c(块316)。这指出Wallace树20将可以在下个周期接收下一个不指明的乘法/累加指令(块318)。
在图4B中,1周期开始(块330)。MAC控制逻辑52发送信号到MUX8d以发布中间和向量22a和中间进位向量22b(块332)。然后,CLA30使两个22的值相加产生一个中间结果34(块334)。因为这是一个不明确的指令,该结果34被存于累加器A32a或累加器B32b(块336)中。这样就结束了1周期(块338)。
在本发明的一个实施例中,MAC100可接收引用了累加器的不明确指令。这些指令可由最终控制累加器A32a和累加器B32b的MAC控制逻辑52接收。
例如,在图4C中,MAC控制逻辑52可为读取累加器A32a接收不指明的指令(块350)。在累加器A32a和累加器B32b中得知被发送到CLA30(块352)。然后,CLA30使值36a和36b相加(块354)。然后,CLA30发送结果40作为输出数据(块356)。然后,结果40可被发送到MAC100外部的寄存器文件。
在图5中,一个带有不指明的累加操作的乘法使用打包后的数据指令。在本发明的一个实现中,MAC100可接收4种不同的打包后的数据指令。这4个打包后的数据指令在16位或半个两个32位操作数上执行。例如,一个指令可在乘数B和被乘数A的低16位上操作。最后,每个打包后数据指令因此在两个16位操作数上执行一个16位乘法操作。
在0周期的开始(块400),一个32位的被乘数A[310]和一个32位的乘数B[310]被发送到MAC100(块402)。MAC控制逻辑52也接收一个打包后数据指令(块404)。
被乘数A的16位被扩展到32位。例如,如果打包后数据指令正在被乘数A的低16位上操作,那么被乘数A的高16位由被乘数A的低16位的内容所代替。其实是符号被由第16位扩展到第32位。同样,如果打包后数据指令在被乘数A的高16位上操作,那么高16位被移位到低16位且高16位被填入符号位的值。
乘数B的16位被发送到Booth编码器(块408)。例如,如果打包后数据指令在乘数B的低半部上操作,然后B[150]被发送到Booth编码器10。同样,为在乘数B的高半部操作的打包后数据指令,B[3116]未被发送到Booth编码器10。
由此来看,打包后数据指令正如任何其他不指明指令一样操作。因此,由MAC100执行的下一个操作在图4A中(块304)。
正如对其他操作,MAC100同时决定是否早期中止逻辑50被启用。那就是乘数B[310]被发送到早期中止逻辑50(块420)。因为乘数B的高17位是一致的,早期中止逻辑50发送型号到MAC控制逻辑52(块422)。然后,MAC控制逻辑52发送信号以连接触发器6a,6b,6c和MUX8a,8b,8c(块424)。这允许一个新的MAC指令在下个周期被处理(块426)。
因此,一个乘累加期间可特定操作提供单周期输入输出。按照本发明的一个实现中,MAC避免使用可能耗更多电能,其包括无可能运行更慢的流水线电路的冗余硬件。实际上,Wallace树和MAC一部分的进位预测加法器可同时操作。这种同时操作的现实使更高吞吐量成为可能。
虽然本发明仅被描述为有限的实现上,本领域中的资深人士可认识到很多可做的改动和变化。我们试图使附加的权利要求涵盖所有落入本发明真正精神和范畴的改动和变化。
1.一种方法,包括接收操作数的第一集到乘法-累加单元;在操作数的第一集上执行第一操作生成第一个中间结果;接收操作数的第二集到乘法-累加单元;在操作数的第二集上执行第一操作生成第二个中间结果,并在第一中间结果上执行第二操作。
2.如权利要求1所述方法,其中接收操作数第一集进一步包括接收乘数到Booth编码器;接收被乘数到多路复用器阵列。
3.如权利要求2所述方法,其中在操作数的第一集上执行第一操作进一步包括由Booth编码器发送多个控制信号到多路复用器阵列
4.如权利要求2所述方法,其中在操作数的第一集上执行第一操作进一步包括由多路复用器阵列发送多个部分积到Wallace树。
5.如权利要求4所述方法,其中接收操作数的第一集进一步包括接收一个累加值到Wallace树。
6.如权利要求5所述方法,其中在操作数的第一集上执行第一操作进一步包括在接收多个部分乘积和累加值后,激活Wallace树中多个省进位加法器。
7.如权利要求1所述方法,其中在第一中间结果上执行第二操作进一步包括接收第一中间结果作为第一部分和第二部分;第一和第二部分相加。
8.如权利要求7所述方法,其中在第一中间结果上执行第二操作进一步包括发送第一部分和第二部分至进位预测加法器;激活进位预测加法器。
9.一种设备,包括一个执行多个加操作的结构;一个加法器;和一个控制器,它允许使用该结构对第一操作数的一部分执行第一操作,同时加法器对第一操作数的另一个部分执行第二操作。
10.如权利要求9所述设备,进一步包括一个与加法器耦合的内部存储媒体。
11.如权利要求9所述设备,其中执行多个加法操作的结构包含Wallace树。
12.如权利要11所述设备,其中Wallace树包含多个省进位加法器。
13.如权利要求12所述设备,其中Wallace树是一个4阶段Wallace树。
14.如权利要求9所述设备,其中加法器是一个进位预测加法器。
15.如权利要求9所述设备,进一步包括Booth编码器与执行多个加法操作的结构耦合。
16.如权利要求12所述设备,其中Wallace树接收9个输入向量并产生两个输出向量。
17.如权利要求10所述设备,其中内部存储媒体包括一或多个累加器。
18.如权利要求17所述设备,其中一或多个累加器与加法器的输出耦合。
19.一种设备,包括一个Wallace树;一个加法器;和一个控制器,发送多个信号以引起Wallace树在加法器执行指令的一部分时执行指令的另一部分。
20.如权利要求19所述设备,其中加法器是一个进位预测加法器。
一个乘法累加器,或MAC(100),可以实现高吞吐量。MAC不需要使用冗余硬件,如多个乘Wallace树,或流水线逻辑,然而,可能同时为不同操作执行Wallace树和进位预测加法器功能。
文档编号G06F7/533GK814443
公开日日 申请日期日 优先权日日
发明者Y·寥, T·M·哈梅南蒂拉, D·B·罗伯茨 申请人:英特尔公司