首页  > 百科热搜  > 看完微软大神写的求平均值代码,我意识到自己还是too young了

看完微软大神写的求平均值代码,我意识到自己还是too young了

发布时间:2023-08-23 14:00:11     作者:量子位     浏览量:863    

平均符号

博雯 发自 凹非寺

量子位 | 公众号 QbitAI

平均符号

取整求个无符号整数的平均值,居然也能整出花儿来?

平均符号

这不,微软大神Raymond Chen最近的一篇长文直接引爆外网技术平台,引发无数讨论:

无数人点进去时无比自信:不就是一个简单的相加后除二的小学生编程题吗?

但跟着大神的一路深挖,却逐渐目瞪狗呆……

先从开头提到的小学生都会的方法看起,这个简单的方法有个致命的缺陷:

如果无符号整数的长度为32位,那么如果两个相加的值都为最大长度的一半,那么仅在第一步相加时,就会发生内存溢出

也就是average(0x80000000U, 0x80000000U)=0。

不过解决方法也不少,大多数有经验的开发者首先能想到的,就是预先限制相加的数字长度,避免溢出。

具体有两种方法:

1、当知道相加的两个无符号整数中的较大值时,减去较小值再除二,以提前减少长度

2、对两个无符号整数预先进行除法,同时通过按位与修正低位数字,保证在两个整数都为奇数时,结果仍然正确。

(顺带一提,这是一个被申请了专利的方法,2016年过期)

这两个都是较为常见的思路,不少网友也表示,自己最快想到的就是2016年专利方法

同样能被广大网友快速想到的方法还有SWAR(SIMD within a register)

以及C++ 20版本中的std: : midpoint函数。

接下来,作者提出了第二种思路

如果无符号整数是32位而本机寄存器大小是64位,或者编译器支持多字运算,就可以将相加值强制转化为长整型数据。

不过,这里有一个需要特别注意的点:

必须要保证64位寄存器的前32位都为0,才不会影响剩余的32位值。

像是x86-64和aarch64这些架构会自动将32位值零扩展为64位值:

而Alpha AXP、mips64等架构则会将32位值符号扩展为64位值。

这种时候,就需要额外增加归零的指令,比如通过向左进位两字的删除指令rldicl:

或者直接访问比本机寄存器更大的SIMD寄存器,当然,从通用寄存器跨越到SIMD寄存器肯定也会增加内存消耗。

如果电脑的处理器支持进位加法,那么还可以采用第三种思路

这时,如果寄存器大小为n位,那么两个n位的无符号整数的和就可以理解为n+1位,通过RCR(带进位循环右移)指令,就可以得到正确的平均值,且不损失溢出的位。

带进位循环右移

那如果处理器不支持带进位循环右移操作呢?

也可以使用内循环(rotation intrinsic)

结果是,x86架构下的代码生成没有发生什么变化,MSCver架构下的代码生成变得更糟,而arm-thumb2的clang 的代码生成更好了。

Raymond Chen1992年加入微软,迄今为止已任职25年,做UEX-Shell,也参与Windows开发,Windows系统的很多最初UI架构就是他搞起来的。

他在MSDN 上建立的blogThe Old New Thing也是业内非常出名的纯技术向产出网站。

这篇博客的评论区们也是微软的各路大神出没,继续深入探讨。

有人提出了新方法,在MIPS ASM共有36个循环:

有人针对2016年专利法表示,与其用(a / 2) + (b / 2) + (a & b & 1)的方法,为啥不直接把 (a & 1) & ( b & 1 ) ) 作为进位放入加法器中计算呢?

还有人在评论区推荐了TopSpeed编译器,能够通过指定合适的代码字节和调用约定来定义一个内联函数,以解决“乘除结果是16位,中间计算值却不是”的情况。

只能说,学无止境啊。

原文:
https://devblogs.microsoft.com/oldnewthing/20220207-00/?p=106223

参考链接:
https://news.ycombinator.com/item?id=30252263

收藏文章

收藏

文章标签: too     young     大神    
上一篇:四川出炉“十年禁渔”时间表 下一篇:干货输出 | 细腰翘臀、燃脂塑形,小姐姐手把手教你练习椭圆机