[C#] .NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension)

这篇具有很好参考价值的文章主要介绍了[C#] .NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者: zyl910

发现.NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension),这给编写SIMD向量化算法带来了方便。

一、指令说明

在学习Arm的AdvSimd(Neon)指令集时,发现它的Lookup(查表)功能,类似X86的Sse系列指令集中的字节Shuffle(换位。如 _mm_shuffle_epi8 )功能。
而且Arm的Lookup不仅支持单个向量的查表,且支持多个向量的查表。具体来说,是2~4个向量。
单个向量查表(如 vqvtbl1q_u8)时,只能在 16字节(128位)的范围内进行查表。而使用4个向量查表(如 vqtbl4q_u8 )时,能在 16*4=64字节(512位)的范围内进行查表。

.NET 5.0开始支持Arm的内在函数,但当时仅支持单个向量查表。
现在 .NET 8.0 补上了这个空缺。

二、API文档的变化

对于AdvSimd.Arm64.VectorTableLookup 方法,.NET 5.0 的文档是只有2个重载。

VectorTableLookup(Vector128<SByte>, Vector128<SByte>)    // int8x16_t vqvtbl1q_s8(int8x16_t t, uint8x16_t idx)
VectorTableLookup(Vector128<Byte>, Vector128<Byte>)    // uint8x16_t vqvtbl1q_u8(uint8x16_t t, uint8x16_t idx)

到了.NET 8.0 ,文档多了6个重载。

VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)        // uint8x16_t vqtbl4q_u8 (uint8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)    // uint8x16_t vqtbl3q_u8 (uint8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)    // uint8x16_t vqtbl2q_u8 (uint8x16x2_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl4q_s8 (int8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl3q_s8 (int8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl2q_s8 (int8x16x2_t t、uint8x16_t idx)

可见,2、3、4个向量的查表功能都加上了了。随后再区分一下 Byte/SByte 这2种类型,于是共增加了 3*2=6 个重载。

三、官方说明

查了一下,发现在官方博文《Arm64 Performance Improvements in .NET 8》(.NET 8 中的 Arm64 性能改进)里有说明。
这一段内容的机器翻译如下。

VectorTableLookup 和 VectorTableLookupExtension
在 .NET 8 中,我们在System.Runtime.Intrinsics.Arm命名空间下添加了两组新的 API:VectorTableLookup和 VectorTableLookupExtension。

      public static Vector64<byte> VectorTableLookup((Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);
      public static Vector64<byte> VectorTableLookup(Vector64<byte> defaultValues, (Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);

让我们看一下每个 API 的示例。

// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1

Vector64<byte> ans = VectorTableLookup((a, b), index);

// ans = 4, 160, 5, 0, 30, 40, 150, 2

在上面的示例中,向量 a 和 b 被视为一个表,共有 32 个条目(16 个来自 a,16 个来自 b),索引从 0 开始。如果索引超出范围,例如在我们的示例中试图访问索引 40,API 将返回该超出范围索引的值 0。

// Vector64<byte> d = 100, 200, 300, 400, 500, 600, 700, 800
// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1

Vector64<byte> ans = VectorTableLookupExtension(d, (a, b), index);

// ans = 4, 160, 5, 400, 30, 40, 150, 2

与 VectorTableLookup相反,当使用VectorTableLookupExtension方法时,如果索引超出有效范围,则结果中的相应元素将由参数中提供的defaultValues值确定。值得注意的是,这些 API 还有其他变体,它们也在 3 实体和 4 实体元组上运行,为各种用例提供了灵活性。

在 dotnet/runtime#85189 中,@MihaZupan 利用此 API 优化了 IndexOfAny,显著提高了 30% 的性能。同样,在 dotnet/runtime#87126 中,@SwapnilGaikwad 显著增强了 Guid 格式化器的性能,实现了高达 40% 的性能提升。这些优化表明,利用这一强大的 API 可以大幅提高性能。

四、X86平台的对应

X86的Sse、Avx系列指令集,仅支持单个向量查表。
直到Avx512系列指令集的出现,它增加了2个向量查表的指令 VPERMI2B

.NET8.0也增加了对Avx512系列指令集的支持,便支持了该指令。

对于512位向量,可以使用 Avx512Vbmi 类中的方法。

PermuteVar64x8x2(Vector512<Byte>, Vector512<Byte>, Vector512<Byte>)    // __m512i _mm512_permutex2var_epi8 (__m512i a, __m512i idx, __m512i b)
PermuteVar64x8x2(Vector512<SByte>, Vector512<SByte>, Vector512<SByte>)    // __m512i _mm512_permutex2var_epi8 (__m512i a, __m512i idx, __m512i b)

对于128、256位向量,可以使用 Avx512Vbmi.VL 类中的方法。文章来源地址https://www.toymoban.com/news/detail-842833.html

PermuteVar16x8x2(Vector128<Byte>, Vector128<Byte>, Vector128<Byte>)    // __m128i _mm_permutex2var_epi8 (__m128i a,__m128i idx,__m128i b)
PermuteVar16x8x2(Vector128<SByte>, Vector128<SByte>, Vector128<SByte>)    // __m128i _mm_permutex2var_epi8 (__m128i a,__m128i idx,__m128i b)

PermuteVar32x8x2(Vector256<Byte>, Vector256<Byte>, Vector256<Byte>)    // __m256i _mm256_permutex2var_epi8 (__m256i a, __m256i idx, __m256i b)
PermuteVar32x8x2(Vector256<SByte>, Vector256<SByte>, Vector256<SByte>)    // __m256i _mm256_permutex2var_epi8 (__m256i a, __m256i idx, __m256i b)

参考文献

  • 《AdvSimd.Arm64.VectorTableLookup 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.arm.advsimd.arm64.vectortablelookup?view=net-8.0
  • 《Avx512Vbmi.PermuteVar64x8x2 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.permutevar64x8x2?view=net-8.0
  • 《Avx512Vbmi.VL 类》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.vl?view=net-8.0
  • Kunal Pathak《Arm64 Performance Improvements in .NET 8》. https://devblogs.microsoft.com/dotnet/this-arm64-performance-in-dotnet-8/

到了这里,关于[C#] .NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • ARM寄存器组织

    ARM寄存器组织

     ARM有37个32位长的寄存器: 1个用做PC(Program Counter); 1个用做CPSR(Current Program Status Register); 5个用做SPSR(Saved Program Status Registers); 30个通用寄存器。 ARM处理器共有37个寄存器,被分为若干个组(BANK),这些寄存器均为32位的寄存器。6个状态寄存器,用以标识CPU的工作状

    2024年02月01日
    浏览(26)
  • Arm汇编---寄存器

    寄存器:r0~r15, sp, lr, sb, sl, fp, ip, pc 条件码:eq, ne, hs, lo, mi, pl, vs, vc, hi, ls, ge, lt, gt, le, al ------------------------------------------ 一、数据寄存器 --------------------------------------------- ------------------------------------------ 二、指针寄存器 --------------------------------------------- --------------------

    2024年02月02日
    浏览(12)
  • ARM处理器有哪些工作模式和寄存器?各寄存器作用是什么?ARM异常中断处理流程?

    ARM处理器有哪些工作模式和寄存器?各寄存器作用是什么?ARM异常中断处理流程?

    快速学习嵌入式开发其他基础知识? 返回专栏总目录 《嵌入式工程师自我修养/C语言》 Tip📌:鼠标悬停双虚线/句,可获得更详细的描述   ARM处理器有多种工作模式,如下表所示。应用程序正常运行时,ARM处理器工作在 用户模式(User mode) ,当程序运行出错或有中

    2024年02月21日
    浏览(284)
  • ARM中的寄存器

    ARM中的寄存器

    ARM工作模式 ARM有8个基本的工作模式 User 非特权模式,一般在执行上层的应用程序时ARM处于该模式 FIQ 当一个高优先级中断产生后ARM将进入这种模式 IRQ 当一个低优先级中断产生后ARM将进入这种模式 SVC 当复位或执行软中断指令后ARM将进入这种模式 Abort 当产生存取异常时ARM将进

    2024年02月03日
    浏览(11)
  • ARM编程模型-寄存器组

    ARM编程模型-寄存器组

    Cortex A系列ARM处理器共有40个32位寄存器,其中33个为通用寄存器,7个为状态寄存器。usr模式和sys模式共用同一组寄存器。 通用寄存器包括R0~R15,可以分为3类: 未分组寄存器R0~R7 分组寄存器R8~R14、R13(SP) 、R14(LR) 程序计数器PC(R15)、R8_fiq-R12_fir为快中断独有 在不同模式下,名称相同的

    2024年02月10日
    浏览(11)
  • 12.3 ARM寄存器组织

    12.3 ARM寄存器组织

    目录 ARM寄存器组织(一) 寄存器 概念 作用 分类 ARM寄存器 ARM寄存器组织(二) 专用寄存器 R15(PC,Program Counter) R14(LR,Link Register) R13(SP,Stack Pointer) ARM寄存器组织(三) CPSR寄存器 ARM寄存器组织(一) 寄存器 概念 寄存器是处理器内部的存储器,没有地址 C语言中register存储在寄

    2024年02月13日
    浏览(12)
  • 【ARM】——当前程序状态寄存器 CPSR

    【ARM】——当前程序状态寄存器 CPSR

    Current Program Status Register 即 CPSR,当前程序状态寄存器,可以在任何处理器模式下被访问。它包含了条件标志位、中断禁止位,当前处理器模式标志以及其他的一些控制和状态位。 除了 usr 和 sys 模式外,每一种处理器模式下都有一个专用的物理寄存器,称为 SPSR(备份程序状态寄

    2024年02月03日
    浏览(14)
  • day3 ARM寄存器组织

    day3 ARM寄存器组织

    目录 寄存器  ARM寄存器 专用寄存器 CPSR寄存器 概念: 寄存器是处理器内部的存储器,没有地址; 作用: 一般用于暂时存放参与运算的数据和运算结果; 分类: 包括通用寄存器、专用寄存器、控制寄存器;   注:在某个特定模式下只能使用当前模式下寄存器,一个模式下

    2024年02月08日
    浏览(14)
  • ARM汇编寄存器和常用指令详解

    ARM汇编寄存器和常用指令详解

    对于32位及其以下的ARM处理器来说,函数调用规则如下: 父函数与子函数的入口参数以此通过 R0~R3 这4个寄存器传递。 父函数在调用子函数前先将子函数入口参数存入 R0~R3 寄存器中,若只有一个入口参数则使用 R0 寄存器传递,若有2个入口参数则使用 R0 和 R1 寄存器传递,以

    2024年02月03日
    浏览(13)
  • ARM64 寄存器、常用汇编指令收集

    ARM64 有34个寄存器,包括31个通用寄存器、SP、PC、CPSR。 寄存器 位数 描述 x0-x30 64bit 通用寄存器,如果有需要可以当做32bit使用:WO-W30 FP(x29) 64bit 保存栈帧地址(栈底指针) LR(x30) 64bit 通常称X30为程序链接寄存器,保存子程序结束后需要执行的下一条指令 SP 64bit 保存栈指针,使用

    2023年04月20日
    浏览(15)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包