2022-03-14

较复杂的内存和缓存概念

在内存缓存基础概念中，我们讨论了一些内存和缓存的基本概念，本部分主要讨论一些复杂的内存和缓存概念。

hash组相联和skewed-associative

组相联较好的平衡了电路复杂度和缓存miss率，但是他也有一定的不足。以常见的基于内存地址的某几位的组相联为例：

假设cache line=64Byte，四路组相联，那么相当于每间隔64*4=256B的内存地址就会被映射到同一路中。如果我们有一个二维数组double a[100][8]，我们在访问第二维(a[i][0])时，这些地址实际上会被映射到同一路cache中，导致cache miss上升且cache利用率不高。
恶意程序可以通过观测不同缓存组的命中率进行攻击。比如将cache填满无用数据造成大量cache miss进而导致性能下降，推测目标进程的物理地址并注入等。

现代处理器会使用hash函数而不是内存地址的固定某几位判断属于哪个组。这样可以将内存地址与组的联系黑盒化，提升整体cache利用率。诸如Skylake的12-way，Xeon的16-way，20-wayL3cache都是通过将内存地址取hash后填入对应cache set的。

skewed-associative是另一种降低cache miss的方式。在普通组相联的情况下，假设内存地址f1,f2,f3他们经过hash后得到的结果一致，那么他们就会被映射到同一个组的cache line中。skewed-associative则将不同地址直接与cache line联系起来，比如f1可以放在set1line1-2，set2line3-4；f2可以放在set1line1,3，set2line2,4。这样打破了组相联不同组之间的屏障，降低cache miss率。arm的某些处理器可以配置sekwed-associative。

值得注意的是，这些设计都是在硬件层实现的，对于开发者来说应该是透明的。同时，实际测试经验表明传统的一些方法，如间隔插入变量手动映射地址到不同set没什么效果（因为已经被硬件做好了），但是内存地址对齐到cache line的效果还是比较明显的，尤其是在avx等向量化指令下。

VIVT，VIPT，PIVT和PIPT

cache中的cache line与内存地址通过index和tag对应起来，之前提到过，内存地址存在虚拟地址和物理地址，因此index和tag既可能是虚拟地址(Virtual)计算出的，又可能是物理地址(Physical)计算出的，组合后有VIVT,VIPT,PIVT和PIPT四种。对于CPU来说，其执行的地址是虚拟地址，也就是说VI和VT操作可以直接计算，而PI和PT操作需要通过MMU查TLB计算。

VIVT

VIVT cache的好处是快，因为不需要通过MMU转换地址，但是由于虚拟地址的特性，VIVT存在2个潜在缺点

假设有两个不同的进程A,B想要修改某个地址的值，其虚拟地址va相同而物理地址pa不同。如果进程A修改了它的va地址中的值，在B中观察到的现象就是cache中B的va的值也被改变了，因为cache中AB的va地址的index和tag是一致的。
假设有两个不同的进程A,B想要修改某个地址的值，其物理地址pa相同而虚拟地址va不同。如果进程A修改了A中va地址的值，在B中无法观察到这一更新，因为cache中AB的va和index和tag是不同的。

解决方法一般有两种，一是在切换进程时清空缓存，这样能保证cache中的数据时正确的，但是性能会受到较大损失。二是增加一个标记标记cache line归属于哪个进程，这样会增加电路设计复杂度。

VIPT

VIPT计算index时使用虚拟地址，而计算tag时采用物理地址。如果设计合理，比如计算index的内存位数都在page offset的bit中，那么VI和PI的计算结果时一致的。此时VIPT的性能比PIPT好，且避免了VIVT中的问题2。而在一般情况下，VIPT也能避免VIVT中的问题1。

PIPT

PIPT虽然慢，但是能完美解决VIVT中的问题1，2。其主要收益是切换进程不用清空缓存。

PIVT

PIVT使用较少，原因是index一般比tag先计算（先计算在哪个组，在比较组中的cache line查看命中）。在此情况下，使用PIPT和PIVT的性能非常接近，因此往往直接采用PIPT的设计。

VIVT一般被用来设计指令cache(l1i,l2i)，因为其缺点可以被避免（切换进程肯定要清空指令），而收益较大。
VIPT被大量应用，如intel和AMD的cpu的l1d，l2等都采用了VIPT。
PIPT有时候被arm采用，因为在移动端处理器上频繁flush cache可能带来较大的能耗。

值得注意的是，有些设计暴露给开发者的是VIPT，但是底层硬件实际是PIPT，如arm的某些处理器。开发者在非必要的情况下无需关注cache line的具体组成结构，因为大多数完备的硬件已经保证cache能被合理的利用。

NUMA与缓存一致性

NUMA指的是在多节点下，不同CPU核心只能直接访问部分内存地址或缓存，访问剩下的内存需要让能直接访问这些地址的CPU核心代为访问并转发，这是提升横向扩展性的代价之一。常见的例子从多路服务器到家用电脑，比如Ryzen 3100和3300x之间性能的区别。经验表明对于内存密集型任务来说，NUMA能较好地利用多个node之间的带宽，但是其延迟较大，例如Xeon E5V3直接访问内存比访问另一个CPU连接的内存要快3倍。

缓存一致性指的是多核系统不同核心之间独立的l1(l2)缓存与共享的内存(有时包括llc)中数据发生冲突的情况。这可能发生在运行在不同核心上的多个程序试图访问/修改同一个内存地址，或者一个线程被调度到其他核心上，需要访问其在之前运行的核心上已经修改的内存数据。常见的解决方案是设置一个脏位标记，并通过一种控制协议，如MSI等控制。简单来说，这些协议通过M(modified),S(Shared),I(Invalid)等状态标记数据的有效性，同时决定何时将缓存中的数据传送到另一个缓存。也有不同的状态组合，比如MI，MEI，MSEI等等，一般状态越多能更完备的表示数据的状态，其性能也应该越好。