cache延迟周期计算

zi hu

Ti工程师您好，

我最近在写汇编语言，关注cache stall 的问题，我用的6678的评估板，在计算延迟周期时与手册上的延时周期对应不上。如“TMS320C66x CorePac User Guide”手册中59页提到过计算将32KB的L2SRAM中的内容touch到L1D中需要(0.5 × M + 16) + (10.5 + 4 × (M/2 -1) + 3 × M/2)=2070.5cycle（M Consecutive Parallel Read Misses(pipelined)）。而我自己用汇编写的函数，每周期通过AB两侧的功能单元并行访问两个不同的CACHE line（无bank冲突），将32KB的内容全部touch到L1D中只消耗了1443个周期。而采用单侧功能单元每周期touch一个CACHE line则需要2851个周期。

两尝试种结果与手册中计算的2070.5个周期相差都比较大，不知道是什么原因，有没有大神之前自己尝试过？或者手册的计算方式是否准确？或是我在哪里有疏漏？我将L1D配置为32K，L2全部为SRAM。

等待各位大神的回信

7 年多前

处理器

处理器论坛

cache延迟周期计算