This thread has been locked.

If you have a related question, please click the "Ask a related question" button in the top right corner. The newly created question will be automatically linked to this question.

cache延迟周期计算

Ti工程师您好,

我最近在写汇编语言,关注cache stall 的问题,我用的6678的评估板,在计算延迟周期时与手册上的延时周期对应不上。如“TMS320C66x CorePac User Guide”手册中59页提到过计算将32KB的L2SRAM中的内容touch到L1D中需要(0.5 × M + 16) + (10.5 + 4 × (M/2 -1) + 3 × M/2)=2070.5cycle(M Consecutive Parallel Read Misses(pipelined))。而我自己用汇编写的函数,每周期通过AB两侧的功能单元并行访问两个不同的CACHE line(无bank冲突),将32KB的内容全部touch到L1D中只消耗了1443个周期。而采用单侧功能单元每周期touch一个CACHE line则需要2851个周期。

两尝试种结果与手册中计算的2070.5个周期相差都比较大,不知道是什么原因,有没有大神之前自己尝试过?或者手册的计算方式是否准确?或是我在哪里有疏漏?我将L1D配置为32K,L2全部为SRAM。

等待各位大神的回信