ZHCAEL7B July 2022 – December 2024 AM623 , AM625
LMBench 是一套適用于處理器內(nèi)核和操作系統(tǒng)基元的微基準(zhǔn)測(cè)試工具。存儲(chǔ)器帶寬和延遲相關(guān)測(cè)試非常適用于現(xiàn)代嵌入式處理器。每次運(yùn)行的結(jié)果略有不同 (<10%)。
LMBench 基準(zhǔn)測(cè)試 bw_mem 測(cè)量實(shí)現(xiàn)的存儲(chǔ)器復(fù)制性能。參數(shù) cp 復(fù)制數(shù)組,bcopy 參數(shù)使用運(yùn)行時(shí) glibc 版本的 memcpy() 標(biāo)準(zhǔn)函數(shù)。利用 SIMD 等實(shí)現(xiàn)更高性能,在實(shí)施高度優(yōu)化的基礎(chǔ)上進(jìn)行 glibc 實(shí)踐。等于或小于給定級(jí)別高速緩存大小的 size 參數(shù)可測(cè)量進(jìn)行典型的 for 循環(huán)或 memcpy() type 操作的軟件可實(shí)現(xiàn)的存儲(chǔ)器帶寬。通常用于計(jì)算外部存儲(chǔ)器帶寬。帶寬根據(jù)字節(jié)讀寫(每讀寫 1 字節(jié)計(jì)為 1)計(jì)算,結(jié)果約為 STREAM 復(fù)制結(jié)果的一半。表 3-1 展示了相對(duì)于理論線速測(cè)得的帶寬和效率。使用的線速計(jì)算方式為:DDR MT/s x 寬度 ÷ 2(構(gòu)成復(fù)制的讀取和寫入均會(huì)消耗總線)。此基準(zhǔn)測(cè)試還允許利用 -P 參數(shù)創(chuàng)建并行線程。要獲得更大的多核存儲(chǔ)器帶寬,請(qǐng)創(chuàng)建與操作系統(tǒng)可用內(nèi)核相同數(shù)量的線程,對(duì)于 AM62x Linux 來說,為 4 個(gè) (-P 4)。
說明 | Arm Cortex-A53,DDR4-1600MT/s-16 位 | DDR4 效率 | |
---|---|---|---|
bw_mem -P 2 8M bcopy | 四核,glibc memcpy | 1222MB/s | 76% |
bw_mem 8M bcopy | 單核,glibc memcpy | 887MB/s | 55% |
bw_mem -P 4 8M cp | 四核,內(nèi)聯(lián)復(fù)制循環(huán) | 731MB/s | 46% |
bw_mem 8M cp | 單核,內(nèi)聯(lián)復(fù)制循環(huán) | 590MB/s | 37% |
LMBench 基準(zhǔn)測(cè)試 lat_mem_rd 用于測(cè)量觀察到的外部存儲(chǔ)器(AM62x 上的 DDR4 和 LPDDR4)的存儲(chǔ)器訪問延遲和高速緩存命中率。兩個(gè)參數(shù)分別為事務(wù)大小(表 3-2 中的 64)和讀取跨度 (512)。選擇這兩個(gè)數(shù)值來測(cè)量高速緩存和外部存儲(chǔ)器的延遲,而不是處理器數(shù)據(jù)預(yù)取器或其他推測(cè)性執(zhí)行的延遲。存取模式可實(shí)現(xiàn)預(yù)取,但此基準(zhǔn)測(cè)試特別適用于無法實(shí)現(xiàn)預(yù)取的存取模式下的相關(guān)測(cè)量。左列是數(shù)據(jù)存取模式的大?。▎挝粸檎鬃止?jié)),右側(cè)是往返讀取延遲(單位為納秒)。Arm Cortex-A53 讀取延遲概述如下:
DDR4-1600: | LPDDR4-1600: |
|
|