ZHCY189A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4APE-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1 , TDA4VPE-Q1
雖然 CPU 和 GPU 適用于其他任務(wù),但它們并不是最適合加速深度學(xué)習任務(wù)的內(nèi)核。CPU 的吞吐量有限且功耗高,而 GPU 則是所有內(nèi)核中功耗最大的,并且內(nèi)存占用量大。
TI 視覺 AI 處理器集成了一個深度學(xué)習加速器,其中包含 ASIC 中的矩陣乘法加速器 (MMA),并固定在可編程 C71 DSP 上。MMA 支持高性能(每個周期可以進行 4K 8 位固定乘法累加)和低功耗傳感器加速,而 C71 DSP 負責加速矢量和標量運算并管理 MMA。
由于將 MMA 和 C71 DSP 結(jié)合起來,該加速器能夠提供非常出色的性能(每秒推理次數(shù))和能效(每瓦推理次數(shù))。C71 內(nèi)核的編程靈活性可以滿足邊緣 AI 創(chuàng)新的需求。當不用于深度學(xué)習時,該內(nèi)核能以低功耗處理其他計算密集型任務(wù)。
智能存儲器架構(gòu)實現(xiàn)了加速器的高效利用。該加速器配置了內(nèi)置的存儲器子系統(tǒng),用于數(shù)據(jù)傳輸?shù)膶S?4D 可編程直接存儲器存取 (DMA) 引擎,以及專用的流硬件。這些流硬件可以將數(shù)據(jù)直接從外部存儲器傳輸?shù)?C71 內(nèi)核和 MMA 的功能單元,而繞過高速緩存。平鋪和超平鋪功能可更大限度地減少與外部存儲器之間的數(shù)據(jù)傳輸。
表 2 顯示了 AM68A 和集成 8TOPS 加速器的 TDA4VM 上的 8 位固定推理性能。報告的性能采用批次 1 和單個 32 位 LPDD4。
網(wǎng)絡(luò) | 圖像分辨率 | 每秒幀數(shù) (fps) |
---|---|---|
MobileNet_v1 | 224 × 224 | 741 |
Resnet-50 V1.5 | 224 × 224 | 162 |
SSD-MobileNets-V1 | 300 × 300 | 385 |
免責聲明:TI 使用 MLPerf 建議的模型和準則進行了邊緣 AI 推理基準測試。TI 尚未將結(jié)果提交給 MLcommons 組織。