面向深度學習圖像分類的GPU并行方法研究
計算機工程
頁數(shù): 10 2022-03-24
摘要: 針對深度學習圖像分類場景中多GPU并行后傳輸效率低的問題,提出一種低時間復雜度的Ring All Reduce改進算法。通過分節(jié)點間隔配對原則優(yōu)化數(shù)據(jù)傳輸流程,緩解傳統(tǒng)參數(shù)服務器并行結構的帶寬損耗?;跀?shù)據(jù)并行難以支撐大規(guī)模網(wǎng)絡參數(shù)及加速延緩的問題,根據(jù)深度學習主干網(wǎng)絡所包含的權重參數(shù)低于全連接層權重參數(shù)、同步開銷小、全連接層權重大與梯度傳輸開銷過高等特點,提出GPU混合并行優(yōu)... (共10頁)