課程簡介
案例背景:
隨著人工智能的普及,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于各個(gè)行業(yè)。然后數(shù)據(jù)顯示目前分布式訓(xùn)練在很多場景下依然面臨復(fù)雜度高、訓(xùn)練效率達(dá)不到期望的狀況。分布式訓(xùn)練的性能優(yōu)化受到了越來越多的關(guān)注。華為云Volcano團(tuán)隊(duì)針對(duì)GPU利用率低、數(shù)據(jù)傳輸延遲、節(jié)點(diǎn)計(jì)算密度不足等場景進(jìn)行了優(yōu)化實(shí)踐,提供了多種解決方案并取得了實(shí)質(zhì)性的成果。
解決思路:
我們主要針對(duì)分布式訓(xùn)練的特點(diǎn),主要從調(diào)度方面進(jìn)行了優(yōu)化,提供了組調(diào)度、binpack、拓?fù)湔{(diào)度、GPU共享等多種調(diào)度策略,有效縮短了分布式訓(xùn)練的時(shí)間。同時(shí)我們?cè)鰪?qiáng)了分布式訓(xùn)練作業(yè)的生命周期管理,讓分布式訓(xùn)練更簡單、更高效。
成果:
優(yōu)化后實(shí)際分布式訓(xùn)練性能提升30%以上
目標(biāo)收益
1. 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)平臺(tái)優(yōu)化經(jīng)驗(yàn)
2. 基于Kubernetes的機(jī)器學(xué)習(xí)平臺(tái)調(diào)度系統(tǒng)設(shè)計(jì)經(jīng)驗(yàn)
3. 開源社區(qū)運(yùn)作、參與經(jīng)驗(yàn)
培訓(xùn)對(duì)象
課程內(nèi)容
案例方向
數(shù)據(jù)商業(yè)化/大數(shù)據(jù)架構(gòu)/NLP/人工智能產(chǎn)品落地
案例背景
隨著人工智能的普及,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于各個(gè)行業(yè)。然后數(shù)據(jù)顯示目前分布式訓(xùn)練在很多場景下依然面臨復(fù)雜度高、訓(xùn)練效率達(dá)不到期望的狀況。分布式訓(xùn)練的性能優(yōu)化受到了越來越多的關(guān)注。華為云Volcano團(tuán)隊(duì)針對(duì)GPU利用率低、數(shù)據(jù)傳輸延遲、節(jié)點(diǎn)計(jì)算密度不足等場景進(jìn)行了優(yōu)化實(shí)踐,提供了多種解決方案并取得了實(shí)質(zhì)性的成果。
收益
1. 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)平臺(tái)優(yōu)化經(jīng)驗(yàn)
2. 基于Kubernetes的機(jī)器學(xué)習(xí)平臺(tái)調(diào)度系統(tǒng)設(shè)計(jì)經(jīng)驗(yàn)
3. 開源社區(qū)運(yùn)作、參與經(jīng)驗(yàn)
解決思路
我們主要針對(duì)分布式訓(xùn)練的特點(diǎn),主要從調(diào)度方面進(jìn)行了優(yōu)化,提供了組調(diào)度、binpack、拓?fù)湔{(diào)度、GPU共享等多種調(diào)度策略,有效縮短了分布式訓(xùn)練的時(shí)間。同時(shí)我們?cè)鰪?qiáng)了分布式訓(xùn)練作業(yè)的生命周期管理,讓分布式訓(xùn)練更簡單、更高效。
結(jié)果
優(yōu)化后實(shí)際分布式訓(xùn)練性能提升30%以上