推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

基于Volcano優(yōu)化機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的性能

華為 容器部門架構(gòu)師

華為云容器部門架構(gòu)師、Volcano開源項(xiàng)目核心成員。先后就職于Platform computing, IBM等公司。
擁有10+大規(guī)模分布式計(jì)算、高性能計(jì)算領(lǐng)域經(jīng)驗(yàn)。熟悉云原生、大數(shù)據(jù)以及AI加速等領(lǐng)域。專注
于大規(guī)模集群資源管理、調(diào)度、作業(yè)調(diào)度引擎的設(shè)計(jì)開發(fā)。

目前主要負(fù)責(zé)Volcano云原生批量計(jì)算平臺(tái)的研發(fā)工作。Volcano社區(qū)致力于在Kubernetes上構(gòu)建一個(gè)
批處理調(diào)度系統(tǒng),提供高性能任務(wù)調(diào)度引擎、高性能異構(gòu)芯片管理、高性能任務(wù)運(yùn)行管理等通用計(jì)算能力。Volcano目前已成為CNCF沙箱項(xiàng)目,廣泛應(yīng)用在大數(shù)據(jù)、AI、基因容器等服務(wù)領(lǐng)域。

華為云容器部門架構(gòu)師、Volcano開源項(xiàng)目核心成員。先后就職于Platform computing, IBM等公司。 擁有10+大規(guī)模分布式計(jì)算、高性能計(jì)算領(lǐng)域經(jīng)驗(yàn)。熟悉云原生、大數(shù)據(jù)以及AI加速等領(lǐng)域。專注 于大規(guī)模集群資源管理、調(diào)度、作業(yè)調(diào)度引擎的設(shè)計(jì)開發(fā)。 目前主要負(fù)責(zé)Volcano云原生批量計(jì)算平臺(tái)的研發(fā)工作。Volcano社區(qū)致力于在Kubernetes上構(gòu)建一個(gè) 批處理調(diào)度系統(tǒng),提供高性能任務(wù)調(diào)度引擎、高性能異構(gòu)芯片管理、高性能任務(wù)運(yùn)行管理等通用計(jì)算能力。Volcano目前已成為CNCF沙箱項(xiàng)目,廣泛應(yīng)用在大數(shù)據(jù)、AI、基因容器等服務(wù)領(lǐng)域。

課程費(fèi)用

6800.00 /人

課程時(shí)長

50分鐘以下及更短時(shí)間

成為教練

課程簡介

案例背景:
隨著Kubernetes的成熟,越來越多的企業(yè)把Kubernetes作為AI、大數(shù)據(jù)、高性能計(jì)算的下一代基礎(chǔ)設(shè)施。然而Kubernetes作為通用解決方案在AI、大數(shù)據(jù)等專業(yè)領(lǐng)域仍然和業(yè)務(wù)訴求存在一定的差距。主要挑戰(zhàn)在調(diào)度能力無法滿足計(jì)算需求、作業(yè)管理能力無法滿足AI訓(xùn)練的復(fù)雜需求、資源管理能力缺少分時(shí)共享等等。Volcano團(tuán)隊(duì)針對(duì)這些挑戰(zhàn)進(jìn)行了各種探索和優(yōu)化實(shí)踐,并取得了優(yōu)異的成果。

解決思路:
我們主要針對(duì)機(jī)器學(xué)習(xí)的特點(diǎn),從調(diào)度方面進(jìn)行了優(yōu)化,提供了組調(diào)度、binpack、拓?fù)湔{(diào)度、GPU共享等多種調(diào)度策略,有效縮短了分布式訓(xùn)練的時(shí)間。同時(shí)我們?cè)鰪?qiáng)了分布式訓(xùn)練作業(yè)的生命周期管理,讓分布式訓(xùn)練更簡單、更高效。

成果:
優(yōu)化后實(shí)際分布式訓(xùn)練性能提升30%以上

目標(biāo)收益

1. 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)平臺(tái)優(yōu)化經(jīng)驗(yàn)
2. 基于Kubernetes的機(jī)器學(xué)習(xí)平臺(tái)調(diào)度系統(tǒng)設(shè)計(jì)經(jīng)驗(yàn)
3. 開源社區(qū)運(yùn)作、參與經(jīng)驗(yàn)

培訓(xùn)對(duì)象

課程內(nèi)容

案例方向


數(shù)據(jù)商業(yè)化/大數(shù)據(jù)架構(gòu)/NLP/人工智能產(chǎn)品落地

案例背景


隨著Kubernetes的成熟,越來越多的企業(yè)把Kubernetes作為AI、大數(shù)據(jù)、高性能計(jì)算的下一代基礎(chǔ)設(shè)施。然而Kubernetes作為通用解決方案在AI、大數(shù)據(jù)等專業(yè)領(lǐng)域仍然和業(yè)務(wù)訴求存在一定的差距。主要挑戰(zhàn)在調(diào)度能力無法滿足計(jì)算需求、作業(yè)管理能力無法滿足AI訓(xùn)練的復(fù)雜需求、資源管理能力缺少分時(shí)共享等等。Volcano團(tuán)隊(duì)針對(duì)這些挑戰(zhàn)進(jìn)行了各種探索和優(yōu)化實(shí)踐,并取得了優(yōu)異的成果。

收益


1. 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)平臺(tái)優(yōu)化經(jīng)驗(yàn)
2. 基于Kubernetes的機(jī)器學(xué)習(xí)平臺(tái)調(diào)度系統(tǒng)設(shè)計(jì)經(jīng)驗(yàn)
3. 開源社區(qū)運(yùn)作、參與經(jīng)驗(yàn)

解決思路


我們主要針對(duì)機(jī)器學(xué)習(xí)的特點(diǎn),從調(diào)度方面進(jìn)行了優(yōu)化,提供了組調(diào)度、binpack、拓?fù)湔{(diào)度、GPU共享等多種調(diào)度策略,有效縮短了分布式訓(xùn)練的時(shí)間。同時(shí)我們?cè)鰪?qiáng)了分布式訓(xùn)練作業(yè)的生命周期管理,讓分布式訓(xùn)練更簡單、更高效。

結(jié)果


優(yōu)化后實(shí)際分布式訓(xùn)練性能提升30%以上

課程費(fèi)用

6800.00 /人

課程時(shí)長

50分鐘以下及更短時(shí)間

預(yù)約體驗(yàn)票 我要分享

近期公開課推薦

近期公開課推薦

活動(dòng)詳情

提交需求