課程簡介
第一天重點(diǎn)介紹多模態(tài)技術(shù)的背景、應(yīng)用場景、技術(shù)原理以及在內(nèi)容型公司的應(yīng)用實(shí)踐。內(nèi)容包括生成式AI、基礎(chǔ)大模型技術(shù)、圖片和視頻生產(chǎn)技術(shù)、ASR技術(shù)、虛擬人技術(shù)等。第二天則深入探討多技術(shù)原理,多模態(tài)在影視漫游類的應(yīng)用,以及高質(zhì)量視頻生產(chǎn)的多模態(tài)工具使用。課程旨在通過理論與實(shí)踐相結(jié)合的方式,幫助學(xué)員全面理解并掌握多模態(tài)技術(shù)。
目標(biāo)收益
1,掌握多模態(tài)大模型的基本原理和技術(shù)框架,理解多模態(tài)數(shù)據(jù)處理的核心技術(shù)和方法。
2,深入了解多模態(tài)大模型在文字、音頻、影視等多個(gè)內(nèi)容賽道的應(yīng)用場景和市場需求,為實(shí)際應(yīng)用提供有力支持。
3,學(xué)會運(yùn)用多模態(tài)大模型進(jìn)行內(nèi)容理解、內(nèi)容生成等關(guān)鍵技術(shù)操作,提升在相關(guān)領(lǐng)域的工作效率和創(chuàng)新能力。
培訓(xùn)對象
課程大綱
模塊一:多模態(tài)基礎(chǔ)(第一天) 理論向(上午):多模態(tài)技術(shù)背景與應(yīng)用介紹 |
1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示) 2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應(yīng)用場景,包括文本、圖像、視頻生成等。 a.基礎(chǔ)大模型技術(shù)(性能、價(jià)格、速度) b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強(qiáng)) c.Sora類視頻化技術(shù)(運(yùn)動、實(shí)體一致性、3D化) d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì)) e.虛擬人、具身智能與基礎(chǔ)算力服務(wù) 3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。 a.多模態(tài)應(yīng)用行業(yè)地圖(工具向 & 娛樂向) b.基礎(chǔ)類視覺圖片應(yīng)用(美圖、稿定、MJ等) c.基礎(chǔ)類視頻應(yīng)用(Runway、Pika、Pixelverse & 快手可靈、LumaAI) d.辦公泛工具類(AI-PPT、效率、創(chuàng)意) e.垂直場景類2B應(yīng)用(客服、營銷、培訓(xùn)等) f.情感陪伴類C端應(yīng)用(星野、talkie、筑夢島等) 4.互動:自由問答 |
實(shí)踐向(下午):多模態(tài)在內(nèi)容型公司的應(yīng)用路徑 |
1.多模態(tài)應(yīng)用開發(fā)實(shí)踐范式(整體開發(fā)流程介紹) 2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署) 3.開發(fā)資源與團(tuán)隊(duì)構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài)) 4.當(dāng)前內(nèi)部應(yīng)用示例(垂類模型、可控生圖、規(guī)?;杀荆?br/>5.圖像實(shí)踐展開: a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等; b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風(fēng)轉(zhuǎn)化 等; c.ControlNet:插件原理、字體設(shè)計(jì)、AI模特服裝 等; 6.SD-WebUI與ComfyUI實(shí)踐展示 |
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天) 理論(上午):多技術(shù)原理概覽 |
1.世界模型的起源? a.AI視頻模型技術(shù)演進(jìn)(VDM/MAV/AnimateDiff/SVD/DIT/Sora) b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出 2.生產(chǎn)環(huán)境下多模態(tài)落地 a.圖片:IP衍生品/社區(qū)配圖/多格漫 b.有聲:多播、音樂、情感、模仿 c.虛擬人:數(shù)字分身、互動唱歌、直播 3.成本與收益(GPU選型、推理加速框架、極限成本、市場價(jià)格) 4.互動:自由問答 |
實(shí)踐(下午):多模態(tài)在影視漫游類的應(yīng)用 |
1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具 a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞; b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等; c.視頻部分:SVD、Dreamina、Runway等; d.音樂部分:Suno、韻律模型、聲音克隆 等; e.整體合成:市場成本、實(shí)際成本; 2.實(shí)踐Dify/Coze 類Agent平臺: a.簡介:Workflow工作流與調(diào)試 介紹; b.驗(yàn)證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件); c.多模態(tài):Coze 圖像流 操作手冊; d.場景實(shí)踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等); 3.互動: a.自由問答 分組練習(xí):結(jié)合自己工作的業(yè)務(wù)特點(diǎn)進(jìn)行智能體建模。 |
模塊一:多模態(tài)基礎(chǔ)(第一天) 理論向(上午):多模態(tài)技術(shù)背景與應(yīng)用介紹 1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示) 2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應(yīng)用場景,包括文本、圖像、視頻生成等。 a.基礎(chǔ)大模型技術(shù)(性能、價(jià)格、速度) b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強(qiáng)) c.Sora類視頻化技術(shù)(運(yùn)動、實(shí)體一致性、3D化) d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì)) e.虛擬人、具身智能與基礎(chǔ)算力服務(wù) 3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。 a.多模態(tài)應(yīng)用行業(yè)地圖(工具向 & 娛樂向) b.基礎(chǔ)類視覺圖片應(yīng)用(美圖、稿定、MJ等) c.基礎(chǔ)類視頻應(yīng)用(Runway、Pika、Pixelverse & 快手可靈、LumaAI) d.辦公泛工具類(AI-PPT、效率、創(chuàng)意) e.垂直場景類2B應(yīng)用(客服、營銷、培訓(xùn)等) f.情感陪伴類C端應(yīng)用(星野、talkie、筑夢島等) 4.互動:自由問答 |
實(shí)踐向(下午):多模態(tài)在內(nèi)容型公司的應(yīng)用路徑 1.多模態(tài)應(yīng)用開發(fā)實(shí)踐范式(整體開發(fā)流程介紹) 2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署) 3.開發(fā)資源與團(tuán)隊(duì)構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài)) 4.當(dāng)前內(nèi)部應(yīng)用示例(垂類模型、可控生圖、規(guī)?;杀荆?br/>5.圖像實(shí)踐展開: a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等; b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風(fēng)轉(zhuǎn)化 等; c.ControlNet:插件原理、字體設(shè)計(jì)、AI模特服裝 等; 6.SD-WebUI與ComfyUI實(shí)踐展示 |
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天) 理論(上午):多技術(shù)原理概覽 1.世界模型的起源? a.AI視頻模型技術(shù)演進(jìn)(VDM/MAV/AnimateDiff/SVD/DIT/Sora) b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出 2.生產(chǎn)環(huán)境下多模態(tài)落地 a.圖片:IP衍生品/社區(qū)配圖/多格漫 b.有聲:多播、音樂、情感、模仿 c.虛擬人:數(shù)字分身、互動唱歌、直播 3.成本與收益(GPU選型、推理加速框架、極限成本、市場價(jià)格) 4.互動:自由問答 |
實(shí)踐(下午):多模態(tài)在影視漫游類的應(yīng)用 1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具 a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞; b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等; c.視頻部分:SVD、Dreamina、Runway等; d.音樂部分:Suno、韻律模型、聲音克隆 等; e.整體合成:市場成本、實(shí)際成本; 2.實(shí)踐Dify/Coze 類Agent平臺: a.簡介:Workflow工作流與調(diào)試 介紹; b.驗(yàn)證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件); c.多模態(tài):Coze 圖像流 操作手冊; d.場景實(shí)踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等); 3.互動: a.自由問答 分組練習(xí):結(jié)合自己工作的業(yè)務(wù)特點(diǎn)進(jìn)行智能體建模。 |