架構(gòu)師
互聯(lián)網(wǎng)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

深度學習時代的跨模態(tài)信息建模

前Keep首席科學家 北京航空航天大學副教授

現(xiàn)任北京航空航天大學自動化學院副教授、北航科技傳播研究中心主任。 2001畢業(yè)于黑龍江大學自動化系獲學士學位,并與2002年和2005年獲得英國布里斯托(Bristol)大學碩士、博士。美國加州大學伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大學與卡內(nèi)基梅隆大學 (CMU) 訪問學者。目前主要研究方向為人工智能、機器學習、數(shù)據(jù)挖掘、跨媒體檢索與自然語言理解。出版英文專著1本;編輯論文集2本;在WSDM,CVPR,ICASSP,EMNLP等國際會議與Information Sciences, Neurocomputing等期刊共發(fā)表論文100余篇。10年教育部新世紀優(yōu)秀人才獲得者。同時廣泛參與信息產(chǎn)業(yè)界的技術(shù)咨詢工作,并曾任馬上金融人工智能研究院副院長、Keep首席科學家兼人工智能研究院院長。

現(xiàn)任北京航空航天大學自動化學院副教授、北航科技傳播研究中心主任。 2001畢業(yè)于黑龍江大學自動化系獲學士學位,并與2002年和2005年獲得英國布里斯托(Bristol)大學碩士、博士。美國加州大學伯克利分校 (UC Berkeley) 博士后、牛津 (Oxford) 大學與卡內(nèi)基梅隆大學 (CMU) 訪問學者。目前主要研究方向為人工智能、機器學習、數(shù)據(jù)挖掘、跨媒體檢索與自然語言理解。出版英文專著1本;編輯論文集2本;在WSDM,CVPR,ICASSP,EMNLP等國際會議與Information Sciences, Neurocomputing等期刊共發(fā)表論文100余篇。10年教育部新世紀優(yōu)秀人才獲得者。同時廣泛參與信息產(chǎn)業(yè)界的技術(shù)咨詢工作,并曾任馬上金融人工智能研究院副院長、Keep首席科學家兼人工智能研究院院長。

課程費用

5800.00 /人

課程時長

3小時

成為教練

課程簡介

Feature representation of different modalities is the main focus of current cross-modal information retrieval research. Existing models typically project texts and images into the same embedding space. In this talk, we will introduce some basic ideas of text and image modeling and how can we build cross-modal relations using deep learning models. In details, we will discuss a joint model by using metric learning to minimize the similarity of the same content from different modalities. We will also introduce some recent research developments in image captioning and vision question answering (VQA)

【工作坊大綱】
1. 語義鴻溝
2. 圖像建模與CNN
3. 文本模型與詞向量
4. 聯(lián)合模型
5. 自動標注
6. 文本生成
7. 視覺問答

目標收益

了解到深度學習的前沿研究,了解如何利用深度學習進行圖像、文本信息的聯(lián)合建模并如何跨模態(tài)的實現(xiàn)語義搜索和圖像問答系統(tǒng)。

培訓對象

課程內(nèi)容

Feature representation of different modalities is the main focus of current cross-modal information retrieval research. Existing models typically project texts and images into the same embedding space. In this talk, we will introduce some basic ideas of text and image modeling and how can we build cross-modal relations using deep learning models. In details, we will discuss a joint model by using metric learning to minimize the similarity of the same content from different modalities. We will also introduce some recent research developments in image captioning and vision question answering (VQA)。

outline:
-語義鴻溝
-圖像建模與CNN
-文本模型與詞向量
-聯(lián)合模型
-自動標注
-文本生成
-視覺問答

活動詳情

提交需求