課程簡(jiǎn)介
案例背景:
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,光學(xué)字符識(shí)別技術(shù)(OCR)被廣泛的運(yùn)用至各個(gè)場(chǎng)景之中,包括自然場(chǎng)景中文字識(shí)別、車牌識(shí)別、票據(jù)識(shí)別等等,是機(jī)器服務(wù)人類的重要場(chǎng)景之一。根據(jù)美國(guó)研究機(jī)構(gòu)Grand View Research, Inc的最新報(bào)告,預(yù)計(jì)到2025年,全球光學(xué)字符識(shí)別市場(chǎng)規(guī)模將達(dá)到133.8億美元。
但目前OCR發(fā)展面臨著諸多難題,
(1)模型的效果和處理速度的要求:OCR應(yīng)用常對(duì)接海量圖片轉(zhuǎn)文本數(shù)據(jù),要求數(shù)據(jù)能夠得到實(shí)時(shí)處理,甚至有一些OCR應(yīng)用需要部署在移動(dòng)端或嵌入式硬件,對(duì)OCR模型的大小和預(yù)測(cè)速度提出了很高的要求。
(2)自定義從訓(xùn)練到部署全流程的需求:自然環(huán)境復(fù)雜多樣,機(jī)器識(shí)別面臨著尺度、光照不足、拍攝模糊等問(wèn)題。同時(shí)業(yè)務(wù)場(chǎng)景不同,也會(huì)導(dǎo)致通用的商業(yè)API無(wú)法滿足多樣性需求,迫切需要完整的自定義訓(xùn)練能力和支持多樣的部署能力。
解決思路:
(1)打造8.6M超輕量模型:通過(guò)精選backbone、調(diào)整特征通道數(shù)等手段,在保證效果的前提下,不斷壓縮模型到8.6M,包含1個(gè)檢測(cè)模型(4.1M)與1個(gè)識(shí)別模型(4.5M),非常適合于部署于移動(dòng)端。
(2)打通從訓(xùn)練到部署全流程:模型訓(xùn)練精選2種檢測(cè)算法(EAST、DB)、4種文本識(shí)別算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆蓋常見的OCR任務(wù)需求。支持基于Python/C++的預(yù)測(cè)推理、支持Serving服務(wù)化部署、支持端側(cè)部署等豐富的部署方式,同時(shí)還提供了在線演示、Apk Demo供開發(fā)者嘗試使用。
成果:
PaddleOCR開源項(xiàng)目經(jīng)媒體報(bào)道后,引起全球開發(fā)者的熱切關(guān)注和廣泛好評(píng),媒體發(fā)稿第二天,登上GitHub Trending全球榜第一名,并且截至分享者提供材料之時(shí),項(xiàng)目持續(xù)保持在周榜TOP3位置,技術(shù)交流群大量企業(yè)開發(fā)者完成企業(yè)項(xiàng)目落地。
目標(biāo)收益
(1)最新的前沿OCR技術(shù)進(jìn)展及發(fā)展方向
(2)解析8.6M超輕量中英文OCR模型是如何打造的
(3)從訓(xùn)練到部署的完整解決方案(含真實(shí)企業(yè)案例)
(4)傳授GitHub Trending 全球榜第一名登頂經(jīng)驗(yàn)
培訓(xùn)對(duì)象
課程內(nèi)容
案例方向
智能語(yǔ)音/圖神經(jīng)網(wǎng)絡(luò)/知識(shí)圖譜/NLP/計(jì)算機(jī)視覺(jué)
案例背景
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,光學(xué)字符識(shí)別技術(shù)(OCR)被廣泛的運(yùn)用至各個(gè)場(chǎng)景之中,包括自然場(chǎng)景中文字識(shí)別、車牌識(shí)別、票據(jù)識(shí)別等等,是機(jī)器服務(wù)人類的重要場(chǎng)景之一。根據(jù)美國(guó)研究機(jī)構(gòu)Grand View Research, Inc的最新報(bào)告,預(yù)計(jì)到2025年,全球光學(xué)字符識(shí)別市場(chǎng)規(guī)模將達(dá)到133.8億美元。
但目前OCR發(fā)展面臨著諸多難題,
(1)模型的效果和處理速度的要求:OCR應(yīng)用常對(duì)接海量圖片轉(zhuǎn)文本數(shù)據(jù),要求數(shù)據(jù)能夠得到實(shí)時(shí)處理,甚至有一些OCR應(yīng)用需要部署在移動(dòng)端或嵌入式硬件,對(duì)OCR模型的大小和預(yù)測(cè)速度提出了很高的要求。
(2)自定義從訓(xùn)練到部署全流程的需求:自然環(huán)境復(fù)雜多樣,機(jī)器識(shí)別面臨著尺度、光照不足、拍攝模糊等問(wèn)題。同時(shí)業(yè)務(wù)場(chǎng)景不同,也會(huì)導(dǎo)致通用的商業(yè)API無(wú)法滿足多樣性需求,迫切需要完整的自定義訓(xùn)練能力和支持多樣的部署能力。
收益
(1)最新的前沿OCR技術(shù)進(jìn)展及發(fā)展方向
(2)解析8.6M超輕量中英文OCR模型是如何打造的
(3)從訓(xùn)練到部署的完整解決方案(含真實(shí)企業(yè)案例)
(4)傳授GitHub Trending 全球榜第一名登頂經(jīng)驗(yàn)
解決思路
(1)打造8.6M超輕量模型:通過(guò)精選backbone、調(diào)整特征通道數(shù)等手段,在保證效果的前提下,不斷壓縮模型到8.6M,包含1個(gè)檢測(cè)模型(4.1M)與1個(gè)識(shí)別模型(4.5M),非常適合于部署于移動(dòng)端。
(2)打通從訓(xùn)練到部署全流程:模型訓(xùn)練精選2種檢測(cè)算法(EAST、DB)、4種文本識(shí)別算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆蓋常見的OCR任務(wù)需求。支持基于Python/C++的預(yù)測(cè)推理、支持Serving服務(wù)化部署、支持端側(cè)部署等豐富的部署方式,同時(shí)還提供了在線演示、Apk Demo供開發(fā)者嘗試使用。
結(jié)果
PaddleOCR開源項(xiàng)目經(jīng)媒體報(bào)道后,引起全球開發(fā)者的熱切關(guān)注和廣泛好評(píng),媒體發(fā)稿第二天,登上GitHub Trending全球榜第一名,并且截至分享者提供材料之時(shí),項(xiàng)目持續(xù)保持在周榜TOP3位置,技術(shù)交流群大量企業(yè)開發(fā)者完成企業(yè)項(xiàng)目落地。