日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢(xún)客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

來(lái)源:量子位 作者:金磊、楊凈

經(jīng)典技術(shù)OCR(光學(xué)字符識(shí)別),在大模型時(shí)代下要“變味”了。

怎么說(shuō)?

我們都知道OCR這個(gè)技術(shù)在日常生活中已經(jīng)普及開(kāi)了,像各類(lèi)文件、身份證、路標(biāo)等識(shí)別,可以說(shuō)統(tǒng)統(tǒng)都離不開(kāi)它。

而隨著近幾年大模型的不斷發(fā)展,OCR也迎來(lái)了它的“新生機(jī)”——

憑借自身可以將文本從圖片、掃描文檔或其他圖像形式提取出來(lái)的看家本領(lǐng),成為大語(yǔ)言模型的一個(gè)重要入口

在這個(gè)過(guò)程中,一個(gè)關(guān)鍵問(wèn)題便是“好用才是硬道理”

過(guò)去人們會(huì)普遍認(rèn)為,像OCR這種涉及圖像預(yù)處理、字符分割、特征提取等步驟的技術(shù),堆GPU肯定是首選嘛。

不過(guò)朋友,有沒(méi)有想過(guò)成本和部署的問(wèn)題?還有一些場(chǎng)景甚至連GPU資源都沒(méi)得可用的問(wèn)題?

這時(shí)又有朋友要說(shuō)了,那CPU也不見(jiàn)得很好用啊。

不不不。

現(xiàn)在,大模型時(shí)代之下,CPU或許還真是OCR落地的一種新解法。

例如在醫(yī)保AI業(yè)務(wù)中,在CPU的加持之下,醫(yī)療票據(jù)識(shí)別任務(wù)的響應(yīng)延時(shí)指標(biāo),在原有基礎(chǔ)上提升達(dá)25倍

為什么會(huì)有如此大的轉(zhuǎn)變?

一言蔽之,因?yàn)榇饲白鯫CR任務(wù)的時(shí)候,CPU的計(jì)算潛能并沒(méi)有完全釋放出來(lái)。

OCR,進(jìn)入CPU時(shí)代

那么到底是誰(shuí)家的CPU,能讓經(jīng)典OCR產(chǎn)生這般變化。

不賣(mài)關(guān)子。

它正是來(lái)自英特爾第四代至強(qiáng)® 可擴(kuò)展處理器

據(jù)了解,第四代至強(qiáng)® 可擴(kuò)展處理器增加了每個(gè)時(shí)鐘周期的指令,每個(gè)插槽多達(dá)60個(gè)核心,支持8通道DDR5內(nèi)存。

在內(nèi)存寬帶方面實(shí)現(xiàn)了50%的性能提升,并通過(guò)每PCIe 5.0(80個(gè)通道)實(shí)現(xiàn)了2倍的PCIe帶寬提升,整體可實(shí)現(xiàn)60%的代際性能提升。

但解鎖如此能力的,可不僅僅是一顆CPU這么簡(jiǎn)單,是加成了英特爾軟件層面上的優(yōu)化;換言之,就是“軟硬一體”后的結(jié)果。

而且這種打法也不是停留在PPT階段,而是已經(jīng)實(shí)際用起來(lái)的那種。

例如國(guó)內(nèi)廠商用友便在自家OCR業(yè)務(wù)中采用了這種方案。

性能比較上,用友在第三/第四代英特爾® 至強(qiáng)® 可擴(kuò)展處理器上進(jìn)行了算法對(duì)比,推理性能提升達(dá)優(yōu)化前的3.42倍

而在INT8量化后的性能更是提升到原來(lái)的7.3倍

值得一提的是,OCR的響應(yīng)時(shí)間直接降低到了3秒以?xún)?nèi),還是切換架構(gòu)不影響業(yè)務(wù),用戶無(wú)感知的那種。

除了用友之外,像亞信科技在自家OCR-AIRPA方案中,也是采用了英特爾的這套打法。

與用友類(lèi)似的,亞信科技實(shí)現(xiàn)了從FP32到INT8/BF16的量化,從而在可接受的精度損失下,增加吞吐量并加速推理。

從結(jié)果上來(lái)看,人工成本降至原來(lái)的1/5-1/9,效率還提升約5-10倍。

由此可見(jiàn),釋放了AI加速“洪荒之力”的CPU,在OCR任務(wù)上完全不亞于傳統(tǒng)GPU的方案。

那么問(wèn)題來(lái)了:

英特爾是如何釋放CPU計(jì)算潛力的?

實(shí)際應(yīng)用過(guò)程中,企業(yè)通常選擇自己使用CPU來(lái)做OCR處理,但由于缺乏對(duì)CPU硬件加速和指令集的了解,就會(huì)發(fā)現(xiàn)CPU處理性能與理想峰值相差甚遠(yuǎn),OCR程序也就沒(méi)有得到很好的優(yōu)化。

至于以往更常見(jiàn)的GPU解決方案,始終存在著成本和部署的難題。一來(lái)成本通常較高,且很多情況下,業(yè)務(wù)現(xiàn)場(chǎng)沒(méi)有GPU資源可以使用。

但要知道OCR本身應(yīng)用廣泛、部署場(chǎng)景多樣,比如公有云、私有云,以及邊緣設(shè)備、終端設(shè)備上……而且隨著大模型時(shí)代的到來(lái),作為重要入口的OCR,更多潛在場(chǎng)景將被挖掘。

于是,一種性?xún)r(jià)比高、硬件適配性強(qiáng)的解決方案成為行業(yè)剛需。

既然如此,英特爾又是如何解決這一痛點(diǎn)的呢?

簡(jiǎn)單歸結(jié):第四代至強(qiáng)®? 可擴(kuò)展處理器及其內(nèi)置的AI加速器,以及OpenVINO™? 推理框架打輔助。

當(dāng)前影響AI應(yīng)用性能的要素?zé)o非兩個(gè):算力和數(shù)據(jù)訪問(wèn)速度。第四代至強(qiáng)®? 可擴(kuò)展處理器的單顆CPU核數(shù)已經(jīng)增長(zhǎng)到最高60核。

而在數(shù)據(jù)訪問(wèn)速度上,各級(jí)緩存大小、內(nèi)存通道數(shù)、內(nèi)存訪問(wèn)速度等都有一定程度的優(yōu)化,另外部分型號(hào)還集成了HBM高帶寬內(nèi)存技術(shù)。

此外,在CPU指令集上也做了優(yōu)化,內(nèi)置了英特爾®? 高級(jí)矩陣擴(kuò)展(英特爾®? AMX)等硬件加速器,負(fù)責(zé)矩陣計(jì)算,加速深度學(xué)習(xí)工作負(fù)載。

這有點(diǎn)類(lèi)似于GPU里的張量核心(Tensor Core)。

AMX由兩部分組成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模塊,用來(lái)執(zhí)行矩陣乘法指令。

它可同時(shí)支持INT8和BF16數(shù)據(jù)類(lèi)型,且BF16相較于FP32計(jì)算性能更優(yōu)。

有了AMX指令集加持,性能比矢量神經(jīng)網(wǎng)絡(luò)指令集VNNI增加達(dá)8倍。

除了核心硬件平臺(tái)外,實(shí)際情況中幫助OCR在CPU上落地的,還有推理框架OpenVINO™?。

市面上大部分AI框架都是同時(shí)支持訓(xùn)練和推理,OpenVINO™? 則是刪減了很多訓(xùn)練部分所需的冗余計(jì)算,主要支持推理部分。

而且也是專(zhuān)門(mén)針對(duì)英特爾硬件打造的優(yōu)化框架。框架替換也不復(fù)雜,只需5行代碼就可以完成原有框架的替換。

用戶可以針對(duì)不同業(yè)務(wù)場(chǎng)景,來(lái)優(yōu)化OpenVINO™? 運(yùn)行參數(shù)。

比如用友OCR業(yè)務(wù)涉及文字檢測(cè)和文字識(shí)別兩個(gè)AI模型,優(yōu)化方向有所不同。

前者對(duì)單次推理要求高,后者需要整個(gè)系統(tǒng)吞吐量的優(yōu)化,那么OpenVINO™? 分別采用單路同步模式和多路異步模式。單一模塊優(yōu)化后,再針對(duì)整體流程的優(yōu)化

這樣一套軟硬件組合拳打下來(lái),英特爾充分釋放了CPU計(jì)算潛力,在實(shí)際場(chǎng)景中也實(shí)現(xiàn)了與GPU同等性能。

不再是你以為的CPU

以往談到AI加速、AI算力,大眾經(jīng)常想到的就是GPU,又或者是專(zhuān)用TPU。

至于通用架構(gòu)芯片CPU,受到計(jì)算單元和內(nèi)存帶寬的限制,始終無(wú)法適應(yīng)于計(jì)算數(shù)據(jù)龐大的深度學(xué)習(xí)。

但現(xiàn)在的CPU,已經(jīng)不再是“你以為的你以為”了:

它可以深入到各個(gè)行業(yè)當(dāng)中,輕松Hold住各種場(chǎng)景應(yīng)用。

尤其在AMX加速引擎加持下,能將深度學(xué)習(xí)訓(xùn)練和推理性能提升高達(dá)10倍。

比如,媒體娛樂(lè)場(chǎng)景中,能幫助個(gè)性化內(nèi)容推薦速度提升達(dá)6.3倍;零售行業(yè)里,能將視頻分析速度提升高達(dá)至2.3倍,還有像工業(yè)缺陷檢測(cè)、醫(yī)療服務(wù)也都能從容應(yīng)對(duì)。

即便是在前沿探索領(lǐng)域,CPU也已經(jīng)成為不容忽視的存在:

像是在生命科學(xué)和醫(yī)藥方向,在某些場(chǎng)景下的表現(xiàn)效果甚至比GPU還要好。

英特爾用CPU速刷AlphaFold2,結(jié)果力壓AI專(zhuān)用加速芯片,去年發(fā)布的第三代至強(qiáng)®? 可擴(kuò)展處理器經(jīng)過(guò)優(yōu)化后就能使其端到端的通量足足提升到了原來(lái)的23.11倍。今年基于第四代至強(qiáng)®? 可擴(kuò)展處理器再次把性能提升到了上一代產(chǎn)品的3.02倍。

不過(guò)要實(shí)現(xiàn)CPU加速,背后也并非簡(jiǎn)單的硬件優(yōu)化。

而是軟硬件融合協(xié)同,從底層到應(yīng)用的一整套技術(shù)創(chuàng)新,以及產(chǎn)業(yè)鏈上合作伙伴的支撐。

隨著大模型時(shí)代的到來(lái)和深入,這種解決思路也正在成為共識(shí)。

像一些大模型玩家要實(shí)現(xiàn)大模型優(yōu)化和迭代,并不能依靠以往單純?nèi){馬車(chē)來(lái)解決,而是需要從底層芯片到模型部署端到端的系統(tǒng)優(yōu)化。

在算力加速層面的玩家,一方面擺脫不了摩爾定律的極限,另一方面要在應(yīng)用場(chǎng)景中充分釋放計(jì)算潛力,就需要與軟件適配快速部署。

有意思的是,在最近OCR主題的《至強(qiáng)實(shí)戰(zhàn)課》中,英特爾人工智能軟件架構(gòu)師桂晟曾這樣形容英特爾的定位:

>英特爾不僅僅是一個(gè)硬件公司,同時(shí)也擁有著龐大的軟件團(tuán)隊(duì)。

>在整個(gè)人工智能生態(tài)中,不論是從底層的計(jì)算庫(kù),到中間的各類(lèi)組件,框架和中間件,再到上層的應(yīng)用,服務(wù)和解決方案都有英特爾軟件工程師的參與。

CPU加速,不再是你以為的加速。英特爾,也不再是以往所認(rèn)知中的硬件公司。

但如果你以為英特爾只有CPU來(lái)加速AI,那你又單純了。

針對(duì)AI的專(zhuān)用加速芯片Habana®? Gaudi 2®? 即將迎來(lái)首秀;

而通用加速芯片,同時(shí)兼顧科學(xué)計(jì)算和AI加速的英特爾®? 數(shù)據(jù)中心GPU Max系列也剛剛結(jié)束了它在阿貢實(shí)驗(yàn)室Aurora系統(tǒng)中的部署,即將走近更多客戶。

以這些多樣化、異構(gòu)的芯片為基石,英特爾也將形成更全面的硬件產(chǎn)品布局,并配之以跨異構(gòu)平臺(tái)、易用的軟件工具組合(oneAPI)為整個(gè)應(yīng)用鏈上的合作伙伴及客戶提供應(yīng)用創(chuàng)新的支持,為各行各業(yè)AI應(yīng)用的開(kāi)發(fā)、部署、優(yōu)化和普及提供全方位支持。

分享到:
標(biāo)簽:OCR
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定