隨著深度學(xué)習(xí)和人工智能的廣泛應(yīng)用,數(shù)據(jù)的規(guī)模逐漸增加,數(shù)據(jù)場(chǎng)景的復(fù)雜度也在不斷加碼。傳統(tǒng)的人工標(biāo)注既耗時(shí)又易出錯(cuò),往往不可行或者效果不理想。這些問(wèn)題制約著AI技術(shù)的落地應(yīng)用。
當(dāng)前大模型應(yīng)用熱潮興起,具備AI自動(dòng)標(biāo)注能力的預(yù)訓(xùn)練大模型為解決上述問(wèn)題提供了一條現(xiàn)實(shí)可行的技術(shù)路徑,為推動(dòng)AI技術(shù)的大規(guī)模落地和應(yīng)用提供強(qiáng)有力的支持。
立足自動(dòng)化標(biāo)注的發(fā)展趨勢(shì)和行業(yè)痛點(diǎn),標(biāo)貝科技已經(jīng)對(duì)自研的AI數(shù)據(jù)平臺(tái)系統(tǒng)進(jìn)行全面升級(jí),在全棧數(shù)據(jù)標(biāo)注場(chǎng)景式中搭載了大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注能力,并應(yīng)用于3D點(diǎn)云、2D圖像、音頻、文本等數(shù)據(jù)場(chǎng)景的大規(guī)模、復(fù)雜任務(wù)和常規(guī)任務(wù)的標(biāo)注中。在保證高效處理的前提下,確保標(biāo)注結(jié)果的高準(zhǔn)確率,相對(duì)純?nèi)斯?biāo)注效率可提升70%以上,為用戶提供更性價(jià)比的數(shù)據(jù)方案和服務(wù)。
本期先為各位介紹標(biāo)貝科技大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注能力在OCR圖片標(biāo)注場(chǎng)景的應(yīng)用價(jià)值。
應(yīng)用場(chǎng)景:OCR圖片標(biāo)注
OCR(Optical Character Recognition),光學(xué)字符識(shí)別,指電子設(shè)備檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程,其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識(shí)別文字,最終將圖片中的文字轉(zhuǎn)換為可編輯和可搜索的文本。
OCR識(shí)別在生活中隨處可見(jiàn),例如財(cái)稅票據(jù)識(shí)別、身份證件識(shí)別、文檔文字識(shí)別等,有效幫助企業(yè)和個(gè)人用戶減少手動(dòng)輸入的繁瑣,提升工作效率。在AI技術(shù)廣泛應(yīng)用之前,OCR技術(shù)標(biāo)注數(shù)據(jù)集是一項(xiàng)比較繁瑣和流程較為復(fù)雜的工作,整個(gè)過(guò)程需要經(jīng)過(guò)較多步驟的手動(dòng)標(biāo)注和校驗(yàn),才能夠?qū)崿F(xiàn)高精度的文本檢測(cè)和識(shí)別。
特別是實(shí)際應(yīng)用中,OCR圖片存在數(shù)據(jù)種類繁多、字體內(nèi)容生僻、拍攝角度多樣、圖片干擾信息繁多、內(nèi)容冗長(zhǎng)等問(wèn)題,傳統(tǒng)的人工手動(dòng)標(biāo)注容易受人為主觀因素影響,出現(xiàn)標(biāo)注錯(cuò)誤或不準(zhǔn)確。
面對(duì)這一現(xiàn)狀,標(biāo)貝科技2D圖像標(biāo)注平臺(tái)基于大模型自動(dòng)化標(biāo)注能力,可以支持對(duì)類型OCR圖片自動(dòng)進(jìn)行預(yù)處理,自動(dòng)識(shí)別圖像中的文字區(qū)域和內(nèi)容,人工只需要在預(yù)識(shí)別的基礎(chǔ)上,進(jìn)行少量微調(diào),就可以完成高質(zhì)量的OCR圖片標(biāo)注,極大的提升標(biāo)注效率和準(zhǔn)確性,降低人工成本。
例如,在具體的OCR小票標(biāo)注場(chǎng)景下,遇到小票票面有模糊、污漬、折痕等,或者由于拍攝角度和光照條件等因素,導(dǎo)致圖像質(zhì)量下降。手工標(biāo)注不僅需要大量時(shí)間和人力,而且對(duì)于標(biāo)注人員的觀察力和判斷力要求較高。
標(biāo)貝科技將此項(xiàng)目進(jìn)行步驟拆解:
01 數(shù)據(jù)預(yù)處理:標(biāo)貝科技采用圖片清洗算法對(duì)小票圖片進(jìn)行自動(dòng)預(yù)處理,包括自動(dòng)糾正拍攝角度、去噪、二值化、分割等操作,消除小票上的干擾因素,并提取出文字區(qū)域。
02 特征提取:其次再通過(guò)深度學(xué)習(xí)技術(shù),自動(dòng)學(xué)習(xí)和提取文字區(qū)域的特征,識(shí)別出不同的文字和符號(hào),減少手動(dòng)調(diào)整和優(yōu)化的工作量。
03自動(dòng)分類和識(shí)別:最后利用OCR+定位模型算法對(duì)小票進(jìn)行標(biāo)注和轉(zhuǎn)寫,將識(shí)別出的文字內(nèi)容,進(jìn)行大模型數(shù)據(jù)理解,進(jìn)行自動(dòng)分類,標(biāo)注出文字屬于的類別是商品、價(jià)格、還是編號(hào)等。
總之,通過(guò)標(biāo)貝科技大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注,可以大大減少手動(dòng)標(biāo)注OCR圖片的工作量,同時(shí)自動(dòng)化標(biāo)注還可以減少人為因素導(dǎo)致的標(biāo)注錯(cuò)誤,顯著提高OCR技術(shù)的精度,為OCR識(shí)別在各個(gè)場(chǎng)景應(yīng)用提供更加便捷高效的文字識(shí)別解決方案。
目前,標(biāo)貝科技大模型預(yù)標(biāo)注能力可以支持手寫體、印刷體、多語(yǔ)言的OCR圖片標(biāo)注,并應(yīng)用于多樣性和復(fù)雜性的場(chǎng)景,實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、模型訓(xùn)練等全流程的自動(dòng)化。通過(guò)對(duì)大量OCR圖片數(shù)據(jù)的自動(dòng)分析和標(biāo)注,訓(xùn)練出一個(gè)更加精確的OCR模型。此外,我們還可以根據(jù)不同的場(chǎng)景和需求,通過(guò)微調(diào)大模型,快速地定制和擴(kuò)展標(biāo)注工具,提升模型的場(chǎng)景化預(yù)識(shí)別能力,滿足不同場(chǎng)景下的標(biāo)注需求。
歡迎各位伙伴垂詢!