8月24日,在夸克舉辦的“Meet AI”開放日中,夸克掃描王展示了離線掃描、魔法擦除以及公式提取等場景中的技術(shù)能力,夸克自研的AI視覺技術(shù)已經(jīng)開始應(yīng)用到每個人的日常生活中,幫助他們解決實際問題。
手機上網(wǎng)已經(jīng)成為人們?nèi)粘I畹囊徊糠郑窃诟哞F、圖書館等網(wǎng)絡(luò)信號不穩(wěn)定時,很多掃描產(chǎn)品的體驗并不好,因為手機硬件的算力和服務(wù)端的算力相差百倍,這也是很多手機掃描產(chǎn)品面臨的技術(shù)難點。
為了不讓網(wǎng)絡(luò)環(huán)境影響掃描體驗,夸克開發(fā)了獨有的離線掃描模式,用戶無需網(wǎng)絡(luò)就能完成高質(zhì)量掃描。為了實現(xiàn)該功能,夸克進行了很多技術(shù)創(chuàng)新,也是第一個將掃描AI算法上端的產(chǎn)品。從結(jié)果來看,通過模型量化和壓縮等技術(shù),模型的size縮小了100倍,結(jié)合傳統(tǒng)算法后掃描效果保持95%,計算耗時僅為2秒。
數(shù)據(jù)顯示,目前夸克用戶中25歲以下的占比超過一半,他們很多人都是在校大學(xué)生,對掃描書本、提取文字和公式有著強烈需求。
其中,提取公式需要在OCR領(lǐng)域進行更有突破性的技術(shù)創(chuàng)新,夸克首次將多模算法引入文字識別領(lǐng)域,讓公式識別、手寫識別的效果得到了大幅度提升,在夸克用戶的高頻場景上,印刷文字識別精度99.99%,手寫文字識別精度 98.5%+。
夸克掃描王在提取公式、表格還原、掃描手寫體等方面已經(jīng)達(dá)到行業(yè)領(lǐng)先水平,可以很好地滿足大學(xué)生群體在學(xué)習(xí)場景中的需求。
在日常生活中,很多年輕人都喜歡編輯照片。夸克掃描王依托強大的算法能力,不僅能修復(fù)圖片中的缺陷,還能給用戶提供更具創(chuàng)意的想象空間。
例如,為了讓擦除的效果更好,機器就要有能力識別出擦除后的圖片背景并進行還原,它的難點在于不能夠提前預(yù)判背景樣式,也沒有清晰的數(shù)據(jù)標(biāo)注。在這個過程中,夸克使用判別器進行識別,模擬“學(xué)生”給“老師”交作業(yè)的情景,通過反復(fù)的訓(xùn)練,不斷精進學(xué)生的作品以及老師的審美水平,最終呈現(xiàn)出一張效果優(yōu)質(zhì)的圖片。
在這個過程中,夸克使用了數(shù)千萬張的高質(zhì)量智能圖像,同時使用上百個GPU,持續(xù)訓(xùn)練一周。而用戶只需要簡單地涂抹便可完成照片美化。
夸克視覺技術(shù)負(fù)責(zé)人黃銳華表示,夸克掃描王會不斷完善技術(shù)能力,加強在學(xué)習(xí)、工作、生活等場景中的創(chuàng)新體驗。面向未來我們也有信心給用戶提供不同類型的產(chǎn)品,讓他們享受更有效率的數(shù)字生活。