現(xiàn)實中,你可以輕松無障礙的閱讀各類平面印刷文字以及身邊的一切,或許你未曾想過,視障人群該怎么辦呢?
統(tǒng)計數(shù)據(jù)顯示,中國大約有1700萬的視障群體,相當于每100個人中就有超過1位是視障人士。但我們在日常生活中卻很少見到他們,那是因為視障群體在日常生活中會有諸多不便,出門對他們而言危機四伏。AI有可能成為他們的“眼睛”嗎?
成為他們的眼睛:白描App與視障群體的故事
如果手機上只能有一款A(yù)pp,你會選擇哪一款?視障人士安之堅定地給出了答案——白描。因為白描App讓視力不佳的他用另一種方式“看”清世界,文字不再遙不可及。他用白描“看”過優(yōu)美的詩篇,“聽”過動人的樂章,甚至在獨自上樓看不清所在樓層時,白描也準確地將答案告訴了他,將他從窘境中解救出來。一個App讓曾經(jīng)望“字”興嘆的他更加勇敢的走出家門,參與豐富多彩的生活。
“白描是我的眼。”同為視障人士的小杰從不吝嗇對白描的夸贊,甚至直言白描是視障伙伴賴以生存的工具。白描幫助他解決了生活的難題,從各類電器、數(shù)碼產(chǎn)品、藥品說明書到各種洗漱用品包裝都可以識別,他還可以給可愛的小侄女講繪本故事。如果沒有白描,這種事情是他難以想象的。
白描是如何做到被視障群體視若珍寶的呢?白描App是一款簡潔高效的OCR文字識別軟件,不僅簡單好用,而且設(shè)計美觀,可以輕松實現(xiàn)“拍照-識別文字-朗讀結(jié)果”一系列流程。同時,白描適配了手機無障礙輔助功能,視障者可以在手機上非常輕松地操作。
“白描”這個詞本意是一種文學(xué)寫作手法,魯迅先生曾把這種手法概括成十二個字,即“有真意,去粉飾,少做作,勿賣弄”。白描App的開發(fā)者陶新樂正是這樣的一個人,他觀察到了不同人群的實際需求,用虛擬世界的代碼滿足了現(xiàn)實世界有需求的人,讓他們的生活變得更加美好、便捷。
白描App開發(fā)者的心路歷程:切入不同場景、優(yōu)化產(chǎn)品細節(jié)
你或許很難想象,作為一名個人開發(fā)者的陶新樂,他最早開發(fā)白描App是為了女朋友。陶新樂的女友熱愛閱讀,經(jīng)常做讀書筆記。為了減輕抄錄壓力,她嘗試使用了當時市面上的各類文字識別軟件,但她發(fā)現(xiàn):有的軟件操作流程繁瑣,有的費用高昂,有的則識別不準確……看到女朋友痛苦不已,陶新樂當下決定親自做個體驗好、效果佳的OCR文字識別工具給女朋友使用,并且很快付諸了行動。這或許就是開發(fā)者獨有的浪漫。
然而,一款A(yù)pp的開發(fā)過程是充滿未知與挑戰(zhàn)的。在當時的條件下,開發(fā)一款具有OCR功能的軟件,面臨的一個巨大挑戰(zhàn)是:如何讓文字識別的又快又準。因此,他調(diào)研了市面上提供此服務(wù)的廠商,并對不同廠商的產(chǎn)品進行了對比,嘗試識別不同場景的圖片,找出識別效果最好的那個。于是他發(fā)現(xiàn),百度大腦AI開放平臺的OCR技術(shù)能力和使用體驗都是最好的,尤其是識別準確度更領(lǐng)先于其他廠商,所以在2017年他就毫不猶豫的選擇了百度OCR技術(shù),并一直使用至今。
但是優(yōu)秀的底層技術(shù)并不意味著全部,百度大腦OCR已提供近60項技術(shù)能力,好的技術(shù)也需要應(yīng)用于匹配的場景才能發(fā)揮更大的價值。
于是,陶新樂首先對白描的使用場景做了細分研究,比如:學(xué)生上課拍PPT提取文字記筆記、企業(yè)員工把紙質(zhì)合同掃描成電子版并且制作PDF、把紙質(zhì)表格轉(zhuǎn)成Excel電子版、翻譯圖片上的文字、老師拍攝并識別試題后對試題再加工、律師用來提取紙質(zhì)文書上的文字等等。特別的是,視障人群特殊的使用需求,他都有關(guān)注和調(diào)研。
考慮完用戶的使用場景之后,再者就是對產(chǎn)品的不斷打磨。當時,圖片轉(zhuǎn)文字常常會有識別錯誤的情況發(fā)生,為了彌補這一問題,在識別之前,白描APP會進行一些技術(shù)上的處理,比如圖像壓縮如何保證清晰度又盡量減小圖片大小;如何在進行長圖自動裁剪時,檢測到長圖的空行位置自動裁剪,且不會裁到文字;如何針對文章進行自動分段,更便于讀者閱讀等等。這些精細化的產(chǎn)品設(shè)計保證了圖片的清晰度,讓文字信息更易于被識別。而在識別之后,白描的校對功能,可以讓識別結(jié)果與原圖顯示在同一界面上,方便用戶快速找到需要修改的地方,在此基礎(chǔ)上進行編輯。
依托百度優(yōu)秀的深度學(xué)習(xí)算法和基于海量優(yōu)質(zhì)數(shù)據(jù)的預(yù)訓(xùn)練模型,以及白描App的圖像預(yù)處理能力,最終實現(xiàn)了關(guān)鍵字段識別準確率99%+。看到女友使用白描時綻放的笑顏,陶新樂覺得一切都是值得的,他也希望更多人能夠享受到這份快樂。
成功的背后:用“匠人”之心雕琢產(chǎn)品之光
程序員出身的陶新樂在做產(chǎn)品這件事上一直懷揣一顆“匠人”之心。陶新樂提到,AI在落地的過程中會遇到很多的困難,很多時候都是一邊踩坑一邊向前走。當遇到無法解決的問題時,就需要不斷學(xué)習(xí),攻堅克難。
百度大腦OCR技術(shù)與無數(shù)像陶新樂一樣的開發(fā)者并肩同行。作為最早規(guī)模化應(yīng)用的AI技術(shù)之一,OCR技術(shù)的產(chǎn)業(yè)級應(yīng)用持續(xù)取得突破。百度大腦OCR技術(shù)可提供多場景、多語種、高精度的文字檢測與識別服務(wù),多項ICDAR指標居世界第一,已廣泛適用于遠程身份認證、財稅報銷、文檔電子化等場景,為企業(yè)降本增效,為用戶帶來更智能化的應(yīng)用體驗。
當然,AI技術(shù)的應(yīng)用落地,除了需要有百度大腦這樣提供領(lǐng)先AI技術(shù)能力的平臺外,還需要更多像陶新樂這樣的開發(fā)者們,發(fā)揮想象將AI應(yīng)用在更多真實場景中,滿足不同用戶群體,甚至是容易被忽視的殘障人群的需求,讓社會更有“AI”。同時,為了降低獨立開發(fā)者和企業(yè)自主訓(xùn)練OCR文字識別模型的門檻,百度大腦推出業(yè)界首個EasyDL OCR自訓(xùn)練平臺,提供零門檻、定制化、低成本的一站式OCR模型訓(xùn)練服務(wù)。保證高準確率的同時,滿足多元化的場景需求,并有效保障數(shù)據(jù)安全。
在這個科技為大眾生活賦能的時代,產(chǎn)品的設(shè)計更是一種普惠理念的輸出。已擁有超過800萬用戶的白描App,已經(jīng)成為業(yè)界的口碑產(chǎn)品。相信,未來還將有越來越多的開發(fā)者通過百度大腦AI開放平臺提供的AI技術(shù)與服務(wù),創(chuàng)造出更多與場景相結(jié)合的智能應(yīng)用,讓更多人生活更便捷、更美好。