偶然聽到一首歌,卻不知道歌名;看到別人穿的衣服很好看,卻不知道去哪兒買;孩子詢問植物的名字,爸爸卻答不上來……互聯(lián)網(wǎng)時代,信息量迅猛增長,信息的表現(xiàn)形式也越來越多元化,這讓信息處理技術(shù)面臨著更大的挑戰(zhàn)。如何獲取信息,找到所求,成為行業(yè)公認的難題。
百度副總裁向海龍
在5月29日舉辦的2014年百度聯(lián)盟峰會上,百度副總裁向海龍表示,技術(shù)創(chuàng)新讓百度的產(chǎn)品能夠“想用戶所想、想用戶未想”,技術(shù)是搜索引擎的核心競爭力。
大數(shù)據(jù)讓搜索更智能
向海龍首先給大家展示了一張植物圖片,外形很像枇杷,大部分人都沒有見過。通過百度識圖的圖像識別技術(shù),大家了解到這是黃山本地的特產(chǎn)香榧。“明天我們爬黃山的時候,伙伴們可以試試百度識圖這個功能。”向海龍用簡潔的例子,展示了百度強大的圖像識別和以圖搜圖能力。
百度識圖和語音輸入滿足了用戶在多媒體輸入方面的需求,同時,百度還在嘗試讓搜索變得更智能。當(dāng)用戶輸入一些泛需求的信息時,百度智能推薦能夠“想用戶所想”,甚至“想用戶未想”。“例如,有的聯(lián)盟伙伴對黃山了解不多,只對‘黃山松’略有耳聞。通過輸入‘黃山松’,百度會智能推薦給大家其它黃山的名勝。”向海龍舉例道。
互聯(lián)網(wǎng)進入高速發(fā)展階段后,全球信息量呈幾何式躍升,從2005年的130EB(1EB=10億GB)到2015年的8000+EB,10年增長了66倍。同時,來自可穿戴設(shè)備、LBS、語音、網(wǎng)絡(luò)圖片、視頻等各渠道的數(shù)據(jù)類型越來越豐富。面對海量而龐雜的數(shù)據(jù)庫,百度搜索如何脫穎而出做到“想用戶所想、想用戶未想”呢?
向海龍強調(diào),“產(chǎn)品創(chuàng)新對于基礎(chǔ)設(shè)施提出了更高的要求。”首先,百度擁有強大的數(shù)據(jù)處理能力。目前,百度已經(jīng)收錄了全世界超過一萬億張網(wǎng)頁,這相當(dāng)于5000個國家圖書館的信息量總和。同時,百度承擔(dān)著每天百億次的訪問請求,可以離線完成1000億網(wǎng)頁的處理與分析。并且,時效性網(wǎng)頁從更新到索引只需要幾十秒,真正做到了在大數(shù)據(jù)量級下的低延遲和秒級響應(yīng)。
創(chuàng)新產(chǎn)品的背后是百度強大的計算能力。其中,超大規(guī)模的存儲技術(shù)和分布式計算技術(shù)是重要的基礎(chǔ)。百度擁有數(shù)十萬臺服務(wù)器、EB級別的超大數(shù)據(jù)存儲和管理規(guī)模,數(shù)據(jù)處理達到100GB/s的毫秒級響應(yīng)速度,并達到100PB/天的數(shù)據(jù)計算能力。
從商業(yè)角度來看,百度專注精準營銷服務(wù)十余年,一直保持對內(nèi)容相關(guān)性預(yù)測模型的優(yōu)化,在投入資源、算法以及最終效果上都屬于國內(nèi)頂尖水平。向海龍介紹,“我們對廣告特征的挖掘達到了千億級別。如果以銀河系的恒星來計數(shù),這相當(dāng)于兩個銀河系的行星數(shù)量。我們每天有PB級的樣本量來訓(xùn)練模型,相當(dāng)于10萬個地球總?cè)丝诘臉颖?。最后達到分鐘級的數(shù)據(jù)時效,以及上千倍高緯度特征的搜尋效率。”
開啟極速搜索時代
經(jīng)過10多年的不斷探索,百度搜索已經(jīng)占據(jù)絕對的領(lǐng)先地位。然而,百度對搜索技術(shù)的優(yōu)化和升級從未停止。向海龍表示,“基于百度優(yōu)秀的基礎(chǔ)架構(gòu),搜索的極速時代已經(jīng)到來。”
極速搜索的特點就是“快”,比普通搜索減少80%的處理時間。“人眨一次眼睛時間是0.2秒,博爾特的起跑時間是0.16秒,子彈穿過木板的時間是0.05秒,而百度極速搜索的響應(yīng)時間僅僅為0.04秒。”向海龍用形象的數(shù)據(jù)對比展現(xiàn)了極速搜索的魅力。
百度在不斷提高基礎(chǔ)技術(shù)能力的同時,也借助“百度大腦”、“數(shù)據(jù)工廠”、“開發(fā)云”技術(shù)構(gòu)建三級開放平臺。將搜索數(shù)據(jù)、地圖數(shù)據(jù)、音樂數(shù)據(jù)等百度自有的數(shù)據(jù),與伙伴們的行業(yè)數(shù)據(jù)整合起來,更好地為行業(yè)服務(wù)。
今年夏季最熱門的巴西世界杯即將開幕,向海龍表示,百度將通過大數(shù)據(jù)首次嘗試本屆世界杯冠軍球隊和黑馬球隊的預(yù)測,同時提供單場比賽的信息。競技場上往往風(fēng)云突變,要預(yù)測比賽結(jié)果自然離不開龐大而精細的球隊數(shù)據(jù)和球員數(shù)據(jù)。百度已經(jīng)拿到了近1000支球隊、最近5年內(nèi)37000場比賽以及29610名球員的數(shù)據(jù),并結(jié)合252萬條Query和全球400多家博彩公司、超過一億一千萬條基礎(chǔ)數(shù)據(jù)來支持預(yù)測。
向海龍最后總結(jié)道,“中國歷史上最有名的旅行家徐霞客游黃山時說過,‘五岳歸來不看山,黃山歸來不看岳’。黃山以美景服人,百度則以技術(shù)立本。我們始終認為,技術(shù)是搜索的核心競爭力。在百度聯(lián)盟12年之際,我們期望與70萬聯(lián)盟伙伴一起,駿者馳遠,盟承未來!”