作為本屆亞運(yùn)會辦賽理念之一,“智能”貫穿于杭州亞運(yùn)會全的各個(gè)方面。
為服務(wù)正在舉辦的第19屆亞運(yùn)會,在北京大學(xué)黃鐵軍教授及仉尚航研究員的指導(dǎo)下,北京大學(xué)莊棨寧學(xué)生團(tuán)隊(duì)基于多模態(tài)大模型的研究,結(jié)合視覺、語言、語音等多種模態(tài)的輸入,推出高速運(yùn)動(dòng)AI 多語種解說系統(tǒng),為觀眾提供更豐富的觀賽體驗(yàn)。這也是多模態(tài)大模型技術(shù)首次在國際大型綜合性體育賽事中的落地和嘗試。
同時(shí),團(tuán)隊(duì)著眼于具身智能研究,研發(fā)基于多模態(tài)大模型的人工智能助理來提供導(dǎo)覽引領(lǐng)、場景解說、物品抓取等服務(wù),為殘障和需要幫助的人士創(chuàng)造更為人性化的互動(dòng)方式和友好體驗(yàn)。
AI“復(fù)刻”賽事解說員
“除卻君身三重雪,天下誰人配白衣。”
東京奧運(yùn)會上中國運(yùn)動(dòng)員楊倩奪得首金身披白色領(lǐng)獎(jiǎng)服時(shí),賽事解說員用這句“神仙”解說詞擊中了無數(shù)觀眾的心。
事實(shí)上,一場精彩的體育比賽不僅取決于運(yùn)動(dòng)員雙方的比拼,解說員在其中的價(jià)值也不可忽略。競賽解說員不僅會在解說中提供關(guān)于球隊(duì)、運(yùn)動(dòng)員和比賽背景的信息,幫助觀眾更好地理解比賽的重要性和背后的故事,經(jīng)驗(yàn)豐富的解說員還能夠深入分析比賽,揭示比賽中的策略和技巧,使觀眾能夠更好地理解比賽的每一個(gè)環(huán)節(jié),從而提高觀賽的樂趣。
當(dāng)比賽出現(xiàn)精彩一刻,優(yōu)秀的解說員還能夠通過解說傳達(dá)激情和情感,更好地帶動(dòng)觀眾的情緒,為賽事瞬間增色添彩,甚至成為永恒經(jīng)典。
然而受限于人手問題,并不是每場體育賽事都會安排解說員,特別是亞運(yùn)會這類國際大型賽事,同一時(shí)間有多場比賽進(jìn)行,并且不是所有的解說員都適合解說所有的體育項(xiàng)目,很多相對小眾的賽事就會缺少解說員,更無法想象一位解說員可以使用多種語言、面向不同的語言的受眾做解說。
基于此,北大莊棨寧學(xué)生團(tuán)隊(duì)面向乒乓球、跆拳道、跳水、體操等賽事,推出了高速運(yùn)動(dòng) AI 解說系統(tǒng),系統(tǒng)可以輔助錄播頻道調(diào)用多模態(tài)大模型能力,理解視頻內(nèi)容,并生成中文、英語、藏語、阿拉伯等多種語言的解說,讓信息傳遞給更多有實(shí)際需求的人。
圖:AI智能解說通過感知場景并生成解說
莊棨寧介紹說,這一技術(shù)通過高速攝像機(jī)的脈沖信號檢測場景物體和運(yùn)動(dòng)員,將能夠捕捉體育比賽中的關(guān)鍵時(shí)刻,并生成高質(zhì)量的集錦和相關(guān)數(shù)據(jù),基于多模態(tài)大模型算法和深度學(xué)習(xí)模型對這些運(yùn)動(dòng)數(shù)據(jù)進(jìn)行分析,基于分析結(jié)果,系統(tǒng)再生成提供實(shí)時(shí)的個(gè)性化解說服務(wù),從而為各個(gè)語種的觀眾都能提供個(gè)性化的體驗(yàn)。
智能愛心輔助助手 讓AI有溫度
大型賽事活動(dòng)通常會為東道主城市帶來顯著的經(jīng)濟(jì)、環(huán)境等變化,但由于人流量激增,城市公共區(qū)域會面臨巨大壓力。據(jù)預(yù)測,亞運(yùn)會期間的杭州也將迎來近年來最密集的游客潮,外地游客量將超過2000萬人次,加上本屆杭州亞運(yùn)會來自亞洲45個(gè)國家和地區(qū)代表團(tuán)的12527名運(yùn)動(dòng)員,亞運(yùn)期間杭州的人流大增。
在杭州市公共區(qū)域,莊棨寧學(xué)生團(tuán)隊(duì)打造了具身智能機(jī)器人軟件服務(wù)系統(tǒng),用于亞運(yùn)會期間的導(dǎo)航指引與幫助服務(wù)。這套系統(tǒng)可以為觀眾提供導(dǎo)覽服務(wù),協(xié)助視障人士進(jìn)行引領(lǐng)和導(dǎo)航,解析視障人士需求并完成相應(yīng)任務(wù),幫助視障人士撿拾掉落的物品等。
目前,在杭州市的一些亞運(yùn)會志愿者服務(wù)點(diǎn),已經(jīng)有市民看到一個(gè)機(jī)器人外觀的智能體在為視力障礙人士服務(wù)。
圖:杭州市民在體驗(yàn)莊棨寧學(xué)生團(tuán)隊(duì)的具身智能機(jī)器人軟件服務(wù)系統(tǒng)
“很榮幸能夠?qū)⑽覀兊乃鶎W(xué)、所研轉(zhuǎn)化為可以服務(wù)每個(gè)人的應(yīng)用,讓AI服務(wù)人們的普通生活。”莊棨寧介紹說,為本次亞運(yùn)會打造的具身智能機(jī)器人軟件服務(wù)系統(tǒng),是基于團(tuán)隊(duì)自研的感知生成一體化多模態(tài)大模型,能夠精準(zhǔn)地感知與理解場館內(nèi)外的視覺場景,生成準(zhǔn)確、豐富的語言描述,控制機(jī)器人執(zhí)行智能志愿者服務(wù)任務(wù)。
同時(shí),團(tuán)隊(duì)將多模態(tài)大模型與具身智能相結(jié)合,使得人工智能可以更好的感知和理解物理世界,再更好地做決策,最終實(shí)現(xiàn)人工智能和物理世界更好地交互。