(ChinaZ.com) 7月11日消息:作為人工智能領(lǐng)域的一項(xiàng)顯著進(jìn)步,微軟 Azure 認(rèn)知服務(wù)研究中心和北卡羅來納大學(xué) NLP(自然語言處理)團(tuán)隊(duì)的研究人員日前推出了 CoDi,這是一種尖端的生成模型,能夠跨多個(gè)領(lǐng)域無縫生成高質(zhì)量內(nèi)容。
圖片來自 Microsoft
這一突破性的發(fā)展為更全面地理解世界和人類理解提供了新的可能性,為沉浸式人機(jī)交互提供了平臺,改變了人類與計(jì)算機(jī)的互動方式。
這篇名為《Any-to-Any Generation via Composable Diffusion(通過可組合擴(kuò)散進(jìn)行任意到任意生成)》的研究論文將 CoDi 引入作為一種創(chuàng)新的生成模型,能夠同時(shí)處理和生成文本、圖像、視頻和音頻等多種模態(tài)的內(nèi)容。通過允許從不同輸入模態(tài)的多樣組合中進(jìn)行協(xié)同生成內(nèi)容,CoDi 在追求集成和可組合的多模態(tài)人工智能系統(tǒng)的過程中邁出了重要一步。
CoDi 的出現(xiàn)是微軟雄心勃勃的 i-Code 項(xiàng)目的一部分,該項(xiàng)目致力于推進(jìn)多模態(tài)人工智能能力的發(fā)展。憑借其無縫整合來自多種來源的信息并生成連貫輸出的能力,CoDi 有望徹底改變?nèi)藱C(jī)交互的多個(gè)領(lǐng)域。
探索 CoDi 人工智能模型的實(shí)際應(yīng)用
CoDi 在輔助技術(shù)領(lǐng)域具有變革性的潛力,使殘障人士能夠更有效地與計(jì)算機(jī)進(jìn)行交互。通過在文本、圖像、視頻和音頻等多種模態(tài)下無縫生成內(nèi)容,CoDi 可以為用戶提供更沉浸、更易訪問的計(jì)算體驗(yàn)。
此外,CoDi 還有潛力通過提供全面互動的學(xué)習(xí)環(huán)境來重塑定制化學(xué)習(xí)工具。學(xué)生可以接觸與各種來源整合的多模態(tài)內(nèi)容,增強(qiáng)對學(xué)科的理解和參與度。
環(huán)境計(jì)算的概念,即技術(shù)與我們的日常生活無縫集成,也可以從 CoDi 的能力中獲益匪淺。該模型能夠即時(shí)生成多模態(tài)內(nèi)容,為跨設(shè)備和環(huán)境的體驗(yàn)創(chuàng)造更加沉浸和個(gè)性化的體驗(yàn),提升整體用戶體驗(yàn)。
CoDi 也將徹底改變內(nèi)容生成。該模型能夠跨多種模態(tài)生成高質(zhì)量的輸出,從而簡化內(nèi)容創(chuàng)作流程并減輕創(chuàng)作者的負(fù)擔(dān)。無論是生成引人注目的社交媒體帖子、制作互動多媒體演示,還是打造引人入勝的故事體驗(yàn),CoDi 的能力有可能重塑內(nèi)容生成領(lǐng)域的格局。
隨著人工智能領(lǐng)域的不斷進(jìn)展,像 CoDi 這樣的模型代表著多模態(tài)人工智能系統(tǒng)發(fā)展的重要里程碑。CoDi 能夠無縫生成文本、圖像、視頻和音頻的高質(zhì)量內(nèi)容,展示了打造更加身臨其境、互聯(lián)的人類人工智能未來的潛力。研究人員的工作使我們離釋放人工智能在各個(gè)領(lǐng)域的全部潛力和徹底改變我們與計(jì)算機(jī)交互的方式又近了一步。
微軟 CoDi 模型包含演示和代碼的項(xiàng)目頁面位于:codi-gen.github.io。