【ITBEAR科技資訊】4月20日消息,英偉達和康奈爾大學的研究團隊合作,近日推出了名為 VideoLDM 模型,可以根據文本描述,自動生成最高分辨率 2048*1280、24 幀、最長 4.7 秒的視頻。據悉,該模型配有 41 億個參數,其中 27 億個經過視頻訓練,這符合現(xiàn)代生成式 AI 的標準。英偉達表示通過高效的潛在擴散模型(LDM),能夠創(chuàng)建多樣化、高質量、高清晰度的視頻。
該模型還能創(chuàng)建駕駛場景的視頻,視頻分辨率為 1024 × 512 像素,最長 5 分鐘。目前該項目處于研究階段,暫時不會向公眾開放。如果成功地推出并商業(yè)化,這項技術可能會有廣泛的應用,例如在電影制作、虛擬現(xiàn)實、自動駕駛等領域。然而,對于一些應用場景,如社交媒體和在線廣告等,需要考慮到潛在的倫理和法律問題,例如虛假信息傳播和侵犯隱私等。
據ITBEAR科技資訊了解,VideoLDM 是一項令人興奮的技術,它利用了深度學習技術中的生成式模型來生成視頻。該模型的訓練需要大量的數據和計算資源,并且需要專業(yè)的技能和經驗來構建和調整模型參數。因此,該技術目前還處于研究階段,需要更多的測試和改進,以實現(xiàn)更好的性能和應用。總之,VideoLDM 技術展示了深度學習技術在生成式任務中的潛力,它將有望在未來的技術創(chuàng)新和應用中發(fā)揮重要作用。