挖貝網(wǎng)> 產(chǎn)業(yè)> 詳情
百度商業(yè)發(fā)布全球首個(gè)中文音視頻一體化生成模型MuseSteamer
在7月2日舉辦的百度AI DAY開(kāi)放日上,百度商業(yè)研發(fā)團(tuán)隊(duì)正式推出自研視頻生成模型MuseSteamer。該模型通過(guò)突破性技術(shù)創(chuàng)新,為全球視頻創(chuàng)作者帶來(lái)高效、專(zhuān)業(yè)的智能化解決方案。據(jù)了解,MuseSteamer提供了Turbo版、Lite版、Pro版及全系列有聲版模型矩陣,通過(guò)差異化設(shè)計(jì)滿(mǎn)足各類(lèi)用戶(hù)不同創(chuàng)作需求。
“所思即所得”,重新定義敘事藝術(shù)邊界
百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林在會(huì)上詳細(xì)介紹了MuseSteamer的核心突破。他指出,指令理解與遵循是多模態(tài)大模型最基礎(chǔ)也是最有挑戰(zhàn)的素質(zhì),MuseSteamer具備極致遵循力,可以真正幫助創(chuàng)作者實(shí)現(xiàn)“所思即所得”的創(chuàng)作自由。
在MuseSteamer生成的古裝武俠視頻中,一位頭戴斗笠、身著青衫的俠客正與巨型怪物展開(kāi)驚心動(dòng)魄的搏斗。該技術(shù)通過(guò)多模態(tài)大模型實(shí)現(xiàn)高度逼真的動(dòng)態(tài)內(nèi)容創(chuàng)作:斗笠下,俠客眉頭緊鎖,目光銳利,即使在特寫(xiě)鏡頭和復(fù)雜光影條件下,面部微表情依然自然生動(dòng)。同時(shí),視頻還展現(xiàn)了MuseSteamer強(qiáng)大的運(yùn)鏡能力:以俯拍鏡頭展現(xiàn)龐大怪物的壓迫感,隨即切換到俠客第一視角的仰拍,最后以環(huán)繞運(yùn)鏡呈現(xiàn)雙方交鋒的精彩瞬間。這些專(zhuān)業(yè)級(jí)鏡頭語(yǔ)言的自動(dòng)化實(shí)現(xiàn),讓普通用戶(hù)也能輕松獲得電影級(jí)的敘事張力。
從完整視頻可以看出,MuseSteamer能夠以導(dǎo)演拍攝的角度,對(duì)視頻基本劇情、畫(huà)面形成判斷,從俠客拔劍的起手式,到怪物咆哮時(shí)震落的碎石特效,不僅每個(gè)動(dòng)作都嚴(yán)格遵循武俠風(fēng)格的打斗軌跡,更通過(guò)快慢鏡頭的交替運(yùn)用,將這場(chǎng)生死對(duì)決的緊張氛圍渲染得淋漓盡致,展現(xiàn)出AI視頻生成在專(zhuān)業(yè)影視創(chuàng)作中的巨大潛力。
劉林指出,在AI內(nèi)容創(chuàng)作領(lǐng)域,視頻時(shí)長(zhǎng)與畫(huà)質(zhì)的突破往往意味著創(chuàng)作自由度的質(zhì)變。以MuseSteamer生成的短片《她總在三點(diǎn)一刻出現(xiàn)》為例,該技術(shù)通過(guò)10秒超長(zhǎng)鏡頭和1080P高清畫(huà)質(zhì),實(shí)現(xiàn)了電影級(jí)的藝術(shù)表現(xiàn)力。
視頻以極具張力的鏡頭語(yǔ)言展開(kāi):固定機(jī)位首先捕捉男主角在街頭徘徊張望的身影,隨后鏡頭自然轉(zhuǎn)向女主角,細(xì)膩呈現(xiàn)她喝咖啡的動(dòng)作,蒸汽氤氳中睫毛的顫動(dòng),完整記錄“她總點(diǎn)一樣的咖啡”的細(xì)節(jié)。整個(gè)過(guò)程中,王家衛(wèi)式的色彩美學(xué)貫穿始終,暗紅色調(diào)與冷色陰影形成鮮明對(duì)比。而1080P的高清畫(huà)質(zhì)則刻畫(huà)出從咖啡熱氣到衣物褶皺的每一個(gè)細(xì)節(jié),將專(zhuān)業(yè)運(yùn)鏡、光影控制和敘事張力完美融合,為創(chuàng)作者提供了更廣闊的表達(dá)空間。
與市場(chǎng)上多數(shù)需要后期配音的解決方案不同,MuseSteamer能夠同步生成畫(huà)面、音效和人物臺(tái)詞,實(shí)現(xiàn)聲音與畫(huà)面的自然生成,顯著提升了視頻作品的完整性和藝術(shù)表現(xiàn)力,是全球首個(gè)實(shí)現(xiàn)中文音視頻一體化生成的視頻模型。
以一段沙漠越野主題的短片為例,系統(tǒng)不僅能呈現(xiàn)越野車(chē)在沙漠中疾速漂移的畫(huà)面,更能智能生成與之相匹配的立體聲效:發(fā)動(dòng)機(jī)低沉的轟鳴聲隨著飛揚(yáng)的沙塵變化而起伏,輪胎與沙地摩擦的聲響隨轉(zhuǎn)彎的角度而變化,極致遵循物理運(yùn)動(dòng)規(guī)律。聲音元素與畫(huà)面動(dòng)作相得益彰,為創(chuàng)作者帶來(lái)真正“所見(jiàn)即所感”的音視頻一體化體驗(yàn)。
數(shù)據(jù)、算法、審美多重突破,持續(xù)霸榜 VBench-I2V圖生視頻榜首
在技術(shù)層面,MuseSteamer的亮點(diǎn)表現(xiàn)源于百度在數(shù)據(jù)、算法、審美等方面的深耕。劉林介紹,該模型構(gòu)建了億級(jí)規(guī)模中文多模態(tài)數(shù)據(jù)庫(kù),通過(guò)“篩選-凈化-配比”三級(jí)優(yōu)化體系,實(shí)現(xiàn)業(yè)界領(lǐng)先的文本指令與視覺(jué)元素的語(yǔ)義對(duì)齊精度。在算法架構(gòu)上,MuseSteamer采用精細(xì)化結(jié)構(gòu)設(shè)計(jì),支持中文文本、參考圖像等多模態(tài)條件輸入,確保對(duì)畫(huà)面細(xì)節(jié)、主體運(yùn)動(dòng)軌跡等要素的遵循。此外,模型可生成分辨率高達(dá)1080P高清視頻,呈現(xiàn)出電影級(jí)流暢轉(zhuǎn)場(chǎng)與逼真的物理運(yùn)動(dòng)規(guī)律。
在音畫(huà)呈現(xiàn)上,MuseSteamer構(gòu)建了一套完整的有聲視頻生成能力,圍繞“誰(shuí)在說(shuō)、怎么說(shuō)、在什么環(huán)境下說(shuō)”三個(gè)關(guān)鍵問(wèn)題,通過(guò)多人自動(dòng)化對(duì)齊編排、音視對(duì)齊Refiner,實(shí)現(xiàn)視覺(jué)信息、高還原度的人聲與環(huán)境音自動(dòng)生成能力。這些技術(shù)創(chuàng)新共同構(gòu)成了MuseSteamer的核心競(jìng)爭(zhēng)力。在海外權(quán)威視頻生成評(píng)測(cè)榜單 VBench Leaderboard圖生視頻榜單中,MuseSteamer視頻生成模型以總分89.38%的成績(jī),登上VBench-I2V圖生視頻全球榜首。
伴隨MuseSteamer的發(fā)布,全新AI視頻創(chuàng)作平臺(tái)——“繪想”也同步上線(xiàn),為創(chuàng)作者提供全新視頻生成體驗(yàn)。即日起,用戶(hù)可通過(guò)PC端搜索“MuseSteamer”或“繪想”免費(fèi)體驗(yàn)Turbo版功能,探索AI視頻創(chuàng)作的無(wú)限可能。為激發(fā)創(chuàng)作熱情,百度將在7月2日—8月3日期間舉辦“繪想·跨次元捏合”AI視頻創(chuàng)作大賽。參賽者只需上傳一張圖片,即可借助MuseSteamer視頻生成模型的強(qiáng)大能力生成富有創(chuàng)意的動(dòng)態(tài)視頻作品。
隨著技術(shù)的突破,創(chuàng)意的邊界也將進(jìn)一步拓展。MuseSteamer視頻生成模型讓專(zhuān)業(yè)級(jí)視頻創(chuàng)作變?yōu)榇蟊娍杉暗哪芰?,讓每個(gè)人都能成為自己故事的導(dǎo)演,實(shí)現(xiàn)“所思即所得”的創(chuàng)意自由。展望未來(lái),百度將持續(xù)推進(jìn)AIGC技術(shù)創(chuàng)新,讓技術(shù)真正服務(wù)于每個(gè)人的創(chuàng)意表達(dá)。
相關(guān)閱讀
- 杰蘭路報(bào)告出爐:?jiǎn)柦缫浴俺瑥?qiáng)信心指數(shù)”再奪冠 用戶(hù)青睞度超越傳統(tǒng)豪華品牌
- 甘之頤跨界良渚文化,邀您共啟“伏至良渚·頤養(yǎng)夏安”養(yǎng)生盛宴
- 打通AI賦能最后一公里,AMD 舉辦Mini AI工作站行業(yè)解決方案峰會(huì)
- 微云全息(NASDAQ: HOLO)引領(lǐng)密碼學(xué)新紀(jì)元:區(qū)塊鏈與簽密技術(shù)的無(wú)縫融合
- 3D打印全口義齒一次成型:黑格科技再次顛覆齒科制造
- 論道千行萬(wàn)業(yè)數(shù)智化:華為極簡(jiǎn)全閃數(shù)據(jù)中心Pro+釋放新動(dòng)能
- 好想來(lái)呼和浩特省錢(qián)超市,創(chuàng)新模式激活消費(fèi)
- 杰蘭路最新報(bào)告出爐 問(wèn)界以“超強(qiáng)信心”領(lǐng)跑行業(yè) 問(wèn)界M9拿下車(chē)型凈推薦值榜首
- 為毛孩子營(yíng)養(yǎng)需求精準(zhǔn)配比,弗列加特鮮肉標(biāo)準(zhǔn)化處理系統(tǒng)牛在哪?
- 匠心忠華馳援榕江洪災(zāi):捐贈(zèng)愛(ài)心善款 傳遞人道溫度
推薦閱讀
快訊 更多
- 07-09 13:16 | 三重?zé)ㄐ?,啟航未?lái)——Pivotal中文品牌發(fā)布暨喬遷新址、新官網(wǎng)上線(xiàn)
- 04-10 11:21 | 為“首發(fā)經(jīng)濟(jì)”注入創(chuàng)新動(dòng)力,CMEF見(jiàn)證寬騰醫(yī)學(xué)影像技術(shù)革新
- 02-20 18:53 | 手機(jī)也要上HBM芯片?三星計(jì)劃推出移動(dòng)版HBM,預(yù)計(jì)首款產(chǎn)品2028年上市
- 12-30 16:40 | 國(guó)產(chǎn)首款DDR5內(nèi)存問(wèn)世!價(jià)格戰(zhàn)開(kāi)啟,復(fù)制長(zhǎng)江存儲(chǔ)擊敗三星路徑!
- 12-30 16:36 | 華為手機(jī)回歸第一年:全年銷(xiāo)量或超4000萬(wàn)臺(tái) 有望憑借Mate 70在高端市場(chǎng)擊敗蘋(píng)果
- 11-26 18:19 | 眾興菌業(yè)擬與漣水縣人民政府簽訂《招商引資合同書(shū)》 擬投資設(shè)立漣水食用菌產(chǎn)業(yè)園項(xiàng)目
- 11-26 18:16 | 美芝股份中選vivo全球AI研發(fā)中心-精裝工程采購(gòu)項(xiàng)目(標(biāo)段二)
- 11-26 18:14 | 健之佳擬用不超1億回購(gòu)公司股份 維護(hù)公司價(jià)值及股東權(quán)益
- 11-26 09:53 | 格靈深瞳收購(gòu)深圳市國(guó)科億道科技有限公司部分股權(quán)并增資5000萬(wàn)
- 11-26 09:37 | 煒岡科技擬以1.49億購(gòu)買(mǎi)衡所華威9.33%股權(quán) 華海誠(chéng)科擬發(fā)行可轉(zhuǎn)債收購(gòu)煒岡科技所持衡所華威股權(quán)