當前位置:首頁(yè) > 科技
生成式AI下一站:文本轉視頻 技術(shù)與道德倫理挑戰如影隨形
發(fā)布人: 系統管理員       信息來(lái)源: 人民網(wǎng)        發(fā)布日期: 2024年03月06日 16:57      瀏覽次數: 59083

聊天機器人ChatGPT的爆紅,讓生成式人工智能(AI)成為科技領(lǐng)域的“當紅炸子雞”。除了如今“霸屏”的類(lèi)似ChatGPT的語(yǔ)言模型之外,生成式AI領(lǐng)域還有大量其他技術(shù):文本生成圖像正在成為一種主流的聊天形式,而能夠將文本轉換成視頻的生成式AI則是“羞答答的玫瑰靜悄悄地開(kāi)”,有望成為該領(lǐng)域下一個(gè)“大事件”。

但專(zhuān)家也指出,盡管文本生成視頻AI有望應用于娛樂(lè )、藝術(shù)等諸多領(lǐng)域,但從技術(shù)到倫理道德等多方面都面臨挑戰。

文本生成視頻初露頭角

紐約人工智能初創(chuàng )企業(yè)朗韋(Runway)公司軟件架構師伊恩·桑薩韋拉在電腦上輸入了一段簡(jiǎn)短的文字:森林中一條寧靜的河流。

約兩分鐘后,該公司開(kāi)發(fā)的生成視頻模型Gen-2就生成了一段短視頻:在陽(yáng)光的照耀下,河面波光粼粼,河水蜿蜒穿過(guò)森林和草叢,輕輕撞擊巖石。

朗韋公司計劃近期向少數測試人員開(kāi)放Gen-2服務(wù)。該公司表示,用于圖像和視頻合成的深度神經(jīng)網(wǎng)絡(luò )正變得越來(lái)越精確、逼真和可控,也使人們能獲得極其逼真且兼具美學(xué)藝術(shù)的圖像,催生合成媒體的興起。

據“數字趨勢”網(wǎng)站3月27日報道,僅過(guò)去7天就有5款此類(lèi)AI視頻生成器面世:朗韋公司的Gen-2,美易(Picsart)公司的Text2Video-Zero、Video-P2P、TemporalNet,以及中國阿里巴巴公司研發(fā)的Text-to-video。

弄潮兒向潮頭立!這些系統AI競爭進(jìn)入下一個(gè)階段,微軟和谷歌等行業(yè)巨頭和小規模初創(chuàng )企業(yè)紛紛入局。

據《印度時(shí)報》報道,早在2022年9月,元宇宙平臺公司就展示了“制作一段視頻”(Make-A-Video)軟件。只需輸入幾個(gè)字詞,軟件就能制作出無(wú)聲視頻。谷歌公司緊隨其后,推出了生成式AI模型Imagen Video。該公司稱(chēng),給出一段文本提示,Imagen Video就能生成高清晰視頻。該公司還展示了另一款模型Phenaki,目標是在輸入文本的基礎上,制作出長(cháng)視頻。

《紐約時(shí)報》的報道指出,這可能是技術(shù)領(lǐng)域的下一個(gè)重大事件,其重要性堪比網(wǎng)絡(luò )瀏覽器或iphone的誕生。

相關(guān)技術(shù)亟待改進(jìn)

不過(guò),也有專(zhuān)家指出,這些AI軟件的質(zhì)量良莠不齊,面臨一些技術(shù)挑戰。

比如,桑薩韋拉生成的“清泉石上流”的視頻時(shí)長(cháng)只有4秒,如果細看,會(huì )發(fā)現畫(huà)面不太連貫,畫(huà)質(zhì)也比較模糊,有時(shí)還會(huì )出現怪異、扭曲、令人不安的畫(huà)面。

美國《Vice》雜志網(wǎng)站則在3月28日的報道中,將AI生成的“威爾·史密斯吃意大利面”的視頻評為最怪異AI生成視頻。在Modelscope生成的視頻中,面容扭曲的史密斯看起來(lái)更像由他配音的電影《鯊魚(yú)故事》中那條怪異的魚(yú),他試圖將成堆的面條舀進(jìn)嘴里,從叉子上或手中咀嚼大塊意大利面。這是一個(gè)噩夢(mèng)般的定格動(dòng)畫(huà)視頻,僅由一行無(wú)害的文字生成:威爾·史密斯吃意大利面。

DeepMedia.AI是一家美國初創(chuàng )公司,其為美國政府構建數據集,為高精確檢測“深度造假”內容提供支持,該公司創(chuàng )始人兼首席執行官瑞杰勒·古普塔4月4日接受媒體采訪(fǎng)時(shí)指出,目前AI生成的視頻存在兩個(gè)主要的問(wèn)題:首先,單幀并不完全逼真;其次,幀與幀之間的銜接并不流暢。不過(guò),通過(guò)使用越來(lái)越多的數據訓練,這種技術(shù)應能解決這些問(wèn)題,快速提高和擴展這些文本生成視頻系統的能力。

改良后的視頻生成系統可加快電影制片人和其他數字藝術(shù)家的工作速度。專(zhuān)家認為,他們很快就能在這些系統的加持下,制作出配有音樂(lè )和對話(huà)、看起來(lái)非常專(zhuān)業(yè)的微電影。

有專(zhuān)家認為,未來(lái)AI生成視頻有可能制作出可信且良好的內容,并喚起人類(lèi)的情感。

“深度造假”值得警惕

這些系統還會(huì )成為一種快速制造難以覺(jué)察的網(wǎng)絡(luò )虛假信息的新方式,使人們更難辨別互聯(lián)網(wǎng)上的真實(shí)信息,深度偽造技術(shù)目前所帶來(lái)的問(wèn)題可能會(huì )變得更加嚴重。

美國麻省理工學(xué)院人工智能教授菲利普·伊索拉就表示,如果看到高分辨率的視頻,人們很可能會(huì )相信它。還有專(zhuān)家指出,隨著(zhù)人工智能語(yǔ)音匹配的出現,以及逐漸擁有改變和創(chuàng )建幾乎觸手可及的逼真視頻的能力,偽造公眾人物和普通人的言行可能會(huì )造成不可估量的傷害,“潘多拉的魔盒已經(jīng)打開(kāi)”。

目前,已有公司在開(kāi)發(fā)檢測軟件并將其集成到音視頻媒體平臺上。


如涉及版權問(wèn)題,請作者持權屬證明與本網(wǎng)聯(lián)系。返回首頁(yè)
更多新聞,歡迎掃描上方二維碼關(guān)注百靈網(wǎng)官方微信(beelink1998515)
資訊
熱點(diǎn)專(zhuān)題
熱點(diǎn)新聞