Když bylo zveřejněno první video generované AI, nikdo nemohl tušit, že nástroje AI pro generování videa dojdou v tak krátké době tak daleko. Dnes však máme nespočet platforem, které uživatelům umožňují generovat vysoce kvalitní, neuvěřitelně detailní videa, jako je Synthesia a Luma AI Dream Machine. To znamená, že stále existuje několik problémů, které brání tomu, aby se tyto nástroje dostaly do hlavního proudu.
A tím největším je možná proces generování zvuku. Zatímco většina platforem pro generování videa dokáže produkovat videa dobré kvality, jde většinou o tichá videa bez zvuku. I když je k dispozici zvuk, obvykle se přidává samostatně a nesplňuje očekávání uživatelů.
Pokud například navštívíte stránku Dream Machine společnosti Luma AI, můžete vidět několik velmi působivých videí, ale zvuk, který je doprovází, je poměrně obecný a má nízkou kvalitu. To se ale možná brzy změní s novou technologií video-to-audio (V2A) společnosti Google.
To slibuje, že masám přinese kvalitní generování zvuku pro videa, což znamená, že vám to může konečně umožnit produkovat filmy generované umělou inteligencí se správnými zvukovými stopami a zvukem, které předčí všechna videa generovaná umělou inteligencí, která se v současnosti vyrábí.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
Co je to průzkum videa a zvuku společnosti Google DeepMind?
Technologie Video-to-Audio (V2A) vyvinutá společností Google DeepMind je určena k vytváření zvukových stop pro videa generovaná umělou inteligencí. Tato technologie umožňuje generovat videa a zvuk současně tím, že kombinuje výzvy přirozeného jazyka s obrazovými pixely pro generování zvuků pro jakoukoli akci, která se ve videu odehrává.
Tuto technologii lze spárovat s modely AI používanými ke generování videí, jako je Veo, a může pomoci vytvářet realistické dialogy a zvukové efekty spolu s dramatickými skóre, které odpovídají videu. Ještě důležitější je, že nová technologie V2A není omezena pouze na videa generovaná pomocí AI, ale lze ji také použít ke generování zvukových stop pro videa vyrobená tradičním způsobem. Můžete jej tedy použít pro němé filmy, archivní materiály a další.
Technologie V2A umožňuje uživatelům generovat neomezené množství zvukových stop pro videa a dokonce používat pozitivní a negativní výzvy k vedení procesu generování zvuku a snadnému získání požadovaných zvuků. To také umožňuje větší flexibilitu, takže můžete experimentovat s různými výstupy a najít to, co je pro konkrétní video nejlepší.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Jak funguje technologie V2A?
Podle Googlu společnost experimentovala s technikami založenými na difuzi a autoregresivními technikami a zjistila, že první z nich je pro produkci zvuku nejvhodnější. Výsledkem jsou vysoce realistické zvuky a funguje na základě kódování videa do komprimovaného formátu.
Poté se model difúze používá k oddělení náhodného šumu od videa pomocí výzev v přirozeném jazyce a videa. Výzvy pomáhají vytvářet realistický zvuk, který je dokonale synchronizován s videem. Následuje dekódování zvuku, po kterém je převedeno na zvukový průběh a sloučeno s videem.
DeepMind společnosti Google poskytl více informací pro trénování AI, díky čemuž mohou uživatelé vést proces generování zvuku směrem k požadovaným zvukům a umožňují platformě produkovat zvuk ve vyšší kvalitě. Mezi tyto informace patřily přepisy mluvených dialogů a podrobné zvukové popisy s poznámkami generovanými umělou inteligencí.
Technologie V2A, která je trénována na takové informace, může přiřadit různé vizuální scény ke konkrétním zvukovým událostem.
co je na obzoru?
Technologie V2A společnosti DeepMind funguje mnohem lépe než jiná řešení V2A, protože ne vždy vyžaduje textovou výzvu a dokáže porozumět obrazovým pixelům. Zvukový výstup také není nutné ručně zarovnávat s videem. Stále však existují určitá omezení technologie, která se Google snaží překonat dalším výzkumem.
Například kvalita generovaného zvuku závisí na kvalitě videa použitého jako vstup. Pokud jsou ve videu zkreslení nebo artefakty, model AI jim nerozumí, protože nejsou zahrnuty do jeho tréninku, což v konečném důsledku vede ke snížení kvality zvuku.
Navíc u videí s lidskou řečí společnost pracuje na zlepšení synchronizace rtů. Technologie V2A se snaží generovat řeč pomocí vstupních přepisů a poté ji sladit s pohyby rtů postav ve videu. Pokud však video nespoléhá na přepisy, dochází k nesouladu mezi zvukem a pohyby rtů.
Díky lepším možnostem generování zvuku budou modely AI schopny generovat videa, která nejen působivě vypadají, ale také skvěle znějí. Google také integruje svou technologii V2A se SynthID, která označuje veškerý obsah generovaný pomocí AI. To může pomoci zabránit jeho zneužití a zajistit úplnou bezpečnost.
Kromě toho společnost říká, že svou technologii V2A důkladně otestuje, než ji uvolní veřejnosti. Z toho, co Google předvedl a slíbil do budoucna, se tato technologie zatím rýsuje jako významný pokrok v generování zvuku pro videa generovaná umělou inteligencí.
Napsat komentář