Pokud byste netrpělivě očekávali nejnovější jarní aktualizaci od OpenAI pro ChatGPT a doufali, že společnost vydá GPT-5, budete v tomto ohledu zklamáni. Ale to, co místo toho vydala OpenAI, by to více než vynahradilo.
Společnost nedávno představila svůj nejnovější vlajkový model – GPT-4o – a je to mistrovské dílo lidské inovace. „O“ v GPT-4o znamená „omni“ a je to výstižné přikývnutí k nejnovějším všudypřítomným schopnostem ChatGPT. I když oproti modelu GPT-4 nedošlo k velkému zlepšení v oblasti inteligence a uvažování, nový model se vyznačuje drastickým vylepšením rychlosti a multimodality.
Co to znamená? GPT-4o má vylepšené možnosti pro text, hlas a vidění. Dokáže lépe porozumět obrázkům a diskutovat o nich. Nejzajímavější částí aktualizace je však její schopnost konverzovat s vámi v reálném čase prostřednictvím zvuku a videa, což nás uvádí do budoucnosti interakce člověk-stroj. Většina z nás si tuto sci-fi interakci s umělou inteligencí jen představovala. Ale je to tady a je to vzrušující.
Mira Murati, CTO společnosti OpenAI, spolu se dvěma vedoucími výzkumu předvedla nové schopnosti GPT-40.
Hlasový model má neuvěřitelnou osobnost a tonalitu, díky které můžete (na chvíli) zapomenout, že komunikujete s AI. Je to děsivě vzrušující. Odpovědi jsou mnohem přirozenější a dokonce se směje a předstírá, že se červená jako člověk.
Demo také zdůraznilo rozsah emocí, které ChatGPT může projevit, když je výslovně požádán: Při vyprávění příběhu ChatGPT nasával svůj hlas více emocemi a dramatem, přepnul na robotický zvuk a dokonce zpíval jako v muzikálu a podařilo se to. vše bez problémů.
Mnoho uživatelů říká, že jim tento hlas připomíná umělou inteligenci Scarlett Johansson z filmu „Her“, ale zejména je to stejný hlas, jaký měl ChatGPT v minulosti. Veškerý rozdíl pochází ze změn tonality a některých dobře umístěných smíchů.
Když jej spárujete s jeho schopnostmi vidět a reagovat na obsah na obrazovce, je to přímo ohromující. Díky svým novým schopnostem vidění mohl ChatGPT nejen porozumět věcem, jako jsou lineární rovnice, ale odvedl docela náročnou práci při interpretaci okolí a také emocí na tváři člověka, které se mu zobrazují pomocí fotoaparátu. Nyní můžete dokonce hrát kámen-nůžky papír a požádat ChatGPT, aby se stal rozhodčím, nebo posunout přípravu na rozhovor s ChatGPT o krok dále tím, že ho požádáte, aby kritizoval váš outfit, a nebude zastírat žádná špatná rozhodnutí, která uděláte.
Celkově je efekt pozoruhodný a téměř vás nutí věřit, že komunikujete se skutečnou osobou během videohovoru (pokud má druhá osoba neustále vypnutou kameru).
https://www.youtube.com/watch?v=DQacCB9tDaw
Hlasový model je také celkově lepší než aktuálně dostupný. Dialog plyne spíše jako přirozená konverzace, kdy jej můžete uprostřed přerušit, dokáže porozumět a odlišit více hlasů a ruchů v pozadí a tónu hlasu.
Na technické úrovni je to proto, že GPT-4o umí vše nativně, že až dosud vyžadovaly tři různé modely: Přepis, Inteligence a Text-to-Speech. Tato vylepšení přinášejí uživateli více pohlcující zážitek ze spolupráce namísto latencí předchozích modelů.
Zatímco přístup ke GPT-4o se již začíná zpřístupňovat uživatelům zdarma i Plus ve webové aplikaci, nový hlasový režim s GPT-4o bude v nadcházejících týdnech spuštěn ve verzi alfa pouze pro uživatele ChatGPT Plus. Vydává se také nová aplikace ChatGPT pro macOS, přičemž přístup je zaváděn iterativně, počínaje uživateli ChatGPT Plus.
Zatímco demo bylo docela působivé, budeme muset počkat, až uvidíme, zda bude aplikace v reálném světě tak hladká, až bude model konečně vydán.
Napsat komentář