Google nedávno oznámil řadu aktualizací svého modelu Gemini AI, včetně několika upgradů a nových modelů. Mezi nimi byla hodně pozornosti Gemini Live, multimodální model umělé inteligence, který nabízí možnosti videa a hlasu.
Od února, kdy byl Bard přejmenován na Gemini, AI model slouží jako náhrada za Google Assistant na zařízeních Android. Je však značně omezená v tom, co aktuálně umí. S Gemini Live to chce Google změnit tím, že nabídne výkonnější a všestrannější model umělé inteligence.
Co je Gemini Live?
S cílem poskytnout uživatelům vylepšený zážitek z umělé inteligence a převzít vylepšený ChatGPT OpenAI GPT-4o, Google nedávno oznámil Gemini Live na své I/O Developer Conference. Gemini Live umožní uživatelům vést přirozené a personalizované konverzace v reálném čase prostřednictvím hlasu a později i videa.
Nový model umělé inteligence je součástí projektu Astra společnosti Google, což je pokus vyhledávacího giganta o vytvoření univerzálního asistenta umělé inteligence, který může k poskytování pomoci využívat různé typy vstupů z každodenního života. Gemini Live může například k zodpovězení otázek používat text, obraz z fotoaparátu vašeho chytrého telefonu a váš hlas.
Podle Googlu nový model přirozeného jazyka nejen pomůže uživatelům řešit problémy a provádět různé akce, ale také se během interakcí cítit naprosto přirozeně. Uživatelé budou moci spustit Gemini Live klepnutím na ikonu hlasu na svém telefonu, která zobrazí AI na celé obrazovce s efektem zvukové vlny.
S AI pak můžete konverzovat stejně jako se skutečným osobním asistentem. Vynikajícím příkladem toho, jak vám může vylepšený model umělé inteligence pomoci, je, když jej požádáte, aby vám pomohl s přípravou na pohovor. Gemini Live vám navrhne dovednosti, které můžete vyzdvihnout, poskytne tipy na veřejné vystupování a další.
Funkce
Gemini Live přichází s několika funkcemi, které z něj dělají mnohem lepšího asistenta AI než Google Assistant, Siri od Apple nebo Alexa od Amazonu.
Obousměrné hlasové konverzace
Gemini Live vám umožňuje konverzovat s ním a poskytuje verbální odpovědi podobné lidským, což vede k poutavým a intuitivním rozhovorům. Můžete se ho například zeptat na počasí a poskytne vám přesné a stručné informace.
Schopnosti chytrého asistenta
Model AI může sloužit jako chytrý asistent a provádět úkoly, jako je sumarizace informací z e-mailů a aktualizace kalendáře. Můžete například vyfotit koncertní leták a Blíženci si událost přidají do kalendáře.
Vizuální schopnosti
Pomocí fotoaparátu na vašem smartphonu může Gemini Live zaznamenávat videa v reálném čase. To mu umožňuje identifikovat objekty a odpovídat na otázky, které se jich týkají. Pokud například namíříte fotoaparát svého smartphonu na reproduktor a požádáte Gemini, aby jej identifikovali, řekne vám, co to je, a dokonce identifikuje jeho značku a model.
Jak Gemini Live funguje?
Project Astra dokáže kombinovat řečové a vizuální vstupy, díky čemuž jsou snadno srozumitelné pro model AI. Na informace pak může reagovat a poskytnout požadovanou pomoc. Stejně jako ChatGPT s podporou OpenAI GPT-4o je Gemini Live multimodální AI a nespoléhá se pouze na text jako vstup.
Zatímco Gemini Live bude původně používat hlasový vstup ke shromažďování a analýze dat při prvním vydání, v nadcházejících měsících bude upgradován, aby zpracovával a analyzoval také videa tak, že je rozdělí snímek po snímku pro lepší porozumění a interakci.
Umělá inteligence se dokáže přizpůsobit rychlosti, jakou různí uživatelé mluví, a můžete ji dokonce přerušit a požádat o vysvětlení nebo poskytnout další informace. Jeho schopnost napodobovat lidský dialog může poskytnout poutavější interakci. Můžete s ním tedy konverzovat tam a zpět, stejně jako s lidským asistentem. Navíc si budete moci vybrat z deseti různých hlasů pro AI.
GPT-4o vs. Blíženci žijí
Zatímco GPT-4o i Gemini Live jsou multimodální modely umělé inteligence, v současné době je obtížné zjistit, který z nich funguje lépe v reálném životě, zejména proto, že žádný z nich není v tuto chvíli veřejně dostupný.
Na rozdíl od ChatGPT se však Gemini Live spoléhá na jiné modely AI, jako je Google Veo a Imagen 3, pro poskytování výstupu ve formě videí a obrázků. Navzdory tomu v ukázkách předváděných OpenAI a Google vypadal ChatGPT přirozeněji a nový model GPT-4o dokázal dokonce detekovat a simulovat lidské emoce prostřednictvím vokálních tónů.
Navíc se dokáže přizpůsobit tomu, jak chcete, aby odpovídal, což Gemini Live alespoň v současném stavu neumí.
Živá dostupnost Gemini
Gemini Live bude k dispozici pro předplatitele Gemini Advanced, což je placená verze AI chatbota. Bude spuštěn v následujících měsících a očekává se, že bude široce dostupný do konce roku.
Aplikace jako Google Messages budou moci plně využívat výhod Gemini Live, což uživatelům umožní komunikovat s AI přímo v aplikaci pro zasílání zpráv.
Gemini Live může být dalším velkým upgradem chatbota Google s umělou inteligencí a právě tím, co potřebuje, aby se postavilo soupeřům, jako je ChatGPT od OpenAI. Díky multimodálním funkcím a výkonným hlasovým schopnostem může upgradovaný model pomoci společnosti Google dosáhnout úspěchu při poskytování všestranného a spolehlivého digitálního asistenta.
Právě teď Google pouze oznámil, že přinese nový model AI placeným předplatitelům. I když to vynechává bezplatné uživatele, kteří tvoří obrovskou část uživatelské základny Google, doufáme, že Google změní svůj postoj a rozhodne se rozšířit dostupnost Gemini Live.
Napsat komentář