Google spouští Gemini Live, odpověď společnosti na pokročilý hlasový režim ChatGPT

Událost Made by Google společnosti Google oficiálně skončila, kde společnost uvedla na trh nejnovější řadu svých vlajkových smartphonů řady Pixel. Fáma na tom v posledních týdnech tvrdě pracovala a mnohé fámy se konečně proměnily ve skutečnost. Navíc, jak se očekávalo, událost měla také více než několik – vlastně docela hodně – zmínek o AI.

Jedním z důležitých oznámení mimo jiné AI bylo spuštění Gemini Live. Google oznámil Gemini Live na své I/O konferenci začátkem tohoto roku. Konečně se dostává k předplatitelům Gemini Advanced na Androidu v angličtině a brzy bude k dispozici pro více jazyků a iOS (prostřednictvím aplikace Google).

S Gemini Live je nyní Gemini schopen vést přirozenější obousměrné konverzace. Můžete jej také přerušit uprostřed odpovědi, stejně jako v jakékoli přirozené konverzaci. Můžete přejít do aplikace Gemini na Androidu a konverzovat s chatbotem.

Je to podobné jako u pokročilého hlasového režimu v aplikaci ChatGPT, která je nyní v omezené verzi alfa pro uživatele ChatGPT Plus. Google se pro jednou postavil před OpenAI v časové ose vydání tím, že zahájil širší zavádění.

Gemini Live je k dispozici také handsfree, takže s Gemini můžete mluvit na pozadí nebo i když je váš telefon zamčený. Konverzace můžete také nechat uprostřed a vrátit se k nim později.

Google zavádí Gemini Live v 10 nových hlasech, takže vaše konverzace s AI vám budou připadat ještě autentičtější; můžete si vybrat hlas a tón, který s vámi rezonuje.

Gemini Live nemůže simulovat žádný jiný hlas než 10 hlasů dostupných v aplikaci, aby se předešlo problémům s autorskými právy. ChatGPT-4o se řídí stejnou zásadou. Existuje jedna oblast, kde Gemini Live není totéž jako hlasový režim ChatGPT-4o. První z nich nerozumí vašim emocím z vašeho tónu, něco, co OpenAI demoloval jejich chatbot.

Kromě toho existuje také jedna schopnost Gemini Live, kterou Google předvedl na konferenci I/O a která nebude při spuštění k dispozici. Ano, mluvíme o multimodálních vstupech. Pokud nevíte, co to bylo, nevadí. Zde je rekapitulace: Díky multimodálním vstupům může Gemini Live přijímat vstupy z fotoaparátu vašeho telefonu (fotky i videa) v reálném čase a odpovídat na jakékoli otázky nebo vám pomoci identifikovat objekty, na které ukazujete. Můžete jej například namířit na nějaké DJ vybavení a požádat ho, aby identifikovalo název části, nebo jej můžete namířit na obrazovku a zeptat se, co dělá určitá část kódu.

Multimodální schopnosti jsou však prozatím zpožděny a Google pouze uvedl, že dorazí později v tomto roce, bez jakýchkoliv specifikací. Zajímavé je, že pokročilý hlasový režim ChatGPT-4o má mít také podobné schopnosti, ale ani ty nebyly spuštěny s omezeným zaváděním alfa verze.

Pozoruhodné je, že Gemini Live je krokem na cestě k tomu, aby Google přinesl projekt Astra k realizaci.

Mluvit s chatbotem je někdy mnohem pohodlnější než něco psát, zvláště když chcete něco probrat. A s Gemini Live může být konverzace mnohem hladší. Nebo pokud mají naznačovat živá ukázky z akce Made by Google, je to dost bezproblémové. (Chatbot měl zjevně halucinace během živého dema a při testování funkce „přerušení Gemini uprostřed“ dochází k určitému tření). Uvidíme, jak to dopadne v reálném světě, co? Připravte se na testování Gemini Live na svém Pixelu, Samsungu nebo jiných zařízeních Android během následujících týdnů, počínaje dneškem.