Událost Made by Google společnosti Google oficiálně skončila, kde společnost uvedla na trh nejnovější řadu svých vlajkových smartphonů řady Pixel. Fáma na tom v posledních týdnech tvrdě pracovala a mnohé fámy se konečně proměnily ve skutečnost. Navíc, jak se očekávalo, událost měla také více než několik – vlastně docela hodně – zmínek o AI.
Jedním z důležitých oznámení mimo jiné AI bylo spuštění Gemini Live. Google oznámil Gemini Live na své I/O konferenci začátkem tohoto roku. Konečně se dostává k předplatitelům Gemini Advanced na Androidu v angličtině a brzy bude k dispozici pro více jazyků a iOS (prostřednictvím aplikace Google).
S Gemini Live je nyní Gemini schopen vést přirozenější obousměrné konverzace. Můžete jej také přerušit uprostřed odpovědi, stejně jako v jakékoli přirozené konverzaci. Můžete přejít do aplikace Gemini na Androidu a konverzovat s chatbotem.
Je to podobné jako u pokročilého hlasového režimu v aplikaci ChatGPT, která je nyní v omezené verzi alfa pro uživatele ChatGPT Plus. Google se pro jednou postavil před OpenAI v časové ose vydání tím, že zahájil širší zavádění.
Gemini Live je k dispozici také handsfree, takže s Gemini můžete mluvit na pozadí nebo i když je váš telefon zamčený. Konverzace můžete také nechat uprostřed a vrátit se k nim později.
Google zavádí Gemini Live v 10 nových hlasech, takže vaše konverzace s AI vám budou připadat ještě autentičtější; můžete si vybrat hlas a tón, který s vámi rezonuje.
Gemini Live nemůže simulovat žádný jiný hlas než 10 hlasů dostupných v aplikaci, aby se předešlo problémům s autorskými právy. ChatGPT-4o se řídí stejnou zásadou. Existuje jedna oblast, kde Gemini Live není totéž jako hlasový režim ChatGPT-4o. První z nich nerozumí vašim emocím z vašeho tónu, něco, co OpenAI demoloval jejich chatbot.
Kromě toho existuje také jedna schopnost Gemini Live, kterou Google předvedl na konferenci I/O a která nebude při spuštění k dispozici. Ano, mluvíme o multimodálních vstupech. Pokud nevíte, co to bylo, nevadí. Zde je rekapitulace: Díky multimodálním vstupům může Gemini Live přijímat vstupy z fotoaparátu vašeho telefonu (fotky i videa) v reálném čase a odpovídat na jakékoli otázky nebo vám pomoci identifikovat objekty, na které ukazujete. Můžete jej například namířit na nějaké DJ vybavení a požádat ho, aby identifikovalo název části, nebo jej můžete namířit na obrazovku a zeptat se, co dělá určitá část kódu.
Multimodální schopnosti jsou však prozatím zpožděny a Google pouze uvedl, že dorazí později v tomto roce, bez jakýchkoliv specifikací. Zajímavé je, že pokročilý hlasový režim ChatGPT-4o má mít také podobné schopnosti, ale ani ty nebyly spuštěny s omezeným zaváděním alfa verze.
Pozoruhodné je, že Gemini Live je krokem na cestě k tomu, aby Google přinesl projekt Astra k realizaci.
Mluvit s chatbotem je někdy mnohem pohodlnější než něco psát, zvláště když chcete něco probrat. A s Gemini Live může být konverzace mnohem hladší. Nebo pokud mají naznačovat živá ukázky z akce Made by Google, je to dost bezproblémové. (Chatbot měl zjevně halucinace během živého dema a při testování funkce „přerušení Gemini uprostřed“ dochází k určitému tření). Uvidíme, jak to dopadne v reálném světě, co? Připravte se na testování Gemini Live na svém Pixelu, Samsungu nebo jiných zařízeních Android během následujících týdnů, počínaje dneškem.
Napsat komentář