Nedávno jsem vyzkoušel Claudeův nový model 3.5 Sonnet, což je zatím nejvýkonnější model AI od Anthropic a o kterém společnost tvrdí, že může překonat soupeře, jako je ChatGPT od OpenAI. Toto je odvážné tvrzení, které Anthropic podporuje některými docela působivými benchmarky.
Nový model také disponuje schopnostmi vidění, které vám umožňují poskytovat mu obrázky a dokumenty a získávat z nich informace. A dokáže lépe porozumět emocím, jako je humor, a přitom je mnohem rychlejší. Všechny tyto prvky dělají z Claude 3.5 hlavního konkurenta novému ChatGPT poháněnému GPT-40, který je také multimodálním modelem AI.
Stejně jako Sonnet může ChatGPT-40 k poskytování odpovědí používat kromě textových vstupů také vstupy založené na vidění. Je stejně dobrý v řešení problémů a má podobné konverzační schopnosti. Vzhledem k tomu, že oba nové modely jsou si tak blízké, pokud jde o schopnosti a výkon, každý si klade otázku, který z nich je lepší? Abych na to odpověděl, rozhodl jsem se oba modely podrobně porovnat.
Získávání informací z dokumentů
Nástroje umělé inteligence se často používají k extrahování informací z dokumentů, jako jsou soubory PDF, a k jejich shrnutí; rozhodl jsem se tedy nejprve ověřit, který z těchto dvou modelů to dokáže efektivněji. K tomu jsem připravil PDF dokument o střešních čtvercích, který jsem napsal před časem, a nahrál ho do ChatGPT a Claude.
Pak jsem jim dal výzvu: summarize this document and provide me with the most important points discussed in it.
Tady je to, co jsem objevil. Nový model Claude byl mnohem rychlejší než ChatGPT a začal generovat svou odpověď okamžitě poté, co jsem odeslal svou žádost. Také sledoval výzvu přesněji a uváděl důležité body v číslovaném seznamu. Pokud nemáte čas a chcete se jen podívat, co dokument obsahuje, potřebujete právě toto.
Nicméně, přestože jsem pomalejší než Claude, dal jsem v tomto případě přednost odpovědi ChatGPT. Nejen, že uvádí nejdůležitější body v dokumentu, ale také je rozděluje do různých částí, jako je Definice a důležitost, Výpočet atd.
Pokud potřebujete najít konkrétní informace týkající se určitého aspektu tématu diskutovaného v dokumentu, zdá se být užitečnější způsob, jak věci dělat ChatGPT. Nemusíte procházet všechny body a stačí se podívat na potřebnou sekci. Informace jsou poskytovány způsobem, který je snazší projít a strávit.
Testování zrakových schopností
Protože jedním z klíčových vrcholů Claude 3.5 a ChatGPT-40 je jejich schopnost používat vizuální vstup a poskytovat na něm informace, rozhodl jsem se to dále otestovat tím, že jsem je požádal, aby po jejich přepsání dodržovali ručně psané pokyny. Požádal jsem modely umělé inteligence, aby napsali krátkou báseň podobnou Ezopově „Mravenec a Cvrček“.
I když jsem to písemně nespecifikoval, chtěl jsem, aby výstup byl inspirován básní, ale s jinými postavami. Claude mě nejprve požádal, abych potvrdil mou ručně psanou žádost, a pak v ní pokračoval. Výsledek byl docela dobrý, velmi blízký původní básni, ale obsahoval stejné postavy. Chatbot s umělou inteligencí se mě také zeptal, zda po dokončení psaní básně chci jiný přístup nebo nějaké úpravy básně.
ChatGPT nepožadoval, abych potvrdil můj požadavek, ale okamžitě přistoupil k jeho dokončení. Báseň, kterou napsal, byla také velmi působivá a nahradila mravence a cvrčka z původního stvoření včelou a motýlem, což Claude neudělal. Také mi přišla verze ChatGPT poetičtější.
Při přepisu je tedy ve výsledcích nepatrný rozdíl, ale oba dokážou velmi dobře dešifrovat a rozumět ručně psanému a tištěnému textu, i když obrázky nejsou příliš jasné. Tyto výkonné schopnosti vidění také znamenají, že můžete tyto nástroje používat ke shromažďování informací z grafů a tabulek, takže jsou vhodné pro matematické úlohy.
Popis obrázků: Protože oba modely umí extrahovat informace i z obrázků, musel jsem to také vyzkoušet. Poskytl jsem Claudovi a ChatGPT obrázek tropického ostrova a požádal jsem je, aby jej popsali. Jak můžete vidět, Claude poskytuje živý popis obrázku a velmi jasně popisuje každý prvek v popředí a pozadí, dokonce i ty, kterých jsem si sám nevšiml.
Claudeův výběr frází a slov k popisu obrazu se také zdál působivější, protože obraz byl spravedlivý. Odvádí dobrou práci při popisu barev, osvětlení a zprostředkování celkového pocitu klidu a míru, který obraz vytváří.
Výsledky byly složitější v případě ChatGPT, který dokáže popsat obrázky, i když ne tak dobře jako Claude. Model OpenAI má tendenci dělat chyby a přidává prvky, které nejsou přítomny, což ukazuje, že stále může mít halucinace. Původně se také snažil popsat obrázek na základě jeho názvu místo toho, co zobrazoval, a nakonec se to po několika pokusech podařilo.
Ani tehdy popis, který jsem z toho dostal, nedokázal udržet Claudovu odpověď jako svíčku. To bylo docela překvapivé, protože schopnosti vidění GPT-40 byly jedním z největších vrcholů, které OpenAI předvedla při uvedení.
Generování a úpravy obsahu
Dále jsem se pokusil zjistit, který model si vedl lépe v generování obsahu. Abych si udělal jasnou představu o tom, jak fungují, rozhodl jsem se generovat obsah, který vyžaduje skutečná fakta a data, stejně jako fiktivní obsah, který by se opíral o kreativitu modelu AI.
Nejprve jsem požádal Clauda a ChatGPT, aby mi poskytli podrobný článek o různých vzhledech Androidu, protože je to něco, o čem mnoho lidí chce vědět, ale je to velmi subjektivní téma, přičemž každý má svého favorita. Použil jsem výzvu Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Vzhledem k tomu, kolik času trávíme s našimi chytrými telefony, chtěl jsem zjistit, jak přesné jsou modely a kolik informací mohou poskytnout o každém skinu.
Jako obvykle byl Claude rychlejší v poskytování odpovědi. Poskytl přehled vysvětlující, co jsou vzhledy Androidu, což je hezké, ale pak jednoduše pokračoval v seznamu různých vzhledů s funkcemi, které nabízejí, v seznamu s odrážkami. Mějte na paměti, že model poskytl tento výsledek, i když jsem ve své výzvě konkrétně uvedl „podrobný článek“.
Naproti tomu ChatGPT vytvořil působivější název článku a obsahoval stručný úvod. Poté vysvětlila každý vzhled ve své vlastní sekci a rozdělila každý z nich na Přehled, Klíčové vlastnosti, Pro a Proti.
Nejen, že to poskytuje komplexnější informace, ale také přesně víte, jak se různé vzhledy navzájem porovnávají. Nakonec to zakončilo článek pořádným závěrem. Zatímco počet skinů, které ChatGPT zmiňoval, byl menší než počet, který uvedl Claude, zde na kvalitě záleží více než na kvantitě.
Zatímco ChatGPT si v tomto případě vedl lépe než Claude, ten druhý může také generovat dobrý obsah, jak jsem zjistil ve svém předchozím testování. Může to záviset na tématu nebo způsobu, jakým formulujete výzvu. Proto jsem dal oběma modelům další výzvu, tentokrát pomocí výzvy, Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
která mi také poskytla příležitost vidět, jak dobře modely rozumí a dokážou zprostředkovat humor.
Tentokrát byly výsledky velmi blízko sebe, přičemž oba modely vytvořily skutečně veselé příběhy. Oba příběhy měly společné prvky, jako je ironie a fyzická komedie. V beletrii jsou osobní preference mocným faktorem a celkově mi Claudeův výstup připadal o něco lepší, zejména způsob, jakým si hrál se slovy, aby vytvořil humor.
Ale jak jsem již zmínil, příběh ChatGPT byl také zábavný a byl o něco delší než Claudeův. Jeho konec byl také zdravější. Claude i ChatGPT tedy byli schopni generovat dobrý fiktivní obsah a zároveň obsahovat humorné prvky podle mého pokynu.
Úprava obsahu: Generování obsahu je pouze jednou částí procesu. Chcete-li skutečně zjistit, co dokáže model umělé inteligence, pokud jde o obsah, musíte také otestovat jeho možnosti úpravy obsahu, k čemuž jsem přistoupil. Za tímto účelem jsem Claudovi a ChatGPT poskytl text o sociálním obchodu a dal jim výzvu,Can you expand this article while also proofreading and improving it?
Při vylepšování článku začal Claude úvodem, pak psal o vývoji sociálního obchodu a nakonec následoval další sekce, přičemž každou z nich rozšiřoval, jak uzná za vhodné. Model také používal číslované seznamy a odrážky tam, kde to považovalo za nutné zlepšit čitelnost.
Odpověď ChatGPT byla podobná jako u předchozích, kde rozdělil obsah do různých sekcí s různými podnadpisy. Nepoužila žádné seznamy, ale zachovala informace ve formě odstavců. Pokud jde o změny a vylepšení, všiml jsem si, že Claude provedl v článku razantnější změny než ChatGPT, ale konečný výsledek byl také mnohem lepší. Nakonec jsem zjistil, že editační možnosti Sonnetu jsou výkonnější a mnohem lépe vyhovují mému pracovnímu postupu.
Schopnost kódování
Žádné srovnání modelů umělé inteligence není úplné bez zahrnutí jejich kódovacích schopností. Zatímco Claude byl speciálně vyvinut, aby pomohl programátorům psát lepší kód rychle a snadno, nový ChatGPT poháněný GPT-40 také není něco, na co by se dalo pohlížet svrchu, pokud jde o kódování.
Abych otestoval jejich schopnost generování kódu, požádal jsem Clauda i ChatGPT, aby Generate code for a simple game that can help beginners learn programming.
Zatímco oba napsali kód v Pythonu, Claude dokončil generování kódu rychleji, jak se očekávalo. Zobrazoval celý kód na pravé straně obrazovky a vysvětloval prvky jako Funkce a Proměnné na levé straně.
Na Claudově odpovědi se mi nejvíce líbilo, že obsahovala také tlačítko, které vám umožní okamžitě přejít na kód, takže si jej můžete snadno zkontrolovat. Kromě toho mě chatbot informoval o požadavcích potřebných ke spuštění kódu, včetně pokynů. Pokud jde o samotný kód, bylo to docela snadné pochopit a také běžel perfektně, když jsem ho testoval.
Pokud jde o odpověď ChatGPT, byl také schopen vygenerovat jednoduchý, ale funkční kód, jak jsem požadoval. Pod kódem chatbot poskytl kroky potřebné ke spuštění hry a také koncepty, které kód pokrývá, takže začátečníkům snadno porozumí. Celkově byly výsledky pro oba modely v tomto případě velmi podobné, ačkoli Claude vysvětlil více prvků a měl možnost, pomocí které jej můžete požádat o podrobné vysvětlení jakékoli části kódu.
Matematické schopnosti
Nakonec jsem Claudovi i ChatGPT dal k vyřešení matematickou otázku, abych viděl, jak dobře se jim dařilo a která z nich byla rychlejší. Otázka zahrnovala algebraické rovnice, ale nebyla nijak zvlášť náročná. Oba modely začaly tím, že vysvětlily, co dělat v prvním kroku, i když jejich přístup byl odlišný. Claude přistoupil k rozšíření rovnice a nakonec mi řekl, že řešení problému zcela vyžaduje použití grafické kalkulačky nebo systému počítačové algebry.
To znamená, že uvedl počet potenciálních řešení problému. Naproti tomu ChatGPT vyřešil problém v celém rozsahu a dal mi všechna možná řešení. To naznačuje, že pokud jde o matematické schopnosti, ChatGPT-4o je před Sonetem.
Konečný verdikt – Claude Sonnet 3.5 nebo ChatGPT-4o: Kdo vyhrál?
Vybrat si mezi Claude 3.5 a ChatGPT-4o není snadné, ale nakonec může být vítězem jen jeden a pro mě to musí být nový model Sonnet. Nejen, že je výrazně rychlejší než ChatGPT, ale také poskytuje přesnější odpovědi. Obzvláště se mi líbilo, jak dobře umí popisovat obrázky a provádět akce s nimi související.
Claude za dobu, co jsem s ním pracoval, také ani jednou nehalucinoval, což je další bod v jeho prospěch a jeho reakce byly celkově blíže mým pokynům. I když v jednom případě, kdy jsem chtěl podrobný obsah, nefungoval tak, jak jsem očekával, jeho použití k získání požadovaných informací bylo obecně jednodušší a vyžadovalo méně úsilí.
Když jsem vyzkoušel Claude 3.5 Sonnet a ChatGPT-40, zjistil jsem, že oba jsou výjimečně dobré modely umělé inteligence, které jsou si výkonově velmi blízké. Zatímco Sonnet plní některé úkoly lépe, ChatGPT přináší lepší výsledky v jiných. Měli byste pochopit, že určení, který z nich je lepší, bude záviset na vašem individuálním případu použití.
Oba bezplatné modely jsou navíc omezené v tom, co mohou dělat. Pokud tedy chcete používat kteroukoli AI pravidelně, doporučuji získat placené předplatné, abyste dosáhli nejlepších výsledků.
Napsat komentář