Claude Sonnet 3.5 vs. ChatGPT-4o: Co je lepší?

Claude Sonnet 3.5 vs. ChatGPT-4o: Co je lepší?

Nedávno jsem vyzkoušel Claudeův nový model 3.5 Sonnet, což je zatím nejvýkonnější model AI od Anthropic a o kterém společnost tvrdí, že může překonat soupeře, jako je ChatGPT od OpenAI. Toto je odvážné tvrzení, které Anthropic podporuje některými docela působivými benchmarky.

Nový model také disponuje schopnostmi vidění, které vám umožňují poskytovat mu obrázky a dokumenty a získávat z nich informace. A dokáže lépe porozumět emocím, jako je humor, a přitom je mnohem rychlejší. Všechny tyto prvky dělají z Claude 3.5 hlavního konkurenta novému ChatGPT poháněnému GPT-40, který je také multimodálním modelem AI.

Stejně jako Sonnet může ChatGPT-40 k poskytování odpovědí používat kromě textových vstupů také vstupy založené na vidění. Je stejně dobrý v řešení problémů a má podobné konverzační schopnosti. Vzhledem k tomu, že oba nové modely jsou si tak blízké, pokud jde o schopnosti a výkon, každý si klade otázku, který z nich je lepší? Abych na to odpověděl, rozhodl jsem se oba modely podrobně porovnat.

Získávání informací z dokumentů

Nástroje umělé inteligence se často používají k extrahování informací z dokumentů, jako jsou soubory PDF, a k jejich shrnutí; rozhodl jsem se tedy nejprve ověřit, který z těchto dvou modelů to dokáže efektivněji. K tomu jsem připravil PDF dokument o střešních čtvercích, který jsem napsal před časem, a nahrál ho do ChatGPT a Claude.

Pak jsem jim dal výzvu: summarize this document and provide me with the most important points discussed in it.Tady je to, co jsem objevil. Nový model Claude byl mnohem rychlejší než ChatGPT a začal generovat svou odpověď okamžitě poté, co jsem odeslal svou žádost. Také sledoval výzvu přesněji a uváděl důležité body v číslovaném seznamu. Pokud nemáte čas a chcete se jen podívat, co dokument obsahuje, potřebujete právě toto.

Testování Claudových schopností ohledně extrakce a sumarizace informací z dokumentů.

Nicméně, přestože jsem pomalejší než Claude, dal jsem v tomto případě přednost odpovědi ChatGPT. Nejen, že uvádí nejdůležitější body v dokumentu, ale také je rozděluje do různých částí, jako je Definice a důležitost, Výpočet atd.

Pokud potřebujete najít konkrétní informace týkající se určitého aspektu tématu diskutovaného v dokumentu, zdá se být užitečnější způsob, jak věci dělat ChatGPT. Nemusíte procházet všechny body a stačí se podívat na potřebnou sekci. Informace jsou poskytovány způsobem, který je snazší projít a strávit.

ChatGPT uvádí důležité body a rozděluje je do různých sekcí.

Testování zrakových schopností

Protože jedním z klíčových vrcholů Claude 3.5 a ChatGPT-40 je jejich schopnost používat vizuální vstup a poskytovat na něm informace, rozhodl jsem se to dále otestovat tím, že jsem je požádal, aby po jejich přepsání dodržovali ručně psané pokyny. Požádal jsem modely umělé inteligence, aby napsali krátkou báseň podobnou Ezopově „Mravenec a Cvrček“.

I když jsem to písemně nespecifikoval, chtěl jsem, aby výstup byl inspirován básní, ale s jinými postavami. Claude mě nejprve požádal, abych potvrdil mou ručně psanou žádost, a pak v ní pokračoval. Výsledek byl docela dobrý, velmi blízký původní básni, ale obsahoval stejné postavy. Chatbot s umělou inteligencí se mě také zeptal, zda po dokončení psaní básně chci jiný přístup nebo nějaké úpravy básně.

Claude přesněji dodržuje ručně psané pokyny.

ChatGPT nepožadoval, abych potvrdil můj požadavek, ale okamžitě přistoupil k jeho dokončení. Báseň, kterou napsal, byla také velmi působivá a nahradila mravence a cvrčka z původního stvoření včelou a motýlem, což Claude neudělal. Také mi přišla verze ChatGPT poetičtější.

ChatGPT rozumí ručně psaným pokynům, ale při jejich dodržování přidává vlastní dotek.

Při přepisu je tedy ve výsledcích nepatrný rozdíl, ale oba dokážou velmi dobře dešifrovat a rozumět ručně psanému a tištěnému textu, i když obrázky nejsou příliš jasné. Tyto výkonné schopnosti vidění také znamenají, že můžete tyto nástroje používat ke shromažďování informací z grafů a tabulek, takže jsou vhodné pro matematické úlohy.

Popis obrázků: Protože oba modely umí extrahovat informace i z obrázků, musel jsem to také vyzkoušet. Poskytl jsem Claudovi a ChatGPT obrázek tropického ostrova a požádal jsem je, aby jej popsali. Jak můžete vidět, Claude poskytuje živý popis obrázku a velmi jasně popisuje každý prvek v popředí a pozadí, dokonce i ty, kterých jsem si sám nevšiml.

Claudeův výběr frází a slov k popisu obrazu se také zdál působivější, protože obraz byl spravedlivý. Odvádí dobrou práci při popisu barev, osvětlení a zprostředkování celkového pocitu klidu a míru, který obraz vytváří.

Claude 3.5 dokáže popsat obrázky přesně a velmi podrobně.

Výsledky byly složitější v případě ChatGPT, který dokáže popsat obrázky, i když ne tak dobře jako Claude. Model OpenAI má tendenci dělat chyby a přidává prvky, které nejsou přítomny, což ukazuje, že stále může mít halucinace. Původně se také snažil popsat obrázek na základě jeho názvu místo toho, co zobrazoval, a nakonec se to po několika pokusech podařilo.

Ani tehdy popis, který jsem z toho dostal, nedokázal udržet Claudovu odpověď jako svíčku. To bylo docela překvapivé, protože schopnosti vidění GPT-40 byly jedním z největších vrcholů, které OpenAI předvedla při uvedení.

ChatGPT může popisovat obrázky, ale může dělat chyby.

Generování a úpravy obsahu

Dále jsem se pokusil zjistit, který model si vedl lépe v generování obsahu. Abych si udělal jasnou představu o tom, jak fungují, rozhodl jsem se generovat obsah, který vyžaduje skutečná fakta a data, stejně jako fiktivní obsah, který by se opíral o kreativitu modelu AI.

Nejprve jsem požádal Clauda a ChatGPT, aby mi poskytli podrobný článek o různých vzhledech Androidu, protože je to něco, o čem mnoho lidí chce vědět, ale je to velmi subjektivní téma, přičemž každý má svého favorita. Použil jsem výzvu Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?Vzhledem k tomu, kolik času trávíme s našimi chytrými telefony, chtěl jsem zjistit, jak přesné jsou modely a kolik informací mohou poskytnout o každém skinu.

Jako obvykle byl Claude rychlejší v poskytování odpovědi. Poskytl přehled vysvětlující, co jsou vzhledy Androidu, což je hezké, ale pak jednoduše pokračoval v seznamu různých vzhledů s funkcemi, které nabízejí, v seznamu s odrážkami. Mějte na paměti, že model poskytl tento výsledek, i když jsem ve své výzvě konkrétně uvedl „podrobný článek“.

Claude 3.5 Sonnet poskytuje stručný přehled a poté uvádí funkce v odrážkách.

Naproti tomu ChatGPT vytvořil působivější název článku a obsahoval stručný úvod. Poté vysvětlila každý vzhled ve své vlastní sekci a rozdělila každý z nich na Přehled, Klíčové vlastnosti, Pro a Proti.

Nejen, že to poskytuje komplexnější informace, ale také přesně víte, jak se různé vzhledy navzájem porovnávají. Nakonec to zakončilo článek pořádným závěrem. Zatímco počet skinů, které ChatGPT zmiňoval, byl menší než počet, který uvedl Claude, zde na kvalitě záleží více než na kvantitě.

ChatGPT-40 poskytuje podrobný článek s různými sekcemi pro každý vzhled.

Zatímco ChatGPT si v tomto případě vedl lépe než Claude, ten druhý může také generovat dobrý obsah, jak jsem zjistil ve svém předchozím testování. Může to záviset na tématu nebo způsobu, jakým formulujete výzvu. Proto jsem dal oběma modelům další výzvu, tentokrát pomocí výzvy, Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.která mi také poskytla příležitost vidět, jak dobře modely rozumí a dokážou zprostředkovat humor.

Tentokrát byly výsledky velmi blízko sebe, přičemž oba modely vytvořily skutečně veselé příběhy. Oba příběhy měly společné prvky, jako je ironie a fyzická komedie. V beletrii jsou osobní preference mocným faktorem a celkově mi Claudeův výstup připadal o něco lepší, zejména způsob, jakým si hrál se slovy, aby vytvořil humor.

Fiktivní obsah generovaný Claudem 3.5

Ale jak jsem již zmínil, příběh ChatGPT byl také zábavný a byl o něco delší než Claudeův. Jeho konec byl také zdravější. Claude i ChatGPT tedy byli schopni generovat dobrý fiktivní obsah a zároveň obsahovat humorné prvky podle mého pokynu.

Fiktivní obsah ChatGPT.

Úprava obsahu: Generování obsahu je pouze jednou částí procesu. Chcete-li skutečně zjistit, co dokáže model umělé inteligence, pokud jde o obsah, musíte také otestovat jeho možnosti úpravy obsahu, k čemuž jsem přistoupil. Za tímto účelem jsem Claudovi a ChatGPT poskytl text o sociálním obchodu a dal jim výzvu,Can you expand this article while also proofreading and improving it?

Při vylepšování článku začal Claude úvodem, pak psal o vývoji sociálního obchodu a nakonec následoval další sekce, přičemž každou z nich rozšiřoval, jak uzná za vhodné. Model také používal číslované seznamy a odrážky tam, kde to považovalo za nutné zlepšit čitelnost.

Claudeovy editační možnosti jsou poměrně silné.

Odpověď ChatGPT byla podobná jako u předchozích, kde rozdělil obsah do různých sekcí s různými podnadpisy. Nepoužila žádné seznamy, ale zachovala informace ve formě odstavců. Pokud jde o změny a vylepšení, všiml jsem si, že Claude provedl v článku razantnější změny než ChatGPT, ale konečný výsledek byl také mnohem lepší. Nakonec jsem zjistil, že editační možnosti Sonnetu jsou výkonnější a mnohem lépe vyhovují mému pracovnímu postupu.

ChatGPT také pozoruhodně dobře upravuje a vylepšuje obsah.

Schopnost kódování

Žádné srovnání modelů umělé inteligence není úplné bez zahrnutí jejich kódovacích schopností. Zatímco Claude byl speciálně vyvinut, aby pomohl programátorům psát lepší kód rychle a snadno, nový ChatGPT poháněný GPT-40 také není něco, na co by se dalo pohlížet svrchu, pokud jde o kódování.

Abych otestoval jejich schopnost generování kódu, požádal jsem Clauda i ChatGPT, aby Generate code for a simple game that can help beginners learn programming.Zatímco oba napsali kód v Pythonu, Claude dokončil generování kódu rychleji, jak se očekávalo. Zobrazoval celý kód na pravé straně obrazovky a vysvětloval prvky jako Funkce a Proměnné na levé straně.

Na Claudově odpovědi se mi nejvíce líbilo, že obsahovala také tlačítko, které vám umožní okamžitě přejít na kód, takže si jej můžete snadno zkontrolovat. Kromě toho mě chatbot informoval o požadavcích potřebných ke spuštění kódu, včetně pokynů. Pokud jde o samotný kód, bylo to docela snadné pochopit a také běžel perfektně, když jsem ho testoval.

Generování kódu pomocí Claude 3.5 Sonnet.

Pokud jde o odpověď ChatGPT, byl také schopen vygenerovat jednoduchý, ale funkční kód, jak jsem požadoval. Pod kódem chatbot poskytl kroky potřebné ke spuštění hry a také koncepty, které kód pokrývá, takže začátečníkům snadno porozumí. Celkově byly výsledky pro oba modely v tomto případě velmi podobné, ačkoli Claude vysvětlil více prvků a měl možnost, pomocí které jej můžete požádat o podrobné vysvětlení jakékoli části kódu.

Kód ChatGPT pro jednoduchou hru napsanou v Pythonu

Matematické schopnosti

Nakonec jsem Claudovi i ChatGPT dal k vyřešení matematickou otázku, abych viděl, jak dobře se jim dařilo a která z nich byla rychlejší. Otázka zahrnovala algebraické rovnice, ale nebyla nijak zvlášť náročná. Oba modely začaly tím, že vysvětlily, co dělat v prvním kroku, i když jejich přístup byl odlišný. Claude přistoupil k rozšíření rovnice a nakonec mi řekl, že řešení problému zcela vyžaduje použití grafické kalkulačky nebo systému počítačové algebry.

Claude 3.5 uvádí, že na tuto otázku může existovat nula, jedno nebo dvě možná řešení.

To znamená, že uvedl počet potenciálních řešení problému. Naproti tomu ChatGPT vyřešil problém v celém rozsahu a dal mi všechna možná řešení. To naznačuje, že pokud jde o matematické schopnosti, ChatGPT-4o je před Sonetem.

ChatGPT poskytuje všechna možná řešení problému.

Konečný verdikt – Claude Sonnet 3.5 nebo ChatGPT-4o: Kdo vyhrál?

Vybrat si mezi Claude 3.5 a ChatGPT-4o není snadné, ale nakonec může být vítězem jen jeden a pro mě to musí být nový model Sonnet. Nejen, že je výrazně rychlejší než ChatGPT, ale také poskytuje přesnější odpovědi. Obzvláště se mi líbilo, jak dobře umí popisovat obrázky a provádět akce s nimi související.

Claude za dobu, co jsem s ním pracoval, také ani jednou nehalucinoval, což je další bod v jeho prospěch a jeho reakce byly celkově blíže mým pokynům. I když v jednom případě, kdy jsem chtěl podrobný obsah, nefungoval tak, jak jsem očekával, jeho použití k získání požadovaných informací bylo obecně jednodušší a vyžadovalo méně úsilí.

Když jsem vyzkoušel Claude 3.5 Sonnet a ChatGPT-40, zjistil jsem, že oba jsou výjimečně dobré modely umělé inteligence, které jsou si výkonově velmi blízké. Zatímco Sonnet plní některé úkoly lépe, ChatGPT přináší lepší výsledky v jiných. Měli byste pochopit, že určení, který z nich je lepší, bude záviset na vašem individuálním případu použití.

Oba bezplatné modely jsou navíc omezené v tom, co mohou dělat. Pokud tedy chcete používat kteroukoli AI pravidelně, doporučuji získat placené předplatné, abyste dosáhli nejlepších výsledků.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *