Nedávno společnost Anthropic zavedla vylepšení svého předního modelu, Claude 3.5 Sonnet, který mohl sklouznout pod radar kvůli dalším významným aktualizacím, jako je Computer Use a Analysis tool. Aktualizovaný Claude 3.5 Sonnet však přináší několik pozoruhodných vylepšení.
Přestože používání počítače představuje významný pokrok, jeho přijetí mezi uživateli je stále omezené. Je to především proto, že je v raných fázích vývoje a postrádá plnou spolehlivost. Navíc je jeho dostupnost omezena na použití API, takže je méně přístupný pro širší publikum.
Naproti tomu nový Claude 3.5 Sonnet je k dispozici k okamžitému použití a nabízí výrazně vyšší výkon. Takže, co přesně odlišuje tento aktualizovaný 3.5 Sonet?
Zpráva od Anthropic zdůrazňuje, že nejnovější Claude 3.5 Sonnet prokázal výrazná zlepšení oproti předchozím modelům a mnoha konkurentům v průmyslových měřítcích. Pokroky v agentním kódování a použití nástrojů jsou obzvláště působivé. Například zvýšila přesnost agentního kódování z 33,4 % na 49 % při ověřování SWE a pro použití agentních nástrojů při testu TAU na benchmarku se zvýšila z 51,0 % na 69,2 % v maloobchodě a z 22,8 % na 46,0 % v leteckém sektoru. Je pozoruhodné, že těchto vylepšení je dosaženo za stejnou cenu a rychlost jako u jeho předchůdce.
Při hodnocení Claude 3.5 Sonnet (nový), který někteří uživatelé označují jako 3.6 Sonnet kvůli záměně pojmenování, vykazuje pozoruhodný pokrok, zejména v kódování, uvažování a schopnostech kreativního psaní.
Claude, dříve uznávaný jako jeden z nejvýkonnějších v kódování, udělal s touto aktualizací významný pokrok, nyní dokáže vyřešit velmi složité problémy v rámci jediné odpovědi. Zlepšila také svou schopnost opravit předchozí chyby.
Uživatelé zjistí, že nový Claude 3.5 Sonnet poskytuje odezvy mnohem rychleji a řeší frustrace, které se vyskytly u jeho dřívější verze, kde výkon znatelně poklesl.
Claude také vylepšil své uvažování a přirovnal jej k modelu OpenAI o1. I když se nemusí shodovat s o1 ve složitých úlohách uvažování, zůstává kompetentní pro jednodušší uvažování.
Pro poutavý test Claudova uvažování se ho zkuste zeptat, How many words are in your response to this prompt?
. Je pozoruhodné, že modely architektury transformátorů často zápasí s takovými výzvami kvůli jejich potřebě předpovídat následující slova. Tato výzva však povzbuzuje model, aby předem vytvořil strategii.
Model OpenAI o1 vyniká v efektivním zpracování této výzvy. I když nový Claude 3.5 Sonnet nedosahuje tak úplně zdatnosti o1, výrazně překonává starší verzi Claude. Dříve mohl Claude odhadnout kvalifikovaně, ale nyní se pokouší slova spočítat přesně – i když bez toho, aby je všechny zvažoval stejně. Zda bude Claudeova odpověď považována za správnou, bude nakonec záviset na osobní interpretaci.
Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.
Podle poskytnuté instance by někteří uživatelé mohli namítnout, že Claude přesně počítal slova, ve kterých zvažoval svou odpověď. Objasňuje, že žádná následující slova netvoří součást jeho odpovědi, protože jednoduše rozvádějí proces uvažování. Zatímco někteří mohou přehlédnout vynechání úvodní věty „Nechte mě spočítat slova v mé odpovědi na vaši otázku“, jiní to mohou vidět jinak. Nakonec se to stává věcí osobního úsudku.
Nicméně tento příklad ilustruje, že nový Claude 3.5 Sonnet skutečně zlepšil své schopnosti uvažování. Nyní může artikulovat své myšlenkové pochody nebo říci: „Přemýšlím o tom, vydrž“, když to vyžaduje další čas na zvážení – něco podobného jako o1. Občas se to může dokonce opravit samo, když řekne: „Nech mě to znovu promyslet.“
Tato schopnost progresivního myšlení také posílila Claudeovy tvůrčí schopnosti psaní. Díky schopnosti myslet dopředu dokáže vytvořit rozšířené příběhy, které obsahují koherentní oblouky, předvídavé prvky a podmanivé postavy.
Kromě toho bylo dosaženo významného pokroku v jeho analytickém výkonu. Claude nyní v oblasti analýzy úzce konkuruje nejrozsáhlejšímu modelu Anthropic, Claude 3 Opus, a také OpenAI o1 mini.
Stručně řečeno, nejnovější aktualizace přinesly pozoruhodný pokrok v mnoha dimenzích. Nové funkce kódování si získaly velkou pozornost. Současným omezením pro Clauda jsou však limity použití, které jsou podstatně přísnější i pro uživatele Pro ve srovnání s ChatGPT.
Napsat komentář