Nowe Modele Claude 4 od Anthropic: Opus 4 & Sonnet 4

Claude Opus 4 i Claude Sonnet 4. Te zaawansowane modele ustanawiają nowe standardy w zakresie kodowania, zaawansowanego rozumowania i tworzenia agentów AI

Spis treści

Anthropic ogłosiła premierę nowej generacji swoich modeli AI: Claude Opus 4 i Claude Sonnet 4. Te zaawansowane modele ustanawiają nowe standardy w zakresie kodowania, zaawansowanego rozumowania i tworzenia agentów AI, co stanowi znaczący krok naprzód w rozwoju technologii sztucznej inteligencji. Premiera została ogłoszona podczas konferencji „Code with Claude”, gdzie zaprezentowano ich możliwości.

Kluczowe cechy i możliwości

Claude Opus 4

Claude Opus 4 to najpotężniejszy model AI firmy Anthropic do tej pory, uznany za najlepszy model kodujący na świecie. Osiąga wynik 72,5% w benchmarku SWE-bench, co potwierdza jego wyższość w rozwiązywaniu rzeczywistych problemów inżynierskich. Model ten jest idealny do zadań wymagających tysięcy kroków, takich jak długotrwałe zadania kodujące, które mogą trwać nawet kilka godzin. W trakcie testów, na przykład w firmie Rakuten, model pracował autonomicznie przez 7 godzin, wykonując złożone zadania refaktoryzacji kodu (Anthropic Claude Opus 4).

Claude Opus 4 wyróżnia się także zdolnością do tworzenia „plików pamięci” dla długoterminowej świadomości zadań, co jest przydatne w projektach takich jak przewodnik nawigacyjny Pokémon. Model ten oferuje hybrydowe rozumowanie, umożliwiając zarówno natychmiastowe odpowiedzi, jak i głębsze myślenie krok po kroku, z podsumowaniami dostępnymi dla użytkowników.

Claude Sonnet 4

Claude Sonnet 4 to znacząco ulepszona wersja poprzedniego modelu, Sonnet 3.7. Oferuje wyższe zdolności kodowania, z wynikiem 72,7% w SWE-bench, oraz lepsze przestrzeganie precyzyjnych instrukcji, co czyni go doskonałym narzędziem dla deweloperów poszukujących efektywnych rozwiązań do codziennej pracy. Jest zoptymalizowany pod kątem wydajności, co czyni go idealnym do zadań wymagających dużej przepustowości, takich jak integracja z GitHub Copilot.

Oba modele są hybrydowe, co oznacza, że mogą dostarczać natychmiastowe odpowiedzi lub korzystać z trybu rozszerzonego myślenia, pozwalając na głębsze rozumowanie. Dzięki temu użytkownicy mogą wybierać tryb w zależności od potrzeb zadania. Ponadto, modele te mogą alternować między rozumowaniem a użyciem narzędzi, takich jak wyszukiwanie internetowe, co znacząco poprawia jakość odpowiedzi i ich przydatność w praktyce (Anthropic Claude 4).

Nowe możliwości API

Anthropic wprowadził także nowe możliwości API, które zwiększają funkcjonalność modeli:

  • Narzędzie do wykonywania kodu: Umożliwia automatyczne uruchamianie kodu.

  • Łącznik MCP: Ułatwia integrację z systemami zewnętrznymi.

  • API plików: Pozwala na dostęp do lokalnych plików, poprawiając pamięć kontekstową.

  • Cachowanie promptów: Umożliwia przechowywanie promptów przez godzinę, co obniża koszty.

Te funkcje są dostępne dla deweloperów przez API Anthropic (Agent Capabilities API).

Integracja z narzędziami deweloperskimi

Wraz z premierą nowych modeli, Anthropic ogłosił ogólną dostępność Claude Code, narzędzia, które umożliwia integrację AI z platformami takimi jak GitHub oraz IDE, w tym VS Code i JetBrains. Deweloperzy mogą zainstalować aplikację GitHub dla Claude Code za pomocą polecenia /install-github-app, co pozwala na wykorzystanie AI w codziennych zadaniach programistycznych, takich jak automatyczne przeglądy kodu czy generowanie kodu (Claude Code). Integracja ta została zaprezentowana podczas konferencji, gdzie pokazano, jak Claude Code wspiera VS Code, JetBrains i GitHub Actions (X post aaditsh).

Wyniki benchmarków

Claude 4 wyróżnia się w wielu benchmarkach, pokazując przewagę nad innymi modelami AI, takimi jak te od OpenAI czy Google. Poniżej przedstawiono kluczowe wyniki:

Benchmark

Claude Opus 4

Claude Sonnet 4

Claude Sonnet 3.7

OpenAI o3

Gemini Pro

SWE-bench

72,5%

72,7%

62,3%

54,6%

63,2%

Terminal-bench

43,2%

-

-

-

-

GPQA Diamond

74,9%

70,0%

78,2%

68,0%

-

MMMLU

87,4%

85,4%

85,0%

49,0%

-

MMMU

73,7%

72,6%

75,0%

78,0%

83,0%

AIME

33,9%

33,1%

-

-

-

Te wyniki potwierdzają, że Claude 4 przewyższa konkurencję w zadaniach kodowania i rozumowania, szczególnie w benchmarku SWE-bench, który mierzy zdolność do rozwiązywania rzeczywistych problemów programistycznych (Anthropic SWE-bench).

Dostępność i ceny

Oba modele, Claude Opus 4 i Claude Sonnet 4, są dostępne dla użytkowników planów Pro, Max, Team i Enterprise, a także poprzez API Anthropic, Amazon Bedrock i Google Cloud Vertex AI. Claude Sonnet 4 jest również dostępny dla użytkowników planu bezpłatnego, co czyni go atrakcyjnym dla szerszego grona osób. Ceny są następujące:

  • Claude Opus 4: 15 USD za milion tokenów wejściowych, 75 USD za milion tokenów wyjściowych.

  • Claude Sonnet 4: 3 USD za milion tokenów wejściowych, 15 USD za milion tokenów wyjściowych.

Dodatkowe oszczędności są możliwe dzięki cachowaniu promptów (do 90%) i przetwarzaniu wsadowemu (do 50%) (Anthropic Pricing).

Bezpieczeństwo i etyka

Anthropic kładzie duży nacisk na bezpieczeństwo i etykę w rozwoju AI. Claude 4 został poddany rygorystycznym testom i spełnia standardy ASL-3, co obejmuje dodatkowe zabezpieczenia przed potencjalnym nadużyciem. Modele są 65% mniej podatne na znajdowanie skrótów lub luk w zadaniach agentycznych w porównaniu do Sonnet 3.7 (Anthropic ASL-3 Protections).

Podsumowanie

Premiera Claude 4 to ważny krok w rozwoju sztucznej inteligencji, oferując deweloperom i biznesom zaawansowane narzędzia, które mogą zwiększyć wydajność i efektywność w różnych dziedzinach. Modele te są szczególnie przydatne w złożonych zadaniach inżynierskich, badaniach naukowych oraz w tworzeniu agentów AI, którzy mogą działać autonomicznie przez długi czas. Dzięki focusowi na bezpieczeństwie i etyce, Anthropic kontynuuje swoją misję budowania AI, które są nie tylko potężne, ale także godne zaufania.

Źródło - wpis z bloga Anthropic: https://www.anthropic.com/news/claude-4