Ainsider AI Newsletter vol.21

Najważniejsze eventy z ostatniego tygodnia: OpenAI, GoogleGemini, Canva, Kling i wiele więcej | Nowe narzędzia i modele AI | Ainsider Newsletter

Najważniejsze wydarzenia i premiery AI:

Najważniejsze wydarzenia i premiery ze świata AI z ostatniego tygodnia:

OpenAI – Nowe modele: GPT-4.1, o3 i o4-mini

OpenAI wprowadziło trzy nowe modele: GPT-4.1 (dostępny tylko przez API), o3 (najinteligentniejszy model rozumujący, potrafiący „myśleć obrazami” i autonomicznie korzystać z narzędzi) oraz o4-mini (szybsza wersja, również z zaawansowanymi możliwościami).

  • GPT-4.1: Dostępny tylko przez API, z ulepszeniami w kodowaniu i rozumieniu długich kontekstów.

  • o3: Najbardziej zaawansowany model rozumujący, potrafi „myśleć obrazami” i autonomicznie korzystać z narzędzi.

  • o4-mini: Szybsza i ekonomiczna wersja z podobnymi możliwościami, dostępna w ChatGPT.

Kluczowe funkcje modeli

  • GPT-4.1:

    • Kodowanie: Znacząco lepszy w tworzeniu i debugowaniu kodu oraz przestrzeganiu formatów diff.

    • Dłuższy kontekst: Obsługuje do 1 miliona tokenów, idealny do dużych zbiorów danych.

    • Wielomodalność: Rozumie tekst, obrazy i wideo.

    • Cena: 0,15 USD za milion tokenów wejściowych, 3,50 USD za wyjściowe z myśleniem.

  • o3:

    • Rozumowanie: „Myśli” przed odpowiedzią, poprawiając jakość i dokładność.

    • Myślenie obrazami: Analizuje obrazy, np. diagramy i rysunki.

    • Narzędzia: Autonomicznie korzysta z funkcji ChatGPT, jak przeglądanie internetu czy generowanie obrazów.

    • Wyniki: 92,7% w AIME 2025 (matematyka), 69,1% w SWE-Bench Verified (kodowanie), 82,9% w MMMU (rozumowanie wizualne).

  • o4-mini:

    • Ekonomiczność: Szybszy i tańszy, z podobnymi możliwościami do o3.

    • Rozumowanie wizualne: Interpretuje obrazy i wykonuje zadania wizualne.

    • Narzędzia: Korzysta z funkcji ChatGPT.

    • Wyniki: 68,1% w SWE-Bench Verified (kodowanie).

    • Warianty: Standardowy i „o4-mini-high” z wyższym poziomem rozumowania.

Google – Gemini 2.5 Flash

Gemini 2.5 Flash to nowy przełomowy model AI od Google, który łączy zaawansowane zdolności rozumowania z efektywnością kosztową i szybkością. Jego kluczowe cechy, takie jak hybrydowe rozumowanie, obsługa ogromnych kontekstów, wielomodalność i integracja z narzędziami Google, czynią go wszechstronnym narzędziem dla deweloperów i użytkowników. Model jest dostępny za darmo w wersji preview, co umożliwia łatwe wypróbowanie jego możliwości.

Kluczowe funkcje i możliwości:

  • Hybrydowy model rozumowania:

    • Jest to pierwszy w pełni hybrydowy model rozumowania, co oznacza, że może "myśleć" przed udzieleniem odpowiedzi, co poprawia wydajność i dokładność.

    • Deweloperzy mogą włączyć lub wyłączyć funkcję "myślenia" oraz ustawić "budżet myślenia" (od 0 do 24576 tokenów), co pozwala na dostosowanie poziomu jakości, kosztów i opóźnienia do potrzeb konkretnego zadania. Model samodzielnie ocenia złożoność zadania i dostosowuje intensywność myślenia, jeśli nie określono budżetu.

  • Ogromny kontekst:

    • Obsługuje 1 milion tokenów w kontekście wejściowym, co pozwala na przetwarzanie bardzo dużych zbiorów danych, takich jak długie dokumenty, bazy kodu czy logi systemowe.

  • Wielomodalność:

    • Rozumie i przetwarza różne typy danych, w tym tekst, obrazy, audio i wideo. Może generować obrazy, wykrywać obiekty na zdjęciach (np. poprzez generowanie pudełek ograniczających lub masek segmentacyjnych).

  • Wykonanie kodu:

    • Może pisać i wykonywać kod Pythona bezpośrednio, co jest niezwykle przydatne dla deweloperów.

  • Efektywność kosztowa:

    • Cena za 1 milion tokenów wejściowych wynosi 0,15 USD, a za 1 milion tokenów wyjściowych z włączonym myśleniem – 3,50 USD. Model jest uważany za najlepszy pod względem stosunku jakości do ceny, plasując się na "krzywej Pareto" dla kosztów i wydajności.

  • Wyniki benchmarków:

    • Wyróżnia się w różnorodnych zadaniach, takich jak:

      • Humanity's Last Exam (bez narzędzi): 18,8%.

      • GPQA diamond (jedna próba): 84,0%.

      • Matematyka AIME 2025 (jedna próba): 86,7%.

      • Rozumowanie wizualne MMMU (jedna próba): 81,7%.

      • Długie konteksty MRCR 1M: 83,1%.

    • Te wyniki pokazują, że model jest nie tylko szybki i efektywny, ale także precyzyjny w złożonych zadaniach.

  • Integracja z Google Workspace:

    • Ściśle integruje się z produktami Google, takimi jak Gmail, Docs i Sheets, co ułatwia użytkownikom pracę w znanym środowisku.

Kling AI – Kling 2.0

Kling AI, firma specjalizująca się w generowaniu wideo za pomocą AI, wprowadziła model Kling 2.0, który przynosi ulepszenia w rozumieniu poleceń, bardziej naturalnych ruchach postaci i nowym edytorze Multi-Elements, ułatwiającym edycję wideo.

  • Zaawansowane rozumienie poleceń

Kling 2.0 wydaje się lepiej interpretować złożone polecenia użytkownika, szczególnie te obejmujące sekwencyjne akcje i ruchy kamery. Na przykład, model rozumie zarówno techniczne terminy, takie jak „85mm obiektyw z płytką głębią ostrości”, jak i ogólne instrukcje, takie jak „powoli zoomuj na postać”. To ulepszenie pozwala użytkownikom działać jak reżyserzy, precyzyjnie kontrolując treść wideo.

  • Dynamiczne i naturalne ruchy

Jednym z kluczowych ulepszeń jest poprawa dynamiki ruchu. Postacie w Kling 2.0 prezentują szerszy zakres ruchów, które są płynne, naturalne i wysoko szczegółowe. Szczególnie godne uwagi są animacje chodzenia, które pokazują prawidłowe ustawienie stóp, reagują na tekstury powierzchni i utrzymują spójność przez sekwencje do 10 sekund, eliminując typowe dla AI „zacinanie się”. Na przykład, model zachowuje szczegóły podczas złożonych akcji, co zapewnia immersyjne doświadczenie dla widzów.

  • Kinematograficzna jakość wizualna

Kling 2.0 generuje wideo w jakości kinematograficznej, z rozdzielczością do 1080p, bogatymi detalami i profesjonalnym oświetleniem. Estetyka wizualna została dopracowana, aby wygenerowane treści wyglądały jak profesjonalne produkcje, a nie typowe materiały AI. Ulepszone możliwości ekspresji twarzy pozwalają na realistyczne ruchy i wyrazistość, co nadaje postaciom profesjonalny poziom „gry aktorskiej”. Model utrzymuje spójność stylu wizualnego, niezależnie od tego, czy zaczyna od tekstu, czy obrazu, co jest kluczowe dla profesjonalnego wyglądu.

  • Edytor Multi-Elements

Innowacyjną funkcją jest Edytor Multi-Elements, który umożliwia użytkownikom dodawanie, zamianę lub usuwanie elementów wideo za pomocą prostych wpisów tekstowych lub obrazów. Na przykład, użytkownik może wygenerować wideo, a następnie zmienić tło lub dodać postać, wszystko bezpośrednio w Kling 2.0, bez potrzeby korzystania z zewnętrznego oprogramowania. Ta funkcja wydaje się oferować niezwykłą elastyczność i kontrolę nad procesem edycji.

  • Spójny styl i jakość

Kling 2.0 zapewnia spójność stylu wizualnego, co jest kluczowe dla utrzymania profesjonalnego wyglądu i uczucia. Niezależnie od tego, czy użytkownik zaczyna od tekstu, czy obrazu, model generuje wideo z jednolitym stylem, co ułatwia tworzenie spójnych i dopracowanych treści. To ulepszenie wydaje się szczególnie ważne dla twórców, którzy potrzebują utrzymać markę lub estetykę w swoich projektach.

Subscribe to keep reading

This content is free, but you must be subscribed to Ainsider AI Newsletter to continue reading.

Already a subscriber?Sign In.Not now