Ainsider AI Newsletter
Posts
Google I/O 2025: Nowe funkcje Gemini AI i przyszłe możliwości w świecie technologii

Google I/O 2025: Nowe funkcje Gemini AI i przyszłe możliwości w świecie technologii

Podsumowanie najnowszych update Gemini AI - w tym nowych modeli dla generacji Video oraz obrazów, AI na żywo, studio do edycji video, i wiele więcej nowych, unikatowych feature

Piotr Macai
May 21, 2025

Podczas konferencji Google I/O 2025, która odbyła się 20 maja 2025 roku w Shoreline Amphitheatre w Mountain View w Kalifornii, Google zaprezentowało przełomowe ulepszenia w swoim modelu sztucznej inteligencji – Gemini AI.

Na evencie Google zaprezentowało Gemini jako wszechstronny system operacyjny AI, który może zrewolucjonizować doświadczenia użytkowników w zakresie produktywności, kreatywności i codziennego życia. Konferencja doskonale pokazała ewolucję Gemini, wprowadzając zestaw nowych funkcji, które płynnie integrują się z usługami Google oraz aplikacjami zewnętrznymi - od interakcji z kamerą w czasie rzeczywistym po zaawansowane generowanie wideo, Gemini AI ma szansę zmienić takie branże jak edukacja, rozrywka czy e-commerce.

W tym artykule przyjrzymy się kluczowym funkcjom, modelom subskrypcji, dodatkowym ofertom, innowacjom sprzętowym oraz szerszym implikacjom aktualizacji Gemini AI – wszystko z perspektywy polskiego środowiska technicznego.

Gemini AI: System operacyjny AI na przyszłość

Google przedstawiło Gemini jako system operacyjny AI – platformę bazową, która zarządza wielomodalnymi interakcjami (tekst, głos, obraz) i głęboko integruje się z usługami Google, takimi jak Mapy, Kalendarz czy Gmail. Ta ewolucja przypomina rolę tradycyjnych systemów operacyjnych, takich jak Windows czy Android, ale w kontekście zadań napędzanych AI. Podczas przemówienia otwierającego konferencję, CEO Google Sundar Pichai podkreślił szybki postęp modelu, wskazując, że wyniki Elo Gemini wzrosły o ponad 300 punktów od pierwszej generacji modelu Gemini Pro. Ten rozwój wskazuje na przyszłość, w której Gemini stanie się centralnym elementem interakcji AI, usprawniając przepływy pracy i zmieniając sposób, w jaki użytkownicy wchodzą w interakcje z urządzeniami.

Kluczowe funkcje i możliwości Gemini AI

Google I/O 2025 zaprezentowało szereg funkcji skierowanych do konsumentów, z naciskiem na dostępność, kreatywność i produktywność. Poniżej szczegółowo omawiamy najważniejsze aktualizacje:

Gemini Live: Wsparcie w czasie rzeczywistym

Gemini Live oferuje teraz darmową interakcję z kamerą w czasie rzeczywistym na urządzeniach z systemami Android i iOS, integrując się z aplikacjami takimi jak Mapy, Kalendarz, Zadania i Keep. Użytkownicy mogą skierować kamerę na obiekty lub otoczenie, aby uzyskać natychmiastowe informacje, takie jak wskazówki dojazdu czy planowanie wydarzeń. Funkcja ta jest szczególnie przydatna do bezdotykowego wsparcia kontekstowego, co usprawnia codzienne zadania, takie jak planowanie czy zakupy.

Dostępność: Darmowa na Androidzie i iOS.
Zastosowanie: Wyobraź sobie, że kierujesz kamerę na zabytek, a Gemini natychmiast dostarcza wskazówek nawigacyjnych lub informacji historycznych, jednocześnie dodając wydarzenie do Twojego Kalendarza.

Imagen 4: Generowanie obrazów w wysokiej rozdzielczości

Imagen 4, zaawansowany model tekstu na obraz od Google, generuje obrazy w wysokiej rozdzielczości z precyzyjnym renderowaniem tekstu i obsługuje różne proporcje obrazu, np. 16:9. Dostępny za darmo w aplikacji Gemini, umożliwia użytkownikom tworzenie profesjonalnych materiałów wizualnych, takich jak plakaty, prezentacje czy projekty artystyczne, bez potrzeby posiadania specjalistycznych umiejętności projektowych.

Dostępność: Darmowa w aplikacji Gemini.
Zastosowanie: Małe firmy mogą tworzyć materiały marketingowe, a artyści eksplorować nowe style, takie jak fotorealizm czy impresjonizm.

Veo 3: Rewolucja w tworzeniu treści wideo

Veo 3, najnowocześniejszy model generowania wideo, obsługuje rozdzielczość 4K, długie formaty wideo i wiele postaci z natywnymi efektami dźwiękowymi, szumami tła oraz dialogami. Dostępny w ramach subskrypcji Ultra, Veo 3 może zrewolucjonizować produkcję filmową, zmniejszając koszty i czas potrzebny na tworzenie treści.

Dostępność: W ramach planu Ultra, z darmowymi próbami.
Zastosowanie: Nauczyciele mogą tworzyć angażujące lekcje wideo, a marketerzy produkować wysokiej jakości treści promocyjne przy minimalnych zasobach.

Deep Research: Analiza wspierana AI

Deep Research umożliwia użytkownikom przesyłanie plików, obrazów i PDF-ów w celu generowania raportów wspieranych AI, łącząc dane użytkownika z informacjami publicznymi. W przyszłości planowana jest integracja z Dyskiem Google i Gmailem, co jeszcze bardziej zwiększy jego możliwości, czyniąc go potężnym narzędziem do badań akademickich i profesjonalnych.

Dostępność: Dostępne już teraz.
Zastosowanie: Badacze mogą przesyłać zbiory danych do generowania szczegółowych raportów, a firmy analizować trendy rynkowe w sposób efektywny.

Canvas: Studio kreatywne dla każdego

Napędzany przez Gemini 2.5 Pro, Canvas pozwala użytkownikom tworzyć różnorodne treści – kod, quizy, infografiki, podcasty – na podstawie prostych poleceń tekstowych. Funkcja ta usprawnia procesy kreatywne, czyniąc je dostępnymi dla osób bez specjalistycznej wiedzy, takich jak nauczyciele czy marketerzy.

Dostępność: Napędzany przez Gemini 2.5 Pro.
Zastosowanie: Nauczyciele mogą generować interaktywne quizy, a twórcy treści produkować podcasty bezpośrednio na podstawie scenariuszy.

AI Mode w Chrome: Inteligentniejsze przeglądanie

Gemini w Chrome działa jako asystent przeglądania, oferując podsumowania artykułów, odpowiadając na pytania i wkrótce automatyzując zadania. Początkowo wprowadzany dla subskrybentów w USA, ma na celu zmniejszenie przełączania między kartami i zwiększenie produktywności.

Dostępność: Wprowadzany dla subskrybentów w USA.
Zastosowanie: Studenci mogą szybko podsumować artykuły badawcze, a profesjonaliści usprawnić zadania związane z przeglądaniem internetu.

Napędzane przez Gemini 2.5 Flash: Lekki i dostępny

Model 2.5 Flash, teraz domyślna darmowa opcja, jest szybki i lekki, zapewniając szeroką dostępność. Obsługuje także natywne wyjścia audio w różnych językach, poprawiając doświadczenia konwersacyjne.

Dostępność: Darmowy.
Zastosowanie: Zwykli użytkownicy mogą cieszyć się lepszą wydajnością przy codziennych zapytaniach, z obsługą interakcji wielojęzycznych.

Agent Mode: Autonomiczne wykonywanie zadań

Agent Mode, wkrótce dostępny dla subskrybentów, umożliwi autonomiczne wykonywanie zadań, takich jak rezerwacja mieszkań, wykorzystując Project Mariner i MCP (Multi-Context Processing). Funkcja ta to krok w kierunku w pełni autonomicznej asysty AI.

Dostępność: Wkrótce dla subskrybentów.
Zastosowanie: Zajęci profesjonaliści mogą delegować złożone zadania, takie jak planowanie podróży czy poszukiwanie mieszkania, na Gemini.

Modele subskrypcji i zaawansowane funkcje

Google wprowadziło dwa poziomy subskrypcji, aby sprostać różnym potrzebom użytkowników:

Google AI Pro: W cenie 19,99 USD/miesiąc, plan ten obejmuje dostęp do narzędzi takich jak Flow i NotebookLM, oferując zwiększone możliwości w zakresie produktywności i kreatywności.
Google AI Ultra: W cenie 249,99 USD/miesiąc, Ultra zapewnia dostęp VIP, najwyższe limity, a także zaawansowane funkcje, takie jak Veo 3 i tryb Deep Think, eksperymentalny tryb rozumowania dla złożonych zadań matematycznych i kodowania. Deep Think, początkowo dostępny dla ekspertów ds. bezpieczeństwa przez API Gemini, wykazał imponujące wyniki w testach takich jak USAMO czy LiveCodeBench.

Gemini AI is a versatile AI operating system with new features 🚨
Gemini Live enhances real-time interactions with camera and app integrations.
Imagen 4 and Veo 3 improving image and video
Gemini Agent Mode automate browsing and tasks
All details in thread🧵👇
— Macai (@piotrmacai)
1:34 PM • May 21, 2025

Projekty AI i integracje

Ekosystem Gemini wykracza poza podstawowe funkcje, obejmując kilka innowacyjnych narzędzi i integracji:

Project Astra: Ulepszony o natywne audio, kontrolę UI, wyszukiwanie treści, połączenia i zakupy, oferując bardziej naturalne doświadczenie konwersacyjne.
Project Beam: Platforma wideo 3D we współpracy z HP, wykorzystująca sześć kamer do tworzenia realistycznych awatarów, planowana na późniejszy 2025 rok.
Tłumaczenia w czasie rzeczywistym w Google Meet: Wykorzystując Project Starline, funkcja ta obsługuje tłumaczenia angielsko-hiszpańskie, z planami rozszerzenia na inne języki, poprawiając komunikację globalną.
Jules: Asynchroniczny agent kodujący w publicznej wersji beta, zaprojektowany do planowania i modyfikowania baz kodu, wspierając programistów w złożonych projektach.
Stitch: Produkt Google Labs do generowania projektów, integrujący się z Figma, usprawniając procesy projektowe.
Try it on: Funkcja wirtualnego przymierzania oparta na AI w Google Search Labs, poprawiająca doświadczenia zakupowe.
AI Mode w wyszukiwarce: Wprowadzany dla użytkowników w USA, tryb ten dostarcza bezpośrednie odpowiedzi podobne do ChatGPT, z personalizowanymi wynikami z Gmaila, w tym niestandardowymi wykresami dla zapytań sportowych i finansowych oraz panelami zakupowymi.

Podsumowanie

Google I/O 2025 ugruntowało pozycję Gemini AI jako czołowy Model i Platformę AI, z funkcjami, które zwiększają produktywność, kreatywność i globalną łączność. Od wsparcia w czasie rzeczywistym Gemini Live po możliwości produkcji filmowej Veo 3, te aktualizacje obiecują uczynić AI bardziej dostępnym i wpływowym dla użytkowników na całym świecie, w tym w Polsce, gdzie środowisko technologiczne szybko się rozwija.