eupolicy.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
This Mastodon server is a friendly and respectful discussion space for people working in areas related to EU policy. When you request to create an account, please tell us something about you.

Server stats:

195
active users

#programowanie

1 post1 participant0 posts today

Apple stworzyło AI, która sama uczy się programować. Imponujący wynik, mimo że na starcie prawie nie znała kodu

Grupa badaczy z Apple i Carnegie Mellon University opublikowała pracę naukową, która może zwiastować rewolucję w sposobie, w jaki sztuczna inteligencja tworzy oprogramowanie.

Opisali w niej nowatorską metodę, dzięki której model AI, niemal od zera, nauczył się samodzielnie pisać wysokiej jakości, działający kod dla interfejsów użytkownika w języku SwiftUI. Wyniki są zdumiewające – stworzony w ten sposób model, nazwany UICoder, dorównuje, a w niektórych aspektach nawet przewyższa, giganta takiego jak GPT-4.

Jak nauczyć AI programować interfejsy?

Duże modele językowe (LLM) mają fundamentalny problem z generowaniem dobrego kodu dla interfejsów użytkownika (UI). Powód jest prosty: w ich gigantycznych zbiorach danych treningowych znajduje się bardzo mało wysokiej jakości, kompletnych przykładów takiego kodu. Zamiast szukać kolejnych przykładów lub polegać na drogim feedbacku od ludzi, badacze Apple postanowili, że AI nauczy się sama – metodą prób i błędów, z pomocą zautomatyzowanych recenzentów.

Proces wyglądał następująco:

  • Punkt wyjścia: wybrano open-source’owy model AI wyspecjalizowany w kodowaniu, StarChat-Beta.
  • Generowanie: poproszono go o wygenerowanie ogromnej liczby (prawie miliona) programów w SwiftUI na podstawie tekstowych opisów interfejsów.
  • Automatyczna recenzja: każdy wygenerowany program przechodził przez surowy, trzystopniowy system oceny:
    • Kompilator: czy kod w ogóle działa i się kompiluje? Jeśli nie – do kosza.
    • Model wizualny (CLIP): czy interfejs, który powstał po skompilowaniu kodu, faktycznie wygląda tak, jak w oryginalnym opisie? Jeśli nie – do kosza.
    • Filtr duplikatów: czy program nie jest zbyt podobny do tysięcy innych? Jeśli tak – do kosza, by uniknąć monotonii w danych.
  • Trening na najlepszych: programy, które przetrwały tę selekcję, stworzyły nowy, elitarny zbiór danych, na którym ponownie trenowano (dostrajano) oryginalny model AI.
  • Powtórz: cały proces powtórzono pięć razy. Z każdą iteracją AI stawała się coraz lepsza, generując wyższej jakości kod, co z kolei tworzyło jeszcze lepszy zbiór danych do kolejnego treningu.

Lepszy od open-source, doganiający GPT-4

Efektem tego procesu jest UICoder – model, który w testach zdeklasował inne otwarte modele do generowania kodu. Co więcej, w testach porównawczych zbliżył się do wyników potężnych, zamkniętych modeli od OpenAI.

GPT-5 – co warto wiedzieć o najnowszej sztucznej inteligencji od OpenAI

Wskaźnik generowania poprawnego, kompilującego się kodu dla modelu UICoder-Top (jedna z wersji) wyniósł 82%, przewyższając w tym zadaniu minimalnie GPT-4 (81%).

Największa niespodzianka: uczył się niemal od zera

Najbardziej fascynujący w całym eksperymencie jest fakt, który badacze odkryli niejako przy okazji. Okazało się, że bazowy model StarChat-Beta został wytrenowany na zbiorze danych, z którego przez pomyłkę (!) wykluczono repozytoria z kodem w języku Swift i SwiftUI. Oznacza to, że model, który zaczynał eksperyment, praktycznie nie widział wcześniej dobrego kodu w tym języku. Uczył się całkowicie od zera, wbrew pierwotnym zamiarom projektantów, którzy zakładali, że będzie to model wstępnie wytrenowany na zewnętrznych, wysokiej jakości danych.

Oznacza to, że UICoder nie nauczył się programować poprzez odtwarzanie tysięcy widzianych wcześniej przykładów, ale faktycznie „zrozumiał” zasady i logikę SwiftUI dzięki metodzie prób, błędów i automatycznej weryfikacji. To dowodzi niezwykłej skuteczności tej metody i sugeruje, że można ją z powodzeniem zastosować do nauki dowolnego innego języka programowania. Choć to na razie praca badawcza, daje ona niesamowity wgląd w to, jak Apple może w przyszłości tworzyć narzędzia AI, które zrewolucjonizują proces tworzenia aplikacji na jego platformy. Oczywiście jak zawsze dla zainteresowanych mam link do pełnej publikacji rzeczonej pracy „UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback” umieszczonej na platformie arXiv.

#AI#Apple#badania

Anthropic kontratakuje. Nowy model Claude Opus 4.1 ma być mistrzem w programowaniu

Anthropic, jeden z głównych rywali OpenAI, zaprezentował swój najnowszy model sztucznej inteligencji – Claude Opus 4.1.

Nowa wersja, udostępniona zaledwie trzy miesiące po debiucie serii Claude 4, skupia się na ulepszeniu zdolności w zakresie programowania, rozumowania i wykonywania złożonych, wieloetapowych zadań, tzw. zadań agentowych.

Głównym atutem Claude Opus 4.1 ma być jego precyzja w zadaniach związanych z inżynierią oprogramowania, która według wewnętrznych testów Anthropic osiągnęła poziom 74,5%. Jest to zauważalny postęp w porównaniu do poprzednich modeli firmy, w tym Claude Opus 4 (72,5%) oraz Claude Sonnet 3.7 (62,3%). Nowy model ma być również znacznie lepszy w „dogłębnej analizie danych i śledzeniu szczegółów”.

Claude Opus 4.1 jest dostępny od dzisiaj dla klientów Anthropic, w usłudze Claude Code oraz za pośrednictwem API. Model został również udostępniony na platformach chmurowych kluczowych partnerów: Amazon Bedrock oraz Vertex AI od Google Cloud.

Anthropic zapowiedziało, że to nie koniec nowości i w „nadchodzących tygodniach” planuje wydać „znacznie większe ulepszenia” swoich modeli. Ta premiera to kolejny element zaciętej rywalizacji na rynku AI, zwłaszcza w kontekście spodziewanych w tym tygodniu ogłoszeń ze strony głównego konkurenta, firmy OpenAI.

Tresura „złego” AI kluczem do bezpieczeństwa? Ciekawa technika badaczy z Anthropic

Google udostępnia Gemini 2.5 Deep Think. Sztuczna inteligencja z „czasem na myślenie”

Firma Google oficjalnie rozpoczęła wdrażanie nowej, zaawansowanej funkcji dla swojego modelu AI – Deep Think.

Zgodnie z zapowiedziami, jest ona już dostępna dla subskrybentów najdroższego planu Google AI Ultra. Nowy tryb ma na celu rozwiązywanie wyjątkowo złożonych problemów, dając sztucznej inteligencji więcej czasu na „myślenie” i analizę.

Sercem nowej funkcji jest technika, którą Google nazywa „równoległym myśleniem” (ang. parallel thinking). Pozwala ona modelowi Gemini na jednoczesne generowanie i analizowanie wielu różnych hipotez oraz pomysłów. Zanim zostanie sformułowana ostateczna odpowiedź, model może łączyć lub modyfikować te ścieżki rozumowania. Kluczowe jest tu wydłużenie tzw. czasu na wnioskowanie, co daje AI możliwość głębszego zbadania problemu.

Wersja udostępniona użytkownikom jest znacznym ulepszeniem w stosunku do tej, którą zaprezentowano w maju na konferencji I/O. Jej skuteczność potwierdzają testy – model osiąga czołowe wyniki w zaawansowanych benchmarkach, takich jak LiveCodeBench V6 (testy programistyczne) czy Humanity’s Last Exam (test wiedzy z różnych dziedzin). Co więcej, Deep Think w tej wersji osiąga rezultaty na poziomie brązowego medalu w zadaniach z Międzynarodowej Olimpiady Matematycznej (IMO) 2025. Dla porównania, wolniejsza, badawcza wersja, która zdobyła „złoty medal”, jest obecnie udostępniana wąskiej grupie matematyków i naukowców do celów badawczych.

W praktyce Deep Think ma być potężnym narzędziem do kreatywnego rozwiązywania problemów. Sprawdza się w zadaniach wymagających iteracyjnego podejścia, np. przy projektowaniu stron internetowych, a także w skomplikowanych wyzwaniach programistycznych i naukowych. Google podkreśla jednak pewien niuans w działaniu modelu: w testach wykazał on poprawę w zakresie bezpieczeństwa treści, ale jednocześnie miał wyższą skłonność do odrzucania zapytań, które były całkowicie bezpieczne.

Deep Think jest już dostępny w aplikacji Gemini dla subskrybentów planu Google AI Ultra. Użytkownicy mogą go aktywować za pomocą specjalnego przełącznika i mają do dyspozycji ograniczoną liczbę zapytań dziennie. W najbliższych tygodniach Google planuje również udostępnić Deep Think wybranym deweloperom i firmom poprzez interfejs API, aby zbadać jego zastosowania biznesowe.

Groźna luka w narzędziu Google Gemini CLI. Hakerzy mogli zdalnie usuwać pliki

Tymczasem @kacperszurek szykuje darmowy webinar pt. "OWASP Top 10 dla programistów", w którym pokaże popularne błędy popełniane podczas tworzenia aplikacji webowych. Znając jego wcześniejsze projekty i to, jak dobrze potrafi tłumaczyć, zdecydowanie polecam. Webinar odbędzie się 24 czerwca o godz. 18:00. Zapisy poniżej:

webinar.szurek.tv/webinar/owas

webinar.szurek.tvOWASP Top 10 dla programistówCo każdy programista o bezpieczeństwie wiedzieć powinien

Szukam kogoś kto, by mógł pouczyć mnie lub mentorować w nauce programowania w dowolnym języku.

Umiem podstawy programowania (pętle, ify itp.) i potrafię napisać bardzo proste programy jak kółko i krzyżyk, ale snake'a już nie. Stanąłem na pewnym progu i nie potrafię już przeskoczyć, przełamać się, by posunąć jakoś dalej moje umiejętności.

Fajnie jakby ktoś mógł mnie trochę poprowadzić przez to, wyznaczyć jakieś zadania i wesprzeć przy tym. Spora grupa programistów to mam wrażenie, że samouki, ale ja tak chyba nie potrafię samemu tego ogarnąć :(

Interesuję się ideą wolnego oprogramowania, jestem linuksiarzem i sam chciałbym mieć możliwość jakoś się ku temu przyczynić. Mam nadzieję, że znajdzie się jakaś dobra dusza, która pomoże mi rozwinąć skrzydła 🪽

Czy vibe-coding dołączy do blockchaina, NFT i metawersum na śmietniku historii, będąc jedynie chwilowym trendem? - pyta @mateuszchrobok w swoim najnowszym filmie, dodając, że po cichu temu kibicuje. Do mnie też taki sposób programowania nie przemawia, jak przystało na dinozaura, który nie polubił się nigdy z WYSIWYG i wolał klepać kod w notatniku 🦕 (staaare dzieje ;-))

youtube.com/watch?v=TaZDH4DxSl8

Jeżeli mieć błędy w kodzie, to grube — takie, które od razu ktoś zauważy przy przeglądzie. I wówczas zadacie sobie pytanie "to dlaczego testy przechodzą?" I po nitce dojdziecie do głębszego problemu, którego przez dłuższy czas nikt nie zauważył.

Kamil Stanuch o pracy programistów z AI.

"Obawy dotyczące narzędzi takich jak Cursor.sh i Copilot, które automatycznie generują kod i odciążają młodych adeptów i adeptki z dogłębnej nauki języka programowania, mają pewnie analogie do krytyki pisma sformułowanej przez Platona w Fajdrosie spisanego ponad 2000 lat temu.

Platon przedstawia rozmowę Sokratesa z Fajdrosem, w której Sokrates wyraża sceptycyzm wobec pisma. Uważa on, że pismo osłabi ludzką pamięć i zdolność do prawdziwego i głębokiego rozumienia. (“Pismo bowiem u uczących się sprawi w duszach zapomnienie z braku ćwiczenia pamięci, jako że zawierzając pismu od zewnątrz jego obcych znaków sami w sobie nie będą skłonni do zapamiętywania. (…) staną się nader bystrzy wzrokowo, bez nauki zdając się być erudytami, choć w większości to ignoranci i trudni do współżycia, staną się oni pozornie mądrzy zamiast mądrymi” - głównie w 274b-277a).

Jest w tym może odrobina racji, choć więcej w tym widzę spazm elitaryzmu w reakcji przeciw demokratyzacji. Pewnie to samo mówiono, gdy przed promptowaniem było szukanie odpowiedzi po Stack Overflow."

kamilstanuch.substack.com/p/hi

Wiedzieliście, że w przeglądarkach jest coś takiego jak "speculation" lub, mówiąc inaczej, możliwość zlecenia przeglądarce wcześniejszego przygotowania strony? Na ten moment jest to funkcja ograniczona do kilku przeglądarek, ale warto trzymać rękę na pulsie, gdyż zysk wydajnościowy i wygoda mogą być nie do przecenienia.

#Browser #WebDev #programowanie #speculation

debugbear.com/blog/speculation

www.debugbear.com · Blazing Fast Websites with Speculation Rules | DebugBearUse speculation rules to allow visitors to navigate instantly between pages on your website

Przeglądając czasami githuba zwracam uwagę na numery wersji oprogramowania. Zdecydowana większość deweloperów używa swojej własnej numeracji, zwykle zaczynając od 0.0.1 lub po prostu 1.

W ten sposób niektóre rzeczy są na wersji 0.7.2, a inne na 2.5.4, co jest nieintuicyjne i myslące. Ja będę używał numeracji podobnie jak to robi np. Canonical w przypadku Ubuntu, czyli YY.MM (24.04).

Dla mnie jest to bardzo intuicyjne, bo widzę od razu kiedy była wydana ostatnia wersja!

Po zobaczeniu cudownej bramki w meczu Wisła Puławy - drugi zespół Lecha Poznań chciałem sprawdzić coś na stronie internetowej Wisły Puławy. Niestety, nie działa, co się zdarza (a w weekend nie oczekuję, że ktoś to naprawi), ale... Jezu, nie róbcie tak. Zabezpieczajcie ekrany o błędach na serwerze produkcyjnym.

Zapraszamy na okrągły, bo 128. artykuł na naszym blogu! Z tej okazji przyglądamy się czemuś, co zawsze jest potrzebne i warte tłumaczenia, a więc podstawowym pojęciom, które stosuje się w architekturze oprogramowania. Nawet, jeśli nie są stosowane wprost, to stanowią fundament do innych, bardziej nowoczesnych koncepcji.

Przy okazji będziecie mogli zobaczyć najgorsze diagramy architektoniczne w Internecie.

#SoftwareArchitecture #ArchitekturaOprogramowania #programowanie

wildasoftware.pl/post/podstawo

Heja,

zrobiłem taką skromną apkę. Są to 'Rozmyślania' Marka Aureliusza w formie elektronicznej książki. Leżakował ten projekt u mnie chyba kilkanaście miesięcy i wstępnie to miała być natywna apka. Skończyłem to jednak jako PWA, więc można ją zainstalować na urządzeniu z poziomu przeglądarki ale jest też w pełni funkcjonalna bez instalacji (choć może trochę mniej wygodna wtedy).
Link do samej aplikacji: rozmyslania.vercel.app
Link do projektu i kodu: github.com/wojtek1171/rozmysla

Zachęcam do dzielenia się wpisem, bo może akurat trafi się ktoś, komu się to przyda

Podbijam też do @rcz bo apka bazuje na treści zrealizowanej przez #wolnelektury Jeśli uważacie, że to coś wartego podzielenia się z użytkownikami WL to nie obrażę się 🙂