Naukowcy z University of Maryland i Microsoftu przetestowali 26 języków w komunikacji z najnowszymi modelami sztucznej inteligencji. Wyniki benchmarku OneRuler obalają dotychczasowe przekonania o dominacji angielskiego – polski zajął pierwsze miejsce z wynikiem 88 proc., dystansując język angielski, który uplasował się dopiero na szóstej pozycji z rezultatem 83,9 proc. Jeszcze bardziej zaskakujący jest fakt, że polszczyzna triumfowała mimo minimalnych zasobów treningowych, podczas gdy chiński – trenowany na gigantycznych zbiorach danych – osiągnął zaledwie 62,1 proc. skuteczności.
Polszczyzna zdeklasowała rywali w testach siedmiu najnowszych modeli AI
Zespół naukowców – Yekyung Kim, Jenna Russell, Marzena Karpińska oraz Mohit Iyyer – przeprowadził testy na siedmiu modelach językowych: OpenAI o3-mini-high, Google Gemini 1.5 Flash, Qwen2.5 (wersje 7B i 72B), Llama 3.1 (8B), Llama 3.3 (70B) oraz DeepSeek-R1. Każdy model otrzymywał obszerne zapytania liczące od 8 do 128 tysięcy tokenów – dla porównania, standardowa rozmowa z chatbotem to zaledwie kilkaset tokenów.
Badacze oceniali siedem syntetycznych zadań podzielonych na dwie kategorie. Pierwsza to wyszukiwanie informacji według zasady „igła w stogu siana”, gdzie model musiał odnaleźć konkretny fragment w długim tekście albo stwierdzić jego brak. Druga kategoria obejmowała agregację – ekstrakcję najczęściej występujących słów z tysięcy pozycji na liście.
Pełne zestawienie 26 języków ujawnia wyraźną hierarchię. Za polskim (88 proc.) plasują się francuski (87 proc.), włoski (86 proc.) i hiszpański (85 proc.). Rosyjski osiągnął 84 proc., angielski 83,9 proc., a ukraiński 83,5 proc. Niemiecki znalazł się na dziewiątym miejscu z wynikiem 81 proc. Azjatyckie języki wypadły znacznie słabiej – japoński uzyskał 72 proc., koreański 66 proc., a chiński zaledwie 62,1 proc. Najniższe wyniki zanotowały języki afrykańskie: swahili (55 proc.) i sesotho (45 proc.).
Długie konteksty obnażają prawdziwą moc języków – różnice sięgają 34 punktów procentowych
Naukowcy przeprowadzili testy przy czterech długościach kontekstu: 8 tysięcy, 32 tysiące, 64 tysiące oraz 128 tysięcy tokenów. Im dłuższy kontekst, tym wyraźniej rysowała się przewaga języków europejskich nad resztą świata. Przy 8 tysiącach tokenów różnica między językami wysokozasobowymi (europejskimi) a niskozasobowymi (jak swahili czy sesotho) wynosiła 11 punktów procentowych. Przy maksymalnej długości 128 tysięcy tokenów przepaść zwiększyła się do 34 punktów procentowych.
Polski wykazał najwyższą stabilność właśnie w najdłuższych kontekstach. Przy 64-128 tysiącach tokenów osiągał konsekwentnie około 88 proc. skuteczności, podczas gdy inne języki notowały znaczące spadki. Angielski tracił na efektywności szczególnie w zadaniach typu „igła w stogu siana” przy maksymalnym kontekście – jego wynik spadał poniżej 80 proc., podczas gdy polski utrzymywał poziom powyżej 85 proc.
Zadania agregacyjne okazały się trudniejsze od wyszukiwania dla wszystkich testowanych języków. Ekstrahowanie najczęściej występujących słów z list liczących dziesiątki tysięcy pozycji obniżało skuteczność modeli o 5-10 punktów procentowych w porównaniu do prostego wyszukiwania konkretnej informacji. Polski zachowywał jednak najlepszą precyzję także w tym typie zadań.
Rozumienie długich kontekstów ma kluczowe znaczenie dla praktycznych zastosowań dużych modeli językowych. Streszczanie wielostronicowych raportów, odpowiadanie na złożone pytania wymagające przeanalizowania całych dokumentów czy wyciąganie wniosków z obszernej korespondencji – wszystkie te zadania wymagają przetwarzania tekstów liczących dziesiątki tysięcy słów.
Paradoks chińskiego: Ogromne zasoby danych nie gwarantują sukcesu
Chiński zajął 23. miejsce na 26 testowanych języków, osiągając skuteczność zaledwie 62,1 proc. – to czwarte miejsce od końca, lepsze tylko od tamilskiego (61 proc.), swahili (55 proc.) i sesotho (45 proc.). Wynik szokuje tym bardziej, że modele LLM trenowane są na gigantycznych zbiorach danych w języku chińskim – często porównywalnych lub większych niż anglojęzyczne korpusy tekstów.
Badacze wskazują na kilka możliwych przyczyn tej anomalii. Struktura gramatyczna języków indoeuropejskich – oparta na elastycznym szyku zdania, ale ścisłych regułach składniowych – może ułatwiać modelom rozróżnianie między istotnymi informacjami a szumem w długich tekstach. Języki słowiańskie, romańskie i germańskie zdominowały pierwszą dziesiątkę zestawienia, zajmując dziewięć z dziesięciu najwyższych pozycji.
Polski ma dodatkową przewagę w postaci złożonej fleksji i precyzyjnego systemu przypadków. Siedem przypadków gramatycznych pozwala na jednoznaczne określenie funkcji każdego wyrazu w zdaniu bez polegania wyłącznie na szyku słów. Model AI analizujący polski tekst otrzymuje więcej wskazówek kontekstowych niż w przypadku języków o uproszczonej gramatyce.
Paradoks polega na tym, że nasza rodzima mowa należy do języków „niskozasobowych” w kontekście trenowania AI. Korpusy tekstów dostępne do uczenia modeli są kilkadziesiąt razy mniejsze niż anglojęzyczne zbiory danych. Mimo to osiąga lepsze wyniki – co sugeruje, że sama struktura języka, a nie ilość danych treningowych, decyduje o skuteczności w zadaniach długokontekstowych.
AI masowo myli się w prostych testach – nawet gdy odpowiedź jest w tekście
Badacze wprowadzili do testów kluczowy wariant zadania: możliwość odpowiedzi „brak informacji” w zadaniach typu „igła w stogu siana”. Zamiast zawsze wyszukiwać konkretny fragment, model musiał ocenić, czy szukana informacja w ogóle występuje w tekście. Wyniki dramatycznie spadły dla wszystkich języków – szczególnie model OpenAI o3-mini-high wykazywał skłonność do masowego odpowiadania „brak”, nawet gdy poprawna informacja znajdowała się bezpośrednio w kontekście.
W testach standardowych, gdzie odpowiedź zawsze istniała w tekście, modele osiągały skuteczność 85-90 proc. Po dodaniu możliwości odpowiedzi „nie znaleziono” wyniki spadały o 15-25 punktów procentowych. Model o3-mini-high w 40 proc. przypadków błędnie deklarował brak informacji, mimo że była ona obecna w analizowanym tekście na pozycji 50-70 proc. długości dokumentu.
Polski okazał się najmniej podatny na tego typu błędy. Modele pracujące w polszczyźnie popełniały fałszywie negatywne odpowiedzi w 28 proc. przypadków, podczas gdy w języku angielskim odsetek wynosił 35 proc., a w chińskim przekraczał 45 proc. Badacze nie potrafią jednoznacznie wyjaśnić tego zjawiska – spekulują, że może to wynikać z lepszej „sygnalizacji” struktury tekstu w językach fleksyjnych.
Agregacja danych okazała się trudniejsza od wyszukiwania dla wszystkich testowanych modeli. Zadanie polegające na znalezieniu trzech najczęściej występujących słów na liście 50 tysięcy pozycji obniżało skuteczność o 8-12 punktów procentowych względem prostego wyszukiwania konkretnego fragmentu. Gemini 1.5 Flash osiągał w agregacji zaledwie 68 proc. skuteczności dla języka angielskiego i 73 proc. dla polskiego.
PLLuM i Bielik budują polski ekosystem AI
Ministerstwo Cyfryzacji uruchomiło w lutym 2025 roku PLLuM – pierwszy rządowy model językowy dostępny bezpłatnie dla obywateli i instytucji publicznych. System powstał w oparciu o 18 różnych wersji modelu o pojemności od 8 do 70 miliardów parametrów. Mniejsze wersje działają na przeciętnym sprzęcie biurowym, większe wymagają serwerów z kartami graficznymi o mocy minimum 24 GB pamięci VRAM.
Częstochowa jako pierwsza w Polsce wdrożyła PLLuM w urzędzie miejskim. Urzędnicy wykorzystują model do automatycznego streszczania wniosków obywateli, przygotowywania projektów odpowiedzi na interpelacje radnych oraz analizy dokumentów planistycznych liczących setki stron. System przetwarza miesięcznie około 4 tysięcy dokumentów, skracając czas obsługi sprawy średnio o 35 proc.
Ministerstwo Cyfryzacji zainwestowało dotychczas 14,5 mln zł w rozwój PLLuM. Kolejne 19 mln zł przeznaczono na wdrożenia w samorządach i instytucjach publicznych do końca 2026 roku. W aplikacji mObywatel pojawi się wirtualny asystent oparty na PLLuM jeszcze w 2025 roku – ma odpowiadać na pytania o procedury urzędowe, dokumenty, terminy i prawa obywateli.
Równolegle rozwija się projekt Bielik – otwartoźródłowy model tworzony przez polskie środowisko badawcze i technologiczne. Bielik koncentruje się na zastosowaniach edukacyjnych i naukowych. Jego twórcy planują wdrożenie do szkół – system ma wspomagać nauczanie informatyki, matematyki i nauk ścisłych poprzez personalizowane wyjaśnianie złożonych zagadnień.
Krytyczny głos: Benchmark to nie codzienne użycie AI – eksperci przestrzegają przed uproszczeniami
OneRuler testował wyłącznie długie konteksty w bardzo specyficznych zadaniach – wyszukiwanie konkretnych informacji i agregacja list. Codzienne zastosowania sztucznej inteligencji wyglądają zupełnie inaczej: krótkiej rozmowy, tłumaczenia zdań, generowanie fragmentów kodu, tworzenie streszczeń kilkuakapitowych tekstów. W tych scenariuszach długość kontekstu rzadko przekracza 2-4 tysiące tokenów.
Badania nie obejmowały zadań kreatywnych, rozumowania logicznego ani analizy wieloetapowych instrukcji. Polski może dominować w wyszukiwaniu informacji w długich dokumentach, ale to nie oznacza automatycznie przewagi w pisaniu eseju, rozwiązywaniu problemów matematycznych czy prowadzeniu naturalnej konwersacji. Benchmarki Google i OpenAI testujące te umiejętności konsekwentnie pokazują dominację angielskiego.
Wyniki zależą również od sposobu optymalizacji zbiorów treningowych. Twórcy modeli koncentrują się na języku angielskim, inwestując dziesiątki tysięcy godzin w dostrajanie parametrów, eliminowanie błędów i poprawianie jakości odpowiedzi. Języki europejskie, w tym polski, otrzymują znacznie mniej uwagi – co paradoksalnie może działać na ich korzyść w syntetycznych testach, gdzie brak nadmiernej optymalizacji eliminuje ryzyko przeuczenia modelu.
Środowisko typu zadania i struktura promptów również wpływają na rezultaty. OneRuler używał ustandaryzowanych, sztucznie stworzonych tekstów bez idiomów, slangów i nieformalnego języka. Prawdziwe rozmowy z użytkownikami zawierają błędy ortograficzne, skróty myślowe, dwuznaczności kontekstowe – wszystko to zmienia dynamikę komunikacji między człowiekiem a AI.
