Nouă dintre cele mai puternice modele de inteligență artificială din lume au fost așezate la aceeași masă de poker – iar rezultatul spune multe despre cum iau decizii aceste sisteme, dincolo de textele pe care le generează.
Într-un experiment numit PokerBattle.ai, complet automatizat și condus doar de algoritmi, OpenAI, Google, Meta, Anthropic, xAI și alți dezvoltatori de modele mari de limbaj și-au pus la bătaie creațiile într-un turneu de no-limit Texas hold’em.
Cinci zile, mii de mâini și niciun jucător uman
Configurația a fost simplă și dură: mese de $10/$20, câte un bankroll de 100.000 de dolari pentru fiecare bot și mii de mâini jucate pe parcursul a cinci zile. Toate modelele au pornit de la același prompt inițial, astfel că diferențele au venit exclusiv din strategia pe care au ales să o urmeze.
Au intrat în joc OpenAI o3, Claude Sonnet 4.5 de la Anthropic, Grok de la xAI, Google Gemini 2.5 Pro, Llama 4 de la Meta, DeepSeek R1, Kimi K2 de la Moonshot AI, Magistral de la Mistral AI și GLM 4.6 de la Z.AI.
La finalul „săptămânii la cazinou”, modelul o3 al OpenAI a fost marele câștigător, terminând cu un profit de 36.691 de dolari – nu există un trofeu fizic, dar drepturile de laudă sunt uriașe într-o industrie în care fiecare punct procentual de performanță contează.
De ce contează pokerul pentru AI
Pokerul este de ani buni un test preferat pentru inteligența artificială. Spre deosebire de șah sau Go, unde toate informațiile sunt la vedere, în poker joci „pe întuneric”: nu vezi cărțile adversarilor și trebuie să iei decizii pe baza probabilităților, a poziției la masă, a stilului celorlalți și a riscului pe care ești dispus să ți-l asumi. Exact genul de situații cu ambiguitate care apar în afaceri, negocieri sau strategie militară.
În acest context, rezultatele sunt revelatoare. OpenAI o3 a dominat turneul printr-un joc constant și disciplinat, luând trei dintre cele mai mari cinci poturi și respectând destul de riguros „teoria de manual” pentru jocul pre-flop. Claude Sonnet 4.5 și Grok au completat podiumul, cu câștiguri substanțiale, de 33.641, respectiv 28.796 de dolari.
De partea cealaltă, Llama 4 de la Meta și-a pierdut întregul stack și a ieșit devreme din competiție, iar Kimi K2 de la Moonshot AI a încheiat aproape falită, cu doar 86.030 de dolari rămași din cei 100.000 inițiali. Google Gemini a reușit un profit modest, în timp ce restul modelelor s-au poziționat undeva la mijloc.
Ce știu și ce nu știu, de fapt, acești boți
Chiar dacă turneul a fost un „stunt” tech, concluziile sunt serioase. Modelele de top nu doar au mizat și au plusat; au învățat din mers, și-au modelat adversarii și au încercat să navigheze incertitudinea aproape ca niște jucători umani experimentați. Nu au jucat perfect, dar au ajuns surprinzător de aproape de judecățile unui profesionist.
În același timp, punctele lor slabe au fost clare. Multe modele au fost prea agresive, preferând acțiunea și poturile mari în locul fold-urilor prudente. Au avut dificultăți cu poziția la masă, cu bluff-urile credibile și, uneori, chiar cu calcule matematice de bază legate de mărimea potului și a stack-ului.
Bluff-urile, mai ales, au fost problematice: nu pentru că boții nu încercau să mintă, ci pentru că făceau asta pe baza unei evaluări greșite a mâinii sau a situației, nu dintr-o înțelegere fină a psihologiei adversarului.
De la mesele de poker la deciziile din viața reală
Mesajul din spatele acestui turneu este dublu. Pe de o parte, instrumentele de inteligență artificială devin tot mai capabile să ia decizii probabilistice sub presiune, să se adapteze și să „citească” contextul. Pe de altă parte, chiar și cele mai avansate modele rămân vulnerabile la interpretări greșite și concluzii fragile.
Probabil nu vei vedea curând un chatbot la masa ta de poker, dar aproape sigur vei interacționa cu astfel de sisteme când iei decizii care contează – de la finanțe la sănătate sau carieră. PokerBattle.ai este, într-un fel, un trailer al modului în care aceste modele pot performa atunci când miza nu mai este doar un pot, ci lumea reală.