08/06/2026
O nouă publicație elaborată în Echipă alături de colegii de la Universitatea POLITEHNICA din București - „Are Two Minds Better Than One?” - evaluăm dacă două LLM-uri care colaborează bat un singur model.
Dacă pe scurt: colaborarea (Debate & Consensus) crește acuratețea cu aproximativ 10 puncte, dar necesită mai mult timp și tokeni, deci costuri. Debate câștigă la fact-checking, Consensus la probleme structurate.
Lucrarea pornește de la o întrebare simplă, dar tot mai relevantă pe măsură ce sistemele multi-agent devin standard în aplicațiile cu LLM-uri: chiar sunt „două minți” mai bune decât una? Mai exact - când merită ca două modele de limbaj să colaboreze și când colaborarea devine doar mai costisitoare, fără câștig real?
Ce am studiat: am comparat raționamentul unui singur agent cu colaborarea a doi agenți, în două moduri - Debate (critică adversarială arbitrată de un „judecător”) și Consensus (roluri complementare, Researcher + Verifier, reconciliate de un agregator). Pentru a izola efectul colaborării de simpla „putere” a unui model mai bun, am folosit un setup omogen (același model în ambele roluri) și am testat GPT-4.1 și GPT-4o pe 30 de sarcini din două categorii: rezolvare de probleme (matematică, logică) și verificare factuală / sinteză.
Concluzii principale:
Colaborarea crește acuratețea cu apeoximativ 10 puncte față de modul solo (de la ~65% la ~78% în Debate).
Specializarea contează: Debate e cel mai bun la fact-checking și sinteză, iar Consensus la rezolvarea structurată de probleme.
Câștigul are un preț: modurile colaborative cer de 3–4× mai mult timp și tokeni, deci scad eficiența (acuratețe per token).
Recomandarea practică: pentru sarcini complexe, cu miză mare, „două minți” chiar ajută; pentru întrebări simple, unde contează viteza și costul, modul solo rămâne alegerea optimă.
De ce contează și de ce e actuală cercetarea: pe măsură ce arhitecturile multi-agent se generalizează, întrebarea nu mai este „colaborează modelele?”, ci „când merită colaborarea?”. Lucrarea oferă dovezi cantitative despre acest compromis cost–calitate și recomandări concrete de design: când să folosești Debate, când Consensus și cm să controlezi verbozitatea pentru evaluări fiabile.
Mulțumesc coautorilor și sprijinului oferit prin proiectul de cercetare în detecția timpurie a amenințărilor cibernetice.
Articol disponibil aici 👉 [https://www.researchgate.net/publication/406114372_ARE_TWO_MINDS_BETTER_THAN_ONE_EVALUATING_COLLABORATIVE_REASONING_IN_LLMS]. Scientific Bulletin UPB, Series C, 2026
05/06/2026
04/06/2026
02/06/2026
01/06/2026