A magyar kompetenciamérésre az MI-k bevonásával izgalmas és meglepő eredmények láttak napvilágot.


A laboratóriumi benchmark-mérőszámok gyakran túlzottan optimista képet festenek a mesterséges intelligenciák képességeiről - mutat rá egy friss kutatás, mely a hazai kompetenciamérés kérdéseivel tesztelt hat népszerű modellt.

Kiterjedt kutatásokat folytattak a legnépszerűbb mesterséges intelligencia modellek teljesítményének vizsgálatára. A PeakX célja az volt, hogy valós környezetben felmérje, hogyan teljesítenek az egyes modellek a szövegértés, matematikai feladatok és más tudományos területek vonatkozásában.

A kutatás során a nagyméretű nyelvi modelleknek az új magyarországi kompetenciamérések keretében a 6., 8. és 10. osztályos tanulók által kitöltendő teszteket kellett megoldaniuk. A PeakX összesen 70 szövegértési és 70 matematikai feladatot alkalmazott az MI-modellek teljesítményének értékelésére, kiegészítve a történelem, természettudomány és digitális kultúra területeiről származó kérdésekkel. Az eszközök által generált válaszok értékelése egy objektív pontozási rendszer alapján történt, figyelembe véve a válaszadási sebességet, az erőforrás-igényt és a pontosságot is.

Az elemzés során megállapították, hogy a vizsgált modellek között jelentős eltérések tapasztalhatók a szövegértési és matematikai feladatok terén. Az egyes eszközök - konkrét nyelvi modellek - erősségeit és gyengeségeit ki is emelték:

Mint összegeznek, az érvelő (reasoning) modellek lassabbak és drágábbak, de minden kategóriában jobb eredményt értek el, mint a többi modell. Az eredmények alapján a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek egyértelműen helyettesíteni az embereket, különösen a komplex matematikai készségeket igénylő feladatoknál mutatkozik meg lemaradásuk.

Azt ugyanakkor érdemes számításba venni, hogy MI-téren rendkívül erős a verseny, és szinte naponta jelennek meg új nyelvi modellek - így a fenti vizsgálat csak egy pillanatnyi állapotot tükröz.

Related posts