A mesterséges intelligencia tudományos cikkek ezreit képes felfalni, de nem képes megérteni az általa magyarázott tudományt
Az akadémiai tudás olyan sebességgel halmozódik fel, amely minden emberi emlékezetet felülmúl. A jó hír az, hogy a A mesterséges intelligencia tudományos publikációk teljes gyűjteményét tudja elolvasni miközben azonosítja a különböző művekben hivatkozott kifejezéseket, kapcsolatokat és eredményeket.
Ez a fajta eszköz azért érdekli a kutatókat, mert csökkenti a keresési órákat digitális könyvtárakban. Ezenkívül az új területre lépő diákok könnyebben megtalálhatják egy összetett probléma háttérinformációit anélkül, hogy az egyes kiadványokat manuálisan átnéznék.
A nagy tanulmányi készletek konzultációjának lehetősége gyorsan felvet egy elkerülhetetlen kérdést hogy azok a gépek valóban képesek-e megérteni a tartalmat amit elemeznek.
Az egyetemi csapatok elemzik, hogy a gépek milyen mértékben értik a fejlett fizikát
Az általa vezetett csapat Haoyu Guo y Michael P. Brenner kísérletet végzett ennek a képességnek a mérésére, és az eredményeket publikálta Proceedings of the National Academy of Sciences (PNAS). A munka azt értékelte, hogy a különböző nyelvi modellek képesek-e értelmezni a kuprát szupravezetőkkel kapcsolatos tudományos irodalmat a szakemberek megértésének szintjével.
A kutatók 1726 tudományos közleményből álló gyűjteményt gyűjtöttek össze, és 67 kérdést tettek fel az adott terület szakértői által. A különböző mesterséges intelligencia rendszerek által generált válaszokat ezután összehasonlították a humán szakemberek értékeléseivel.
A kísérlet megtervezésében tizenkét szakértő vett részt, akik úgy értékelték a válaszokat, hogy nem tudták, melyik rendszer hozta létre azokat. A vizsgált eszközök között voltak ChatGPT-4, Claude 3.5, Perplexity, Gemini Advanced Pro 1.5 y NotebookLMegy személyre szabott, dokumentum-helyreállításon alapuló rendszerrel együtt. A kutatók olyan verziókat is teszteltek, amelyek a szakemberek által korábban kiválasztott dokumentumokkal működtek.
Haoyu Guo, az intézet posztdoktori kutatója szerint Atom- és Szilárdtestfizikai Laboratórium a Cornell Egyetemről: „az A megbízható forrásokkal működő modellek általában jobban teljesítenek, mint azok, amelyek általános információkat keresnek az interneten„A csapat ezért ellenőrizte, hogy a kiválasztott irodalommal kiképzett rendszerek több helyes választ kínálnak, mint azok, amelyek nyílt keresésen alapultak.
A gépek jól összefoglalnak, de kudarcot vallanak, ha meg kell magyarázniuk a fizikai jelenségeket
Ennek ellenére az eredmények feltűnő ellentmondást tártak fel. A gépek nagyszerűen képesek adatokat kinyerni szövegből és összefoglalni az összetett munkát. Azonban a a teljesítmény visszaesett, amikor a kérdések kísérleti eredmények értelmezését vagy fizikai fogalmak összekapcsolását igényelték részletesen.
A Cornell Egyetem és a Google DeepMind kutatói azt találták, hogy a modellek könnyen összekapcsoltak kifejezéseket, de Hibákat követtek el, amikor meg kellett magyarázniuk a fizikai folyamatokat. Ez a különbség arra utal, hogy az algoritmusok statisztikai mintákat észlelnek a nyelvben, de nem építenek mély megértést a cikkekben leírt jelenségről.
Ez a probléma a hívással kapcsolatos világmodell hiánya. A tudósok az irodalom segítségével koherens mentális képet alkotnak az anyag működéséről. Ezzel szemben a nyelvi rendszerek megjósolják a szavak sorozatát korábbi adatokból anélkül, hogy a fizikai folyamat fogalmi ábrázolását hoznák létre. Az eredmény úgy néz ki olyan tanuló viselkedése, aki az elvek elsajátítása nélkül memorizál szövegeket ami megmagyarázza őket. Amikor új kérdéseket tesznek fel a tudás határán, ez a felületes tanulás kudarcokat okoz.
A hibák hatással lehetnek a hosszú távú kísérleti projektekre
A tanulmány konkrét kockázatokra is rámutat, ha ezeket a rendszereket fejlett kutatásban használják. A kísérleti területeken a A félreértelmezés több éves munkát veszélyeztethet laboratórium. A szerzők olyan eseteket fedeztek fel, amelyekben egyes modellek kitalált bibliográfiai hivatkozásokat vagy leegyszerűsített összetett vitákat jelen van a cikkekben.
Eun-Ah Kim, Hans A. Bethe, a Cornell Egyetem fizikaprofesszora és a tanulmány megfelelő szerzője kifejtette, hogy „ez a munka azt vizsgálja, hogy a nyelvi modellek képesek-e úgy olvasni a tudományos irodalmat, mint egy szakértő.” A kutató hozzátette, hogy „Egyértelmű hiányosságok vannak abban, hogy ezek a rendszerek mire képesek jelenleg, és ez azt mutatja, hogy még mindig nincsenek közel az általános mesterséges intelligenciához”.
Az eredmények nem zárják ki ezen eszközök kutatási alkalmazását, de meghatározzák jelenlegi funkciójukat. Az elemzett rendszerek képesek segít eligazodni a kiterjedt bibliográfiában és megtalálni az információkat konkrét. A nagy munkagyűjtemények összefoglalóival is irányíthatják az összetett területen kezdő diákokat.
Azonban a A kísérleti adatok mélyreható értelmezése továbbra is az emberi megítéléstől függ. Ebben a munkamegosztásban a mesterséges intelligencia úgy működik, mint olvasó asszisztens míg a tudósok feladata továbbra is a hipotézisek értékelése és a következtetések érvényesítése.