Jön a manuális klinikai adatgyűjtés vége
A Pécsi Tudományegyetemen bemutatták a hazai fejlesztésű CIDER rendszert, amely nagy nyelvi modelleket alkalmazva automatikusan kinyeri és strukturálja a klinikai dokumentumokból az adatokat kutatási célokra.
Minikonferencia az egészségügyi adatok jövőjéről
A Pécsi Tudományegyetem Általános Orvostudományi Kara, a Klinikai Központ és a Gyógyszerésztudományi Kar közös minikonferenciát szervezett az egészségügyi adatok kutatási felhasználásáról, különös tekintettel a strukturált adatgyűjtés jövőjére és az intézményi együttműködésekre – jelent meg az intézmény honlapján 2026. június 15-én. A megnyitón Dr. Sebestyén Andor, a PTE Klinikai Központ elnöke kiemelte, hogy a modern tudományos munka alapja a jól strukturált, megbízható adat, amelynek előállítását korszerű informatikai és biometriai megoldások támogathatják
CIDER: nagy nyelvi modellek a klinikai dokumentumok mögött
A program első előadásában Dr. Győrffy Balázs, a PTE ÁOK Transzdiszciplináris Kutatások Intézetének vezetője „A manuális adatgyűjtés vége: automatizált klinikai adatkinyerés és validált analitika” címmel mutatta be a CIDER (ClinIcal Data ExtractoR) rendszert. A rendszer nagy nyelvi modellekre (AI) épül, és arra szolgál, hogy szabad szöveges klinikai dokumentumokból – például patológiai és hisztológiai leletekből – előre definiált sémák mentén automatizáltan strukturált adatokat hozzon létre. A fejlesztők leírása szerint a CIDER lokálisan telepített, nyílt forráskódú megoldás, amely egy több lépésből álló feldolgozási folyamatban alakítja át a dokumentumokat közvetlenül elemezhető, táblázatos kimenetté.
A CIDER-rel kapcsolatos tudományos eredményeket a szerzők a Cancer Research folyóiratban, az AACR Annual Meeting 2026 (San Diego) hivatalos kiegészítő kötetében megjelent absztrakt formájában tették közzé, a munkát az AACR éves kongresszusán prezentálták.
Valós magyar patológiai leleteken tesztelték
A rendszert valós, magyar nyelvű patológiai és hisztológiai leleteken vizsgálták, összesen 2046 dokumentum feldolgozásával. A vizsgálatban hat kulcsfontosságú adatmező kinyerését értékelték: a beteg nemét, a T- és N-stádiumot, a primer tumor szervét, a műtét évét, valamint a legnagyobb tumorméretet. Az automatikusan kinyert adatokat manuálisan gyűjtött adatokkal hasonlították össze, és a legtöbb változó esetében 92–99 százalék közötti egyezést írtak le a nem, a stádiumadatok, a műtét éve és a primer tumor szerv esetében, míg a tumorméret kinyerése alacsonyabb, de továbbra is érdemi pontosságot mutatott.
Mit jelent ez a gyakorlat számára?
A szerzők hangsúlyozzák, hogy a CIDER nemcsak a meglévő manuális adatgyűjtés tehermentesítésére alkalmas, hanem olyan esetekben is adatot tud kinyerni, ahol korábban nem történt kézi annotáció. Összegzésük szerint a lokálisan működő, nagy nyelvi modellre épülő rendszer komplex, nem angol nyelvű orvosi szövegekből is közel szakértői pontossággal képes strukturált adatokat előállítani, miközben az intézményi infrastruktúrán belül maradva biztosítja az adatszuverenitást.
A CIDER nyilvánosan hozzáférhető, webes felületen működő platform, amelyet a fejlesztői a https://llm.gyorffylab.com/cider címen tettek elérhetővé. Ez azt jelenti, hogy nem csak belső, PTE‑n futó kutatási eszközről van szó, hanem olyan rendszerről, amely – megfelelő adatvédelmi és intézményi keretek között – más kutatócsoportok, fejlesztők számára is kipróbálható és tesztelhető.