Szemantikus NLP

Ellentétben a jelenlegi NLP rendszerekkel az ALL kognitív szemantikára és ontológiákra épülő reprezentációs technológiája elérhetővé teszi a szabad szöveges dokumentumok jelentését, támogatva a tipikus NLP feladatok végrehajtását (információ-visszakeresés, -kivonás stb.).

Elméleti háttér

Noha egyre több NLP rendszer használ valamilyen formában szemantikát, az ilyen rendszerek többsége csak ún. sekély szemantikai elemzést végez, mivel szemantikus moduljaik csak arra képesek, hogy a szövegek bizonyos kifejezéseit néhány egyszerű kategóriába sorolják (pl. az ún. "névelemekről" eldöntsék, hogy azok személyek vagy intézmények nevei-e), illetve hogy egyszerű szemantikai kapcsolatokat, pl. szinonimia- vagy hiponimiaviszonyt tárjanak fel közöttük.

A szemantika ilyen "pehelysúlyú/sekély" használataival szemben az ALL egy olyan módszertant és technológiát dolgozott ki, amelyeknek segítségével a természetes nyelvű szövegek olyan mély szemantikai reprezentációi állíthatók elő, amelyek figyelembe veszik a különböző kifejezések között fennálló szintaktikai kapcsolatokat, és olyan formában fejezik ki a szövegek információtartalmát, amely alkalmas komplex következtések levonására.

Kutatásunk elméleti alapját a kognitív frémszemantika nyújtja. A szemantikának ez az ága arra a belátásra épül, hogy fogalmaink kognitív szituációsémákba (frémekbe) szerveződnek, amelyekem keresztül a beszédet és az írott szövegeket interpretáljuk. Ennek megfelelően a szövegek általunk használt formális szemantikai reprezentációi a szövegben leírt szituációknak, résztvevőiknek és a köztük fennálló relációknak megfelelő olyan gráfok.

A szemantikai reprezentációk automatikus előállításához használt nyelvi és (felszíni) világról szóló tudást egy szemantikus lexikonban tároljuk, amely mind ontológiai, mind frémszemantikai információkat tartalmaz. A lexikon felső szintje kis méretű ontológiaszegmenseket („ontológiakapszulákat”) tartalmaz, amelyek részleges, doménfüggő sémákat tartmaznak bizonyos szitációk reprezentálására.

Az eddig vázolt szemantikai módszertan és technológia segítségével a következő alkalmazásokat dolgoztuk ki:

Alkalmazások

A számítógépes adattárakban tárolt információ ma is jelentős részben struktúrálatlan, vagy félig struktúrált természetes nyelvű dokumentumokban rejlik. Az ezekhez való hosszáférést biztosítandó, az ALL frémszemantikára alapozott megoldásokat dolgozott ki.

Információ-visszakeresés és információkivonás

A szemantikus reprezentációk automatikus előállítását lehetővé tevő technológiánkra építve egy szemantikus keresőmotort fejlesztettünk ki. A tipikus keresők által alkalmazott kulcsszó alapú kereséssel szemben a keresőkifejezések ebben az esetben egy külön erre a célra kifejlesztett kontrollált természetes nyelv jólformált frázisai. A keresőmotor olyan frázisokat keres a dokumentumokban, amelyeknek jelentése megegyezhet a keresőkifejezés bizonyos részleteinek jelentésével. Az eredmények relevanciája attól függ, hogy keresőkifejezés és a megtalált frázisok jelentése mennyire hasonló.

Information Retrieval
architecture

Mivel a szemantikus reprezentációk függetlenek a nyelvtől, ezért a keresés is nyelvfüggetlen: például egy (kontrollált) angol nyelvű lekérdezés több különböző nyelvű találatot is eredményezhet. Azonban a többnyelvű keresés csak a megfelelő nyelvi erőforrások, elsősorban az adott nyelvű szemantikus lexikonok kifejlesztésével valósítható meg.

Ugyanez a technológia információkinyerésre is használható. Míg a legtöbb információkinyerő rendszer doménfüggő sablonokat használ, addig az általunk kifejlesztett megoldásban olyan keresőkifejezések töltik be a sablon szerepét, amelyben a "valami" szó egyfajta dzsókerkarakterként szolgál.

A rendszer első verziója orvosbiológiai szabadalmak igénypontjaiban keres (maszeker.all.hu). Egy másik verzió a REACTION projektben került alkalmazásra.

Strukturált és struktutálatlan adatok integrált keresése

Az alkalmazást az egészségügyi területére fejlesztettük ki (elektronikus kórlapokban történő keresésre), de bármely más területen is alkalmazható.

Tetszőleges típusú adat kereshető az adatbázisban, így termeszetes nyelvű szövegek is. A kereső kifejezés elemi feltételek Boolean kombinációja. Megadható, hogy egy elemi feltétel milyen időintervallumra vonatkozik, s abban hányszor kell előfordulnia. A feltétel vonatkozhat arra, hogy a számszerű, vagy rendezett kódokkal adott adatokat milyen határokon belül számítanak találatnak, kereshető adott mértékű váltakozásuk, sőt valamilyen belőlük számolt érték (pl. átlag). Megadható az is, hogy a kereső kifejezésnek megfelelő páciensrekord milyen adatait jelenítse meg a program. Egyszerre több elektronikus adattár is kereshető, amelyek közott lehet dokumentumtár is.

Kognitív rendszerekben alkalmazható szemantikus technológiák

A kognitív rendszerek egyik fontos jellemzője az, hogy különböző csatornákon (hang, videó stb.) keresztül érkező jelsorozatokat képesek értelmezni. Az ALL ennek a problémának egy nyelvfüggetlen megközelítését kínálja, amely a frémszemantika egy általánosított változatára épül. A frémek struktúrája a kognitív rendszer fogalmi hálózatának felel meg ilyen módon támogatja a jelentésreprezentációknak a világmodellbe történő integrációját. A természetes nyelvekre kifejlesztett frémszemantika szavakat és vonzatkereteket köt a frémekhez -- az általunk használt általánosított változat az általános értelemben vett "nyelvi elemeket" (amelyek pl. a kép- illetve videófelismerés által előállított adatstruktúrák is lehetnek) és a köztük fennálló kapcsolatokat köti a frémekhez. Ezen a módon egy egységes információs struktúra nyerhető ki a kölönböző információforrásokból.

Ontológiakezelés

Az ALL-nak jelentős tapasztalata van ontológiák szerkesztésében. Részletesen ismerjük a különböző ontológiafejlesztési technológiákat (pl Dolce, OntoClean), sőt, magunk is kifejlesztettünk egy doménontológia szerkesztési módszertant. Komoly tapasztalatunk van az ontológiák automatikus kezelése, karbantartása terén: egy uniós K&F projekt során egy erre szolgáló szofvercsomagot is kifejlesztettünk.

A szemantikus reprezentációk előállításával kapcsolatos kutatásaink során kidolgoztunk egy "ontológiakapszulák" (kisméretű, töredékes ontológiék) alkalmazására vonatkozó módszert is, amely segítségével egy adott téma vagy komplex szituáció fogalmi struktúrája reprezentálható. Egy ontológiakapszula egy olyan minimális modell, amely egy szemantikus keresőprogramban lekérdezésként szolgálhat, és amelyet doménspecifikus ontológiákhoz kapcsolva kinyerhetők, megjeleníthetők és összegyűjthetők az ontológiában impliciten meglévő információk. Az ilyen módon összegyűjtött, logikailag strukturált információhalmaz alkalmas az adott területre vonatkozó újszerű, rejtett hasonlóságok és logikai kapcsolatok feltárására.