Hangtechnológia

A hangforrású információ felismerésére és kezelésére egy komplett, integrált technológiai készletet kínálunk. Az ALLdio nevű technológiai készlet magába foglalja az ALL – beszédtechnológiai és hangtechnológiai területen elért – legfontosabb kutatásfejlesztési eredményeit.

Az ALLdio három, egymásra rétegződő technológiai csomagot foglal magába: egy hanganalitikai csomagot (ALLdio SAn), egy automatikus beszédfelismerési csomagot (ALLdio ASR), és egy harmadik, a hangforrású információ felismerését és szöveges interpretációját támogató csomagot (ALLdio IE).

ALLdio SAn

Az ALLdio SAn csomag megbízható technológiai keretet kínál tetszőleges hanganyagok globális információtartalmának automatikus felismerésére, azaz annak felderítésére, hogy a hanganyag hogyan szegmentálódik különböző típusú, füllel jól érzékelhető hangesemények sorozatára – olyanokra például, hogy "angol nyelvű beszéd", "zene", "utcazaj", "magyar nyelvű beszéd", " kutyaugatás", stb.

ALLdio SAn hasznosítja a hanganalitikai problémák megoldására kidolgozott state-of-the-art technológiák eredményeit. Ennek megfelelően egy adott típusú hangesemény határai, illetve a hangesemény típusa az adott eseménytípus ''akusztikus attribútum modelljének'' bázisán felismerhető. Az akusztikus attribútum modellek reprezentálhatják akár egy adott beszélő egyedi beszédmódjának akusztikus jegyeit, akár egy adott nyelvű beszéd jellegzetes hangzásának akusztikus jegyeit, és így tovább. Az akusztikus attribútum modellek megfelelő tartalmú és hosszúságú hangmintákból automatikusan kigenerálhatók.

A state-of-the-art technológiák különállóak abban az értelemben, hogy a hanganalitikai problémák különböző aspektusaira fókuszálnak. Egyesek közülük a hanganyagok adott típusú hangeseményekre való szegmentálására (például beszéd–nem_beszéd, beszéd–zene) specializálódnak, mások pedig a azoknak a hangszakaszoknak a detektálására, amelyek homogének az ott beszélt nyelv vagy a beszélő személy, illetve a beszélő személy hovatartozásának (például férfi vagy női hang) tekintetében. Az ALLdio SAn technológia újdonsága abban rejlik, hogy ''integrálja'' a különálló hanganalitikai technológiákat és egyetlen egységes egésszé ''szintetizálja'' azokat.

Az ALLdio SAn alkalmazások tetszőleges sok akusztikus attribútum modellt tartalmazhatnak, és az egyes alkalmazások lehetséges szolgáltatásait az alkalmazás rendelkezésre álló akusztikus attribútum modell repertoárja határozza meg.

Az Audió Monitorozó rendszer az ALLdio SAn alkalmazások tipikus szolgáltatásait jól példázó szoftver.

ALLdio ASR

ALLdio ASR az Alkalmazott Logikai Laboratóriumban kifejlesztett újszerű, általános és komplett technológiai keretet kínál automatikus beszédfelismerési problémák megoldására. Az ALLdio ASR technológia egyaránt működik többnyelvű környezetben és multimodális hanganyagok kontextusában.

Az ALLdio ASR technológia magja – mind funkcionális mind architektúrális szempontból – megfelel az úgynevezett LVCSR (Large Vocabulary Continuous Speech recognition) state-of-the-art technológiának.

Mindkét esetben magát a beszédfelismerést egy ''STT'' (beszédet szöveggé konvertáló) ''motor'' realizálja, amely egy adott nyelv beszélt változatának egyedi sajátosságait modellező ''akusztikus szintű'' tudással, valamint a nyelv írott változatának szokásos használatát modellező ''nyelvi szintű'' tudással van ellátva. Hasonlóképpen a konvencionális LVCSR technológiáéhoz, az ALLdio ASR technológia célja bárki beszédének a megértése és szöveggé való konvertálása, aki a mondanivalóját egy adott nyelven fejezi ki. Az újdonság a ALLdio ASR származik az ötlet ''előkezelés'' a beszéd-szöveg átalakítás a beszéd-és elemzési szolgáltatások a ALLdio SAn . A tengelykapcsoló a beszédfelismerés beszéd analitika elősegíti lazítás fel a korlátait hagyományos LVCSR beszéd felismerő pontosság, valamint ruházza fel a ALLdio ASR alapú alkalmazások bizonyos fajta funkciót, amit a hagyományos LVCSR technológia nem, vagy nem tudja támogatás. Abból az ötletből származik, hogy az STT konverziót érdemes ''prekondicionálni'' az ALLdio SAn technológia beszéd-analitikai szolgáltatásaival. A beszédfelismerés és a beszédanalitika összekapcsolása tágítja határait a konvencionális LVCSR technológiával elérhető beszédfelismerési pontosságnak, és teszi az ALLdio ASR bázisú alkalmazások számára néhány olyan szolgáltatás/funkció megvalósítását, amelyeket a konvencionális LVCSR technológia egyáltalán nem támogat, illetve nem képes támogatni.

A ALLdio SAn stílusú beszédanalitika a beszédtartalmú hangszakaszokat olyan további hangszakaszokra bontja, amelyek mindegyike egyidejűleg ''homogén'' a beszélt nyelvet és a beszélő hangkarakterisztikáit illetően. A beszélő hangkarakterisztikái azonosíthatják magát a beszélő személyt, vagy azt, hogy a beszélő személy milyen meghatározott beszélő osztályhoz tartozik a beszélő neme, kora, idegen akcentusa, stb. szerint. Mindez lehetővé teszi, hogy a beszédfelismerő rendszer az összes (nyelvre és beszélőre nézve) homogén beszédszakasz esetén kiválassza a megfelelő akusztikus és nyelvi szintű tudást az STT motor számára mielőtt a beszédszakasz felismerése (beszédről szöveggé történő konverziója) elkezdődik. Az akusztikus és nyelvi tudás együttes, dinamikus cserélhetősége megteremti a feltételeit annak, hogy az ALLdio ASR alapú alkalmazások ''többnyelvű'' környezetben is működhessenek. A megfelelő beszélőfüggő, illetve beszélőosztály függő akusztikus szintű tudásra való váltás a lehetősége pedig jelentős, esetenként látványos javulást eredményezhet a beszédfelismerési pontosságban anélkül, hogy maga a beszédfelismerés funkcionálisan elveszítené beszélő-független természetét.

Az ALLdio ASR technológia további szolgáltatásai segítik a végtermék felkészítését olyan funkciókra, amelyek megvalósítását a hagyományos LVCSR technológia nem képes támogatni. A ''beszélő azonosító'' szolgáltatás például lehetővé teszi, hogy megcímkézzük a szöveges átirat szakaszait a szakaszt eredetileg megfogalmazó beszélő nevével.

Az ALLdio ASR technológia elsősorban LVCSR célokat szolgál, ugyanakkor könnyen konfigurálható, illetve adaptálható bármilyen típusú beszédfelismerési alkalmazás specifikus igényeinek megvalósítására. Az ALLdio ASR technológiai rugalmasságát számos, lényegesen eltérő funkcionalitású beszédfelismerési alkalmazás példázza. Ezek közé tartozik a Jegyzőkönyvkészítő digitálisan rögzített hanganyagokból, a Video Feliratozó, a beszédalapú Hangvezérlő, az ALLdio diktáló rendszerek csoportja, és az ALLdio dialógus rendszerek csoportja.

ALLdio IE

ALLdio IE név egy olyan általános érvényű technológia megnevezése, amelynek célja tetszőleges (digitálisan rögzített, illetve folyamatosan keletkező) hanganyagok teljes információtartalmának felismerése és a felismert információtartalom természetes nyelvi interpretálása.

Az ALLdio IE technológia elméleti hátterét egy, az Alkalmazott Logikai Laboratóriumban kifejlesztett, újszerű szemantikai megközelítés eredményei alkotják.

Az Akusztikus Szemantika nevű új elmélet a hanganyagok információtartalmának megértését és interpretálását egy szigorúan felügyelt, tudáskinyerési folyamatként modellezi, amelynek során a hangformában rendelkezésre álló információtartalom fokozatosan képződik le szöveges interpretációs egységek rendezett együttesére.

Az Akusztikus Szemantika bázisán kifejlesztett ALLdio IE beépíti az ALLdio SAn és az ALLdio ASR technológiákat, illetve felhasznál számos egyéb, releváns hangtechnológiai eredményt.

Összhangban az akusztikus szemantikai szabályrendszerrel, ALLdio IE szerves része a következő problémasor technológiai szintű megoldása. (1) Az elemzett hanganyag szegmentálása önállóan megérthető és interpretálható hangszakaszokra. (2) A hangszakaszok információtartalmának megértése és megértett információtartalom szöveges formában történő interpretációja. (3) Beszédet tartalmazó hangszakaszok esetén következtetés a beszéd témáiról a szöveges interpretáció (átirat) alapján. (4) Az önállóan értelmezhető hangszakaszok információs értékének megbecslése. (5) Következtetés az önállóan értelmezett hang-szakaszok által közvetített információtartalmak közötti összefüggések határaira és természetére.

Az Alldo-IE bázisú szoftver rendszerek funkcionalitását és architektúráját lényegében meghatározza a mögöttes Akusztikus Szemantika. Ugyanakkor a célrendszer tényleges szolgáltatásai rugalmasan hozzáigazíthatók a rendszer specifikus igényeihez. Példaként két, lényegesen eltérő alkalmazási lehetőséget érdemes megemlíteni. Az audió/videó archívumkezelés kontextusában egy ALLdio IE bázisú Archívum Indexelő alkalmazása lehetőséget teremt az információtartalom szempontjából független hang/videó szakaszok önálló, téma szerinti visszakeresésére. A mesterséges kognitív rendszerek komponenseként egy ALLdio IE bázisú Audió Szinkrontolmács folyamatosan figyeli a környezeti zajokat és azonnal tájékoztatja a rendszer megfelelő komponensét a hangformában észlelt eseményekről szöveges információ formájában.

Technológiai segédeszközök

Az ALLdio technológia fő komponenseit megfelelő eszköztár egészíti ki, amelynek tagjai egyaránt támogatják akusztikus attribútum modellek kigenerálását az ALLdio SAn alkalmazások számára, egy adott nyelv beszélt és az írott változatának jellemzőiről szóló tudás elemeinek létrehozását az ALLdio ASR alkalmazások számára, a beszédtémák felismerését támogató következtetési szabályrendszer kialakítását az ALLdio IE alkalmazások számára, valamint az ALLdio bázisú alkalmazások minőségének és műszaki paramétereinek formális kiértékelését.

Az ALLdio technológia

teljeskörű funkcionalitásának és architektúrájának rövid áttekintése a alldio.eu honlapon lesz elérhető. (A honlap egyes oldalai jelenleg még kidolgozás és/vagy korrekció alatt állnak).