A Recognita programmal először valamikor 9-10 évvel ezelőtt, középiskolásként találkoztam először. Történelemtanárunk az egyik témát inkább diáról vetítve adta le, és feladatul kiadta, hogy egy jegyzetet másoljunk be füzetünkbe. Gondoltam egyet, és – megpróbálva minél jobban leegyszerűsíteni a munkát – az akkori modern technikát hívtam inkább segítségül. Bementem az iskolai gépterembe, és egy Recognita névre hallgató DOS-os alkalmazást használva oldalanként bescanneltem a jegyzetet. A program pedig fogta magát, és normál szövegfile formájában adta vissza a beolvasott dokumentumot, amit aztán írott betűs karakterkészlettel, egy osztálytársam lézernyomtatóján nyomtattam ki, és illesztettem a füzetbe. Csakhogy a karakterfelismerés pontossága akkoriban még igen távol állt a tökéletestől, így valószínűleg közel annyi időm ment el a scannelgetéssel és a végigolvasással-javítással, mintha a többiekhez hasonlóan kézzel másoltam volna be a szöveget a füzetbe. No de sebaj, legalább megismertem egy programot, amiről kiderült, hogy magyar fejlesztésű, így a program fejlődése és egyre pontosabbá válása során egyszer se maradt ki a magyar nyelv felismerésének lehetősége (már a 10 évvel ezelőtti program is számos nyelv karaktereit ismerte).
E kis történet után röviden nézzük, mi is tulajdonképpen ez a Recognita. Kategóriáját tekintve egy OCR alkalmazás, ami az Optical Character Recognition elnevezést rövidíti. Ez pedig nem mást jelent, mint egy optikai karakterfelismerőt. Hogy mire is jó egy OCR program? Elsősorban papíron lévő dokumentumainkat alakíthatjuk át számítógépben feldolgozható formára. Tehát például egy könyvből csinálhatunk Word dokumentumot, hogy azt utána tetszőlegesen formázva használjuk fel elektronikus vagy újra kinyomtatott formában. Sok gépelést és időt spórolhatunk meg ugyanis, ha helyette inkább scannelés után „ráeresztünk” a lapra egy OCR programot. (Van, aki például Rejtő Jenő regényeit hozta vele elektronikus formátumra, és kezdett terjeszteni a neten a jogvédettség lejárta után.)
A címben a Recognita mellett azonban az elmúlt évek során megjelent az OmniPage szó is. Ennek története a következő: a Recognita hazai fejlesztőcsapatát felvásárolta az amerikai Caere Corporation, majd azt a ScanSoft Inc, és így most a külföldi vállalat hasonló célú OmniPage programjába építik bele a magyar fejlesztők a Recognitával szerzett tapasztalataikat, eredményeiket, létrehozva a jelenlegi legtökéletesebb OCR-t. Nemrég jelent meg az OmniPage legújabb, 12-es sorszámú verziója, cikkünkben ezt mutatjuk most be.
Az installálás – mely során akár magyar nyelvet is választhatunk a telepített programnak – után a programot indítva egy jól áttekinthető kezelőfelület fogad. A felső részt nagyméretű gombok és hozzájuk kapcsolódó legördülő-menük foglalják el, ezt a részt „OmniPage vezérlőpultnak” nevezi a leírás. A bal oldalon láthatjuk a beolvasott oldalak kicsinyített képeit, a jobb oldali részt pedig két közel egyforma méretű terület foglalja el: a bal oldalin láthatjuk a feldolgozandó oldalt, jobb oldalon pedig a felismert szöveget.
A vezérlőpult segítségével mind a kezdő, mind a profi felhasználók gyorsan és könnyedén végezhetik el a szövegfelismerési munkát. Az egyszerűséget kedvelők rögtön a sor elején megtalálják a feladatok egymás utáni elvégzését indító, valamint az OCR-varázsló gombot. Aki azonban jobban kézben szeretné tartani a munkafolyamat lépéseit, megteheti, hogy a három részletet külön hajtja végre, mindegyikre saját maga beállítva az esetleg szükséges paramétereket. Ez a három lépés pedig a következő: oldal(ak) beolvasása, felismerés és exportálás. A következőkben ezeket fogjuk kicsit részletesebben megnézni.
Az oldal beolvasása kétféle forrásból történhet. Az egyik, legszokványosabb forrás egy scanner: a program a lapolvasó driverét használva közvetlenül beolvassa a behelyezett oldalt. Tetszés szerint fekete-fehérben, szürkeárnyalatos módban, vagy színesben végezhetjük a scannelést. Ha a képek is fontosak, az utóbbi kettő a jó választás, ha viszont jó minőségű szöveges forrásunk van képek nélkül, jobb – és beolvasási idő tekintetében gyorsabb – választás a fekete-fehér üzemmód. Emellett másik fő választási lehetőség a képfile-ban lévő szöveg felismertetése. Így korábban már bescannelt, vagy például digitális fényképezőgéppel készült fotót (gyakorlatilag tetszőleges BMP, TIFF vagy JPEG file-t), sőt, akár PDF dokumentumot is megnyithatunk az OmniPage-ben, hogy azt feldolgozható szöveggé alakíttassuk vele.
A második lépés a felismerés. A program képes automatikusan felismerni az oldal struktúráját, tehát hogy hol van normál szöveg, és hol kell inkább táblázatként vagy képként kezelni a scannelt területet, de ezt akár felül is bírálhatjuk. Ilyenkor egyszerűen, téglalapok rajzolásával adhatjuk meg, mely területeket szeretnénk felismertetni, és hogy az milyen típusú adatot tartalmaz. Sőt, a pontosság még azzal is tovább növelhető, ha a csak számokat tartalmazó területeket külön jelöljük meg. Ez a területkezelés talán a felhasználó szempontjából nézve legösszetettebb része a programnak, és a legtöbb esetben valószínűleg nincs is rá szükség, de mindenképpen hasznos, hogy az OmniPage megadja a lehetőségét a manuális beállításoknak. A felismerés utáni zónamódosítás esetén pedig csak a módosított zónák felismerése történik meg újra.
Miután kialakult a felismerendő struktúra, a program nekilát fő feladatának, és végignézi a területeket. Az eredmény a szövegszerkesztő részbe kerül, ahol akár személyesen is végignézhetjük a szöveget. A gép kiemelten jelzi a felismerés szempontjából bizonytalan szavakat, ezeket összevethetjük a scannelt képpel, és mi magunk javíthatunk bele a dokumentumba. A folyamat ezen pontjánál kap jelentőséget a program „tanuló” része. Ha a dokumentumban a hagyományostól eltérő formájú karakterek szerepelnek, és ezeket nem tudta felismerni, megjegyeztethetjük vele, hogy a későbbiekben ezt a mintát is vegye figyelembe. Lehetőség van manuális és automatikus tanításra. Az előbbivel karakterenként mutathatjuk meg a programnak, milyen grafikus részt milyen karakternek tekintsen, míg az utóbbi, IntelliTrain névre hallgató lehetőségnél a korrektúrázásunk eredményét használja fel a program a fejlődéshez. A tanítási file-ok a későbbi felismerések hatékonyabbá tételéhez el is menthetők.
Végül utolsó lépés a felismert szöveg exportálása, elmentése. Ezen a téren is igen sokat fejlődtek az OCR programok: ma már alaptulajdonság, hogy például az elmentett Word dokumentum teljesen kövesse az eredeti szöveg formáját, hasábok, táblázatok és képek elhelyezése terén. Így tesz az OmniPage is, de ha elég nekünk csak a szöveg, elmenthetjük természetesen csak azt. Az elrendezés megtartásának egyetlen veszélye, hogy nem mindig sikerül pontosan eltalálnia a hasáb-beállításokat a programnak, és inkább szövegdobozokba tördeli a részeket, de ha ez nem tetszik, még mindig megvan a folyamatos szövegként való exportálás lehetősége. A mentés történhet például Word vagy Excel dokumentumba, HTML file-ba, de akár PDF formátumban is.
Az OmniPage 12-es verziója 114 nyelven képes a szövegfelismerésre, köztük pl. olyan egzotikusan hangzót is, mint a zulu, de erre magyarázat, hogy olyan nyelvek felismerését támogatja a program, melyek latin karaktereket, esetleg azok ékezetes változatait használják. Ezekből kb. 20-hoz helyesírás-ellenőrző szótárat is tartalmaz. A pontossága – természetesen jó minőségű, pl. lézernyomtatóval nyomtatott felismerendő dokumentumok esetén – a cég által kiadott információk szerint 99% felett jár. Ezt ha jól végiggondoljuk, kiderül, hogy ez gyakorlatilag oldalanként – egy átlagos A4 oldalt alapul véve – akár 20-30 betűtévesztést is jelenthet, ami azért ad javítási feladatot. A teszt során jó minőségű alapanyag esetén szerencsére ennél kevesebb tévesztést tapasztaltunk, egy, vagy maximum két kéz elég volt a javítandó szavak megszámolására. A pontosságot hivatottak javítani amúgy az előbb említett szótárak, így például angol vagy magyar nyelvű szövegek esetén valóban kevés tévesztés fordul elő. Ha egy oldalon belül több nyelv szerepel, ennek beállítására is lehetőségünk van.
Az OmniPage Pro 12 kétféle változatban került boltokba. A Standard kiadás bőven elegendő az általános célú használathoz. Aki azonban nagymennyiségű feldolgozásra szeretné használni, választhatja az Office verziót, amely olyan plusz lehetőséget biztosít, mint az ütemezett feldolgozás (nyolc napra előre megadható, mikor végezze el a program az összegyűlt dokumentumok felismerését), az XML és Open eBook formátumú mentést, az irodai programcsomagokba integrálódó OCR részt, és a hálózaton keresztüli telepítést. A Standard verzió ára nettó 34.900 Ft, az Office változatért 154.800 Ft-ot kérnek, de lehetőség van tetszőleges OCR-ről upgrade-elni az Office verzióra (tehát nem csak OmniPage vagy Recognita termék, és akár a scannerünk mellé kapott butított verziójú szoftver is lehet az upgrade-alap), ezt választva nettó 59.900 Ft-ot kell kifizetnünk érte.
A cikk bevezetőjében említett feladatot ma a legújabb OmniPage szoftverrel gyorsabban és egyszerűbben tudnám elvégezni, és az eredményen is meglátszódna a pontosabb felismerés. A Recognita OmniPage tulajdonképpen egy célszoftver, mely feladatát szinte minden körülmény között szépen végzi. Maximálisan megfelel annak, amit a fejlesztők mondanak róla: „a világ vezető optikai karakterfelismerő programjával” van dolgunk.