Az Arcanum Adatbázis Kiadó Magyarország vezető tartalomszolgáltatója, 1989. január elsején kezdte meg működését. A cég kulturális tartalmak nagy tömegű digitalizálásával, adatbázisokba rendezésével és publikálásával foglalkozik. Az idén száznyolc éves Szív újság teljes archívuma most került be az Arcanum kínálatába, ennek apropóján dr. Somfay Örs marketingigazgatóval beszélgettünk technológiáról, mesterséges intelligenciáról, a kulturális örökség megőrzésében való szemléletváltásról.
– A rendszerváltás hajnalán, a vissza nem térő lehetőségek korszakában jött létre a cég. Mik az előzmények?
– Magánszemélyek a Szabadalmi Hivatallal közösen alapították a céget, hogy szabadalmi adatbázisokat hozzanak létre. Ez akkora siker lett, hogy a Magyar Szabadalmi Hivatal adatbázisa mellett a legnagyobb nemzetközi szervezeteknek az adatbázisait is az Arcanum készítette. A kilencvenes évek elején merült fel az a gondolat az Arcanum jelenlegi cégtulajdonosában, Biszak Sándorban, hogy ezt a technológiát nemcsak az üzleti világra, hanem a kultúrára is lehetne alkalmazni. Ezzel a véleményével akkor egyedül maradt a cégnél, ennek ellenére úgy döntött, hogy ezen az úton fog elindulni, így a cég kettévált, Sándornál maradtak a magyar szabadalmak, és kezdetét vette a kulturális adatbázisok létrehozása.
– Ha a kilencvenes évek elejére, az akkori IT-lehetőségekre gondolunk, hogyan képzeljük el az adatbázis- építést?
– Az immár harmincéves saját fejlesztésű keresőprogramunk mellett a piacon rendelkezésre állt a mormonok által fejlesztett, ma is egyedülálló adatbázis-építési funkciókkal rendelkező Folio Views program. Ezek adták az összes kiadvány gerincét, a segítségükkel lehetett nagy tömegű, bonyolult szerkezetű szövegtesteket kezelni. A digitalizálás a szövegek esetén eleinte gépelést, a képeknél pedig síkágyas szkennelést, esetleg fotózást jelentett. Ma már ezek csak kiegészítői a tömeges gépi digitalizálásnak. Az első digitális kiadvány a Biblia volt, még flopilemezen került forgalomba, ezt hamar felváltotta az akkor berobbanó CD-ROM. A Biblia mellett a Nyugat folyóirat volt az egyik első nagy sikert arató kiadványunk, de digitalizáltuk ötven magyar költő összes versét és a legkülönlegesebb, legfontosabb könyvsorozatokat is. Minden kiadvány egységes, teljes szövegű keresést biztosító programkörnyezetet kapott. Eleinte ezek a kiadványok elsősorban a nagyközönségnek készültek, tudományos szempontokat még nem vettek figyelembe, a hangsúly inkább a tökéletes szövegminőségen volt. Húsz évvel ezelőtt kerültem ide a céghez, és akkor a történészi múltamból adódóan kezdtünk el komolyabban foglalkozni a közgyűjtemények által őrzött anyagok feldolgozásával is. Ezekből a megbízásokból is számos úttörő digitális kiadvány készült, például a középkori okmánytár sorozat, de idesorolhatók a történelmi térképkiadványok is. Akkor ezekhez hasonlót sehol nem láttunk a világban. Aztán amilyen gyorsan elterjedtek a lemezes digitális kiadványok, olyan gyorsan vége is lett ennek a műfajnak, az offline adatbázisokat pedig pillanatok alatt felváltották a világhálón keresztül kínált még nagyobb, még összetettebb szolgáltatások. Az eredetileg adathordozókon lévő kiadványok mind felkerültek a világhálóra, a kiadványok többsége az Arcanum Kézikönyvtárban, a Hungaricana Közgyűjteményi Portálon vagy az Arcanum Digitális Tudománytárban érhető el. A Kézikönyvtár ma ingyenesen kínálja az Arcanum CD-ROM-jainak legnagyobb részét, a verseket, a Bibliát, könyv– és lexikonsorozatokat, írói életműveket. Ezzel az ingyenes szolgáltatással kívántuk megköszönni hűséges vásárlóinknak az évtizedes támogatást és bizalmat, így a régi kiadványok kényelmesen, egyben is kereshető módon váltak elérhetővé, átmentve az elavuló CD-ROM-ok tartalmait.
– Az a benyomásom, hogy cégük nagyon érzi az idők jeleit, „problémaérzékeny”, képes időben mozdulni.
– Igyekszünk mindig az elsők között lenni az új technológiák kipróbálásában, alkalmazásában. A lemezes kiadványokról is nagyon gyorsan, körülbelül két év alatt álltunk át az online szolgáltatásokra. Már akkora offline adatbázisaink voltak, amelyeket csak Blu-ray-lemezen tudtunk szolgáltatni. Ez igen körülményes volt, rendkívül drágák voltak a kiadványok, így komolyabb példányszámokat nem tudtunk elérni a nagy adatbázisokkal, ráadásul a tartalomfrissítés is csak új kiadványként volt elképzelhető, márpedig a közgyűjteményi digitalizálás elindulásával éveket átívelő projektek indultak, amik eredményeit időről időre frissíteni kellett. Az internet világa aztán mindent megváltoztatott. Az online térben egyre nagyobb adattartalmak versenyeznek, amelyek előállításában is forradalmi technológiai és szemléletbeli változásokra volt szükség.
– A digitalizálás komoly műszaki hátteret igényel.
– A szemléletbeli változást a Google Books szolgáltatása hozta el, aminek kapcsán mi is gyorsan áttértünk a szöveggépelésről a szkennelt, karakterfelismeréssel tömegesen előállított digitális, pdf-alapú tartalomra. Ehhez az átálláshoz szükség volt a szoftverünk online változatának létrehozására, a százszázalékos szövegminőség céljának elengedésére, de még inkább egy forradalmi változásra a digitalizálási technológia terén. Folyamatosan teszteljük a világban fellelhető legújabb technológiákat, ezekből igyekeztünk olyan gépparkot kialakítani, aminek segítségével egyrészt mindenfajta dokumentummal megbirkózunk, másrészt költséghatékonyan, nagy tömegben tudunk digitális tartalmakat előállítani. Mivel ma már döntően közgyűjteményekkel dolgozunk együtt, a sebesség mellett az állományvédelmi szempontok is meghatározók az alkalmazott technológiák kiválasztásában. Tíz év alatt sikerült eljutnunk oda, hogy most már havonta egymillió oldalt tudunk digitalizálni és online közzétenni. Ez hazai, sőt világviszonylatban is nagyon jelentős eredmény. Amennyiben a publikált tartalmakat vizsgáljuk, kijelenthető, hogy az elmúlt tíz évben az Arcanum végezte Magyarországon a kulturális digitalizálás kilencvenöt százalékát. A digitális tartalmak döntő részét a szöveges dokumentumok adják, amiket a már említett kétrétegű pdf-formátumban állítunk elő, így egyszerre látjuk a dokumentum hiteles képét, és kereshetjük a felismertetett szöveget. Emellett külön technológiát fejlesztettünk ki a térképek, negatív filmek tömeges feldolgozására és közzétételére, ahogy saját fejlesztésünk van a nagyméretű festmények gigapixel méretű reprodukciójára vagy a műtárgyak 360 fokos megjelenítésére is.
– Ez mit jelent? Képesek konkrét tárgyakat is szkennelni?
– Mi a 3D helyett a tárgyakat körbefotózzuk, mert a megjelenítés szempontjából ez sokkal jobb minőségű és több tárgyra alkalmazható technika. Mutatok egy türelemüveget az adatbázisban. Ez egy szűk nyakú üvegpalack belsejében létrehozott alkotás. 3D-s felvételnél pont a belsejét nem látnám, mert azt nem tudná letapogatni az eszköz. Ezt fotózási technikával mi meg tudjuk valósítani. Sok múzeummal dolgoztunk együtt, hogy a gyűjteményeket 360 fokban forgatható módon publikálhassuk.
– Milyen tartalmakat lehet az adatbázisaikban keresni?
– Nagyon fontos hangsúlyozni, hogy kezdettől fogva szoftverfejlesztők is vagyunk, nemcsak digitalizálunk, tehát van egy saját keresőprogramunk, arra épül az egész arcanumos digitális világ. Ez a szoftver több tízmillió, akár százmillió oldalnyi pdf-dokumentumot tud szofisztikált módon keresni tizedmásodpercek alatt, ennek a sebességével nem nagyon vetekszik semmi a piacon található termékek közül, a világ élvonalában vagyunk. Hasonló módon a történelmi térképsorozatokat világszinten egyesítő geoinformatikai megoldásokat alkalmazó rendszerünk is saját fejlesztés, és jelenleg szintén egyedülálló a világon. A képi világ feldolgozásában is igyekszünk a legújabb mesterségesintelligencia- kutatásokat alkalmazni, így az arckeresés technológiáját is elsőként ültettük át kulturális tartalmak feldolgozására. Jelenleg öt nagy online adatbázis-szolgáltatásunk van, ezek közül zászlóshajónk az Arcanum Digitális Tudománytár periodika-adatbázis, ami most éppen ötvenmillió oldalnyi folyóirat-tartalmat ad közre, itt érhető el A Szív újság is. Dinamikusan fejlődő szolgáltatásunk a Szaktárs portál, ami több mint húsz hazai szakkiadó teljes könyvportfólióját, több mint harmincezer kötetet kínál, elsősorban intézményi előfizetők számára. A szabadon hozzáférhető szolgáltatásaink közül ki kell emelni az Arcanum Kézikönyvtárat, ami a régi arcanumos kiadványok százait tartalmazza; az Arcanum Térképeket (régi nevén MAPIRE), ahol a térképsorozatokat lehet geoinformatikai rendszerben tanulmányozni, és szintén ingyenesen használható a Hungaricana Közgyűjteményi Portál is. Ez utóbbi közel kétszáz hazai és szomszéd országbeli intézmény sok tízmillió digitális kulturális tartalmát teszi közösen és intézményi bontásban elkülönítve is elérhetővé. A Hungaricana a maga nemében szintén egyedülálló és a partnerintézmények számára is hasznos, hiszen nem kell saját rendszert fejleszteniük, népszerűsíteni, karbantartani, ezeket a terheket mind levesszük a vállukról.
– Honnan jön a finanszírozás az ingyenes adatbázisokhoz?
– A közgyűjteményi megbízásokat az állami és egyházi intézmények adják, ezek publikációs fóruma döntően a Hungaricana. Itt harmincmilliónál is több dokumentum van, ami sajnos lassuló ütemben, de évente még mindig milliós nagyságrendű tartalommal bővül. Az utóbbi idő lassulásának oka az állami források elapadása, ami bizony a naponta tízezernél is több felhasználóval büszkélkedő szolgáltatás jövőjét is bizonytalanná teszik. Ezt évek óta gyakorlatilag saját forrásból tartja fenn az Arcanum. Az Arcanum Kézikönyvtárat kezdettől mi finanszírozzuk, a térképek esetében pedig pluszszolgáltatásokat építünk az ingyenes keretrendszerhez intézmények számára. A Szaktárs ingyenesen kereshető, de a tartalommegjelenítéshez előfizetés kapcsolódik. Hasonló módon az Arcanum Digitális Tudománytár is az előfizetőkre épít, itt nemcsak a tartalom bővül dinamikusan, hanem a felhasználók száma is, ma már a kézikönyvtár után ez a leglátogatottabb szolgáltatásunk, ami a környező országok felé is terjeszkedik.
– Nemrég fejezték be folyóiratunk, A Szív teljes archívumának, több mint száz év lapszámainak digitalizálását. Milyen járulékos munkával jár a folyóiratok feldolgozása?
– Az Arcanum Digitális Tudománytárban több ezer folyóirat szerepel. Azzal, hogy elkészítjük egy lap digitalizálását, a történetét is fel kell dolgoznunk. A sajtónál ez különösen így van, fel kell tárnunk a mutációkat, azt, hogy kik voltak a főszerkesztők, mikor jelent meg, mikor volt havi- vagy negyedéves lap, napilap, hetilap stb. Ezek is változnak, főleg egy ilyen patinás lap esetében, mint A Szív.
– Ha már a múltról beszélünk, ön szerint a nyomtatott sajtónakvan jövője, vagy minden átáll online megjelenésre?
– Ez nagyon nehéz kérdés. Elsősorban a napilapok piaca nem tudja felvenni a versenyt az online sajtóval. A helyi lapok, magazinok, időszakos szakkiadványok egy ideig még nem fognak eltűnni, mert az emberek még mindig jobban szeretnek papírról olvasni. Ahol az információszerzés a döntő cél, ott az online világ győz. A lexikonok, enciklopédiák ideje is leáldozott. Már ki sem adnak lexikonokat, mert ez a műfaj iszonyatosan költségigényes, és a mai gyors világunkban túlhaladott. A tudás olyan gyorsan változik, fejlődik, hogy egy szócikket nem lehet statikusan hagyni. Wikipédia-szerű platform kell hozzá, ami kellően rugalmas, és korlátlan az adatbefogadása, mellette pedig interaktív is lehet, és ellenőrizhető módon támogatja a közösségi munkát. Így olcsó, hatékony és naprakész.
– Milyen „kulturális csemegét” ajánl annak, aki most ismerkedik a Hungaricanával?
– A rengeteg hasznos tartalom mellett itt mindenki talál magának érdekeset is. A rengeteg monográfia, levéltári irat, szakadatbázis mellett több százezer képeslapot, a Fortepan teljes fotóanyagát, gigapixel felbontású festmények, falikárpitok, forgatható múzeumi tárgyak, térképek és régi tervrajzok sokaságát lehet megtekinteni, de a legrégebbi Árpád-kori oklevelek is mind megtalálhatók itt. Két legújabb fejlesztésünket külön is érdemes kiemelni. A Budapest Időgép házszinten mutatja be a fővárost, az épületekhez kapcsolódó különböző dokumentumok segítségével. A Népzenei Gyűjtemény pedig egy térképi alkalmazás segítségével fogja össze a Zenetudományi Intézetben őrzött népzenei kutatások tárgyi és hangzó emlékeit. Közel tizenkétezer órában lehet hallgatni településenként Kodály, Bartók és utódaik gyűjtéseit, szövegkönyvvel, kottával, fotókkal illusztrálva.
– Említette, hogy használják a mesterséges intelligenciát. Mi a véleménye az MI-ről? Az emberiség jövőjét veszélyeztetheti, vagy „csupán” hasznos segítség számukra?
– A szakmánkban ma már „kötelező” a használata, mert aki nem alkalmazza, az lemarad a technológiai versenyfutásban. Az MI elvégzi a kutatók helyett a feldolgozó munka időigényes részét. Sok minden volt már a világban, amitől kezdetben féltünk, és nem pusztított el bennünket, például a nukleáris technológia. Tehát szerintem alkalmazni kell az MI-t, értelmesen kell alkalmazni, és ezt meg tudjuk tenni. Persze fontos lenne a megfelelő törvényi szabályozó környezet is, ez jelenleg még nem áll rendelkezésre. Egyébként pedig nem kell MI ahhoz, hogy az emberiség elpusztítsa a jelenlegi civilizációt, jelenlegi életfelfogásunkkal sajnos képesek vagyunk rá anélkül is…
– Miért foglalkoznak egyáltalán a magyar kultúra digitalizálásával?
– Van egy általános begyepesedett szemlélet a világ közgyűjteményeiben, amelyek szinte saját tulajdonuknak tekintik az általuk őrzött gyűjteményeket, és pénzt kérnek azért, hogy ezekhez hozzá tudjanak férni az érdeklődők. Szerintünk a közgyűjtemények digitalizálásának az a célja, hogy a magyar kultúrát elérhetővé, könnyen hasznosíthatóvá tegyük. Az online világban verseny folyik a látogatókért. A tartalomszolgáltatásban versenyzünk a bulvárral meg mindenféle egyéb információval. Mi a kultúrát olyan formába szeretnénk önteni, hogy versenyképes és érdekes lehessen. Ezt az új szemléletet szerencsére egyre több intézményvezető teszi magáévá, és ha az állami finanszírozás is efelé fordulna, akkor volna remény a magyar kultúra szélesebb terjesztésére és művelésére.
– Hol áll az Arcanum az online világban, a piacon?
– Próbálunk már azokra a mélyrétegekre fókuszálni, amelyekre az általános kereső nem. Mondhatjuk, hogy egyediek vagyunk a piacon, hiszen nem nagyon van, aki hasonlót csinál. Néha próbálnak másolni bennünket, aminek örülünk, hiszen a verseny mindenkinek hasznos, de jelenleg itthon nincs igazi versenytársunk, a térképi szolgáltatás terén pedig a világban sem látok ilyet. Egyik kedves felhasználónk azt mondta, hogy ahol véget ér a Google, ott kezdődik az Arcanum.
Az alapító, BISZAK SÁNDOR 1959-ben született Tapolcán. 1983-ban végzett az ELTE vegyész szakán, majd a Kőbányai Gyógyszerárugyár Műszaki Könyvtárában helyezkedett el, ahol megismerkedett a legfejlettebb adatbázis-technológiákkal. Itt megszerzett tudását a Magyarországon éppen induló vállalkozói szektorba ültette át. 1989-ben megalapította az Arcanum Bt.-t. A cél a legújabb technológia, a CD-ROM hazai elterjesztése volt. A sikeres kezdésre alapozva 1996-ban családi vállalkozásként elindult az Arcanum Adatbázis Kft., amely több mint kétszáz kiadványt készített, köztük olyan gyűjteményeket, mint a VersTár és a BibliaTéka. A sikert jelzi, hogy 2002-ben Sólyom László köztársasági elnök lovagkereszt kitüntetést adományozott Biszak Sándornak a magyar kulturális örökség digitális megőrzése érdekében kifejtett eredményes munkájáért. 2004-ben a Magyar Tartalomipari Szövetség első életműdíjasa lett, amit később több Év Kiadványa, Év Kutatóhelye és Szép Magyar Térkép Díj követett.
Az ARCANUM három lába
A 2010-es években a technológia fejlődése és az internetelérés széles körű elterjedése Magyarországon is lehetővé tette a tömeges digitalizálást, így lehetségessé vált nemcsak a fontos, hanem valamennyi dokumentum digitalizálása és publikálása. Évek kemény munkájával sikerült kialakítani egy technikai, technológiai környezetet és egy elkötelezett, hozzáértő csapatot. Az elmúlt években sikerült mintegy százmillió oldalnyi dokumentumot digitalizálni, s létrehozni a nemzetközi mércével mérve is jelentős és ismert szolgáltatásokat:
- Hungaricana: több mint kétszáz közgyűjtemény (levéltár, múzeum, könyvtár) közös adatbázisa, amely a középkori oklevelektől a képeslapokig, a népzenei gyűjteménytől a Budapest Időgépig a legkülönfélébb adatokat képes egyetlen felületen, felhasználóbarát módon, élményszerűen bemutatni.
- Arcanum Térképek: a világ messze legjobb történelmi térképhonlapja, amely a XVIII–XIX. századi részletes térképeket jeleníti meg a mai térképre vetítve.
- Arcanum Digitális Tudománytár: az ötvenhárommillió oldalt meghaladó adatbázis 1780-tól napjainkig tartalmazza a legfontosabb nap- és hetilapokat, magazinokat, tudományos folyóiratokat. A magyar anyagok mellett immár igen jelentős mennyiségű román, cseh és szlovák dokumentumot is tartalmaz, így elmondható, hogy Közép-Európa legjelentősebb folyóirat-adatbázisa. A felhasználók elégedettségét a gazdag adattartalom mellett a harminc éve folyamatosan fejlesztett, világszínvonalú keresőprogram biztosítja, melyben a mesterséges intelligencia legújabb eredményeit is felhasználták.
A SZÍV | Jezsuita Magazin – 2023. december – 2024. január
1800 Ft