Na digitálním zpřístupnění svých archivních inventářů začal VHA pracovat už v letech 2011–2012, kdy vyhotovil jejich skeny. Na webových stránkách se objevily se zpožděním až v roce 2015, a to v podobě prostých PDF souborů bez prohledávatelné textové vrstvy. Možná se čekalo více, ale i takovéto řešení tenkrát přineslo badatelům nezanedbatelný užitek. Pracovníci archivu se pokoušeli o zpracování obrazů metodou optického rozpoznávání znaků (OCR), avšak tehdejší dostupné programy nebyly schopny často nezřetelně propsané písmo několikáté kopie inventáře přečíst natolik kvalitně, aby mělo vůbec smysl v získané textové vrstvě vyhledávat. Zatím se bez ní bylo třeba obejít. Radikální změnu přinesla poslední dekáda překotného vývoje počítačových neuronových sítí a strojového učení. Ve Vojenském historickém ústavu Praha (VHÚ) jsme při řešení našich digitalizačních záměrů narazili na jedinečný projekt PERO OCR, vyvíjený týmem dr. Michala Hradiše na Fakultě informačních technologií Vysokého učení technického v Brně. Záhy jsme zjistili, že jejich vysoce přesná technologie pro čtení různých typů tištěného i rukopisného písma, kterou hojně využíváme, se výtečně hodí i ke zpracování nekvalitních strojopisných předloh, jakými jsou třeba právě zmíněné inventáře. Ideální námět pro další společný projekt.
Pro první várku vybrali archiváři VHA nejžádanější inventáře napříč různými obdobími – od první do druhé světové války. Vzhledem k nedostačujcí kvalitě deset let starých skenů bylo třeba ještě pořídit nové digitální obrazy. Celkem 29 svazků o bezmála 7100 stranách následně prošlo v péči VHÚ rozpoznávacím procesem v editoru PERO OCR. Výsledným produktem pro VHA mělo být tzv. dvouvrstvé PDF, jež pod obrazovou vrstvou skrývá fulltextově prohledávatelnou textovou složku. Tým Michala Hradiše vyšel tomuto přání vstříc a vytvořil pro PERO zvláštní nástroj pro tvorbu takovýchto souborů. První nově zpracované inventáře již na webu VHA nahradily své starší verze. Jsou též volně ke stažení a pro rozlišení jsou označeny ikonou stránky s lupou.
Pro lepší přehled o tom, jaké archivní inventáře byly prozatím "přečteny" technologií PERO OCR, uvádíme jejich seznam:
Československá armáda v letech 1918–1939
Druhý čs. odboj a fondy a sbírky z let 1939–1945
Mimo zveřejnění v příslušné sekci na webu VHA jsou uvedené inventáře paralelně přístupné také na webu Digitální studovna MO. V jejím prostředí je velkou výhodou možnost prohledávání celého obsahu či vícesvazkových souborů najednou. Rovněž lze výběr pro rešerši zúžit jen na sbírku Digitální zdroje VÚA–VHA Praha, do níž jsou inventáře zařazeny.
V současnosti se připravuje další dávka, která brzy rozšíří stávající portfolio o další frekventované inventáře. Podaří-li se touto cestou zvýšit efektivitu a komfort při práci s těmito archivními pomůckami, budeme spokojeni.
Kontakt pro Vaše podněty a připomínky: podatelna-vua@army.cz, muzeum@vhu.cz