Miliony lidí pracujících s internetem pomáhají digitalizovat staré knihy, přičemž většina z nich o tom nemá ani ponětí. Systém reCAPTCHA, sloužící k ověření identity uživatelů mnoha internetových služeb, totiž zároveň převádí tištěné texty do elektronické podoby. Po roce provozu dosáhl rychlosti 160 knih denně.
K digitalizaci tištěných textů zpravidla slouží programy, které dovedou převést naskenovanou stránku na textový soubor. Jenomže u starších knih a časopisů, u nichž už tiskařská barva vybledla a stránky jsou zažloutlé, takové programy selhávají. Mají potíže s rozpoznáním každého pátého slova. Místo počítačů pak musejí nastoupit lidé.
Najmout profesionální přepisovače je ale drahé a zdlouhavé. Projekt reCAPTCHA nabízí zajímavou alternativu. K digitalizaci starých textů využívá bezplatnou "práci" internetových uživatelů.
Člověk, nebo stroj?
Pokud se chcete přihlásit do nějaké internetové služby nebo třeba přidat komentář k příspěvku na blogu, velmi často nestačí kliknout na tlačítko "odeslat". Musíte nejprve opsat několik znaků zobrazených v malém rámečku. Znaky bývají všelijak deformované, takže se na jejich rozluštění musíte soustředit. Provozovatel internetové stránky si tak ověřuje, že jste skutečný uživatel z masa a kostí, a nikoli počítačový program s nepřátelskými úmysly.
Systém pojmenovaný CAPTCHA původně nesloužil k ničemu jinému než k odlišení lidí od strojů. Potom ale jeho autory z Carnegie Mellon University napadlo, že úsilí lidí luštících deformované znaky by bylo možno využít i k něčemu jinému. Zrodil se projekt reCAPTCHA. Zkušenosti z prvního roku provozu nyní publikovali v on-line verzi časopisu Science.
Dvě mouchy jednou ranou
Místo náhodných znaků se uživatelům zobrazí dvě slova ze skutečných knih. Uživatel musí obě opsat. První z nich je známé a slouží k vlastnímu ověření přístupu do dané internetové služby. Druhé slovo bylo vybráno z těch, které běžně používaný software nedokázal rozpoznat. Postupně se zobrazí většímu počtu uživatelů. Přepis, který zvolilo nejvíce z nich, je pokládán za správný a je odeslán do databáze.
Spolehlivost této metody přesahuje 99 %, což je srovnatelné se spolehlivostí profesionálních přepisovačů. Systém reCAPTCHA běží už na více než 40 tisících internetových stránek. Během ročního provozu se podařilo rozluštit 440 milionů slov, což odpovídá obsahu 17 600 knih. A tempo se stále zrychluje, protože systém začínají používat další a další weby. V současné době uživatelé denně rozluští kolem čtyř milionů slov, což odpovídá obsahu 160 knih.
Foto: Profimedia, archiv