Jak zamienić dokument w elektroniczny plik

AdobeStock

Dzięki oprogramowaniu OCR nie musimy przepisywać notatek i łatwo odnajdziemy każdy dokument w domowym e-archiwum

Coraz częściej przechowujemy dokumenty w postaci cyfrowej. Studenci i uczniowie skanują różne materiały, ale to nie rozwiązuje problemu edycji pliku. Mamy co prawda dokument w komputerze, ale nie możemy z nim nic zrobić.

Skan to tylko graficzne przedstawienie pliku. Nic nie zmienia zapisanie go w pdf. – nadal pozostaje jedynie obrazem. Aby taki plik można było edytować, trzeba go albo przepisać, co trwa długo, albo skorzystać z oprogramowania OCR, które jedną stronę przetworzy w ciągu minuty.

Poza tym dzięki oprogramowaniu OCR w domowym archiwum komputerowym odnajdziemy każdy dokument, bo wyszukamy go według fraz i słów kluczowych.

OCR (Optical Character Recognition) to oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym. Oprócz samego tekstu identyfikuje także krój i wielkość czcionek, tabele, akapity i szpalty. Następnie zmienia je w postać cyfrową, czytelną dla urządzeń komputerowych.

Rozpoznany tekst może zostać wyeksportowany do pliku tekstowego Word, arkusza Excel lub zapisany w formacie pdf. (tzw. searchable pdf., czyli pdf. z możliwością przeszukiwania tekstowego).

Ważna jest dokładność

Programy OCR do domowego użytku nie są wymagające. Wystarczy sama aplikacja i zwykły skaner o rozdzielczości 300 dpi.

Znane i sprawdzone OCR-y to m.in : FreeOCR.net, ABBYY FineReader, TopOCR, SimpleOCR, Scan2Encrypt, Scanitto Pro, ABBYY FineReader, OmniPage Professional czy Scan2Encrypt.

Wiele z tych programów ma też wersje mobilne. Proste mechanizmy OCR znajdują się także w rozwiązaniach udostępnianych na dyskach w chmurze, takich jak: Dropbox, One Drive Microsoftu czy Google Drive.

Jedną z najważniejszych cech oprogramowania OCR, jaką należy brać pod uwagę przy wyborze, jest jego dokładność, czyli trafność w rozpoznawaniu znaków. Pamiętajmy, że różnica między 98 proc. a 99 proc., choć może się nam wydawać mało istotna, jest jednak znaczna. Na stronie A4 znajduje się średnio 1800 znaków. Zatem przy dłuższym, np. 10-stronicowym dokumencie staje jest istotne, czy trzeba będzie zweryfikować poprawność 360 czy tylko 180 słów.

Tekst przetworzony przy pomocy smartfona

Posiadanie skanera nie jest konieczne, by korzystać z oprogramowaniem OCR. Zamiast niego można użyć smartfona z wbudowaną kamerą (co jest standardem w tych urządzeniach). Wystarczy ściągnąć aplikację mobilną, która zamieni obraz w tekst.

Można też za pomocą mobilnego OCR digitalizować umowy, paragony, recepty, wizytówki, artykuły z gazet. To także dobra opcja dla studentów i uczniów. Pozwala na szybką obróbkę notatek i papierowych materiałów.

Zasada działania tych programów jest prosta. Należy zrobić zdjęcie dokumentu i wykadrować odpowiednio fotografię. Resztą zajmie się program. Gotowe pliki są zapisywane w pamięci aplikacji. Każdej pozycji warto przypisać słowa kluczowe, co pozwoli na łatwiejsze wyszukiwanie. Pliki można też wyeksportować do dysków w chmurze, takich jak Google, OneDrive czy Dropbox, a nawet do notatnika Evernote

Przykładowe aplikacje mobilne OCR to: CamScanner – Phone PDF Creator (dla Androida i iOS), Docs scan + OCR (dla Androida), Office Lens (dla Androida, iOS i Windows Phone), SharpScan Pro + OCR (dla iOS).

OCR to nie cudotwórca

Chociaż programy OCR potrafią dużo, to jednak nie zawsze bezbłędnie rozpoznają tekst. Niestety, przynajmniej na razie nie istnieje system, który byłby w stanie bezbłędnie rozpoznać każdy znak, chociaż producenci określają ich umiejętności nawet na 99 proc.

Na poprawne przetwarzanie tekstu ma wpływ bardzo wiele czynników, nie zawsze związanych wyłącznie z możliwościami samego oprogramowania. Wystarczy, że dokument będzie zapisany różnymi krojami pisma lub jego rozdzielczość będzie słaba, a skuteczność rozpoznawania znaków znacznie się pogorszy.

Są też sytuacje, kiedy z dużą dozą prawdopodobieństwa można założyć, że proces przetworzenia dokumentu w edytowalny tekst się nie uda. Jest tak w przypadku odręcznych notatek, mocno uszkodzonego papieru, kolejnych kopii, wzorów chemicznych i formuł matematycznych.

Z fiaskiem powinniśmy się liczyć wtedy, gdy:

– jakość drukowanego tekstu jest słaba; przy małej gęstości pikseli programy po prostu się gubią, albo wcale nie rozpoznają znaków;

– tekst jest niejednolity, zawiera różne rodzaje i wielkości czcionek;

– kolory skanowanego dokumentu są wyblakłe; użycie innych kolorów niż czarny również może być przeszkodą dla programu OCR;

– jest zbyt duże nagromadzenie tekstu za stronie, tekst jest mocno zagęszczony;

– czcionka jest za mała, mniejsza niż 6 pkt lub 8 pkt;

– papier ma zagniecenia lub widoczne włókna pulpy papierowej;

– dokument został zeskanowany z rozdzielczością mniejszą niż 300 dpi;

– kłopot OCR-owi może sprawiać odczytywanie znaków interpunkcyjnych. ©?

Jak dobrać rozdzielczość do skanowanego tekstu

Bardzo istotne jest dobranie właściwej rozdzielczości (w dpi: dots per inch – liczba punktów obrazu przypadająca na jeden cal) i głębokości obrazu (w bitach) do rodzaju tekstu obrabianego przez program OCR.

Zalecenia producentów tych aplikacji są następujące:

– jeśli dokument zawiera głównie tekst, minimalna rozdzielczość to 300 dpi, a głębia obrazu 8-bit;

– jeśli dokument jest mały, rozdzielczość powinna wynosić co najmniej 450–600 dpi, a głębokość 8-bit;

– jeśli tekst zawiera kolorowe ilustracje lub ma kolorowe tło, potrzebna jest minimalna rozdzielczość 300 dpi oraz głębokość 24-bit;

– jeśli tekst zawiera czarno-białe ilustracje lub odcienie szarości, rozdzielczość musi wynosić co najmniej 300 dpi, a głębokość 8-bit.

źródło: dane producentów OCR

Mogą Ci się również spodobać

Solidność pomaga, nierzetelność szkodzi

BIK i BIG I Informacje o naszych zobowiązaniach mogą nam ułatwić zaciągnięcie kredytu i ...

Coraz więcej nowych funkcji

Służą nie tylko do podejmowania gotówki za pomocą karty Jak wynika z danych NBP, ...

Uważaj na podejrzane linki i pliki

Błędy najczęściej wynikają z nieuwagi, pośpiechu, a czasem także rutyny – mówi Wojciech Toboła, ...