Jak zamienić dokument w elektroniczny plik

Dzięki oprogramowaniu OCR nie musimy przepisywać notatek i łatwo odnajdziemy każdy dokument w domowym e-archiwum

Publikacja: 25.11.2017 14:56

Jak zamienić dokument   w elektroniczny plik

Foto: AdobeStock

Coraz częściej przechowujemy dokumenty w postaci cyfrowej. Studenci i uczniowie skanują różne materiały, ale to nie rozwiązuje problemu edycji pliku. Mamy co prawda dokument w komputerze, ale nie możemy z nim nic zrobić.

Skan to tylko graficzne przedstawienie pliku. Nic nie zmienia zapisanie go w pdf. – nadal pozostaje jedynie obrazem. Aby taki plik można było edytować, trzeba go albo przepisać, co trwa długo, albo skorzystać z oprogramowania OCR, które jedną stronę przetworzy w ciągu minuty.

Poza tym dzięki oprogramowaniu OCR w domowym archiwum komputerowym odnajdziemy każdy dokument, bo wyszukamy go według fraz i słów kluczowych.

OCR (Optical Character Recognition) to oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym. Oprócz samego tekstu identyfikuje także krój i wielkość czcionek, tabele, akapity i szpalty. Następnie zmienia je w postać cyfrową, czytelną dla urządzeń komputerowych.

Rozpoznany tekst może zostać wyeksportowany do pliku tekstowego Word, arkusza Excel lub zapisany w formacie pdf. (tzw. searchable pdf., czyli pdf. z możliwością przeszukiwania tekstowego).

Ważna jest dokładność

Programy OCR do domowego użytku nie są wymagające. Wystarczy sama aplikacja i zwykły skaner o rozdzielczości 300 dpi.

Znane i sprawdzone OCR-y to m.in : FreeOCR.net, ABBYY FineReader, TopOCR, SimpleOCR, Scan2Encrypt, Scanitto Pro, ABBYY FineReader, OmniPage Professional czy Scan2Encrypt.

Wiele z tych programów ma też wersje mobilne. Proste mechanizmy OCR znajdują się także w rozwiązaniach udostępnianych na dyskach w chmurze, takich jak: Dropbox, One Drive Microsoftu czy Google Drive.

Jedną z najważniejszych cech oprogramowania OCR, jaką należy brać pod uwagę przy wyborze, jest jego dokładność, czyli trafność w rozpoznawaniu znaków. Pamiętajmy, że różnica między 98 proc. a 99 proc., choć może się nam wydawać mało istotna, jest jednak znaczna. Na stronie A4 znajduje się średnio 1800 znaków. Zatem przy dłuższym, np. 10-stronicowym dokumencie staje jest istotne, czy trzeba będzie zweryfikować poprawność 360 czy tylko 180 słów.

Tekst przetworzony przy pomocy smartfona

Posiadanie skanera nie jest konieczne, by korzystać z oprogramowaniem OCR. Zamiast niego można użyć smartfona z wbudowaną kamerą (co jest standardem w tych urządzeniach). Wystarczy ściągnąć aplikację mobilną, która zamieni obraz w tekst.

Można też za pomocą mobilnego OCR digitalizować umowy, paragony, recepty, wizytówki, artykuły z gazet. To także dobra opcja dla studentów i uczniów. Pozwala na szybką obróbkę notatek i papierowych materiałów.

Zasada działania tych programów jest prosta. Należy zrobić zdjęcie dokumentu i wykadrować odpowiednio fotografię. Resztą zajmie się program. Gotowe pliki są zapisywane w pamięci aplikacji. Każdej pozycji warto przypisać słowa kluczowe, co pozwoli na łatwiejsze wyszukiwanie. Pliki można też wyeksportować do dysków w chmurze, takich jak Google, OneDrive czy Dropbox, a nawet do notatnika Evernote

Przykładowe aplikacje mobilne OCR to: CamScanner – Phone PDF Creator (dla Androida i iOS), Docs scan + OCR (dla Androida), Office Lens (dla Androida, iOS i Windows Phone), SharpScan Pro + OCR (dla iOS).

OCR to nie cudotwórca

Chociaż programy OCR potrafią dużo, to jednak nie zawsze bezbłędnie rozpoznają tekst. Niestety, przynajmniej na razie nie istnieje system, który byłby w stanie bezbłędnie rozpoznać każdy znak, chociaż producenci określają ich umiejętności nawet na 99 proc.

Na poprawne przetwarzanie tekstu ma wpływ bardzo wiele czynników, nie zawsze związanych wyłącznie z możliwościami samego oprogramowania. Wystarczy, że dokument będzie zapisany różnymi krojami pisma lub jego rozdzielczość będzie słaba, a skuteczność rozpoznawania znaków znacznie się pogorszy.

Są też sytuacje, kiedy z dużą dozą prawdopodobieństwa można założyć, że proces przetworzenia dokumentu w edytowalny tekst się nie uda. Jest tak w przypadku odręcznych notatek, mocno uszkodzonego papieru, kolejnych kopii, wzorów chemicznych i formuł matematycznych.

Z fiaskiem powinniśmy się liczyć wtedy, gdy:

– jakość drukowanego tekstu jest słaba; przy małej gęstości pikseli programy po prostu się gubią, albo wcale nie rozpoznają znaków;

– tekst jest niejednolity, zawiera różne rodzaje i wielkości czcionek;

– kolory skanowanego dokumentu są wyblakłe; użycie innych kolorów niż czarny również może być przeszkodą dla programu OCR;

– jest zbyt duże nagromadzenie tekstu za stronie, tekst jest mocno zagęszczony;

– czcionka jest za mała, mniejsza niż 6 pkt lub 8 pkt;

– papier ma zagniecenia lub widoczne włókna pulpy papierowej;

– dokument został zeskanowany z rozdzielczością mniejszą niż 300 dpi;

– kłopot OCR-owi może sprawiać odczytywanie znaków interpunkcyjnych. ©?

Jak dobrać rozdzielczość do skanowanego tekstu

Bardzo istotne jest dobranie właściwej rozdzielczości (w dpi: dots per inch – liczba punktów obrazu przypadająca na jeden cal) i głębokości obrazu (w bitach) do rodzaju tekstu obrabianego przez program OCR.

Zalecenia producentów tych aplikacji są następujące:

– jeśli dokument zawiera głównie tekst, minimalna rozdzielczość to 300 dpi, a głębia obrazu 8-bit;

– jeśli dokument jest mały, rozdzielczość powinna wynosić co najmniej 450–600 dpi, a głębokość 8-bit;

– jeśli tekst zawiera kolorowe ilustracje lub ma kolorowe tło, potrzebna jest minimalna rozdzielczość 300 dpi oraz głębokość 24-bit;

– jeśli tekst zawiera czarno-białe ilustracje lub odcienie szarości, rozdzielczość musi wynosić co najmniej 300 dpi, a głębokość 8-bit.

źródło: dane producentów OCR

Coraz częściej przechowujemy dokumenty w postaci cyfrowej. Studenci i uczniowie skanują różne materiały, ale to nie rozwiązuje problemu edycji pliku. Mamy co prawda dokument w komputerze, ale nie możemy z nim nic zrobić.

Skan to tylko graficzne przedstawienie pliku. Nic nie zmienia zapisanie go w pdf. – nadal pozostaje jedynie obrazem. Aby taki plik można było edytować, trzeba go albo przepisać, co trwa długo, albo skorzystać z oprogramowania OCR, które jedną stronę przetworzy w ciągu minuty.

Pozostało 91% artykułu
2 / 3
artykułów
Czytaj dalej. Subskrybuj
Planowanie Wydatków
Wakacje kredytowe ruszyć mają od czerwca
Planowanie Wydatków
Jakie zasady „mieszkania na start”? Jest projekt ustawy nowego kredytu
Planowanie Wydatków
"Mieszkanie na start" zastąpi "bezpieczny kredyt 2%": kto się załapie, a kto nie
Planowanie Wydatków
Koniec przyjmowania wniosków o „kredyt 2 proc.”. Rząd zapowiada zmiany
Planowanie Wydatków
Zyski banków rosną, ale premier Tusk zapowiedział wakacje kredytowe