Hoe optische tekenherkenning (OCR) werkt

GettyImages 537511632 5a728f9204d1cf00371fc0ac

Optical Character Recognition (OCR) verwijst naar software die een digitale versie maakt van een gedrukt, getypt of handgeschreven document dat computers kunnen lezen zonder dat ze handmatig tekst hoeven te typen of in te voeren. OCR wordt over het algemeen gebruikt op gescande documenten in PDF-indeling, maar kan ook een computerleesbare versie van tekst in een afbeeldingsbestand maken.

Wat OCR is

OCR, ook wel tekstherkenning genoemd, is softwaretechnologie die tekens zoals cijfers, letters en interpunctie (ook wel glyphs genoemd) van gedrukte of geschreven documenten omzet in een elektronische vorm die gemakkelijker te herkennen en te lezen is door computers en andere softwareprogramma’s. Sommige OCR-programma’s doen dit wanneer een document wordt gescand of gefotografeerd met een digitale camera en andere kunnen dit proces toepassen op documenten die eerder zijn gescand of gefotografeerd zonder OCR. Met OCR kunnen gebruikers zoeken in PDF-documenten, tekst bewerken en documenten opnieuw opmaken.

Waar wordt OCR voor gebruikt?

Voor snelle, alledaagse scanbehoeften is OCR misschien niet zo’n groot probleem. Als u veel scant, kunt u veel tijd besparen als u in PDF’s kunt zoeken om de exacte te vinden die u nodig hebt, en wordt de OCR-functionaliteit in uw scannerprogramma belangrijker. Hier zijn enkele andere dingen waar OCR bij helpt:

Geautomatiseerde gegevensverwerking en gegevensinvoer (Voorbeeld: Sollicitantenvolgsystemen voor cv’s).

Gescande boeken doorzoekbaar maken.
Handgeschreven scans omzetten naar computerleesbare tekst.
Documenten bruikbaarder maken door leesprogramma’s die visueel gehandicapte gebruikers helpen.

Bewaren van historische documenten en kranten, en tegelijkertijd doorzoekbaar maken.
Gegevensextractie en overdracht naar boekhoudprogramma’s (voorbeeld: ontvangsten en facturen).
Documenten indexeren voor gebruik door zoekmachines.

Herkenning van kentekenplaten door een snelheidscamera en roodlichtcamerasoftware.
Spraaksynthesizers voor mensen die niet kunnen spreken – theoretisch fysicus Stephen Hawking is misschien wel de bekendste gebruiker van een spraaksynthesizerprogramma.

Waarom OCR gebruiken?

Waarom niet gewoon een foto maken, toch? Omdat je niets zou kunnen bewerken of de tekst zou kunnen doorzoeken omdat het gewoon een afbeelding zou zijn. Door het document te scannen en OCR-software uit te voeren, kunt u van dat bestand iets maken dat u kunt bewerken en doorzoeken.

Geschiedenis van OCR

Hoewel het allereerste gebruik van tekstherkenning dateert uit 1914, begon de wijdverbreide ontwikkeling en het gebruik van OCR-gerelateerde technologieën serieus in de jaren 1950, met name met de creatie van zeer vereenvoudigde lettertypen die gemakkelijker konden worden omgezet in digitaal leesbare tekst. De eerste van deze vereenvoudigde lettertypen is gemaakt door David Shepard en algemeen bekend als OCR-7B. OCR-7B wordt nog steeds gebruikt in de financiële sector voor het standaardlettertype dat wordt gebruikt op creditcards en betaalpassen. In de jaren zestig begonnen postdiensten in verschillende landen OCR-technologie te gebruiken om het sorteren van post enorm te versnellen, waaronder de Verenigde Staten, Groot-Brittannië, Canada en Duitsland. OCR is nog steeds de kerntechnologie die wordt gebruikt om post voor postdiensten over de hele wereld te sorteren. In 2000 werd belangrijke kennis van de beperkingen en mogelijkheden van OCR-technologie gebruikt om de CAPTCHA-programma’s te ontwikkelen die worden gebruikt om bots en spammers te stoppen. In de afgelopen decennia is OCR nauwkeuriger en geavanceerder geworden dankzij de vooruitgang op gerelateerde technologische gebieden zoals kunstmatige intelligentie, machine learning en computervisie. Tegenwoordig gebruikt OCR-software patroonherkenning, functiedetectie en tekstmining om documenten sneller en nauwkeuriger dan ooit tevoren te transformeren.