Pim Scholten
p.scholten@osn.nl

Wij posten over nieuws en functionaliteiten, interviews met klanten, de vragen via #vraaghetOSN en delen onze kennis over informatiebeheer

Terug naar het overzicht keyboard_arrow_right

Eindelijk is het moment daar: OCR software die wel waarmaakt wat er beloofd wordt. Vrijwel iedere organisatie heeft wisselvallige ervaringen met OCR software. Vaak zorgt een kleine verandering in document lay-out ervoor dat de software opnieuw moet worden geconfigureerd. Het enige wat dit soort OCR oplossingen doen is het omzetten een ‘plat’ beeld naar een document met datalaag. Dit wordt gedaan zonder naar de werkelijke betekenis van de documenten te kijken waardoor dit proces altijd handmatig moet worden ingesteld en gecontroleerd. Ephesoft gaat een stap verder en gebruikt de betekenis van data om uw werkprocessen te verbeteren en automatiseren.

Tot op heden maakten vrijwel alle OCR software gebruik van een van deze technieken: 

Tekst OCR: Converteert een scan in een document met tekst- en afbeeldingslaag en plaatst deze in een doorzoekbare PDF. Deze bestanden kunnen worden geïndexeerd waardoor informatie snel kan worden teruggevonden.

Zone OCR: Deze vorm van OCR wordt voornamelijk toegepast voor processen met gestructureerde documenten als werkopdracht zoals factuurverwerking. Er wordt aangegeven dat bepaalde informatie op een vaste plek op een document staat.

Pattern matching: Deze techniek wordt door OCR engines gebruikt om patronen te herkennen en op basis daarvan tekst te exporteren. Bijvoorbeeld als uit een grote stapel ongestructureerde documenten alle BSN nummers gefilterd moeten worden. Deze hebben allemaal kenmerken met een gelijke syntax: BSN123456789. 

Zo werkt OCR 2.0:

Ephesoft gebruikt de door OCR geëxtraheerde tekst alleen als basis voor haar document analytics en zelflerende software. Het document wordt door verschillende extractie algoritmes gehaald waardoor er waarde aan kan worden toegekend:  locatie, waarden, zones, patronen etc. In plaats van volledig gericht te zijn op de data of het creëren van een tekstlaag wordt er een intelligente datalaag gemaakt waar veel meer mee gedaan kan worden dan alleen zoeken. 

OCR-Software-2.png

Zo kan OCR 2.0 worden toegepast

Multi-Dimensional Classification: De door de OCR engine gecreëerde data wordt op meerdere niveaus geanalyseerd waardoor de eigenschappen van een document automatisch geclassificeerd worden. De software identificeert bijvoorbeeld of een gescand poststuk een factuur, werkopdracht of contract bevat. Vervolgens wordt op basis van het type document automatisch de noodzakelijke data uitgelezen en doorgezet naar de juiste workflow en applicatie. Daarnaast kan op basis van het type document bepaald worden, hoelang een document bewaard moet blijven en of er beveiligingsrestricties aan moeten worden gekoppeld. Bijvoorbeeld HR-documenten die niet door iedereen mogen worden ingezien.

Machine learning: Hierdoor wordt de OCR Engine van Ephesoft beter met ieder document dat verwerkt wordt. Kennis die de engine opdoet bij het ene document kan direct worden toegepast op alle volgende scans. In het onderstaande filmpje wordt precies uitgelegd hoe Machine learning wordt toegepast om de zelfstandigheid van de OCR engine constant te verbeteren:

Peter Schutten
Business Consultant

“Ons partnerschap met Ephesoft is het resultaat van een zoektocht om een oplossing te vinden waarmee onze klanten kunnen digitaliseren zonder veel tijd en geld te investeren. Met de extractiemogelijkheden en automatische classificatie van Ephesoft kunnen we makkelijk, snel en foutloos grote hoeveelheden data te verwerken. Vooral omdat meta data automatisch wordt toegevoegd, dit scheelt veel handmatige handelingen. Samen met Ephesoft hebben we de meest efficiënte en vooruitstrevende document capture propositie op de Nederlandse markt.”

Document Analytics

Veel organisaties moeten een gebrek aan vertrouwen in de geëxtraheerde data herkennen. Hierdoor worden de gegevens van door OCR herkende facturen vrijwel overal nog handmatig gecontroleerd. Door de tekst en inhoud van alle door de OCR engine geëxporteerde data te analyseren en matchen wordt het vertrouwen met iedere scan groter. Van iedere scan wordt het volgende geanalyseerd:

• Inhoud
• Locatie
• Patronen
• Handtekeningen
• Checkboxen
• Handschriftherkenning
• Eigenschappen

Natuurlijk kan van iederescan worden bepaald met hoeveel zekerheid de data juist is geëxporteerd en verwerkt. Door de data met elkaar te vergelijken kunnen afwijkingen worden gedetecteerd. Bijvoorbeeld inkooporders en facturen waarvan de bedragen niet met elkaar overeenkomen. Deze functie van Ephesoft Insights wordt ook gebruikt om internationale fraude met transportpapieren ontdekken. In deze video wordt toegelicht Ephesoft Insights wordt gebruikt om fraude met transportpapieren te detecteren:

In onze volgende blog gaan we dieper in op wat dit voor uw organisatie kan betekenen. Daarnaast hebben we op dit moment een aantal succesvolle Proof of Concepts draaien bij grote organisaties. Binnenkort kunnen we u meer vertellen over de resultaten hiervan!

 

Terug naar het overzicht
close
icoon pijl +1 karmapunt voor het delen