Kolomherkenning: Hoe NLdoc PDF's nu nog beter converteert
NLdoc verwerkt documenten met OCR. OCR staat voor Optical Character Recognition. Dit is een technologie die gedrukte of handgeschreven tekst in afbeeldingen omzet naar tekst die je kunt bewerken en doorzoeken. Dit geeft goede mogelijkheden voor het verwerken van documenten die alleen uit afbeeldingen bestaan, maar het brengt ook uitdagingen met zich mee.
Het probleem met OCR
Traditionele OCR-systemen hebben een nadeel. Ze lezen tekst van links naar rechts, en van boven naar onder, regel voor regel. Ze houden geen rekening met hoe het document is opgebouwd. Voor dit probleem hebben we een oplossing ontwikkeld..
Wat is kolomherkenning?
NLdoc gebruikt een machine learning model om te zien welke onderdelen er op een pagina staan. Het programma herkent deze onderdelen en weet waar ze zich bevinden. Met behulp van deze informatie kunnen we ook bepalen of iets in een kolom staat.
De gedetecteerde kolommen kunnen we gebruiken bij het sorteren van de pagina inhoud in een logische leesvolgorde. Dit zorgt ervoor dat je een tekst krijgt die natuurlijk leest, in plaats van zinnen die door elkaar heen staan.
Aan de slag met NLdoc
Wil je zelf aan de slag met NLdoc? Dat kan bijna. Blijf op de hoogte van de nieuwste ontwikkelingen via NLdoc.nl of schrijf je in voor de nieuwsbrief.