Computer Vision / OCR

Software, welche Bilder und Videos verstehen und interpretieren kann

Bilder sind für den Menschen einfach interpretierbar, für einen Computer sind sie aber nur riesige Matrizen mit Zahlen. Computer Vision Algorithmen können trotzdem aus Bildern Informationen gewinnen und entsprechend handeln.

Vision - Einfach für den Menschen, schwierig für den Computer

Was wir unter einem Bild verstehen ist für den Computer nichts anderes als eine riesige Tabelle mit Zahlen, welche Farben beschreiben. Informationen aus Bildern zu extrahieren ist für uns Menschen sehr einfach: Eine Komposition aus zwei Augen, einer Nase und einem Mund stellt ein Gesicht dar. Doch worin genau wir ein Auge, eine Nase oder ein Mund ausmachen, ist schwierig zu definieren. Einem Computer beizubringen, wie eine solche Zahlentabelle aussehen muss, damit sie ein Auge beschreibt, war noch bis vor kurzem eine schier unmögliche Aufgabe.

Doch das Feld der Computer Vision ist einer der sich am schnellsten entwickelnden Bereiche der Softwareindustrie. Computer Vision profitiert von den Fortschritten in den Bereichen des Machine Learning und Künstlicher Intelligenz. So können heute Computer Vision Algorithmen selbstständig anhand von tausenden Beispielen lernen, wie ein menschliches Gesicht aussieht und danach selbstständig in einem nie gesehenen Bild ein Gesicht identifizieren.

Vorteile von Computer Vision

Menschen sind sehr visuelle Wesen - deshalb ist die primäre Informationsvermittlung in der nicht-digitalen Welt auch auf visuellen Eindrücken basiert: Text, Diagramme, Tabellen, Darstellungen, Piktogramme und vieles mehr. Maschinen, welche in der Welt der Menschen agieren möchten, müssen deren Informationen interpretieren können. Ein gutes Beispiel aus dem Alltag für Computer Vision ist die Schweizer Paketpost: Pakte aus dem Ausland kommen mit nicht-standardisierten Etiketten daher, auf welcher der Inhalt des Paketes inkl. Preis- und Mengenangaben, der Absender sowie der Empfänger deklariert sind. All diese Informationen sind für den Schweizer Zoll relevant, um die Zollbedingungen für das Paket zu bestimmen: Befinden sich Güter im Paket, die immer verzollt werden müssen? Ist der Gesamtpreis des Paketes über einem Schwellenwert, ab welchem eine Verzollung notwendig ist? Ist der Absender aus einer Region, welche Zollgebühren immer verlangt?

Für einen solchen Entscheid ist ein menschliches Auge gefragt, welches das Etikett auf dem Paket interpretiert, bestimmt welche Tabelle die Inhalte beschreibt, welcher Text die Absenderadresse und alle diese Informationen mit einer Regeltabelle abgleicht. Mit Computer Vision kann genau ein solcher Prozess automatisiert werden: Durch die Erkennung und Interpretation von Linien kann die Tabelle auf dem Etikett erkannt werden. Mittels OCR werden die Inhalte der Tabellenfelder gelesen und interpretiert. Durch die Anordnung der Felder kann darauf geschlossen werden, wo sich die Tabelle mit den Inhaltsangaben befindet. Fliesstexte können mittels Natural-Language-Processing einem Addressverzeichnis abgeglichen werden. Nach nur wenigen Sekunden hat man somit eine voll-automatisierte Entscheidung ohne menschliches Einwirken.

Disziplinen der Computer Vision

PolygonSoftware hat sich auf einige Teilgebiete der Computer-Vision spezialisiert.

OCR - Optical Character Recognition

Eines der wichtigsten Gebiete der Computer Vision ist dabei das Feld der Optical Character Recognition, OCR. Es beschäftigt sich mit dem Lesen und Digitalisieren jeglicher Form von Text. Von Screenshots bis hin zu handgekritzelten Notizen, mittels OCR kann jegliche Art von Text in Bildern identifiziert und digitalisiert werden. Optical Character Recognition ist eines der ältesten Gebiete der Computer Vision und wird bei der schweizerischen Post seit langem für die Erkennung der Adressanschrift auf einem Brief oder Paket verwendet.

Pattern-Detection

Mittels Detektierung von Linien und Formen wird der Inhalt eines Bildes identifiziert. Die Ausgangslage, dass Muster in einem Bild erkennt werden können, sind eine gewisse Vorversicherung für das spätere Aussehen des Bildes. So kann beispielsweise der Strassenverlauf von einem selbstfahrenden Auto gefunden werden, indem relativ gerade, vom Auto wegführende weisse Linien auf dunklem Hintergrund identifiziert werden. Ein ähnliches Beispiel stellt auch die Interpretation von Tabellen auf internationelen Paketen dar.

Objekterkennung und Objektklassifizierung

Indem man einem smarten Algorithmus abertausende von Beispielen eines Objektes zeigt, kann der Computer die optischen Charakteristika lernen. Dies erlaubt es dem Algorithmus später auf nie gesehenen Bildern dieselben Objekte wieder zu erkennen. Dabei wird eine Disziplin der Künstlichen Intelligenz namens Deep Learning angewendet, welche auf neuralen Netzwerken basiert. Ein solcher Algortihmus kann auch darauf trainiert werden, verschiedene Objekte voneinander unterscheiden zu können. Das führt dazu, das ein Computer anhand eines Bildes entscheiden kann, ob das dargestellte Objekt zur einen oder anderen Kategorie gehört. So können beispielsweise Objekte auf Fliessbändern sortiert oder Dokumente klassifiziert werden.

Anomalie Erkennung

Die Erkennung von Anomalien ist ebenfalls eine auf "Deep Learning" aufbauende Technik im Feld der Computer Vision. Sie konzentriert sich darauf, aus einem Set von sich ähnlichsehenden Bildern die Charakteristika eines Bildes zu lernen und danach selbständig zu erkennen, wenn ein neues Bild fehlerhafte Charakteristika aufweist. Diese Technik ist gerade für Produktionsstätten interessant, welche fehlerhafte Produkte aussortieren oder kaputte Produkte identifizieren möchten. Indem hunderte intakte Teller auf dem Fliessand fotografiert und dem Algorithmus zum trainieren gezeigt werden, kann der Algorithmus später bei der Ansicht eines Tellers mit kleinem Riss feststellen, dass mit diesem Teller etwas nicht stimmt.

Wir sind Computer-Vision / OCR Experten aus der Schweiz

PolygonSoftware entwickelt Computer-Vision Applikationen mit OpenCV und zieht dabei Wissen aus den Bereichen des Machine-Learning und Künstlicher Intelligenz zuhilfe. Folgende Gründe machen PolygonSoftware zur besten Wahl:

  • PolygonSoftware hat Cutting-Edge Know-how, direkt von der Universität Zürich

  • Wir haben tiefes Wissen in den Bereichen des Deep-Learning für Vision-Verarbeitung

  • Wir bringen spezielles Know-How bei Gesichtserkennung, Objekterkennung und Texterkennung

  • Unsere Mitarbeiter weisen Industrieerfahrung auf Open-Source Vision Technologien wie [OpenCV](https://opencv.org) auf

  • PolygonSoftware hat spannende Referenzprojekte für OCR-Anwendungen bei grossen Schweizer Unternehmen

Benefits intelligent image

Kontaktieren Sie Uns

Wir möchten unseren Kundinnen und Kunden einen vorteilhaften Kundenservice bieten und sie mit höchster Professionalität bei der Software Entwicklung unterstützen.

Office Glattpark
PolygonSolutions GmbH
Thurgauerstrasse 117
8152 Opfikon/Glattbrugg

E-Mail
Telefon
+41 76 281 85 82

Amode Skincare
fhconnect
Bambus Software
innova
CFO Forum Schweiz
swissVR
Omida
Cheezy
Facilitysoft
Tracktics
Bambus EDV Consulting
Coinpaper.io
Fahrschule Querbeet
Nachhilfe Lotusacademy
Santenatur
Käch Schüsslerwissen
Service Management Forum Schweiz
Tiershiatsu Schule ME
Swiss Society of Food Science and Technology
Amode Skincare
fhconnect
Bambus Software
innova
CFO Forum Schweiz
swissVR
Omida
Cheezy
Facilitysoft
Tracktics
Bambus EDV Consulting
Coinpaper.io
Fahrschule Querbeet
Nachhilfe Lotusacademy
Santenatur
Käch Schüsslerwissen
Service Management Forum Schweiz
Tiershiatsu Schule ME
Swiss Society of Food Science and Technology
swiss made software

Möchten Sie demnächst von uns zurück gerufen werden? Schreiben Sie uns bitte Ihre Telefonnummer auf und wir melden uns!