Computer Vision / OCR

Software, welche Bilder und Videos verstehen und interpretieren kann

Wir sind Computer-Vision / OCR Experten aus der Schweiz

PolygonSoftware entwickelt Computer-Vision Applikationen mit OpenCV und zieht dabei Wissen aus den Bereichen des Machine-Learning und Künstlicher Intelligenz zu Hilfe. Folgende Gründe machen PolygonSoftware zur besten Wahl:

PolygonSoftware hat Cutting-Edge Know-how, direkt von der Universität Zürich
Wir haben tiefes Wissen in den Bereichen des Deep-Learning für Vision-Verarbeitung
Wir bringen spezielles Know-How bei Gesichtserkennung, Objekterkennung und Texterkennung
Unsere Mitarbeiter weisen Industrieerfahrung auf Open-Source Vision Technologien wie [OpenCV](https://opencv.org) auf
PolygonSoftware hat spannende Referenzprojekte für OCR-Anwendungen bei grossen Schweizer Unternehmen

Unsere Referenzen in Computer Vision / OCR.

Technologie:

Big-Data / Data-Science

Machine-Learning / AI

Computer-Vision / OCR

Webapplikationen / Cloud-Software

Mobile-Apps

Digitalisierung

Computer-Vision, Machine-Learning

BESI: Qualitätssicherung mit Deep Learning

Einsatz von Machine Learning / Deep Learning zur automatisierten Qualitätssicherung

Machine-Learning, Computer-Vision

Case-Study: Eine AI Bloggt für uns

Wir lassen unseren Tech-Blog komplett von einer AI schreiben

Computer-Vision, Digitalisierung

Cheezy: Logistik Digitalisierung

Digitalisierung im Warenhaus und Versand

Machine-Learning, Computer-Vision

Case-Study: AI Tinder Bot

Wir trainierten eine AI, die Präferenzen erlernt und Tinder swiped

Computer-Vision, Machine-Learning, Big-Data

Post: Paket Verzollung

Automatisierte Inhaltserkennung und Verzollung von Paketen

Bilder sind für den Menschen einfach interpretierbar, für einen Computer sind sie aber nur riesige Matrizen mit Zahlen. Computer Vision Algorithmen können trotzdem aus Bildern Informationen gewinnen und entsprechend handeln.

Vision - Einfach für den Menschen, schwierig für den Computer

Was wir unter einem Bild verstehen ist für den Computer nichts anderes als eine riesige Tabelle mit Zahlen, welche Farben beschreiben. Informationen aus Bildern zu extrahieren ist für uns Menschen sehr einfach: Eine Komposition aus zwei Augen, einer Nase und einem Mund stellt ein Gesicht dar. Doch worin genau wir ein Auge, eine Nase oder ein Mund ausmachen, ist schwierig zu definieren. Einem Computer beizubringen, wie eine solche Zahlentabelle aussehen muss, damit sie ein Auge beschreibt, war noch bis vor kurzem eine schier unmögliche Aufgabe.

Doch das Feld der Computer Vision ist einer der sich am schnellsten entwickelnden Bereiche der Softwareindustrie. Computer Vision profitiert von den Fortschritten in den Bereichen des Machine Learning und Künstlicher Intelligenz. So können heute Computer Vision Algorithmen selbstständig anhand von tausenden Beispielen lernen, wie ein menschliches Gesicht aussieht und danach selbstständig in einem nie gesehenen Bild ein Gesicht identifizieren.

Vorteile von Computer Vision

Menschen sind sehr visuelle Wesen - deshalb ist die primäre Informationsvermittlung in der nicht-digitalen Welt auch auf visuellen Eindrücken basiert: Text, Diagramme, Tabellen, Darstellungen, Piktogramme und vieles mehr. Maschinen, welche in der Welt der Menschen agieren möchten, müssen deren Informationen interpretieren können. Ein gutes Beispiel aus dem Alltag für Computer Vision ist die Schweizer Paketpost: Pakete aus dem Ausland kommen mit nicht-standardisierten Etiketten daher, auf welcher der Inhalt des Paketes inklusive Preis- und Mengenangaben, der Absender sowie der Empfänger deklariert sind. All diese Informationen sind für den Schweizer Zoll relevant, um die Zollbedingungen für das Paket zu bestimmen: Befinden sich Güter im Paket, die immer verzollt werden müssen? Ist der Gesamtpreis des Paketes über einem Schwellenwert, ab welchem eine Verzollung notwendig ist? Ist der Absender aus einer Region, welche Zollgebühren immer verlangt?

Für einen solchen Entscheid ist ein menschliches Auge gefragt, welches das Etikett auf dem Paket interpretiert, bestimmt welche Tabelle die Inhalte beschreibt, welcher Text die Absenderadresse und alle diese Informationen mit einer Regeltabelle abgleicht. Mit Computer Vision kann genau ein solcher Prozess automatisiert werden: Durch die Erkennung und Interpretation von Linien kann die Tabelle auf dem Etikett erkannt werden. Mittels OCR werden die Inhalte der Tabellenfelder gelesen und interpretiert. Durch die Anordnung der Felder kann darauf geschlossen werden, wo sich die Tabelle mit den Inhaltsangaben befindet. Fliesstexte können mittels Natural-Language-Processing einem Adressverzeichnis abgeglichen werden. Nach nur wenigen Sekunden hat man somit eine voll-automatisierte Entscheidung ohne menschliches Einwirken.

Disziplinen der Computer Vision

PolygonSoftware hat sich auf einige Teilgebiete der Computer-Vision spezialisiert.

OCR - Optical Character Recognition

Eines der wichtigsten Gebiete der Computer Vision ist dabei das Feld der Optical Character Recognition, OCR. Es beschäftigt sich mit dem Lesen und Digitalisieren jeglicher Form von Text. Von Screenshots bis hin zu handgekritzelten Notizen, mittels OCR kann jegliche Art von Text in Bildern identifiziert und digitalisiert werden. Optical Character Recognition ist eines der ältesten Gebiete der Computer Vision und wird bei der schweizerischen Post seit langem für die Erkennung der Adressanschrift auf einem Brief oder Paket verwendet.

Pattern-Detection

Mittels Detektierung von Linien und Formen wird der Inhalt eines Bildes identifiziert. Die Ausgangslage, dass Muster in einem Bild erkennt werden können, sind eine gewisse Vorversicherung für das spätere Aussehen des Bildes. So kann beispielsweise der Strassenverlauf von einem selbstfahrenden Auto gefunden werden, indem relativ gerade, vom Auto wegführende weisse Linien auf dunklem Hintergrund identifiziert werden. Ein ähnliches Beispiel stellt auch die Interpretation von Tabellen auf internationalen Paketen dar.

Objekterkennung und Objektklassifizierung

Indem man einem smarten Algorithmus abertausende von Beispielen eines Objektes zeigt, kann der Computer die optischen Charakteristika lernen. Dies erlaubt es dem Algorithmus später auf nie gesehenen Bildern dieselben Objekte wiederzuerkennen. Dabei wird eine Disziplin der Künstlichen Intelligenz namens Deep Learning angewendet, welche auf neuralen Netzwerken basiert. Ein solcher Algorithms kann auch darauf trainiert werden, verschiedene Objekte voneinander unterscheiden zu können. Das führt dazu, das ein Computer anhand eines Bildes entscheiden kann, ob das dargestellte Objekt zur einen oder anderen Kategorie gehört. So können beispielsweise Objekte auf Fliessbändern sortiert oder Dokumente klassifiziert werden.

Anomalie Erkennung

Die Erkennung von Anomalien ist ebenfalls eine auf "Deep Learning" aufbauende Technik im Feld der Computer Vision. Sie konzentriert sich darauf, aus einem Set von sich ähnlichsehenden Bildern die Charakteristika eines Bildes zu lernen und danach selbständig zu erkennen, wenn ein neues Bild fehlerhafte Charakteristika aufweist. Diese Technik ist gerade für Produktionsstätten interessant, welche fehlerhafte Produkte aussortieren oder kaputte Produkte identifizieren möchten. Indem hunderte intakte Teller auf dem Fliessand fotografiert und dem Algorithmus zum Trainieren gezeigt werden, kann der Algorithmus später bei der Ansicht eines Tellers mit kleinem Riss feststellen, dass mit diesem Teller etwas nicht stimmt.

Hey! Interessierst du dich für Computer Vision, OCR und KI-gestützte Bildverarbeitung? Dann schau dir meine aktuellen KI-Forschungsprojekte an! Ich arbeite an innovativen Lösungen zur Bildanalyse, Objekterkennung und Dokumentendigitalisierung. Hier sind einige meiner relevantesten Projekte:

ConceptFormer – Einbindung großer Knowledge-Graphen in Open-Source-LLMs
Drohnen-Simulation – Visuelle Analyse für Luftfahrtoptimierung
Physikalische Sky-Rendering Engine – Simulation von Licht und Bildverarbeitung

Die Firma Polygon existiert leider seit 2024 nicht mehr. Falls du an einer Zusammenarbeit in Computer Vision und KI interessiert bist, kannst du mich direkt kontaktieren. Ich arbeite als Senior AI Consultant bei bbv und trete regelmäßig als Keynote Speaker zu KI-Themen auf, z. B. beim Swiss AI Impact Forum.

Computer Vision / OCR

Software, welche Bilder und Videos verstehen und interpretieren kann

Wir sind Computer-Vision / OCR Experten aus der Schweiz

PolygonSoftware hat Cutting-Edge Know-how, direkt von der Universität Zürich

Wir haben tiefes Wissen in den Bereichen des Deep-Learning für Vision-Verarbeitung

Wir bringen spezielles Know-How bei Gesichtserkennung, Objekterkennung und Texterkennung

Unsere Mitarbeiter weisen Industrieerfahrung auf Open-Source Vision Technologien wie [OpenCV](https://opencv.org) auf

PolygonSoftware hat spannende Referenzprojekte für OCR-Anwendungen bei grossen Schweizer Unternehmen

Unsere Referenzen in Computer Vision / OCR.

Computer-Vision, Machine-Learning

BESI: Qualitätssicherung mit Deep Learning

Machine-Learning, Computer-Vision

Case-Study: Eine AI Bloggt für uns

Computer-Vision, Digitalisierung

Cheezy: Logistik Digitalisierung

Machine-Learning, Computer-Vision

Case-Study: AI Tinder Bot

Computer-Vision, Machine-Learning, Big-Data

Post: Paket Verzollung

Vision - Einfach für den Menschen, schwierig für den Computer

Vorteile von Computer Vision

Disziplinen der Computer Vision

OCR - Optical Character Recognition

Pattern-Detection

Objekterkennung und Objektklassifizierung

Anomalie Erkennung

Jetzt Projekt starten