Was für ein Moment fürs Team 💛
Unsere Kollegin Margot Belot hat nicht nur ein starkes Paper veröffentlicht, sondern ihre Arbeit jetzt auch in einem begleitenden Artikel und Podcast vertieft. Und beides lohnt sich sehr!
In ihrem Beitrag erzählt sie sehr persönlich, wie sie von Archäologie und Sütterlin-Detektivarbeit zu Python, Convolutional Neural Networks und unserem Label-Extraction-Workflow gekommen ist.
Es geht um eine zentrale Frage für naturhistorische Sammlungen weltweit:
Wie bekommen wir die Informationen von Millionen winziger Etiketten aus den Insektensammlungen in strukturierte, nutzbare Daten?
Im Paper: “High Throughput Information Extraction of Printed Specimen Labels from Large-Scale Digitization of Entomological Collections using a Semi-Automated Pipeline” stellt sie die Pipeline ELIE vor, entwickelt am Museum für Naturkunde Berlin.
Ein paar Einblicke:
– Trainierte CNNs zur Unterscheidung von gedruckten vs. handschriftlichen Labels
– OCR (u. a. Google Vision API) für robuste Texterkennung
– Clustering-Algorithmen, die identische Sammelereignisse bündeln
– Bis zu 87 % Reduktion manueller Transkriptionsarbeit
– Bis zu 98 % Genauigkeit bei gedruckten Labels
Wer tiefer einsteigen möchte:
📰 Artikel:
https://lnkd.in/djS-7rbX
🎧 Podcast zum Artikel:
https://lnkd.in/dtPymHRh
Es ist ein weiterer Schritt in Richtung skalierbarer, robot-ready Biodiversitätsdaten und ein starkes Beispiel dafür, wie Sammlungspraxis und Machine Learning zusammenfinden.
Der Beitrag erscheint im Kontext der British Ecological Society.
Große Freude und große Anerkennung, liebe Margot!