Robots aansturen met prompts: flexibele bin picking zonder hertraining
Wat als je jouw robots kan aansturen met tekstuele of visuele prompts?
Bij toepassingen zoals bin picking, pick-and-place en depalletizing zijn visiesystemen essentieel voor objectdetectie. Vandaag vraagt dat meestal intensieve training per producttype. Dat maakt het traag en moeilijk schaalbaar.
Met prompt-based segmentatiemodellen pak je dit anders aan. Je geeft eenvoudige instructies zoals “metalen voorwerp” of duidt een object aan in een afbeelding — en de robot kan meteen aan de slag.
In deze blog tonen we hoe foundational algorithms dit mogelijk maken, en wat dat concreet betekent voor jouw productieomgeving.
Een oplossing voor variatie en hoge insteltijd
In productieomgevingen met een grote productvariatie botsen klassieke visiesystemen snel op hun limieten. Voor elk nieuw product moet je data verzamelen en modellen opnieuw trainen. Zelfs met synthetische data loopt de insteltijd al snel op. Voor bedrijven die te maken hebben met een hoge variabiliteit is flexibiliteit nodig is om robotoplossingen rendabel te maken.
Foundational Models zijn AI-modellen die getraind zijn op grote en diverse datasets. Hiermee kunnen visiessytemen snel opereren in nieuwe situaties, zonder hertraining.
Een voorbeeld is het bekend SAM3-model (Segment Anything Model), dat objecten detecteert en segmenteert in beelden. Je stuurt het model aan met een tekstuele beschrijving of door een object visueel aan te duiden. Dit maakt een groot verschil in de praktijk. In plaats van uitgebreide training, configureer je een nieuw product in ongeveer één minuut. Tegelijk blijft de aanpak intuïtief en bruikbaar zonder diepgaande AI-kennis.
Prompt - Detectie - Picking: Een demonstratie
We ontwikkelden een demonstrator waarin we het SAM3 model gebruiken om ongeziene producten snel te lokaliseren in een afbeelding. We combineren dit met een 3D-camera, aan de hand van de diepte-informatie kan de correcte grijppositie bepaald worden. Zo kan een robot ook onbekende objecten detecteren en oppakken zonder voorafgaande training.
Test het uit in jouw productie
Foundational models maken visiesystemen snel inzetbaar in nieuwe situaties, wat uiterst geschikt is in dynamische productieomgevingen. Wanneer de productvariatie groot is en objectposities niet vastliggen (bin picking of pick-and-place) biedt deze aanpak een grote meerwaarde. Door te werken met prompts in plaats van training:
- verlaag je de insteltijd aanzienlijk
- verhoog je de flexibiliteit van je robottoepassingen
- maak je automatisering haalbaar voor een bredere productrange
Je kan SAM3 gratis online uitproberen voor je eigen beelden en video's. Afhankelijk van jouw specifieke use case, kunnen andere foundational models relevant zijn voor jouw visiesystemen. Zo bestaat er onder meer ook: CNOS (vereist een CAD model), MUSE (werkt met 2D referentiebeelden), CLIPseg en DINO-X / Grounding DINO. Voor advies en ondersteuning om met deze modellen aan de slag te gaan of voor meer info over visie en robotica, contacteer ons en/of volg ons via het VIRAL project.
Prompting voor jouw business case?
Sales Manager