Učení je v robotice po desetiletí svatým grálem. Pokud se těmto systémům bude dařit v nepředvídatelných prostředích, budou muset udělat víc než jen reagovat na programování – budou se muset přizpůsobit a učit se. Čím více čtu a mluvím s odborníky, je jasné, že skutečné robotické učení bude vyžadovat kombinaci mnoha řešení.
Video je zajímavé řešení, které bylo středobodem mnoha nedávných prací v oblasti vesmíru. Zhruba touto dobou loňského roku jsme vyzdvihli WHIRL (in-the-Wild Human Imitating Robot Learning), algoritmus vyvinutý CMU určený k trénování robotických systémů sledováním záznamu člověka vykonávajícího úkol.
Tento týden odborný asistent CMU Robotics Institute Deepak Pathak představuje VRB (Vision-Robotics Bridge), evoluci WHIRL. Stejně jako u svého předchůdce používá systém k demonstraci úkolu video člověka, ale aktualizace již nevyžaduje, aby se prováděl v nastavení identickém s tím, ve kterém bude pracovat robot.
„Byli jsme schopni vzít roboty po kampusu a dělat nejrůznější úkoly,“ poznamenává doktorand Shikhar Bahl v prohlášení. „Roboti mohou pomocí tohoto modelu zvědavě prozkoumávat svět kolem sebe. Namísto pouhého máchání rukama může být robot přímější v tom, jak interaguje.“
Robot sleduje několik klíčových informací, včetně kontaktních bodů a trajektorie. Tým používá jako příklad otevírání šuplíku. Kontaktní bod je rukojeť a trajektorie je směr, ve kterém se otevírá. “Po zhlédnutí několika videí, na kterých lidé otevírají zásuvky,” poznamenává CMU, “robot dokáže určit, jak otevřít jakoukoli zásuvku.”
Je zřejmé, že ne všechny zásuvky se chovají stejně. Lidé jsou v otevírání zásuvek docela dobří, ale to neznamená, že nám občas podivně postavená skříň nebude dělat potíže. Jedním z klíčových triků ke zlepšení výsledků je vytváření větších datových sad pro školení. CMU se spoléhá na videa z databází jako Epic Kitchens a Ego4D, z nichž posledně jmenovaná má „téměř 4 000 hodin egocentrických videí každodenních aktivit z celého světa“.
Bahl poznamenává, že existuje obrovský archiv potenciálních tréninkových dat, která čekají na sledování. “Používáme tyto datové soubory novým a odlišným způsobem,” poznamenává výzkumník. “Tato práce by mohla umožnit robotům učit se z obrovského množství dostupných videí na internetu a YouTube.”