로봇이 어떻게 미로에서 빠져나왔는가?

우선, 로봇 분야의 시각 (Machine Vision) 과 컴퓨터 분야 (Computer Vision) 의 시각이 다르다는 것을 이해해야 한다. 기계 시각의 목적은 로봇에게 조작된 물체에 대한 정보를 제공하는 것이다. 그래서, 머신 비전에 대한 연구는 대략 이런 것들이 있습니다:?

개체 인식: 이미지에서 개체 유형 등을 감지하여 CV 연구의 상당 부분을 교차시킵니다. -응?

자세 추정 (Pose Estimation): 카메라 좌표계에서 물체의 위치와 자세를 계산합니다. 로봇의 경우 물건을 잡아야 합니다. 이것이 무엇인지뿐만 아니라 구체적으로 어디에 있는지 알아야 합니다. -응?

카메라 보정 (Camera Calibration): 위에서 하는 일은 카메라 좌표계에서 물체의 좌표를 계산하는 것뿐이기 때문에, 물체 자세를 로봇 자세로 변환할 수 있도록 카메라와 로봇의 상대적 위치와 자세도 결정해야 합니다.

물론, 저는 주로 물체 위치 지정 분야의 머신 비전에 대해 이야기하고 있습니다. 슬램 등 다른 분야는 먼저 말하지 않겠습니다. -응? 알고리즘도 있을 겁니다. -응?

시각은 로봇이 인식하는 중요한 내용이기 때문에 연구도 많이 있습니다. 제가 알고 있는 몇 가지를 간략하게 소개하는 순서대로 소개하겠습니다. 그렇죠? (주:,,,,,,,,,,,,,,,,,,)

1. 카메라 보정? -응?

이것은 사실 비교적 성숙한 분야에 속한다. 우리의 모든 물체 인식은 카메라 좌표계에서 물체의 자세를 계산하는 것일 뿐이지만, 로봇이 물체를 조작하려면 로봇 좌표계에서 물체의 자세를 알아야 한다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 과학명언) 그래서 우리는 먼저 카메라의 자세를 교정해야 한다. 내삼교정은 말하지 않고, 장정우의 논문을 참고하거나, 각종 교정 공구상자를 참조한다. 외부 참조 교정의 경우 카메라 설치 위치에 따라 두 가지 방법이 있습니다:

Eye to Hand: 카메라가 로봇 극좌표계와 견고하게 연결되어 로봇 팔의 움직임에 따라 움직이지 않습니다

Eye in Hand: 카메라가 로봇 팔에 고정되어 있고, 로봇 팔의 움직임에 따라 움직이는 두 가지 방법의 해법은 모두 비슷하다. 첫 번째는 눈 밖

로봇 팔 끝에 체크 무늬를 고정하고 카메라 뷰 필드 내에서 몇 가지 자세를 이동하기만 하면 됩니다. 카메라는 카메라 좌표계와 관련된 체크 무늬의 자세를 계산할 수 있고, 로봇 운동학의 포지티브 솔루션은 로봇 베이스와 끝 손 사이의 자세 변화를 계산할 수 있으며, 끝 발톱과 체크 무늬의 자세는 상대적으로 고정되어 있습니다. -응?

눈 손 (Eye in Hand) 의 경우에도 마찬가지로 바닥에 체크 무늬 (로봇 베이스와 고정) 를 임의로 놓고 로봇 팔을 카메라로 몇 자세를 취하게 한 다음 좌표 링을 형성할 수 있습니다. -응?

2 평면 물체 감지

이것은 현재 산업 조립 라인에서 가장 흔한 장면이다. 현재로서는, 이 분야의 시각에 대한 요구는 빠르고 정확하며 안정적이다. 따라서 일반적으로 가장 간단한 가장자리 추출+가장자리 일치/모양 일치 방법을 사용합니다. 또한 안정성을 높이기 위해, 일반적으로 주요 조명을 통해, 대비가 큰 배경 등을 사용하여 시스템 변수를 줄입니다.

현재 cognex 와 같은 많은 스마트 카메라에는 이러한 기능이 직접 내장되어 있습니다. 게다가, 물체는 일반적으로 한 평면에 배치되는데, 카메라는 물체의 3 자유도 자세만 계산하면 된다. 또한 이 응용 프로그램 장면은 일반적으로 특정 가공소재를 처리하는 데 사용되며, 이는 자세 추정만 있고 물체 인식은 없는 것과 같습니다. 물론, 산업적으로 안정성을 추구하는 것은 나무랄 데 없지만, 생산 자동화에 대한 요구가 높아지면서 서비스류 로봇의 부상이 커지고 있다. 더 복잡한 물체의 완전한 자세에 대한 추정도 머신 비전의 연구 핫스팟이 되었다.

-응?

3. 텍스처가 있는 물체

로봇 비전 분야는 음료 병, 스낵박스 등 표면에 풍부한 질감이 있는 물체와 같은 질감이 있는 물체를 최초로 연구하기 시작한 것이다. 물론 이러한 물체는 가장자리 추출+템플릿 일치와 같은 방법으로 사용할 수 있습니다. 그러나 실제 로봇 작동 중에 환경은 더욱 복잡해집니다. 조명 조건이 불확실 (조명), 카메라로부터의 거리가 불확실 (치수), 카메라가 물체를 보는 각도가 불확실 (회전, 부등각), 심지어 다른 물체에 의해 가려질 수도 있습니다 (폐색).

다행히도, Lowe 라는 위대한 신이 SIFT (Scale-Invariant Feature Transform) 라는 초강력 지역 특징인 Lowe 을 제안했습니다. David g. "distinctive image features from scale-invariant key points." international journal of computer vision 60.2 (2002 : 91-110. 구체적인 원리는 위에서 인용한 4 만+의 논문이나 각종 블로그를 볼 수 있다. 간단히 말해서, 이 방법으로 추출한 특징점은 물체 표면의 일부 텍스처에만 관련이 있으며 조명 변화, 척도 변화, 아핀 변환, 전체 물체와는 무관하다. 따라서 SIFT 특징점을 사용하면 카메라 이미지에서 데이터베이스와 동일한 특징점을 직접 찾을 수 있으므로 카메라의 물체가 무엇인지 확인할 수 있습니다 (객체 인식).

변형되지 않는 개체의 경우 개체 좌표계에서 형상 점의 위치가 고정됩니다. 따라서 몇 가지 포인트 쌍을 얻은 후에는 카메라의 개체와 데이터베이스의 개체 간의 단일 대응 매트릭스를 직접 해결할 수 있습니다. 만약 우리가 깊이 카메라 (예: Kinect) 나 쌍안 시각 방법을 사용하여 각 특징점의 3D 위치를 결정한다면. 그런 다음 이 PnP 문제를 직접 해결하면 현재 카메라 좌표계에서 물체의 자세를 계산할 수 있습니다.

4. 텍스처가 없는 물체?

자, 문제가 있는 물체는 쉽게 해결될 수 있습니다. 그러면 생활이나 공업에는 텍스처가 없는 물체가 많이 있습니다.

우리가 가장 쉽게 생각할 수 있는 것은: SIFT 와 비슷한 불변성을 가진 물체의 모양을 묘사할 수 있는 특징점이 있는가 하는 것이다. 불행히도, 내가 아는 한, 현재로서는 이런 특징점이 없다. 따라서 이전의 주요 접근 방식은 템플릿 일치 기반 접근 방식을 사용했지만 일치하는 피쳐 (가장자리와 같은 단순한 피쳐뿐 아니라) 에 대한 전문적인 선택이 이루어졌습니다.

여기, 우리 연구실에서 이전에 사용하고 재현한 알고리즘인 LineMod:Hinterstoisser, Stefan 을 소개하겠습니다. Et al. "multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes." computer vision

간단히 말해서, 이 논문은 컬러 이미지의 이미지 그라데이션과 깊이 이미지의 표면 법선을 모두 활용하여 데이터베이스의 템플릿과 일치합니다. 데이터베이스의 템플릿은 한 물체의 여러 시각에서 촬영한 후 생성되기 때문에 이렇게 일치하는 물체의 자세는 초보적인 추정일 뿐 정확하지 않다. (윌리엄 셰익스피어, 템플릿, 템플릿, 템플릿, 템플릿, 템플릿, 템플릿, 템플릿, 템플릿, 템플릿) 그러나 이 초보적인 추정 물체 자세만 있으면 ICP 알고리즘 (Iterative closest point) 을 직접 사용하여 물체 모델을 3D 점 구름과 일치시켜 카메라 좌표계에서 물체의 정확한 자세를 얻을 수 있습니다.

물론, 이 알고리즘은 템플릿 설정 방법, 색상 그라데이션 표현 등 구체적인 구현 과정에서 많은 세부 사항을 가지고 있습니다. 게다가, 이 방법은 물체가 가려진 상황에 대처할 수 없다. (물론 일치 임계값을 낮추면 부분 폐색에 대처할 수 있지만 오인식을 초래할 수 있습니다.) 우리 연구실의 장 박사는 지난해 라인몬드를 개선했지만 논문이 아직 발표되지 않았기 때문에 먼저 많이 관여하지 않았다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 과학명언)

5. 심화 학습

심도 있는 학습이 컴퓨터 시각 분야에서 매우 좋은 결과를 얻었기 때문에, 우리가 로봇을 만드는 자연도 DL 을 로봇의 물체 인식에 사용하려고 시도할 것이다.

우선, 물체 인식의 경우, 이것은 DL 의 연구 결과를 그대로 옮길 수 있으며, 각종 CNN 을 가지고 와서 사용하면 된다. 심도 있는 학습을 로봇 분야에 통합하려는 시도가 있습니까? 어떤 어려움이 있습니까? 이 답변에서 2016 년' 아마존 캡처 대회' 에서 많은 팀이 DL 을 객체 인식 알고리즘으로 사용했다고 언급했습니다. 하지만 이 경기에서는 많은 사람들이 DL 을 사용하여 물체를 인식하지만, 물체 자세 추정에서는 비교적 간단하거나 전통적인 알고리즘을 사용합니다. DL 이 널리 채택되지 않은 것 같습니다. @ Zhou Bolei 가 말했듯이, 일반적으로 semantic segmentation network 를 사용하여 컬러 이미지에서 개체를 분할한 후 분할된 점 구름의 일부를 개체 3D 모델과 ICP 매칭합니다.

물론, 신경망을 직접 사용하여 자세를 추정하는 작업도 있습니다. 예를 들면, Doumanoglou, Andreas, Et al. "recovering 6d object pose and predicting next-best-view in the crowd." proceedings of the IEEE conference on computes

이 방법은 다음과 같습니다. 하나의 물체에 대해 많은 작은 RGB-D 데이터 블록 (하나의 patch 만 신경쓰고, 로컬 피쳐로 폐색에 대처할 수 있음) 을 취합니다. 각 작은 블록에는 객체 좌표계를 기준으로 한 좌표가 있습니다. 그런 다음 먼저 자체 인코더를 사용하여 데이터를 차원화합니다. 이후 차원을 떨어뜨린 특징을 이용해 Hough Forest 를 훈련시켰다.

6. 작업/운동 계획과 결합

이 부분도 흥미로운 연구 내용이다. 머신 비전의 목적은 로봇 조작 물체에 정보를 제공하는 것이기 때문에 카메라의 물체 인식과 위치 파악에 국한되지 않고 로봇의 다른 모듈과 결합해야 하는 경우가 많다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마)

우리는 로봇에게 냉장고에서 사이다 한 병을 가져오라고 했지만, 이 사이다 () 는 미연달 () 에 의해 막혔다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 예술명언) 우리 인간의 접근 방식은 이렇습니다. 먼저' 미년 달' 을 제거한 다음' 사이다' 를 가져가세요. 그래서 로봇의 경우, 사이다가' 미년 달' 뒤에 있다는 것을 시각적으로 확인해야 하며, 동시에' 미년 달' 이 움직일 수 있다는 것을 확정해야 한다. 냉장고 문 같은 고정불가한 물체는 아니다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 예술명언) 물론 시각과 로봇을 결합하면 다른 재미있는 새로운 것들이 많이 나온다. 내 자신의 연구 방향이 아니기 때문에, 더 이상 반문에서 도끼질하지 않을 것이다.

좀 더 자세한 그래픽 분석은 기계 사람들에게 가서 볼 수 있는데, 나는 이쪽에 붙이지 않을 것이다. 너에게 유용하길 바란다.