AI의 미래를 엿볼 수있는 원샷 모방 학습에 대한 OpenAI의 새로운 접근 방식

원샷 모방 학습 Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

5 월 16 일, OpenAI 연구원들은 메타 학습, 원샷 학습 및 자동화 된 데이터 생성과 같은 현재 AI 개발의 세 가지 주요 병목 현상에 대한 솔루션을 탐색하는 두 가지 중요 논문과 함께 프로젝트 중 하나의 비디오를 공유했습니다. 이전 글에서 나는 원샷 학습의 매혹적인 문제에 관한 기사를 약속 했으므로 여기에갑니다. 그들이 공개 한 비디오를보고 놀라운 작업을 설명 할 수 있습니다.

이 비디오에서는 원암 (one-arm) 물리 로봇 스태킹 큐브가 서로 위에있는 것을 볼 수 있습니다. 산업용 로봇이 현재 수행 할 수있는 복잡한 작업을 알면 연구원이 진행중인 작업을 설명하지 않으면 많은 계정에서이 작업이 매우 어려울 것입니다. 통제 된 환경에서 작업은 간단하고 절차 적 (하드 코딩 된) 접근 방식으로이 문제를 이미 해결했으며, 유망하고 혁신적인 것은 일반적인 프레임 워크가 소음이 많은 환경에서 여러 개의 더 복잡하고 적응적인 동작으로 확장 될 수있는 방법입니다.

사람과 상급 동물 사이의 마음의 차이는, 그 자체로는 큰 것이지, 종류가 아닌 것입니다.
- 찰스 다윈

유추하여이 기사는 현재 구현 된 인공 지능 (물리적 시스템의 인공 지능)과 22 세기 로봇 사이의인지 시스템의 차이가 규모가 아니며 종류가 아니라는 강력한 증거입니다. 2012 년 ImageNet 경쟁 * 이후, 신경망이 수행하는 분산 계산의 특성을 수정하는 것이 아니라 특정 작업을 학습 할 수 있도록 네트워크를 구조화하는 새로운 방법을 찾아 딥 러닝 연구가 급성장하고 있습니다. 신경망 기능이 구조 인 경우,이 구조는 하드 코딩 (수동으로 설계되지 않음)되지 않지만 입력과 출력간에 초기에 연결된 원자 계산 단위의 결과로 구조와 연결을 수정할 수 있습니다. 네트워크의 전체 구조를 수정하여 특정 기능을 학습합니다.

이 기사에서 그들은 추상적 인 방식으로 작업을 표현하기 위해 에이전트를 훈련시킬 수있는 일반적인 프레임 워크를 구축하고, 새로운 작업 (한 번의 모방 학습)을 한 번만 시연 한 후이 지식을 보이지 않는 새로운 작업 (전송 학습)으로 전달하는 방법을 배웁니다.

과제들

정확한 아키텍처 구현은 다르지만 일반적인 접근 방식의 성능을 보여주기 위해 두 가지 작업을 예로 들어 설명합니다.

입자 도달

제 1 예에서, 시스템은 평면상의 컬러 타겟 위치의 입력 및 지정된 타겟으로가는 시뮬레이션 에이전트의 단일 비디오 데모를 수신한다.

그림 2. 로봇은 2 차원 힘으로 제어되는 점 질량입니다. 작업 군은 대상 랜드 마크에 도달하는 것입니다. 랜드 마크의 정체성은 작업마다 다르며, 모델은 데모를 기반으로 어떤 대상을 추적해야하는지 파악해야합니다. 로봇의 (왼쪽) 그림; (중간) 과제는 주황색 상자에 도달하는 것이고, (오른쪽) 임무는 녹색 삼각형에 도달하는 것입니다.

훈련하는 동안 시스템은 로봇과 목표의 시작 위치가 다른 동일한 구성 (오렌지 도달)을 다른 구성에서 재현해야합니다. 테스트하는 동안 상담원이 훈련 된 작업 (오렌지 도달) 또는 이전에 본 적이없는 작업 (예 : 녹색 도달) 또는 둘 다에서 테스트되는지 여부는 확실하지 않습니다.

훈련 된 정책은 새로운 시나리오에 대해 평가되며 훈련 중에 보이지 않는 새로운 데모 궤적에 따라 조정됩니다.

에이전트는 고유 한 데모에서 목표 대상을 유추하고 다른 구성에서 다시 시작해야합니다. 이는 정확한 모터 시퀀스를 테스트하기 전에 배울 수 없었고 작업 및 모터 계획의 추상화 (상위 구조적 표현)를 통해 추론해야 함을 의미합니다.

블록 쌓기

두 번째 예에서 에이전트는 단일 시뮬레이션 데모에 표시된 것과 동일한 순서로 큐브 (다른 색상으로 식별)를 쌓는 법을 배워야합니다. 이 시뮬레이션 데모는 3D 물리 엔진에 의해 생성 된 일련의 2D 이미지로 로봇의 모터 및 감각 장치의 특성이 모델링됩니다.

원샷 정책. 많은 작업을 해결하도록 훈련 된 단일 정책. 상위 작업 : {abc, def}, 하위 작업 : {ab, cd, ef}

두 예제 모두 시연과 실제 테스트에서 큐브의 초기 위치가 다르므로 각 작업은 다른 초기 위치에서 시작됩니다. 로봇은 시연의 초기 위치와 일치하도록 큐브를 교체하려고 시도하지 않으며, 시작한 상태에 관계없이 큐브를 쌓는 높은 수준의 작업을 전송합니다.

도메인 랜덤 화를 사용한 교육

두 경우 모두 훈련 중에 사용 된 모든 이미지는 다음과 같은 샘플 측면을 무작위 화하는 도메인 무작위 화를 사용한 시뮬레이션을 통해 획득됩니다.

테이블의 산만 한 물체의 수와 모양 테이블의 모든 물체의 위치와 질감 테이블, 바닥, 스카이 박스 및 로봇의 질감 카메라의 위치, 방향 및 시야 장면의 조명 수 위치, 방향, 조명의 반사 특성 이미지에 추가 된 랜덤 노이즈의 종류와 양

입자 도달을위한 훈련 세트

랜드 마크의 수가 2 개에서 10 개로 증가하는 점점 더 어려운 태스크 패밀리 세트를 고려합니다. 각 태스크 패밀리에 대해 랜드 마크의 위치와 포인트 로봇의 시작 위치가 무작위 인 훈련을위한 10000 개의 궤도를 수집합니다. 우리는 데모를 효율적으로 생성하기 위해 하드 코딩 된 전문가 정책을 사용합니다. 환경에 적용하기 전에 계산 된 동작을 교란시켜 궤도에 노이즈를 추가하고 간단한 행동 복제를 사용하여 신경망 정책을 훈련시킵니다.

블록 쌓기 훈련 세트

구체적으로, 우리는 140 개의 훈련 과제와 43 개의 시험 과제를 수집합니다. 각 작업의 블록 수는 2와 10 사이에서 달라질 수 있습니다. 우리는 훈련을 위해 작업마다 1000 개의 궤도를 수집하고 평가에 사용할 별도의 궤도와 초기 구성 세트를 유지합니다. 입자 도달 작업과 유사하게 궤적 수집 프로세스에 노이즈를 주입합니다. 궤적은 하드 코드 된 정책을 사용하여 수집됩니다.

하드 코딩 된 정책을 사용하여 성공적인 데모를 수집합니다

학습 과정에서 올바른 궤적은 절차 적 "하드 코딩 된"정책에 의해 생성되며, 시스템 식별 및 제어의 고전적인 기술에 의존한다고 생각합니다. 따라서 교육 및 테스트 중에 에이전트에는 a) 구성 A의 데모 및 b) 시작 구성 B의 두 가지 입력이 있습니다. 교육 중에 만 학습 알고리즘은 이상적인 응답에 액세스 할 수 있습니다. 구성 B에서 시작하는 궤적 학습 중에 상담원의 응답과 비교할 문제에 대한 답변을 제공하여 감독 학습 문제로 만듭니다.

각 교육 과제마다 성공적인 시연이 가능하다고 가정합니다.

확실하지 않은 경우 다음 섹션에서 다양한 유형의 학습 패러다임 간의 차이점을 살펴 보겠습니다.

최적화 알고리즘 및 손실 기능

지도 학습은 각 결정에서 네트워크가 자신이해야하는 올바른 선택에 따라 오류 개념에 접근 할 수있는 훈련 패러다임을 말합니다. 예를 들어 개와 고양이 사이의 분류 작업에서 훈련 중 개와 고양이의 이미지 레이블이 미리 알려져 있으며 오류가 즉시 감지됩니다. 그런 의미에서 일반적으로 상담원은 자신이받는 입력에서 이전에 알려지지 않은 구조를 찾도록 요청받으며 고양이와 강아지의 레이블이 없으면 다른 객체에 대한 두 개의 클러스터가 있음을 발견해야합니다. 데이터에 포함 된 정보 목표를 이끄는 정확한 결정 순서는 알 수 없지만 최종 "보상"만이 순서가 올바른지 여부를 결정하는 실시간 시스템에 종종 적용되는 강화 학습과 다릅니다. 모방 학습을 사용하여 고전적인 강화 학습 문제를 감독 학습 문제로 변환합니다.이 학습 오류는 거리에서 관측 된 궤도까지의 거리를 계산합니다.

감독 훈련 설정의 경우와 마찬가지로, 당면 과제는 손실 기능에 의해 완전히 정의되며,이 기능은 상담원이 의도 한 행동에서 얼마나 멀리 떨어져 있는지를 정량화하는 것을 목표로합니다. 최적화 알고리즘이 모델의 매개 변수를 업데이트하는 방법을 결정하므로이 기능을 정의하는 것이 종종 중요한 단계입니다. 이러한 알고리즘은 계산 시간 측면에서 중요하며 종종 수렴 될 수 있도록 약간의 조정이 필요합니다. 실제로, 매우 높은 차원에서 기능을 최소화 할 수있는 솔루션은 매개 변수 공간의 매우 작은 껍질에 있으며, 작은 영역에서 멀어지면 솔루션 간 거리가 빠르게 커집니다. 매우 놀라운 Jennifer Chayes가 그 주제에 관해 그 주제에 대해 매우 흥미로운 작업을 수행하고 있으며, 그녀는 Talking Machines의 마지막 에피소드에서 매우 흥미로운 인터뷰에서 주제를 닦습니다.

정책 네트워크 (전체 네트워크에서 입력 할 작업을 결정할 수있는)를 훈련하는 동안 먼저 성공적인 데모 궤적을 처리합니다. 이 부분에서는 두 가지 접근 방식, 즉 고전적인 행동 복제 (사용한 구현에 대해 정확히 알지 못함)와 DAGGER 알고리즘을 비교합니다. 그러면 동작이 연속적이거나 불연속 적인지 (순서의 이벤트 분포에 따라) l2 또는 교차 엔트로피 손실을 통해 손실 함수의 반복 최소화가 가능합니다. 모든 실험에서, 그들은 Adamax 알고리즘을 사용하여 0.001의 학습률로 최적화를 수행했습니다.

단계 크기가 작게 시작하여 기하 급수적으로 감소합니다.

알고리즘 자체는 전송을 허용하지 않으며, 훈련 세트 및 전송을 허용 할 손실 기능을 구축하는 방법입니다.

작업에는 두 가지 종류의 전송이 있습니다. 첫 번째 종류는“현실 격차 해소”라고하며, 시뮬레이션 된 입력에 대한 훈련간에 자연 자극에 대한 시험으로의 전환을 허용하는 학습의 일반화입니다. 시뮬레이션 데이터는 종종 실제 개체의 복잡성이 결여 된 실제 세계에 대한 빈약 한 근사치입니다. 실제 세계에서는 카메라에 결함이 있고 소음이 많을 수 있으며, 모터 제어가 정확하지 않고, 색상이 변경되고, 텍스처가 더 풍부 해집니다.이 첫 번째 전송을 허용하기 위해 "도메인 무작위 화"라고하는 방법을 사용합니다. : 입력에 노이즈를 추가하여 네트워크가 실제 환경에 적절하게 일반화 할 수있는 공통 관련 구조를 학습 할 수 있습니다. 예를 들어 훈련 예제간에 카메라 각도를 변경하거나 텍스처를 변경하거나 궤도를 덜 완벽하게 만듭니다. 훈련 중에 소음을 추가하여 견고성을 추가합니다.

여기에서 테스트 된 두 번째 전송은 다른 초기 구성에서 시작하지만 유사한 최종 목표를 가진 단일 데모를 기반으로 이전에는 볼 수 없었던 구성 및 목표 세트에서 관련 모터 시퀀스를 생성하는 기능입니다. 여기서도 훈련 세트를 구성하고 손실 함수를 모델링하는 방법으로 전송이 가능해집니다. 훈련 중에 동일한 초기 조건에서 시작하여 유사한 목표에 도달하지 않는 데모를 제시함으로써 네트워크는 절대 위치를 사용하지 않고 목표의 상위 수준 표현 및 상위 수준의 표현을 포함하는 방법을 배울 수 있습니다 단순한 모방이 아닌 모터 시퀀스. 순진한 초기 아키텍처는 교육이 적절한 방식으로 구조를 수정하도록 허용하며이 훈련 된 구조는 최종 기능을 의미합니다.

목표

블록 스태킹 패러다임에는 학습 요원이 충족시키기를 원하는 몇 가지 제약 조건이있었습니다.

블록 수가 다양한 작업 인스턴스에 쉽게 적용 할 수 있어야합니다.
자연스럽게 동일한 작업의 다른 순열을 일반화해야합니다. 예를 들어, 정책이 {abcd} 태스크에 대해서만 훈련 된 경우에도 정책은 {dcba} 태스크에 대해 제대로 수행되어야합니다.
가변 길이의 데모를 수용해야합니다.

그들은이 과제에 대한 몇 가지 질문에 답을 원했습니다.

오프라인에서 충분한 데이터를 수집 할 수 있다는 점에서 행동 복제 교육은 DAGGER와 어떻게 비교됩니까?
최종 구성에 작업을 완전히 지정하기에 충분한 정보가있는 경우에도 전체 데모의 조건을 최종 원하는 구성의 조건과 비교하는 방법은 무엇입니까?
전체 데모의 컨디셔닝은 궤적의 "스냅 샷"컨디셔닝과 비교할 때 가장 유익한 프레임의 작은 하위 집합입니다.
우리 프레임 워크가 훈련 중에는 볼 수 없었던 유형의 작업을 성공적으로 일반화 할 수 있습니까? (++)
이 방법의 현재 한계는 무엇입니까?

건축물

입자 도달

이 첫 번째 예에서는 LSTM (Long Short Term Memory) 신경망을 기반으로하는 세 가지 아키텍처를 모두 비교했습니다. 이러한 네트워크에 대한 설명은 미래의 기억과 관심에 관한 글에서인지 과학과 계산 과학 분야에서 절대적으로 흥미로운 주제입니다. 본질적으로 LSTM은 각각의 새로운 시점에서 네트워크 입력의 일부로 이전 네트워크 출력 (시간)을 공급하여 과거 상태 정보가 현재 (단기 메모리 네트워크의 이름)에 정보를 제공 할 수 있도록합니다. 그것들은 시계열 (Alexa, Siri 등)을 다루는 많은 최첨단 기술의 뿌리에 있습니다.

여기서 그들은 세 가지 특정 조건을 사용합니다.

  1. Plain LSTM : 궤적과 현재 상태를 임베드하여 모터 동작을 생성하는 다층 퍼셉트론에 공급하는 방법을 배웁니다.
  2. 주의를 기울인 LSTM : 궤적의 랜드 마크에 가중치를 적용
  3. 주의를 기울인 최종 상태 : 이전 아키텍처와 유사하게 랜드 마크에 가중치를 부여하기 위해 최종 상태 만 훈련 할 때 사용

블록 쌓기

원칙적으로, 일반 신경망은 데모 및 현재 관찰에서 적절한 행동으로의 매핑을 배울 수 있지만 적절한 아키텍처를 사용하는 것이 중요하다는 것을 알았습니다. 블록 스택 학습을위한 우리의 아키텍처는이 백서의 주요 공헌 중 하나이며, 앞으로 더 복잡한 작업에 대한 원샷 모방 학습을위한 아키텍처가 어떤 모습 일지 대표적이라고 생각합니다.

주의 모듈

이 기사는 과제를 배우는 데 사용되는 네트워크의 구조를 설명하는 데 비교적 높은 수준으로 유지됩니다. 아키텍처의 핵심 요소는주의 모듈이지만,이 주제는 핵심 역할에 대한 세부적인 설명이 필요하다고 생각합니다. 지속적인 관심의인지 과학 개념과 유사하게, 관심 모듈은 다양한 공간과 시간 범위에 걸쳐 포함 된 관련 정보를 유지하고 집중시키는 데 사용됩니다. 시간과 공간으로 확장 된 정보 내용을 포함하는 고정 된 크기의 출력을 생성합니다. 미래의 분산 표현을 이해하는 방법을 크게 알려줄 수있는 수학의 한 분야 인 토폴로지와 유사하게,주의 네트워크는 정보, 동일한 곡률, 다른 모양의 토폴로지 동 형사상을 수행합니다. 이러한 네트워크는 신경 과학의주의 개념과 관련된 기능인 예기치 않은 또는 드문 이벤트에 초점을 맞출 수있는 Saliency detector의 역할을하지 않습니다.

여기서는 두 가지 유형의주의 네트워크를 사용합니다 .a) 메모리에 저장된 콘텐츠 (쿼리, 컨텍스트 및 메모리 벡터)에 대해 가중치 합계를 생성하는 임시주의 네트워크 및 b) 블록과 관련된 정보를 복구 할 수있는 주변주의 네트워크 에이전트의 현재 쿼리에 따라 위치.

c : 문맥 벡터, m : 메모리 벡터, q : 쿼리 벡터, v : 학습 벡터 가중치를 갖는 시간적주의 네트워크. 출력은 메모리 벡터와 동일한 크기입니다. 컨텍스트 벡터와 쿼리 벡터를 기반으로 일부 메모리 벡터가 출력에 더 많은 영향을 줄 수 있도록하는 벡터의 선형 조합입니다.동일한 아이디어, 공간 정보 간의 경쟁은주의 시스템에 의해 동적으로 유지됩니다.

정책 네트워크

완전한 네트워크는 데모 네트워크, 컨텍스트 네트워크 및 조작 네트워크의 세 가지 하위 네트워크로 구성됩니다.

데모 네트워크는 데모 궤적을 입력으로 받아 정책에서 사용할 데모를 임베드합니다. 이 임베딩의 크기는 데모의 길이와 환경의 블록 수에 따라 선형으로 증가합니다.

여기에 표시된 것처럼 데모 네트워크는 다양한 복잡성과 크기의 데모를 컨텍스트 네트워크가 작업을 나타내는 데 사용하는 공통 형식으로 포함 할 수 있습니다. 이미이 수준에서 일반화가 발생하는 경우, 데모 임베딩은 데모 중에 표시되는 정확한 궤적 및 큐브 절대 위치에 대한 정보를 생략해야합니다.

컨텍스트 네트워크의 구조를 살펴보면 매우 높은 수준에서 데모 네트워크가 포함 된 인터페이스가 데모를 내장 된 시간적주의 모듈에 제공하는 것을 볼 수 있습니다. 또한 이전 동작 (LSTM)과 현재 상태가 데모 임베딩과 연결된 입력으로 공급되어 모터 네트워크로 전송되는 글로벌 컨텍스트 임베딩을 생성합니다.

네트워크 기능에 대한 설명은 논문의 가장 중요한 부분이라고 생각합니다.

컨텍스트 네트워크는 현재 상태의 함수로 쿼리 벡터를 계산하는 것으로 시작하여 데모 임베딩의 다른 시간 단계에 참여하는 데 사용됩니다. 동일한 시간 단계 내에서 서로 다른 블록에 대한주의 가중치가 합산되어 시간 단계 당 단일 가중치를 생성합니다. 이러한 시간적주의의 결과는 크기가 환경의 블록 수에 비례하는 벡터입니다. 그런 다음 각 블록의 임베드에 정보를 전파하기 위해 이웃주의를 적용합니다. 이 과정은 여러 번 반복되며, 묶이지 않은 가중치를 가진 LSTM 셀을 사용하여 상태가 진행됩니다.
이전 작업 순서는 크기가 데모 길이와 독립적이지만 여전히 블록 수에 따라 달라지는 임베딩을 생성합니다. 그런 다음 표준 차원의주의를 기울여 고정 차원 벡터를 생성합니다. 여기서 메모리 내용은 각 블록의 위치로만 구성되며 로봇 상태와 함께 조작 네트워크로 전달되는 입력을 형성합니다.
직관적으로, 환경 내의 물체의 수는 다양 할 수 있지만, 조작 조작의 각 단계에서 관련 물체의 수는 적고 보통 고정되어있다. 특히 블록 쌓기 환경의 경우 로봇은 픽업하려는 블록의 위치 (소스 블록)와 위에 배치하려는 블록의 위치에만주의를 기울여야합니다 ( 대상 블록). 따라서 적절하게 훈련 된 네트워크는 현재 상태를 데모의 해당 단계와 일치시키는 방법을 배우고 소스 및 대상 블록의 ID를 다른 블록에 대해 소프트주의 가중치로 표현한 다음 해당 위치를 추출하는 데 사용합니다. 조작 네트워크에 전달됩니다.

그들이 설명을 마치는 방법은 전문가 시스템 접근법에서 학습 시스템 접근법에 이르기까지 AI 연구의 현재 표류의 완벽한 예이며, 뇌가 어떻게 진화했는지에 대한 토론을 암시합니다.

우리는 훈련에서 이러한 해석을 시행하지는 않지만 실험 분석은 학습 된 정책이 내부적으로 어떻게 작동하는지에 대한 해석을 지원합니다.

그들은 그것이 어떻게 작동하는지 모른다! 그들은 특정 계산을 수행하고 우리가 유용하다고 생각하는 특정 정보를 저장할 수있는 구조를 구축하고 전체 구조가 학습하기를 희망하는 훈련 세트에 공급합니다! 휴리스틱 검색을 올바른 방향으로 지시하는 방법 인 인공 지능 연구 부두가 등장하고 있습니다. 그리고 많은 마술사들이 현재 openAI를 위해 일하고있는 것 같습니다.

자신의 말로 조작 네트워크는 다층 퍼셉트론에 공급되는 컨텍스트 임베딩에서 가장 간단한 구조이며, 모터 동작이 생성됩니다.

결과

결과는 종종 관심이 거의없는 부분, 특히 놀랍도록 뛰어난 기술 논문에 대한 부분입니다. 결론적으로,이 접근법이 효과가 있고 하드 코딩 된 전문가 정책과 유사한 정확도로 수행되며 특정 절차 적 접근법과 달리 다양한 작업에 일반화 할 수 있습니다.

입자 도달

블록 쌓기

이 실험에서 그들은 또한 다른 조건을 테스트했습니다. DAGGER를 사용하여 입증 된 궤적을 다운 샘플링하여 전체 궤적, 궤적 스냅 샷 또는 최종 상태 만 사용하여 세 가지 입력 조건을 비교했습니다. 또한 행동 복제 알고리즘을 데모의 전체 궤도와 비교했습니다.

큐브 ID를 일반화 할 수있는 시스템 기능의 강력한 증거

토론

지난 몇 달 동안 OpenAI의 빠른 발전을 읽으면서 그들의 작업에 대해 이야기하고 자신의 작업에 대한 생각과 AI 분야의 발전에 대한 생각을 나누고 자하는 충동이 커지고 있습니다. 생물학적 뇌가 작동합니다. 특히, 인간들 사이에서 겉보기에 공유 된인지 기능은 작업을 수행하는 방법을 본질적으로 알고있는 공유 구조 때문이 아니라, 동일한 환경에 직면 한 비교적 유사한 순진한 구조의 결과이며, 유사한 작업을 수행하는 방법을 배웁니다. 함수는 기본적으로 작업을 수행 할 수있는 구조가 아닌 특정 환경으로 인해 특정 작업 만 배울 수있는 기능없는 구조의 결과이며 단순히 환경에 맞게 몇 가지 매개 변수를 조정하면됩니다.

작업 대 구성 : 겉보기에 임의의 정의

나는 그들이 다른 방식으로 그들이 한 방식으로 이야기하기로 선택한 이유를 이해하지 못한다는 것을 인정해야합니다. 작업은 블록 스태킹 실험에서 서로에 대한 블록의 위치를 ​​나타내는 문자열 집합으로 정의되며, 집합의 요소 수는 스택 수와 문자 수를 정렬해야하는 블록 수로 정의합니다. . 그런 다음 작업은 스택의 절대 위치에 관계없이 스택에 블록을 배열하는 것입니다.

일부 블록은 테이블에 있지만 작업의 일부가 아닐 수 있습니다.

별도의 작업에 대한 기준으로 상대 위치 및 스택 수를 정의하는 선택은 임의적입니다. 실제로 블록의 절대 시작 위치 (구성이라고 함)를 기반으로 다른 작업에 대해 이야기하는 것이 합리적 일 수 있습니다. 나는 문제의 공통적 인 성격이 그들에게 명백하다고 생각하지만, 명확성을 위해 그들은 세부 사항에 들어 가지 않는 것을 선호합니다. 정책 학습을 다음과 같은 두 가지 유형의 일반화로 구성하는 것이 더 합리적입니다.

일반화는 여러 수준으로 평가됩니다. 학습 된 정책은 이미 표시된 새 구성 및 새 작업 데모로 일반화 할뿐만 아니라 새 작업으로 일반화해야합니다.

"작업"을 "스택 순서"로 바꾸십시오. 작업을 올바르게 학습한다는 것은 에이전트가 큐브의 위치 (구성)뿐만 아니라 해당 ID (작업), 스택 수 (작업) 및 데모의 궤적을 요약 할 수있는 임베딩을 학습한다는 것을 의미합니다. 관련 모터 응답을 생성합니다.

이러한 일반화는 모순되는 것처럼 보입니다. 동일한 네트워크가 큐브의 초기 구성 또는 ID를 추상화하면서 모터 응답의 절대 위치를 어떻게 복구 할 수 있습니까?

이것은 학습하는 동안 서로 다른 입력을 수신하는 동안 서로 다른 협력 서브 네트워크가 필요하다는 것을 설명하고, 컨텍스트 네트워크에서 작업의 추상적 인 표현은 내림차순 명령 전에 큐브 절대 위치와 같은 하위 정보를 제공받습니다.

이 작업과 구성의 구별에 대해 언급하는 것은 어리석은 생각이지만 본질적으로 다른 객체에서 재생되는 동일한 추상화 프로세스라는 것을 이해하는 것이 중요합니다 (이는 다음 섹션에서 열립니다).

변함없는 학습은 없습니다

전이 학습은 아마도 실리코이든 생체 내이든간에 가장 매력적인인지 개념 일 것입니다. AI 연구자와 신경 학자 모두에게 매우 화제가되고 있으며 제 박사 학위 논문의 주제가되었습니다. 머신 러닝 전에 많은 분야에서 밀접하게 관련된 개념이 탐구되었으며,이 추상적이고 부분적으로 정의 된이 개념에는 많은 이름이 있습니다. 철학자, 인류 학자 및 사회학자는 이것을 (Post-) 구조주의 (Claude Levi-Strauss, Michel Foucault)라고 지칭 할 수 있으며, 언어학자는 신타 그마와 중첩 된 트리 구조 (Noam Chomsky)에 대해 이야기하고, 수학자들은 아마도 동종 형성이나 불변 인, 교육을 생각할 것입니다 연구 자나 신경 과학자들은 이것을 구조 학습이라고 지칭 할 수 있습니다. 또한 표현 학습 및 메타 학습과 같은 기계 학습 분야에서 관련 개념을 볼 수 있습니다. 저자에 따라 전이 학습 또는 전이 학습을 수행하는 데 사용되는 학습 패러다임을 나타낼 수 있습니다. Deep Neural Networks에 관해 이야기 할 때, 이러한 차이는 흐리게되는데, 본질적으로 신경망은 일반적으로 트랜스퍼 학습의 형태를 암시하는 시끄러운 환경에서 구조 (메타-러닝)를 수정함으로써 특정 문제 (표현 학습)를 포함시키는 것을 배우고 있습니다.

AI 연구원과인지 과학자는 종종 전이 학습에 대한 매우 구체적인 정의를 가지고 있습니다. 이는 시스템이 특정 작업에서 얻은 지식을 사용하여 일반적인 기사 구조를 공유하는 다른 작업을 수행 할 수있게하는 프로세스입니다 (기사에 설명되어 있음). 인지 과학은 두 과제가 어떻게 다른지에 따라 근거리와 원거리 이전이라는 개념을 가지고 있습니다. 그러나보다 추상적 인 관점에서, 시끄럽고 복잡한 환경에서 모든 학습은 전이 학습의 한 형태이며 매우 가깝고 매우 멀리있는 전이의 차이는 공유 정보의 문제 일 뿐이며 다시 자연의 규모가 아닙니다.

통제 된 환경에서, 미리 하드 코딩 된 현실의 이산화 (discretisation)를 구축하기위한 노력이 이루어 지지만, 실제로이이 이산화는 전이 학습이 수행하는 것을 절차 적으로 재생산하며, 실제 둘러싸는 구조 하에서 현실에서 발견되는 무한한 상태 세트를 통합합니다. 본질적으로 전이 학습은 학습 에이전트가 불변량을 사용하여 세계의 모델을 구축하는 과정을 직접 또는 확장하여 말합니다. 입력에 의해 분산 범위에 걸쳐 앙상블을 구성하는 점점 더 추상적이고 구성된 표현을 형성하기 위해 유사성, 반복 및 변형을 사용하는 프로세스입니다. 일반적으로 정보 집합을 조작하는 기본 연산을 만들 수 있습니다. 수학과 마찬가지로 노조와 교차로를 허용합니다. 그것은 정체성을 허용하고, 우리가 물체를 분류하는 능력을 설명합니다. Josh Tenembaum은 저에게 실제로 말한 예를 보여줍니다. 두 살짜리 아이에게 처음으로 말을 인식하도록 가르치고 있다고 가정하면, 그에게 다른 말의 그림을 보여주고 다른 말의 그림을 보여줍니다. 집의 그림을보고 그에게 말이 어느 것인지 말해달라고 부탁하십시오. 어린이는이 작업을 매우 쉽게 수행 할 수 있지만 입력이 거의없는 컴퓨터 (원샷 학습)로는 여전히 컴퓨터가 할 수없는 일입니다.

아이는 어떻게 했습니까?

동물 인식은 어린이에서 연구되었으며 대상을 관련 부분, 모피의 색상 범위, 목의 크기, 전반적인 모양 등으로 분해하는 능력과 관련이 있습니다.이 기능은 또한 문을 열 수있게 해줍니다. 지금까지 본 적이없는 모든 상황 (도메인 일반화)을 일반화하는 모터 시퀀스를 배웠습니다. 또한 세계를 단순화하는 설명 모델을 만드는 데 사용하는 것이기 때문에 처음에는 유명한 스위스 시계에서 뻐꾸기의 갑작스런 출현에 놀랄 수도 있지만 두 번째 출현 후에는 기대할 것입니다. 불변을 찾는 것은 신경망이 배우는 방식이며 이러한 모델은 무의식적으로 구축됩니다. 예를 들어 수학과 숫자를 듣기 전에 물리학에 대해 직관적으로 배우는 방법이 있습니다.

예를 들어, 초 중력으로 태어난 어린이가 지구의 중력에 얼마나 빨리 적응할 수 있을지 물으면 떨어질 때 물체가 땅에 떨어질 것임을 직관적으로 배울 수 있습니까?

강아지의 발에 양말을 댈 때처럼 신생아와 대부분의 동물이 무의식적으로 모델을 수정하고 새로운 정보에 적응하는 데 시간이 걸린다는 가설을 세울 수 있습니다.

그러나 어린 아이에게는 호기심에서부터 언어, 상징 및 신념을 통해 직관적 인 모델에 대한 의식적인 심문과 수정이 이루어질 것입니다. 의식적으로 모델을 조사하고 변경하는 우리의 능력은 매혹적이며, 참고로 인간은 그 과정을 구두로 처리 할 수있는 유일한 종일 수 있지만 다른 종은 비슷한 의식 수정을 수행 할 수 있습니다.

불변은 의무적 인 시간 속성이며, 모든 것이 항상 새롭고 예측할 수 없다면 모든 것이 항상 새롭고 예측할 수 없다는 독특한 불변이 남아 있습니다. 불변이없는 세상을 상상하는 것은 불가능합니다. 불변이 없으면 삶이 불가능하고 우리의 두뇌가 쓸모 없을 것입니다. 생명은 예측 가능한 사건의 반복, 원인과 결과의 반복, 유기체로의 에너지의 순환 적 재 도입에 의해서만 작동하는 기계입니다. 그리고 필요한주기의 사용을 개선하려는 Life의 노력에서 우리의 두뇌는 최고의 도구입니다. 그것은 동적으로 반복을 찾아서 세계와 더 잘 상호 작용할 수있는 적응 기관인 예측 기계입니다.

인생이 선택한이 방법은 구조의 약간의 변화에 ​​매우 강력합니다. 동일하게 유지되는 것은 세계의 통계적 속성이지만 환경과 마주 치는 신경 구조는 치료하기 위해 진화 한 관련 정보를 포함 할 수있는 한 다양 할 수 있습니다. 이것은 왜 우리의 두뇌가 개인마다 다르고 심지어 일차 피질까지도 다를 수 있고 동일한 기능을 공유 할 수 있는지 설명합니다.

신경계는 적응력이 있으며 관련 방식으로 행동을 변경하기 위해 진화와 느린 유전자 돌연변이가 필요하지 않습니다. C. Elegans에서 발견되는 것과 같은 간단한 신경계는 선천적 인 내부 코디네이터 및 외부 센서의 역할을합니다. 음식을 감지하고 그쪽으로 움직이며 통증에서 벗어나고 복제합니다. 이 간단한 시스템은 처음에는 딱딱하고 시끄러운 세계의 극단 근사를 수행하여 가능한 작은 상태 세트 (왼쪽 음식, 아래 열 등)에서 불연속을 수행했습니다. 우리의 운동 능력과 감각 능력은 신경계 예측 기능과 함께 발전했습니다. 센서가 더욱 정교 해지면서 신경계는 정보를 저장하고 경험을 통해 배우기 위해 천천히 구조를 수정할 수있게되었습니다. 처음에는 냄새 유형이나 조명 패턴과 같은 특정 범주의 입력을 인식하는 방법을 배우게되었으며 시행 착오를 통해 점점 더 복잡한 모터 시스템을 제어하는 ​​방법을 배울 수있게되었습니다. 세상은 너무 복잡해서 두뇌가 타고난 절차 적 접근 방식이 아닌 학습 패러다임으로 자연스럽게 진화했습니다. 계산적으로 이것은 완벽하게 의미가 있습니다 .Go의 간단한 게임은 우주의 원자 수 (10 state)보다 훨씬 더 큰 상태 공간 (2.10¹ organism)을 가지며 유기체가 모든 복잡성의 근사치를 하드 코딩하려고 시도함에 따라 복잡 해짐에 따라 조합 폭발로 인해 빠르게 다루기 어려울 수 있다고 말합니다.

어떤 사람들은 우리 뇌가 진화 할 공간을 본질적으로 나타내는 방식으로 만들어 졌다고 생각할 수도 있습니다. DNA에는 어딘가에 얼굴을 구성하는 유전자 또는 음파의 시간적 구성을위한 유전자가 있습니다. 단어까지. 그들은이 타고난 지식이 출생시 어딘가에 암호화되어 있다고 믿을 수도 있습니다. 다른 사람들은 제가 고등학교에있을 때 저의 철학 교사처럼 존재가 본질보다 우선하며 우리의 두뇌는 유기체와 세계의 만남에 의해 완전히 그리고 전적으로 정의된다고 믿습니다. 현실은 물론 더 복잡하며, 지금까지 연구 된 대부분의 원격 시스템에서는 뇌가 수행 할 기능을 본질적으로 인코딩하지 않고 입력에 포함 된 정보에 따라 학습합니다. 입력이 관련 정보가 너무 부족한 경우 해당 구조에서 학습 할 수있는 용량은 만료 날짜 (예 : 약시)를 가질 수 있습니다. 그러나 선천적 구조가 최종 기능을 인코딩하지 않으면 뇌는 특정 구조를 갖습니다. 이 구조는 개인에 걸쳐 보존되며 동일한 종의 개인은 공통 기능과 드라이브를 공유합니다. DNA는 특정 구조를 확립하고, 최종 기능을 선천적으로 수행 할 수없는 구조이지만, 개별 경험을 기반으로 특정 작업의 복잡성을 배울 수있는 구조입니다. 진화가 다른 장기와 달리 뇌를 외부 세계로부터 보호하는 수막과 딱딱한 뼈 껍질뿐만 아니라 신체의 나머지 부분에서 뇌를 격리시키는 매우 효과적인 혈액 뇌 장벽의 출현을 가져온 것은 놀라운 일이 아닙니다. 구조는 게놈에 인코딩되며, 훈련 된 뇌의 구조는 선천적으로 저장된 모델로부터 재생 될 수 없습니다. 매혹적인 것은 점점 더 복잡한 작업을 수행하는 점점 더 복잡한 딥 네트워크의 개발을 통해 유추에 의해 발생하는 동일한 학습 메커니즘을 볼 수 있다는 것입니다.

구성 구조는보기 쉽지 않지만 모든 곳에서

참고로, 저자조차도 목표 도달의 첫 번째 과제가 구성 적 구조를 가지고 있다는 것을 인식하지 못하는 것이 이상합니다.

작업에 도달하는 입자는 간단한 시나리오에서 일반화의 어려움을 잘 보여줍니다. 그러나 과제는 구성 적 구조를 공유하지 않으므로 새로운 과제에 대한 일반화 평가가 어려워집니다.

구조는 실제로 블록 스태킹보다 낮은 수준이며 실험 조작에 쉽게 액세스 할 수 없지만 작업은 실제로 공유 구조로 구성됩니다. 세계를 평면에 근사하면 하나의 구성 구조는 변환으로 큐브 ID (색상)가 유지되고 위치 (Xa1, Ya1)에서 블록 A 또는 임의 시작 위치 (Xb1, Yb2)에서 블록 B로 이동한다는 점입니다. )는 위치 (Xa2, Ya2)의 블록 A에서 위치 (Xb2, Yb2)의 블록 B로가는 것보다 동일한 고차 구성 구조의 일부이다.

네트워크 간 인터페이스

서로 다른 추상화 레벨에서 입력을 처리 할 수있는 신경망의 발화에는 인터페이스가 필요하다. 이러한 인터페이스는 다양한 특성을 가질 수 있습니다. 예를 들어, 기사에서 설명했듯이,주의 시스템 (데모 네트워크)으로 무장 한 하위 레벨 네트워크는 다른 네트워크 (컨텍스트 네트워크)가 사용할 수있는 표현으로 데모를 번역 할 수 있습니다. 데모의 길이 또는 초기 구성에 관계없이 조치를 지시합니다.

이 언어의 표면은 크기가 고정 된 평면이지만 네트워크 간 통신을 향상시킬 수있는 가능한 변경을 상상할 수 있습니다. 예를 들어, 학습 동안 네트워크가 상호 작용함에 따라 표면의 크기가 동적으로 커지거나 줄어들도록 설정되어 언어 복잡성을 압축하거나 확장 할 수 있습니다. 예를 들어 피드백을 통해 더 역동적 인 상호 작용을 상상할 수도 있습니다. 우리는 두 번째 네트워크의 입력과 출력을 기반으로 첫 번째 네트워크의 입력을 변조하는 것을 배우는 병렬 네트워크로 존재하는 네트워크 간의 원활한 통신을 배우는 촉진자 네트워크가 있다고 상상할 수 있습니다. 우리는 여러 전문화 된 네트워크에 강장제 (느리게 변화하는) 역할을하는 복잡한 상황 네트워크를 상상할 수 있습니다…

실패 사례는 새로운 모듈이 가질 수있는 가능한 역할을 암시합니다

오류는 종종 운동 실수로 인한 것이며 실수는 작업의 복잡성으로 인해 증가한다는 점에 주목할 가치가 있습니다.

목표 수를 늘려야 만 모터 기능이 저하되어서는 안됩니다. 이는 재생 네트워크가 모터 네트워크와 통신하는 방법이 너무 추상적이라는 강력한 증거입니다. 테스트 결과 컨텍스트 네트워크와 모터 네트워크 간의 인터페이스가 비교적 구체적 (로봇 위치, 대상 위치)임을 알 수 있기 때문에 이상합니다.

이것은 모듈 식 아키텍처이기 때문에 다른 손실 기능을 사용하거나 각 작업의 특정 측면을 나타내는 모듈 식 손실 기능을 사용할 수 있습니다. 또한 시연과 상황 네트워크가 운동 명령을 악화시키지 않으면서도 추상적 인 상태를 유지할 수 있도록 뇌 운동 전 영역과 동등하게 도움이 될 것입니다. 최적의 모터 명령을 선택하려면 목표 (추상 네트워크의) 및 감각 입력을 기반으로 객체를 더 잘 지역화하기 위해 사전 모터 영역이 필요합니다. 컨텍스트 네트워크는 현재 컨텍스트에서 데모를 상위 레벨 임베드로 전송하고 동시에 모터 조치를 준비하려고합니다. 프리 모터 네트워크의 역할은 모터 학습 및 빠른 적응을 위해 프리 모터의 기능과 소뇌를 모두 결합하여 목표 지향적이고 적응적인 방식으로 모터 시스템과 통신하는 법을 배우는 것입니다.

Moravec의 역설이라는 흥미로운 이론이 있는데, 그것은 계산적으로 세금을 부과하는 높은 수준의 인식이 아니라 감각 입력과 모터 시스템 출력의 처리가 될 것이라고 예측합니다. 이것은 실제로 우리의 소뇌에 존재하는 많은 양의 뉴런 (뇌의 나머지 부분보다 더 많은 것)이 운동 작용을 적응 적으로 제어하기 위해 설명 할 수 있습니다. 이 역설은 통제되지 않은 시끄러운 환경에서 복잡한 작업을 수행하기 위해 자신의 지식을 기계에 포함시킬 수 있다고 생각했던 때 (80 년대)에 공식화되었습니다. 물론이 역설은 어떻게 든 기계가 이산 된 상태 집합으로 세계를 표현할 수 있다면 더 높은 수준의 기능을 구축하는 것이 더 쉬울 것입니다. 그러나 나는 둘 다 극도로 과세 될 것이라 믿으며, 네트워크 간 인터페이스에서 사용되는 내부 표현은 우리 자신의 의식적 표현과 닮은 것과는 거리가 멀다.

결론

이 기사는 문제의 특정 처리를 담당하는 서로 다른 신경망을 결합하여 본질적으로 일반화가 필요한 작업을 생성하고 도메인 랜덤 화, 메모리에 액세스 할 수있는 신경망 및 도메인 랜덤 화를 통해 적절한 학습 환경을 구축함을 보여줍니다. 주의 시스템은 단순한 재생산을 넘어 일반화하는 법을 배울 수 있습니다. 정보에 대한 시각적 스트림에서 한 번만 설명 된 고차 목표를 발견하고 일반화 된 공간에서 계산을 수행하여 해당 목표를 다른 컨텍스트에서 재현 할 수있는 적절한 조치를 복구 할 수 있습니다.

앞으로 우리는 복잡한 작업을 일반화하는 법을 배울 수 있지만 새로운 환경에서 입력의 전처리와 같은 하드 코딩 된 방법에 대한 의존도가 적은 몇 가지 작업을 수행하는 것이 더 중요 할 것입니다. 메모리 저장 장치. 메모리 스토리지는 메모리 네트워크에 분산 된 표현으로 대체되고,주의 시스템은 실시간주의 네트워크에서 주기적 활동으로 대체됩니다. 문제는 구현 된 시스템의 분산 컴퓨팅에 대한 의존도를 높이기 위해 강력한 직렬 기술 (Turing machines)을 어떻게 적용 할 수 있을지에 대한 것입니다.