신경 데이터 과학 : 방법과 이유

뉴런에 대한 데이터 과학에 대한 대략적인 안내서

데이터 과학을하는 두뇌. 크레딧 : 명사 프로젝트의 Matt Wasser의 Brain

조용히, 은밀하게 새로운 유형의 신경 과학자가 형성되고 있습니다. 무수히 많은 이론가들로부터 수백 개의 뉴런의 희박한 산란에 관한 신경 활동에 관한 데이터로 과학을 수행하는 신경 과학자 팀이 생겨났다. 데이터 분석 방법을 개발하는 것은 아니지만 모두 그렇게합니다. 그 데이터를 수집하는 것이 아니라 다른 강력한 기술이 필요하기 때문입니다. 그러나 신경 과학자들은 뇌에 관한 과학적 질문에 답하기 위해 그 데이터에 대해 현대의 ​​전산 기술을 사용합니다. 신경 데이터 과학이 등장했습니다.

내가 그 중 하나 인 신경 데이터 과학자 일족으로 밝혀졌습니다. 우연히. 내가 알 수있는 한, 그것은 모든 과학 분야가 우연히 태어나는 방식입니다. 연구원들은 코를 따라 새로운 일을 시작하고 갑자기 파티의 부엌에 작은 군중이 있다는 것을 발견합니다 (음료가있는 곳, 냉장고의 위치, 과학자들이 똑똑 함). 여기에 신경 데이터 과학에 대한 작은 표현이 있습니다. 그것이 왜 떠오르는 지, 그리고 우리가 그것을 수행하는 방법에 대한 것입니다.

그 이유는 데이터 과학을 발전시킨 모든 과학 영역과 동일합니다. 데이터의 양이 부족합니다. 많은 뉴런을 기록하는 과학의 경우,이 데이터 홍수는 과학적 근거가 있습니다. 뇌는 뉴런간에 메시지를 전달하여 작동합니다. 이러한 메시지의 대부분은 작은 전기 펄스의 형태를 취합니다. 스파이크라고합니다. 그래서 많은 사람들에게 뇌가 어떻게 작동하는지 (그리고 그들이 작동하지 않을 때) 이해하려면 모든 뉴런 사이에 전달되는 모든 메시지를 포착해야한다는 것이 논리적으로 보입니다. 그리고 그것은 가능한 많은 뉴런으로부터 많은 스파이크를 기록하는 것을 의미합니다.

아기 제브라 피쉬 뇌는 약 130,000 개의 뉴런과 그 사이에 최소 1 백만 개의 연결을 가지고 있습니다. 땅벌 뇌에는 약 백만 개의 뉴런이 있습니다. 이것이 어떻게 빨리 벗어날 수 있는지 볼 수 있습니다. 현재 우리는 표준 키트를 사용하여 수십에서 수백 개의 뉴런을 동시에 기록합니다. 한계는 수만 명, 심지어 수만 명을 기록하는 사람들입니다 (이 기록은 뉴런이 스파이크를 보낼 수있는 것보다 훨씬 느린 속도로 뉴런 활동을 캡처하지만).

우리는이 광기 시스템을 신경 과학이라고 부릅니다. 한 번에 하나 이상의 뉴런에서 대담하게 기록하기위한 시스템. 그리고 데이터는 매우 복잡합니다. 우리가 가지고있는 것은 수십에서 수천 개의 동시 기록 된 시계열이며, 각각 하나의 뉴런에서 나오는 스파이 킹 사건 (실제 스파이크 또는 그 간접 측정)의 흐름입니다. 정의에 따르면, 그들은 고정적이지 않으며 시간이 지남에 따라 통계가 변경됩니다. 그들의 활동 속도는 수도사와 같은 조용한 묵상에서부터 "풍동의 드럼 키트"에 이르기까지 많은 규모로 퍼져 나갔다. 그리고 그들의 활동 패턴은 시계와 같은 규칙 성, 말더듬 및 쪼개기, 광증과 소진의 번갈아에 이르기까지 다양합니다.

이제 뉴런을 기록한 동물의 행동과 결혼하십시오. 이 행동은 수백 가지의 선택 시험입니다. 또는 팔의 움직임; 또는 환경을 통한 경로. 또는 감각 기관의 움직임, 또는 근육의 전체 자세. 여러 동물에 대해 반복하십시오. 아마도 여러 뇌 영역. 때로는 전체 뇌.

우리는 근거가 없습니다. 정답은 없습니다. 행동을 제외하고 데이터에 대한 교육 레이블이 없습니다. 우리는 뇌가 어떻게 행동을 인코딩하는지 모른다. 따라서 행동 레이블을 사용하여 작업을 수행 할 수 있지만, 항상 답이 아니라는 것을 알고 있습니다. 그들은 단지“답”에 대한 단서 일뿐입니다.

시스템 신경 과학은 신경 과학에 대한 지식을 자신의 데이터 분석 노하우와 결합 할 수있는 사람들을위한 풍부한 놀이터입니다. 신경 데이터 과학이 탄생하고 있습니다.

그것은 어떻게됩니까? 다음은 대략적인 지침입니다. 신경 데이터 과학자의 쟁점은 시스템 신경 과학의 데이터에 대한 과학적 질문을하는 것입니다. 질문 :이 뉴런은 어떻게 작동하여 그들의 일을합니까?

우리가 그 질문에 대답 할 수있는 방법은 대략 세 가지가 있습니다. 머신 러닝에서 확립 된 문제 클래스와 시스템 신경 과학에서 계산 문제와의 대응 관계를 살펴보면이 세 가지 방법을 볼 수 있습니다. 우리가 무엇을 다루어야하는지 살펴 보자.

우리는 시간이 지남에 따라 수집 한 n 개의 뉴런에서 얻은 데이터를 가지고 있습니다. 우리는 이것을 X라고 부르는 행렬로 묶을 것입니다-뉴런만큼 많은 열과 기록한 시점만큼 많은 행 (“시점”이 지속되는 시간은 우리에게 달려 있습니다. 짧게 설정하고 스파이크의 경우 각 항목 레코드에 1을, 그렇지 않으면 0을 지정하십시오. 그렇지 않으면 시간을 늘리거나 각 항목이 경과 시간 동안의 스파이크 수를 기록합니다). 그 동안 몸이하고있는 일을 포함하여 세상에서 일이 벌어지고 있습니다. 이제 우리가 S라고 부르는 행렬에이 모든 것을 담아 봅시다. 우리가 관심있는 기능이있는 열 수와 해당 기능에 대해 기록한 시점 수만큼의 행입니다.

전통적으로 머신 러닝은 세계 상태와 이용 가능한 데이터 (생성, 차별 및 밀도)에 대한 3 가지 클래스의 모델을 구축합니다. 대략적인 지침으로이 표는 각 클래스가 시스템 신경 과학의 근본적인 질문에 어떻게 대응하는지 보여줍니다.

1 / 밀도 모델 P (X) : 스파이크에 구조가 있습니까? 둔한 소리. 그러나 실제로 이것은 뇌에 대한 무언가 (약물, 행동, 수면)의 영향을 알고 자하는 신경 과학 연구의 큰 엉킴의 열쇠입니다. 신경 활동의 구조는 어떻게 바뀌 었습니까?

많은 뉴런을 기록하면 세 가지 방법으로 대답 할 수 있습니다.

먼저 스파이 킹 속도와 같은 X의 각 열 통계를 측정하여 각 뉴런의 스파이크 트레인을 정량화 할 수 있습니다. 그리고이 통계에 대한 모델 P (X)는 무엇입니까? 뉴런의“유형”을 찾기 위해 이러한 통계를 묶을 수 있습니다. 또는 단순히 전체 관절 분포에 모델을 맞출 수 있습니다. 어느 쪽이든, 우리는 단일 뉴런의 입도에서 데이터 구조의 일부 모델을 가지고 있습니다.

둘째, 우리는 전체 모집단의 순간 활동의 벡터 인 X의 행을 사용하여 전체 모집단 활동의 생성 모델을 생성 할 수 있습니다. 이러한 모델은 일반적으로 몇 개의 벡터가 얼마나 많은 스파이크를 갖는지의 분포인지 여부에 따라 몇 가지 제약 조건에서 X의 구조를 얼마나 많이 재현 할 수 있는지 이해하는 것을 목표로합니다. 또는 뉴런 간의 쌍별 상관 관계; 또는 이들의 조합. 이것은 독립적이거나 지루하게 단순한 뉴런의 집단 활동 이상인 경우 집단 활동에 특별한 소스가있는 경우 운동에 특히 유용합니다.

셋째, 우리는 X에서의 신경 활동이 차원의 수 D << n 인 저 차원 공간의 고차원 적 실현이라는 입장을 취할 수있다. 일반적으로 우리는 이것을 의미합니다. X의 일부 뉴런은 서로 관련되어 있으므로 모집단을 이해하기 위해 X 전체를 사용할 필요가 없습니다. 대신 훨씬 더 간단한 표현으로 대체 할 수 있습니다. 시계열을 직접 클러스터링 할 수 있으므로 X를 N 개의 작은 행렬 X_1 ~ X_N으로 분해 할 수 있습니다. 각 행렬에는 상대적으로 강한 상관 관계가 있으므로 독립적으로 처리 할 수 ​​있습니다. 또는 Principal Components Analysis와 같은 차원 축소 방법을 사용하여 시간이 지남에 따라 인구 활동의 주요한 형태의 변형을 각각 설명하는 작은 시계열 집합을 얻을 수 있습니다.

우리는이 이상을 할 수 있습니다. 위의 내용은 X 축에 축소를 적용하기 위해 차원 축소를 사용하여 뉴런을 축소하려고한다고 가정합니다. 그러나 X 행에 차원 축소를 적용하여 시간을 쉽게 축소 할 수 있습니다. 신경 활동이 중복되는지 묻지 않고 이것은 시간의 다른 순간들이 비슷한 신경 활동 패턴을 가지고 있는지를 묻는 것이다. 이 중 소수만이 있다면 기록 된 뉴런의 역학은 매우 간단합니다.

우리는 여기에도 역동적 인 시스템 접근을 던질 수 있습니다. 여기서 우리는 간단한 모델을 시간에 따른 X의 변화 (즉, 한 행에서 다음 행으로의 매핑)에 맞추고 이러한 모델을 사용하여 X에 포함 된 역학의 유형을 정량화합니다 (예 : "attractor", "separatrix", " 새들 노드”,“피치 포크 분기점”및“아 스 날 붕괴”(그들 중 하나만 실제가 아닙니다). 데이터 구조를 설명하는 모든 밀도 모델 (P (X))이 적합하다는 역동적 모델에 대해 타당하게 주장 할 수 있습니다.

지옥, 우리는 신경 회로의 전체 동적 모델, 각 뉴런을 설명하는 많은 미분 방정식을 X에 맞추려고 시도 할 수 있으므로 다른 초기 조건에서 모델을 실행할 때마다 모델 P (X)가 샘플링됩니다. .

이러한 밀도 모델을 사용하면 다양한 상태 (S1, S2,…, Sm)에서 기록한 신경 활동에 개별적으로 맞출 수 있으며 다음과 같은 질문에 대답 할 수 있습니다. 뉴런 집단의 구조가 어떻게 수면과 깨어 있는? 아니면 동물의 발달 중에? 또는 과제를 학습하는 과정에서 (S1은 시험 1 일 수 있고, S2는 시험 2 일 수 있고; 또는 S1은 세션 1과 S2 세션 2이거나, 또는 이들의 많은 조합 임). 우리는 또한 뉴런 활동이 얼마나 많은 차원에 걸쳐 있습니까? 피질의 각 영역마다 치수가 다른가? 그리고 내 열쇠를 본 사람 있어요?

2 / 생성 모델 P (X | S) : 스파이크의 원인은 무엇입니까? 이제 이야기하고 있습니다. 선형 비선형 모델 또는 일반화 된 선형 모델과 같은 것. 일반적으로 이러한 모델은 단일 뉴런, X의 각 열에 적용됩니다.이 모델을 사용하여 세계 S의 상태를 입력으로 사용하는 모델을 피팅하고 뉴런의 활동과 최대한 일치하는 신경 활동 시리즈를 추출합니다. 그런 다음 뉴런의 활동을 재현하는 데 S의 각 기능에 부여 된 가중치를 검사하여 해당 뉴런이 무엇을 보여 주는지 알아낼 수 있습니다.

우리는“세계의 상태”로 간주되는 유연성이있는 모델을 선택할 수 있습니다. 뉴런의 과거 활동을 특징으로 포함시킬 수 있으며 과거의 활동에 관심이 있는지 확인할 수 있습니다. 일부 뉴런 유형의 경우 대답은 '예'입니다. 파열은 뉴런을 많이 빼앗아 다시 갈 수 있기 전에 휴식을 취해야합니다. 우리는 또한 더 넓게 생각할 수 있으며 뉴런이 발사되는 동안 나머지 인구 (나머지 X)를 세계 S 상태의 일부로 포함시킬 수 있습니다. 결국 뉴런은 때때로 서로의 발사에 영향을 미치므로 믿게됩니다. 따라서 시각 피질에서 뉴런의 반응은 외부 세계에서 가장자리의 방향에 의해 좌우 될뿐만 아니라 그것에 연결된 10000 개의 피질 뉴런도 무엇을 하느냐에 따라 달라질 수 있습니다. 우리가 배운 것은 인구에서 가장 영향력있는 뉴런입니다.

이러한 생성 모델을 단일 뉴런에 적용 할 필요는 없습니다. 밀도 모델에도 동일하게 적용 할 수 있습니다. 각 클러스터 또는 차원이 세계에 대해 어떤 인코딩을하고 있는지 물어볼 수 있습니다. 또는 일부 사람들이 여기에서 한 것처럼 밀도 모델 자체를 세계의 상태로 사용하고 해당 모델의 다운 스트림 뉴런이 어떤 기능을 제공하는지 묻습니다.

이러한 생성 모델로 우리가 대답 할 수있는 질문의 유형은 매우 분명합니다. 어떤 기능의 조합이 뉴런의 반응을 가장 잘 예측합니까? 한 가지만을 선택하는 뉴런이 있습니까? 뉴런은 서로에게 어떤 영향을 미칩니 까?

3 / 판별 모델 P (S | X) : 스파이크에는 어떤 정보가 포함됩니까? 이것은 기록 된 개체군으로부터 하류에있는 모든 뉴런, 즉 우리가 매트릭스 X에 기록하고 채워진 뉴런으로부터 입력을받는 모든 뉴런이 직면 한 문제이기 때문에 시스템 신경 과학의 핵심 질문입니다. 그들은 급등에만 기반을 둔 외부 세계에 대해 알아야합니다.

여기에서 입력을 레이블이 지정된 출력에 매핑하는 표준 분류자를 사용할 수 있습니다. X의 행을 입력으로 사용하고, 각 모집단 활동의 스냅 샷을 사용하고 S의 해당 행에있는 하나, 일부 또는 모든 기능을 예측하려고 시도 할 수 있습니다. 시간 지연이있을 수 있으므로 X_t 행을 사용하여 인구가 뇌에 입력되는 상태를 코딩하는 방법에 관심이 있다면 과거에 n 단계였던 상태 S_t-n을 예측하십시오. 또는 X_t 행을 사용하여 인구가 어떻게 두뇌가 세계에 미치는 영향을 코딩하는지에 관심이 있다면 앞으로 n 단계 인 상태 S_t + n을 예측할 수 있습니다. 지금 각 글자를 입력하기 전에 발생하는 운동 피질의 활동과 같습니다.

어느 쪽이든, 우리는 X의 행을 과도하게 맞추지 않고 일부를 취하고 분류기를 훈련시켜 X의 해당 청크에 X를 매핑하는 가장 좋은 방법을 찾습니다. 그런 다음 분류 기가 얼마나 잘 수행되는지 테스트합니다. 운이 좋으면 X와 S가 너무 길어서 훈련, 테스트 및 검증 세트로 나눌 수 있습니다. 마지막은 잠긴 상자에 보관하십시오.

물론 원하는만큼 강력한 분류기를 사용할 수 있습니다. 로지스틱 회귀 분석에서 베이지안 접근을 통해 23 계층 신경망 사용에 이르기까지. 그것은 당신이 대답에서 원하는 것, 그리고 당신이 이해하기 쉬운 해석 성과 힘의 균형에 달려 있습니다. 다른 곳에서 저의 저술을 통해이 트레이드 오프의 어느 쪽이 유리한지 알 수 있습니다. 그러나 나는 틀렸다는 것이 기쁘다.

뉴런의 인코딩 모델은 통찰력이 있지만, 오래되고 깊은 철학적 쿼터를 만집니다. 차별적 모델을 사용하여 인코딩을 테스트하면 다운 스트림이 신경 활동에서 S를 디코딩하려고 시도하는 것으로 가정합니다. 이것에는 두 가지 문제가 있습니다. 뉴런은 해독하지 않습니다. 뉴런은 스파이크를 입력으로 받아 자신의 스파이크를 출력합니다. 오히려, 그들은 한 세트의 스파이크에서 다른 스파이크 세트로 다시 코딩한다 : 아마도 더 적거나 더 느리다; 아마도 더 많거나 더 빠를 것입니다. 아마도 꾸준한 흐름에서 진동으로 이어질 것입니다. 따라서 차별적 인 모델은 우리의 뉴런이 어떤 정보를 다시 코딩 하는지를보다 정확하게 요구합니다. 그러나 우리가이 견해를 취하더라도 더 심각한 문제가 있습니다.

예외는 거의 없지만 "하류"뉴런과 같은 것은 없습니다. 우리가 X로 기록한 뉴런은 끝없는 고리로 가득 찬 복잡한 유선 뇌의 일부입니다. 그들의 출력은 자신의 입력에 영향을 미칩니다. 더 나쁜 것은 X의 뉴런은 다른 뉴런의 하류에 있다는 것입니다. 위에서 언급했듯이 뉴런은 서로 영향을 미치기 때문입니다.

신경 데이터 과학에 대한 거칠고 아마도 유용한 선언문. 불완전합니다. 의심 할 여지없이 위의 내용이 잘못되었습니다 (일반적인 주소로 엽서에 답하십시오). 위는 매우 다른 관심사를 가진 실험실 그룹의 작업을 종합하려는 시도이지만 뇌가 어떻게 작동하는지에 대한 깊은 질문에 대답하기 위해 큰 신경 데이터 세트에서 이러한 종류의 모델을 사용하는 일반적인 드라이브입니다. 이들 중 다수는 자신의 질문에 답하기 위해 실험 데이터를 분석하는 데이터 랩, 팀입니다. 몇 가지를 말하면 – Johnathan Pillow; 기독교 마헨; 콘라드 코딩; 카나 카 라잔; 존 커닝햄; 아드리 엔 페어 홀; 필립 베렌스; 시안 오도넬; 일미 밍 파크; 야콥 맥케; 개스 퍼 틱콕; 올리버 마레 음. 다른 사람들은 강력한 데이터 과학 성향을 가진 실험 실험실입니다 : Anne Churchland; 마크 처치 랜드; 니콜 녹; 크리슈나 셰 노이; 카를로스 브로디; 다른 많은 사람들은 이름을 지정하지 않은 것에 대해 사과합니다.

이런 종류의 일을 환영하고 심지어 격려하는 회의가 있습니다. 신경 데이터 과학 저널이 시작되었습니다. 뭔가 구축 중입니다. 데이터가 사랑 스럽습니다 *.

* 그래, 그 농담을 작동시키기 위해 데이터를 단수로 언급해야했다. 이것을 설명하기 위해이 각주를 작성한다는 사실은 과학자들이 기대하는 세부적인 신경 데이터에 대한 까다로운 관심에 대한 아이디어를 줄 것입니다.

더 원해? 스파이크에서 우리를 따라

트위터 : @markdhumphries