Operant Conditioning이 잘못되었을 때

Operant conditioning은 도구 학습을위한 BF 스키너의 이름입니다 : 결과에 의한 학습. 물론 새로운 아이디어는 아닙니다. 인류는 보상과 처벌을 통해 어린이와 동물을 가르치는 방법을 항상 알고 있습니다. 스키너의 레이블에 가장 큰 영향을 준 것은 개인 생물에서 이러한 종류의 학습을 연구하는 훌륭한 방법을 발명 한 것이 었습니다. Skinner 상자와 누적 레코더는 탁월한 듀오입니다.

JS image
출처 : JS 이미지

운전자 컨디셔닝은 처음에 급속히 발전했습니다. 보강 일정 발견은 예상치 못한 규칙 성을 나타 냈습니다. 각각의 새로운 보강 일정은 고정 간격 "가리비", 가변 간격에 대한 안정적인 응답 및 고정 비율 일정에 대한 브레이크 – 앤 – 러닝과 같은 새로운 누적 기록 패턴을 산출했습니다. 패턴은 신뢰할 수 있었고 생물체가 새로운 절차로 전환 된 후 회복 될 수있었습니다. 이 자료는 두 가지 동물 그룹을 비교하기보다는 두 개의 다른 절차에 가역적으로 노출 된 한 동물의 행동을 비교하는 유기체 내 실험 방법의 완전한 활용을 허용했다. 그룹 결과는 그룹에 적용됩니다. 그룹을 구성하는 개인에게 적용될 수도 있고 적용되지 않을 수도 있습니다. 2016 년 영국인의 52 %가 Brexit을 승인했습니다. 그러나 각 개인은 100 % 또는 100 %에 반대했다. 너무 자주 연구자들은 매끄러운 학습 곡선을 보여주는 그룹 데이터가 개별 피험자가 점차적으로 배우는 것을 의미한다고 생각했습니다. 그들은하지 않습니다.

자연스러운 다음 단계는 누적 기록에 의해 계시 된 명령 뒤에있는 프로세스를 해명하는 것이었을 것입니다. 이러한 획기적인 규칙 성을 초래하는 일정 절차와 개별 유기체 사이의 상호 작용에서 어떤 일이 일어나고 있습니까? 다른 말로하면, 유기체는 무엇이며 어떻게 배우는가? 그 과정은 무엇입니까?

필드에서이 단계를 수행하지 않았습니다. 이 메모에서 이유를 설명하려고합니다.

과학자로서의 컨디셔닝이 과학으로서 발전하는 것을 방해하는 세 가지가 있습니다 : 방법의 한계, 과도한 가치의 질서와 이론의 불신.

방법. 누적 기록은 한 가지 측면에서 환상적인 돌파구였습니다. 단일 동물의 행동 연구를 실시간으로 연구 할 수있었습니다. 스키너가되기 전까지는 동물 심리학 데이터가 그룹 평균으로 구성되어있었습니다. 예를 들어 그룹 X 또는 그룹 Y에서 얼마나 많은 동물이 미로에서 왼쪽으로 돌아 왔는지를 나타냅니다. 그룹에서 개별 동물이 사라졌을뿐 아니라 실제 시간도 마찬가지였습니다. 미로의 쥐가 얼마나 오래 결정 했습니까? 얼마나 빨리 달렸습니까? 결정하기 전에 무엇을 탐구 했습니까?

그러나 스키너 박스 설정은 하나 또는 몇 개의 미리 정의 된 응답 및 해당 발생률의 변경에 대해서도 제한됩니다. 운영자 조건 설정은 실제로 활동의 레퍼토리에서 선택을 포함합니다 : 시행 착오 의 시련. Skinner-box 방법은 이미 하나 또는 두 개의 이미 학습 된 응답을 연구하도록 장려합니다. 레퍼토리 중, "다른 이유로"(임계 값 이하로 숨어 있지만 선택 될 수있는 모든 가능한 행동 양식 중에서) 경음악에 필수적인 은밀한 반응의 가능한 반응 세트는 (Skinner의 말로) 아무 언급도.

주문이 너무 많습니까? 두 번째 문제는 질서 정연한 데이터에 대한 미심쩍은 존중입니다. 즉, 단순하고 심미적 인 행동 특성을 측정 할 수있는 부드러운 곡선입니다. Fred Skinner는 자주 Pavlov를 인용했습니다 : "귀하의 조건을 통제하면 주문을 볼 수 있습니다."그러나 무엇을 주문합니까? 점점 가치가있는 주문이 있습니까? 또는 일부 주문한 결과가 다른 것보다 더 유익한 것일 수 있습니까?

편차를 줄이기 위해 주문을하는 가장 쉬운 방법은 평균 을 취하는 것입니다. Skinnerian 실험은 단 하나 동물을 포함한다, 그래서 방법은 동물의 맞은 편에 평균을 낙담한다. 그러나 왜 그 모든 쪼그리 또는 레버 프레스를 평균하지 않습니까? Skinner는 그 자신이 근거를 제공하는 것처럼 보였습니다. 그의 이론적 인 소풍 중 하나에서, 그는 응답이 응답 확률과 동등한 힘을 가지고 있다고 제안했다. 그는 그 아이디어를 결코 정당화하지 못했지만, 그럴싸한 근거는 거의 없다.

다음 단계는 매우 중요합니다 : 응답 확률을 측정하는 방법은 무엇입니까? 대응 비율은 분명한 후보입니다. 그러나 누적 기록에 따르면 응답 속도는 대부분의 보강 일정에서 순간에 따라 다릅니다. 예를 들어 고정 된 간격에서, 각 보강 후에 피실험자는 반응을 멈추고 다음 보강 시간이 다가올 때 천천히 최대로 가속합니다. 고정 간격 스케줄 (Fixed Interval Schedule, FI)은 고정 된 시간 (고정 된 시간)이 지나면 첫 번째 응답이 강화됨을 조정합니다. 보강 후 시간은 다음 보상이 제공 될 때까지 신뢰할 수있는 단서가됩니다. 따라서 유기체는 반응하기 전에 고정 된 시간 동안 기다리고 그에 따라 적응합니다.

그러나 다른 일정 인 변수 간격 (VI)에서는 시간이 가변적입니다. 그것이 순간마다 완전히 무작위이고 유기체가 일정한 비율로 반응하면, 보강 후 시간은 다음 응답에 대한 보상 가능성에 대한 정보를 제공하지 않습니다. 유기체는 가변 간격 스케쥴에 대해 일정한 속도로 반응함으로써 정보 부족에 적응합니다. VI의이 속성은 그것을 명백한 도구로 만들었습니다. 안정적인 응답 속도로 Skinner의 응답 강도를 측정하는 간단한 방법을 제공하는 것 같았습니다. 따라서 Operant 심리학에서 가장 널리 사용되는 데이텀은 VI 일정에 의해 유지되는 응답률입니다. 비율은 일반적으로 몇 분 또는 몇 시간 동안 발생하는 응답 수로 측정됩니다.

변동성을 줄이는 또 다른 방법은 부정적인 피드백입니다. 온도 조절 식 HVAC 시스템은 내부 온도가 사전 설정된 수준 아래로 떨어지면 가열하고 온도가 상승하면 냉각됩니다. 이러한 방식으로 외부 온도가 변할 때 발생할 수있는 실내 온도 변화를 줄입니다. 모든 종류의 부정적인 피드백은 제어 변수의 변동을 줄입니다. 불행히도, 피드백이 효과적 일수록 종속 변수의 편차가 적어지고 피드백 메커니즘 자체에 대해 더 적은 것을 배울 수 있습니다. 완벽한 부정적인 피드백 과정은 보이지 않습니다.

운영자 컨디셔닝은 정의에 따라 보상을 포함합니다. 유기체가 반응할수록, 보상 계획이 무엇이든지간에 제약 조건에 따라 더 많은 보상을 받게됩니다. 이것은 긍정적 인 피드백입니다. 그러나 가장 많이 연구 된 operant 선택 절차 인 동시 가변 간격 계획에는 부정적인 피드백 도 포함됩니다. 선택이 두 개의 변수 간격 스케줄 사이에있을 때, 하나의 선택에 더 많은 시간이 소요되고 다른 선택으로 전환하기위한 지불 확률이 높아집니다. 따라서 선택에 대한 보수율의 차이가 있더라도 유기체는 결코 하나에 고정시키지 않을 것입니다. 결과는 선택 우선 순위와 상대 지불 사이의 매우 규칙적인 관계 – 일치 법률 . (완전한 기술 이야기는 적응 행동과 학습, 2016을 확인하십시오)

기술이 발전함에 따라이 두 가지가 수렴되었습니다 : 평균화 및 부정적인 피드백에 의해 가능해진 질서에 대한 욕구와 반응 확률이 적절하다는 Skinner의 생각, 즉 적절한 종속 변수. 가변 간격 스케줄은 단독으로 또는 2 가지 선택 상황에서 일종의 측정 장치가되었습니다. VI의 응답 속도는 안정적입니다. 대기, 일시 중지 또는 급격한 급증은 없습니다. 그것은 반응 확률을 측정하는 간단하고 직접적인 방법을 제공하는 것 같았다. 응답 확률로 응답 속도에서 이론적으로 응답 속도의 비율로 어떻게 든 응답 강도에 불과하지만 짧은 단계였다. 따라서 일치 법칙은 일반적인 원칙으로 간주되었습니다. 연구자들은 이것을 동물의 선택뿐만 아니라 실제 상황에서 인간의 선택 행동의 근원으로 간주하기 시작했습니다.

이론 응답 강도 는 이론적 인 구조입니다. 그것은 반응 속도 또는 실제로 직접적으로 측정 가능한 다른 양보다 훨씬 뛰어납니다. 불행히도 대부분의 사람들은 "힘"이 의미하는 바를 알고 있다고 생각합니다. Skinnerian 전통은 더 많은 것이 필요하다는 것을 보는 것을 어렵게 만들었습니다.

조지 레이놀즈 (George Reynolds)의 획기적인 1961 년 연구는 문제를 설명합니다 (조지는 결코 이런 방식으로 그것을 보지 못했음). 다음은 단순화 된 버전입니다 : 2 개의 실험 조건과 2 개의 동일한 비둘기를 상상해보십시오. 각 조건은 매일 여러 세션에 대해 실행됩니다. 조건 A에서 비둘기 A는 VI 30 일정에 따라 전달되는 식량 보상에 대해 빨간색 키를 표시합니다. 조건 B에서 비둘기 B는 VI 15-s 일정으로 전달되는 음식 보상에 대한 초록색 키를.습니다. 두 음식의 비율이 상대적으로 높기 때문에 절차에 장기간 노출되면 비둘기는 두 경우 모두 높은 비율로 쪼그라 앉을 것입니다. 응답 속도 – 따라서 '강점'-은 거의 같습니다. 이제 두 비둘기 모두를위한 절차를 변경하십시오. 단일 일정 대신 두 시간의 일정이 1 시간짜리 실험 세션에서 1 분 또는 1 분씩 번갈아 바뀝니다. 추가 된 두 번째 일정은 두 마리의 비둘기 모두 동일합니다. 노란색 키로 신호 한 VI 15 초 (이렇게 두 개의 신호가있는 일정을 교대로 여러 일정이라고 함). 따라서, 비둘기 A는 멀티 VI VI 15 (녹색 및 황색 자극)의 다중 VI 30 VI 15 (빨간색 및 노란색 자극) 및 비둘기 B에 있습니다. 요약하면, 두 실험 조건은 다음과 같습니다 (() 안의 자극 색상).

실험 A : VI 30 (적색); 멀티 VI 30 (적색) VI 15 (황색)

실험 B : VI 15 (녹색); 멀티 VI 15 (그린) VI 15 (옐로우)

이제 각 비둘기의 두 번째 조건을 살펴보십시오. 당연히 B의 녹색 응답률은 변하지 않습니다. 그에게 변한 모든 것이 핵심 색입니다. 녹색에서 항상 녹색과 노란색으로 번갈아 가며, 동일한 보수로. 그러나 VI 30 자극은 적색으로 응답 속도가 많이 떨어지며, A에 대한 노란색 응답 속도는 VI 15 초 스케줄이 두 경우 모두 동일하더라도 B의 노란색 응답 속도보다 상당히 높습니다. 비둘기 A에 의한 황색 자극에서의 반응에 대한 효과는, 주어진 일정이보다 희박한 것과 교대로 작용할 때의 반응 속도의 증가를 양성 행동 대조 라고하고, 비둘기 A에 대한보다 희박한 계획에서의 비율 감소가 음성 대조이다.

첫 번째 조건에서 빨간색과 초록색 자극이있는 상태에서 B가 응답하면 두 반응의 강도가 동일해야합니다. 그러나 제 2 조건에서 2 마리의 동물에 대한보다 풍부한 일정에 따라 지불 된 대안적인 황색 자극을 가하는 것의 매우 다른 효과는 그것이 그렇지 않다는 것을 보여준다.

응답률이 operant 응답의 '강도'에 대한 적절한 척도라는 합의는 잘못되었습니다. VI 일정에 의해 유지되는 안정적인 비율은 잘못된 것입니다. 그것은 힘의 간단한 측정처럼 보입니다. Skinner의 질서에 중점을두고 있기 때문에 평균 응답 및 피드백이 많은 동시 가변 간격 계획이이를 제공하는 것처럼 보였고 응답 확률과 응답률을 동일시하기가 쉽기 때문에이 아이디어는 근원적이었습니다. 그러나 1950 년대에도 소위 말하는 차등 보강 저 (DRL) 일정에 의해 응답률 자체를 조작 할 수 있다는 것은 잘 알려져있었습니다.

결론 Skinner의 단일 유기체 방법과 주문에 대한 욕구의 2 가지 요소가 응답율을 조작자 조절에서 주요한 역할을하도록 공모했다. 비율은 응답 강도의 척도로 가정했다. 그러나 세 번째 요인 인 이론에 대한 경멸은이 연계가 결코 크게 검토되지 않았다는 것을 의미했습니다. 그것은 당연히 거짓말입니다 : 응답 속도는 응답 강도와 동일하지 않습니다. 실제로, 힘의 개념 자체는 잘못 정의되어 있습니다. 따라서 현장에서 종속 변수로 응답률을 강조하는 것은 실수 일 수 있습니다. 강점 아이디어가 속도 저하를 극복하는 것이면, 더 많은 것이 필요합니다 : operant 반응을 조절하는 요인에 관한 이론. 그러나 스키너 (Skinner)는 학습 이론이 필요하지 않다고 성공적으로 선언했기 때문에 수년간 적절한 이론이 발표되지 않았습니다 (Skinnerian 이론의 역사에 대한 자세한 내용은 2014 년 새로운 행동주의 참조).