거짓 긍정에 대한 두려움

나는 열쇠를 알고있는 유일한 신이다 / 번개 화살이 봉인 된 병기로. / 여기 필요 없어. / 너를 설득하게 해줘. ~ Aischylos : Eumenides [1]

네이처 지에 게재 된 많은 논문에서 Benjamin과 71 명의 공동 저자들은 유의 수준이 p <.05에서 .005의 현재 협약에서 강화 될 것을 요청합니다. 논쟁은 심리학의 발표 된 기록에는 너무 많은 가양 성 결과가 포함되어있어 사스 쿼치 (Sasquatch) 나 사회적 프라이밍 (social priming)과 같은 사실을 믿을 수 없게합니다. 중요도 임계 값을 낮추면 오탐 (false positive)의 발생률을 줄일 수 있습니다. 동시에, 새로운 협약이 채택된다면 복제 위기를 해결하는 데 도움이 될 것이라고 그들은 말한다. 아니면 그럴까? 주어진 통계력 수준에서 .05 결과를 복제하기가 어렵다면 동일한 전력 수준에서 .005 결과를 복제하기가 어려울 것입니다. 통계적 힘은 최초의 발견이 사실이라면, 즉 틀린 긍정이 아니라 참인 경우, 주어진 확률로 [관례에 따라 정의 된] 의미를 발견 할 확률 [통상적으로 .8]임을 기억하십시오. 그들의 제안을 복제 위기와 양의 관계가있게 만들기 위해, 저자는 새로운 가설 테스트에만 적용되는 낮은 유의도 임계 값을 제안합니다. 즉, 우리는 p <.005 인 경우에만 새로운 연구를보고하고 p <.05로 복제 할 수 있도록 요청합니다. [이 제안은 우리가 어떻게 참신한 시험이 무엇인지를 아는 것의 문제를 야기한다.]

이 나사 조임 제안은 재미 있지만 일관성이 없습니다. 하나님이 사랑하시는 p. = .045 (그리고 겔만의 증거)보다 사랑이 덜하다 (또는별로 크지 않다)라는 오래된 말을 기억하십시오. 이제 신은 또한 어느 연구가 먼저 수행되었는지에 대해별로 신경 쓰지 않고 나중에 참된 가설 테스트로 간주되게됩니다. 이러한 연구의 순서는 이론적으로나 통계 학적으로 무의미하다 (Krueger, 2001). 첫 번째와 두 번째 연구를 다른 통계 기준에 맞추기를 원한다면 우리는 그 논증을 역으로 할 수도 있습니다. 초기 가설 테스트에서 쉽게 알 수 있기 때문에 쉽게 알 수 있습니다. 초기 시험은 확증이 아닌 탐험이다 (Sakaluk, 2016). 초기 테스트는 과학자의 포식 방법입니다. 이 과학자는 쉬운 초기 테스트를 통해 나중에 막 다른 골목으로 끝나는 많은 단서가 생길 것이라는 것을 이해하지만 그와 같은 테스트가 나중에 사실적 발견으로 간주 될 많은 결과를 나타낼 것이라는 것을 이해합니다.

Benjamin et al. 가짜 부정적인 오류의 위험을 안다.하지만 그들은별로 염려하지 않는다. 이 우려의 부족은 여분의 통계입니다. 그것은 가치 판단입니다. 그들이 거짓 긍정의 공포가 거짓 음성의 공포보다 더 크다고 믿는다면, 그들은 더 엄격한 p 임계 값을 옹호해야합니다. 그들은 더 엄격한 p 임계 값을 옹호하기 때문에 오탐 (false positive)을 싫어한다는 것을 역으로 추론 할 수 있습니다 (Krueger, 2017). 그러나 우리 중 일부는 주장했듯이, 전통적인 관행의 변화를 고려할 때 과학이 어떤 방향으로 나아갈 지 고려해야합니다 (Fiedler, Kutzner, & Krueger, 2012). 그러나 p 임계 값의 변화에 ​​따라 가양 성 및 거짓 음성이 변하는 비율을 예측할 수 있다는 점에서 통계적으로 고려해야 할 사항이 있습니다. 시뮬레이션 실험에서 p 임계 값을 낮추면 유도 추론의 전반적인 타당성이 떨어집니다 (Krueger & Heck, 2017). Misses의 비율이 False Positives의 비율보다 더 가파르게 상승하기 때문에 이렇게됩니다. 이러한 발견에 비추어 의미 임계 값을 낮추라고 주장하는 것은 진정한 긍정에 대한 유용성보다는 거짓 긍정에 더 큰 불감을 두는 것이다.

왜 .005가 아니라 .01 또는 .001이 아닌가? Benjamin et al. 선택의 폭이 실용적 인 것처럼 임의적이라는 것을 인정합니다. 그것들은 사회적 증명 (많은 사람들이 선호하는)과 그것과 관련된 베이 즈 요인의 증가를 나타냅니다. p 값이 낮을수록 대안 가설을 선호하는 BF가 높아진다. 이것은 저자들 사이의 베이 즈안 (Bayesians)에 대한 진실의 순간입니다. BF는 p 값의 로그 선형 변환입니다. 사전 통계가 포함될 때까지는 통계가 추가되지 않지만 그 점은 또 다른 이야기입니다.

72 명의 저자 보고서는 중요성 테스트에 대한 비판적 문헌에서 비롯된 것입니다. 이 문헌은 두 가지 주장으로 요약됩니다.

  1. p 값은 일관성이없고 신뢰할 수 없다는 의미에서 치명적인 결함이 있습니다.
  2. p 값은 충분히 낮지 않습니다.

72는 후자를 강조하여 전자를 덜 강조한다. 분명히 두 가지 불만을 같은 논문에 기록하는 것은 어려울 것입니다. 그것은 오래된 유태인 퀴프와 같을 것입니다. "음식은 끔찍했고 그 부분은 너무 작았습니다!"

세 번째 요점은 통계적 기초가 아니라 사용에 관한 것입니다. 비평가들은 연구자들이 "무언가"의 존재 또는 부재에 대해 범주 적 추론을하기 위해 의미없는 문지방을 어리석게 사용한다고 불평합니다. 피셔 또는 네이먼과 피어슨조차도 엄격한 의사 결정을지지하지 않았습니다. Fisher는 거의 다른 것이 알려지지 않았을 때 .05를 합리적인 기준으로보고 Neyman과 Pearson은 연구자가 두 가지 유형의 오류의 상대적인 유틸리티에 따라 .05, .01 또는 .001을 사용해야한다고 제안했습니다. 이제 72 년은 규범 적 변화, 사회적 합의와 편집 평의의 구속력이있는 새로운 중요성 기준을 요구하는 것에 가까워졌습니다. 이것으로, 72 세는 ST의 추기경 로 비난받는 것을 저질렀는데, 그 사이에 밝은 선을 그린다.

참으로 밝은 선 카테고리의 심리가 있습니다. 초기 Tajfel (예, 1969)은 임의적 (그리고 비 임의적) 범주화의 다양한 결과를 이해하는 방법으로 강조 이론 을 제안했습니다. 그는 연속체에 놓인 값이 경계 지점의 왼쪽 (작게) 또는 오른쪽 (큰)면에있을 때 각각 작고 큰 것으로 인식되는 복제 가능한 결과를보고했다 (Krueger & Clement, 1994). 통계 지표 및 의사 결정의 영역에서의 지각 강조는 ST에서 나오는 특별한 질병이 아닙니다.

72 보고서에 숨어있는 마지막 합병증은 과거 결과와 관련이 있습니다. 아마도 72는 .05> p> .005 인 모든 결과가 무시된다는 것을 의미합니다. 사실,이 결론은 그들의 제안에서 따릅니다. 위에서 언급했듯이 하나님 (그리고 피셔)은 결과의 상대적인 연대기에 관심이 없다. 여기서 72는 차이를 만들 수 있습니다. 그들은 기록을 세우고 .05> p> .005로 자신의 모든 과거 결과를 거부 할 수 있습니다. 나중에 이러한 결과가 복제 될 가능성은 중요하지 않습니다. 왜냐하면 자신의 논리에 따르면 결코 발생하지 않았기 때문입니다.

[1] Aischylos는이 말을 아테나의 입에 넣고 권위에 대한 설득의 힘을 강조한다. 마찬가지로 우리의 과학적 관행은 권위에 의한 선포가 아니라 합리적인 주장에 응답해야합니다.

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.-J., Berk, R., … Johnson, V. (2017, July 22). 통계적 유의성을 재정의하십시오 . osf.io/preprints/psyarxiv/mky9j에서 가져옴

Fiedler, K., Kutzner, F., & Krueger, JI (2012). a-control에서 타당한 타당성에 이르는 길 : 근시안간의 가짜 토론에 대한 문제. 심리 과학에 대한 전망, 7 , 661-669.

Krueger, J. (2001). Null 가설 중요성 테스트 : 결함이있는 메소드의 생존. 미국 심리학자, 56 , 16-26.

Krueger, JI (2017). 역 추론. SO Lilienfeld & ID Waldman (Eds.), 심리 과학 : 최근 과제와 제안 된 해결책 (110-124 페이지). 뉴욕, 뉴욕 : Wiley.

Krueger, J., & Clement, RW (1994). 여러 카테고리에 대한 메모리 기반 판단 : Tajfel의 강조 이론의 개정 및 확장. 성격 및 사회 심리학 저널, 67 , 35-47

Krueger, JI, & Heck, PR (2017). 유도 통계적 추론에서의 p의 발견 적 가치. 심리학의 최전방 : 교육 심리학 [연구 주제 : 사회 과학 연구의 인식 론적 및 윤리적 측면]. https://doi.org/10.3389/fpsyg.2017.00908

Sakaluk, JK (2016). 작은, 큰 확인 : 누적 및 복제 심리 연구 발전을위한 새로운 통계에 대한 대안 시스템. Journal of Experimental Social Psychology, 66 , 47-54.

Tajfel, H. (1969). 편견의인지 적 측면. Journal of Social Issues, 25 , 79-97.