Statsman 항상 두 번 반지

결과 패턴을 다시 한 번 살펴보십시오.

출처 : Matej Kastelic / Shutterstock

심리학의 과학 분야에서주의를 기울이는 사람들은 다른 유령이 거리를 돌아 다니고 있다는 것을 알고 있으며 그 이름은 복제 실패 입니다. 대부분의 연구 결과, 워치 독 및 경계 요원은 거짓말, 심리학, 의학에 대해 알려주고 주님은 다른 곳을 알고 있습니다. 그 이유는 많지만, 목록 맨 위에는 인간의 헛소리가 있습니다. 총체적으로,이 속임수는 p 해킹 (p-hacking) 이라는 별명으로 알려져 있습니다. ‘p’는 통계적 유의성 테스트에서 얻은 p 값을 나타내며 ‘해킹’은 이러한 p 값을 기존 0.05 임계 값 이하로 낮추어 수사관이 신고 할 수있는 (자기) 사기성 사례 모음을 의미합니다. 소음에 대한 귀무 가설은 얻어진 데이터가 희박해질 것이라는 의미에서 중요한 결과이다.

예를 들어 .03이라는 p- 값으로 단일 연구를 생각해 보면이 결과만으로 해킹 된 것으로 결론 지을 수는 없습니다. 연구자가 비즈니스에 어떻게 나갔는지에 대한 정보가 필요하거나 공개 패턴을 찾기 위해 복제 연구의 결과가 필요합니다. 복제 시도가 한 번 있고 p = .07을 산출한다면 첫 번째 연구만으로 귀무 가설에 대한 승리를 선언하는 것처럼 원래의 발견을 무효로 선언하는 것은 무모 할 것입니다. 더 많은 데이터가 필요합니다.

여러 개의 복제 연구가 있다고 가정 해보십시오. 이제 그 음모가 두껍습니다. 우리는 p- 값 분포를 관찰하고 p- 곡선 분석 도구를 배치 할 수 있습니다 (Simonsohn, Nelson, & Simmons, 2014). 기본 개념은 모든 합리적인 가정하에 p 값의 빈도 분포가 왜곡 될 수 있지만 단조로울 수 있다는 것입니다. 로컬 피크가 없어야하며 .05와 .01 사이의 달콤한 영역에 특별한 피크가 없어야합니다.이 영역은 의미를 산출하고 리소스를 절약합니다. 이 귀중한 가설은 허위 귀무 가설 하에서 p 값의 분포가 참 귀무 가설 하에서 평평하고 (더 작은 p 값으로) 편향되어 있음을 알기 때문에 의심 스럽다 (Krueger & Heck, 2018) .

P- 곡선 분석은 이용 가능한 정보를 이용하지 않습니다. 연구 세트를 살펴보면 표본 크기 (또는 자유도)와 효과 크기에 대한 정보도 보유하고 있거나 계산할 수 있습니다. 연구를 통해, p 값, 표본 크기 (df), 효과 크기 (ES) 사이의 상호 관계가 드러나거나 최소한 현대의 전문가들은 “질문을 제기합니다”라고 말할 수 있습니다.

이런 종류의 접근법에 대한 잠재력을 설명하기 위해 [그리고 그것은 비현실적이지 않을 수도 있습니다.] 나는 Lasaletta et al. (2014), 다시 말하지만, 저자에게 충격을주기보다는 통계 패턴 분석을 시도해보십시오. 저자들은 향수를 불러 일으키는 마음 속에 있으면 돈의 필요성과 감사를 줄인다는 흥미로운 가설을 시험해보기를 원했습니다. 6 개의 연구에서 그들은 향수가 제품에 대한 지불 의욕을 높이고 독재자의 게임에서 관대함을 증가 시키며 돈의 중요성을 인식하고 돈의 인식 가치를 줄이며 주어진 금액에 대한 혐오스런 자극을 견뎌야 할 의욕을 증가 시킨다는 것을 발견했다 , 특정 동전의 지각 된 크기를 줄입니다. 6 개의 p- 값은 .031, .020, .045, .027, .062 및 .026입니다. 달콤한 영역의 .05와 .01 사이의 클러스터링이 허용 가능한 한 가지 예외를 제외하고는 알 수 있습니다. 저자는 전반적인 효과 크기를 예측하고, 전력 분석을 수행하고, 권장 샘플을 수집했기 때문에 걱정거리가 약할 수 있습니다. 효과 크기는 .55, .48, .46, .48, .37 및 .63입니다. 그것들은 중간 값 (d가 약 0.5인데, d는 그룹 내 표준 편차에 대한 평균값의 차이의 비율 임). 그러나 df (표본 크기), 즉, 67, 125, 81, 98, 102 및 56에도 차이가 있습니다.

이제 우리는 p, df 및 ES를 상호 연관시키고 결과가 “질문을 제기하는지”묻습니다. 다음은 우리가 얻는 것입니다. 첫째, p 값과 ES의 상관 관계 r (p, ES)은 -71입니다. 더 큰 효과 크기는 더 작은 p- 값으로갑니다. 이것은 여섯 가지 연구 모두에 대해 동일한 매체 효과를 예측하여 동일한 전력 분석과 동일한 df 결과를 얻었다면 우리가 기대하는 것입니다. 그렇다면 ES는 연구를 통해 완벽하게 동일하지 않으며 p와 음의 상관 관계가있다. 둘째, 샘플 크기 (df)와 효과 크기 (ES), r (df, ES) 사이의 상관 관계는 -.68입니다. ES가 클수록 샘플 크기가 작아집니다. 이것은 ES의 차이가 예측되고 전력 분석이 표본 크기에 대한 다른 권장 사항을 산출한다면 우리가 기대하는 것입니다. 그래서 우리는 하나의 상관 관계 r (p, ES)를 갖습니다. 일정하고 중간의 ES가 예측되어서 df가 일정해질 수 있다면 의미가 있습니다. ES의 변화가 예측되어 작은 샘플이 큰 예상 효과에 충분할 경우에는 또 다른 상관 관계 r (df, ES)가 있습니다. 그것은 하나 또는 다른 것이지 둘 다 아닙니다.

두 가지 상반되는 상관 관계를 갖는 것이 세 번째 질문에 대한 “질문을 제기한다”는 df와 p 사이의 상관 관계입니다. r (df, p) = .03이라는 것을 알 수있다. 큰 샘플은 ES의 차이가 예측되고 전력 분석이 다른 샘플 크기를 산출하는 경우 작은 샘플만큼 동일한 p 값 (평균)을 산출 할 수 있습니다. 즉, 정확한

전력 예측은 획득 된 p 값의 범위를 줄이고이를 df에서 분리합니다.

검토를 위해 ES는 p와 df와 음의 상관 관계가 있습니다. 즉, 효과 크기가 커지면 p 값과 표본 크기가 모두 작아집니다. 이것은 상충되는 결과입니다. 다시, 우리는 ES가 커지면 어떻게되는지 알 수 있습니다. p는 df의 변화없이 더 작아집니다. ES가 커지면 df는 p가 크게 변하지 않고 더 작아진다는 것을 상상할 수 있습니다. 그러나 우리는 동시에 둘 다 상상할 수 없습니다. 이제는 p와 df 사이에 어떤 종류의 상관 관계가 있는지 물어볼 수 있습니다. p와 df에 부정적 상관 관계가있는 ES에는 차이가 없다면 기대할 수 있습니다. p와 df 사이의 부분 상관 관계, ES 제어는 -.89이다. 따라서 ES의 변화가 알려지지 않은 경우 샘플이 클수록 p 값이 낮아집니다. 이것은 여기에서 일어나지 않았고 질문을 제기합니다. 왜 df가 p와 관련이없는 결과와 함께 df의 상당한 변화가 있습니까?

대체 분석

이 에세이에 응답하여 Uli Schimmack은 다음과 같은 분석을 제안했습니다.

불충분 한 차이의 테스트는 출판 편견 (또는 몇몇 다른 물고기 같은 QRPs)의 가장 강력한 테스트입니다.

1 단계
z = -qnorm (p / 2)를 사용하여 p- 값을 z- 점수로 변환합니다.

p = c (.031, .020, .045, .027, .062, .026)
z = -qnorm (p / 2)
지
[1] 2.157073 2.326348 2.004654 2.211518 1.866296 2.226212

2 단계
z- 점수의 분산을 계산합니다.
var.z = var (z)
var.z
[1] 0.02808286

3 단계
관찰 된 분산을 예상 분산과 비교한다 (z- 점수의 표준 편차 = 1)
k = p 값의 수 (6)를 갖는 pchisq (var.z * (k-1), k-1)

> pchisq (var.z * 5,5)
[1] 0.0003738066

결론 : p-value가 독립적 인 연구에서 유래 할 확률은 매우 작습니다. 피셔 (Fisher)는 오래 전에 통계학에 의해 입증 될 수있는 것이 무엇이든 발표의 관행에서 나옵니다 데이터의 선택된 일부만 사용 가능 “(Fisher 1955, p. 75) [견적을위한 Deborah Mayo에게 감사]

https://replicationindex.wordpress.com/…/the-test-of…/

참고 문헌

Krueger, JI, & Heck, PR (2018). 중요성 테스트 테스트. Collabra : Psychology, 4 (1), 11. DOI : http://doi.org/10.1525/collabra.108.

Lasaletta, JD, Sedikides, C., & Vohs, KD (2014). 향수는 돈에 대한 욕망을 약화시킵니다. Journal of Consumer Research, 41 , 713-729.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P 커브 : 파일 서랍의 열쇠. Journal of Experimental Psychology : 일반, 143, 534-547

Intereting Posts

올해 이혼으로 이적 했습니까? 클린턴이 매력적이고 기억에 남을만한 존재가되는 것을 돕는다. 부부는 사랑보다 훨씬 더 필요합니다. 파트너가 아플 때 실제로 존재하는 3 가지 방법 "Want"와 "Should"사이의 머니 전투 “음파 공격”에 대한 새로운 연구가 놀랍게도 부정확합니다 인종과 종교는 힘들다. 그들을 더럽 히지 마라. 고위험 및 노숙자 LGBTQ 청소년의 탄력성 강화 대기실에서의 두려움과 혐오 Geek Pride에 오신 것을 환영합니다! 자폐증 자서전의 스테이크 기술이 우리의 삶에 미치는 영향을 반드시 확인해야하는 비디오 행복해질 계획 훌륭한 결혼 생활을위한 마을을 만듭니다. 기쁨의 위험