새로운 종류의 투시

한 아버지가 몇 년 전에 미네 아 폴리스 근처의 대상 상점으로 걸어 들어갔다. 대상이 아기 옷, 출산 착용 및 관들을 보급하는 십대 딸에게 보낸 쿠폰을 손에 쥐고 있었다. "[내 딸이 임신을하도록 장려하고 있습니까?] 그 남자는 매니저에게 불평했습니다.

뉴욕 타임즈 의 찰스 두휴 (Charles Duhigg)의 보도에 따르면, 대상 관리자는 그 자리에서 난처한 오류를 사과하고 두 번째로 사과 할 사람까지 불렀다. 하나의 문제가있었습니다. 타겟이 결국 오류가 아니 었습니다. 그녀의 부모에게 알려지지 않은 문제의 고등학교 소녀는 실제로 임신했다.

Target의 마케팅 그룹은 그녀의 구매 패턴이 Target의 Big Data 분석을 기반으로 예측 한 방식으로 최근에 변경되어 그녀가 두 번째 삼 분기에 들어서고 있기 때문에 그 소녀가 기대하고 있다고 직관했습니다. Target의 데이터 분석에 따르면 예를 들어, 냄새가 좋은 로션을 구입할 때부터 무향의 로션으로 갑자기 전환하는 여성은 임신 한 지 약 4 개월이됩니다 (임산부는 종종 강한 냄새를 싫어합니다). 그래서 타겟 (Target)은 그러한 여성들에게 쿠폰을 우송하기 시작하여 그들이 출산했을 때 필요한 모든 것을 홍보했습니다.

미네소타 사건과 마찬가지로 법적으로 자녀가있는 여성에게도 마찬가지입니다.

타겟 스토리는 인간의 행동에 관한 두 가지 중요한 개념을 보여줍니다.

첫째, 하나의 행동 (스킨 로션)은 안정적으로 또 다른 행동을 예측할 수 있습니다 (출산). 저널 네이처 (Nature ) 지에 게재 된 2013 기사에 설명 된 또 다른 예는 용어 "부채"에 대한 인터넷 검색 량이 단기간 주가 하락의 통계적으로 유의 한 예측을 제공함을 보여줍니다.

아래 차트는 "부채"라는 용어의 Wikipedia 페이지 뷰의 양을 다우 존스 산업 평균과 비교합니다. "빚"에있는 Wikipedia 수색 관심사는 참으로 몇몇 예측 가치 예측 시장 하락을 가지고 있습니다. 여기서 인터넷상의 검색 행동은 주식 시장에서의 판매 행동을 예측했다. (아마 사람들은 주식을 팔아서 갚기 전에 부채 검색에 대해 걱정할 것입니다.)

Eric Haseltine/Wikipedia
출처 : Eric Haseltine / 위키피디아

이 예는 표적의 향내 – 로션 경험에서 나오는 두 번째 중요한 교훈을 보여줍니다 : 추론 통계의 힘을 통한 매우 높은 "N"(많은 표본 수)은 한 인간 행동과 다른 행동 사이의 미묘하지만 일관된 관계를 나타낼 수 있습니다. 방금 제시된 "부채"분석은 200,000 개가 넘는 Wikipedia 페이지 뷰에서 파생되었습니다.

웹에서 파생 된 "빅 데이터 (Big-Data)"의 예측에 대해 생각해 볼 수있는 한 가지 방법은 대상과 유사한 사설 데이터 네트워크와 함께 인터넷이 전례없는 규모의 행동에 대한 통계 및 통찰력을 제공하여 인류를 철저히 계측하는 것입니다. 예를 들어, Target, Walmart, Amazon, Google 및 다른 사람들이 축적 한 개인 데이터의 방대한 저장 외에도 35 억 명이 거의 이제 웹을 사용하여 Big Data 분석을 위해 다양한 사용 기록을 남깁니다.

Big Data가 행동 과학자의 손에 넣은 권력에 대한 흥미로운 최근 사례는 정치 과학의 영역에 있습니다. 최근 트 럼프 대통령 선거에서 많은 놀라움을 낳은 폴링 오류에 대해 많은 부분이 만들어졌습니다. 그러나 빅 데이터에 그들의 코가 묻힌 사람들에게는 선거가 전혀 놀랄 일이 아니었다.

2004 년, 2008 년, 2012 년 및 2016 년의 선거 전 대선 후보 및 각 선거의 최종 우승자에 대한 Google 검색 량 (2016 년, Wikipedia 페이지 뷰)과의 관계를 살펴보십시오.

Eric Haseltine/Google Trends/Wikipedia
출처 : Eric Haseltine / Google 트렌드 / 위키 백과

네 차례 총선에서 선거 이전에 인터넷 검색에 관심을 보인 사람 (후보자를 검색하거나 위키 피 디아에서 사람들을 검색하는 사람들)도 선거의 당선자였다. 후보자에 대한 투표자의 호기심 수준은 아마도 후보자에 대한 투표 가능성과 관련이 있습니다.

이 시점에서 빅 데이터 상관 관계가 완벽하지는 않다는 사실을 관찰하는 것이 중요합니다. 하버드 로스쿨 졸업 및 경영 컨설턴트 인 타일러 비겐 (Thyler Vigen)은 그의 저서 < 가짜 상관 관계 (Spurious Correlations)> 에서 통계에 관한 깊은 진실을 설명합니다. 상관 관계는 원인을 증명하지 않습니다.

예를 들어, Vigen은 1 인당 마가린 소비와 메인 주에서의 이혼율간에 거의 완벽한 상관 관계가 있음을 보여줍니다. 그러나 마가린 소비가 이혼을 일으킨다 고 주장하는 사람은 거의 없다.

출처 : 타일러 비겐

극도로 높은 "N"의 데이터 소스 (문자 그대로 웹에서만 액세스 할 수있는 수십억 개의 서로 다른 데이터베이스)로 인해 이와 같은 무작위 상관 관계가 발생하지는 않을 것입니다.

Vigen이 밝혀낸 다른 "가짜"상관 관계는 다음과 같습니다.

  • 일인당 치즈 소비량과 침대 시트에서 엉망이되어 사망하는 사람들의 수 (연간 600+ 이상).
  • 어선에서 떨어지고 켄터키에서 결혼 한 후 익사 한 사람들.
  • Scripps National Spelling Bee에서 승리 한 단어의 수와 악의에 찬 거미 물린으로 인한 사망자 수.

내 관심을 끌었던 Vigen의 가짜 상관 관계 중 하나는 미국에서의 일본 자동차 판매와 미국 자동차에서의 자살 사이의 강력한 연결 고리였습니다.

Tyler Vigen
출처 : 타일러 비겐

얼굴에이 자동차 판매 / 자살 93.5 %의 상관 관계는 자살에서부터 자살에 이르기까지 모든 것을 담고있는 데이터의 바다에 개별 시계열 패턴 (예 : 연간 자동차 판매량)을 "딥 (dip)"할 때 기대할 수있는 종류의 인공물 인 것으로 보입니다. 치즈 소비량을 켄터키의 연례 결혼율에 비례하는 것으로 나타났습니다.

그러나 과학의 역사는 언뜻보기에는 의미가없는 무작위 발견의 사례가 풍부합니다. 빅뱅에 대한 강력한 증거는 전기 통신 수신기에서 설명 할 수없는 "잡음"으로 처음 나타났습니다. 아인슈타인의 일반 상대성 이론의 증거는 궁극적으로 태양 주변의 수성 궤도의 원점 (근일점)의 타이밍에서 기묘한 이상에서 발견되었습니다. 플레밍 (Fleming)이 박테리아의 페트리 접시에서 예기치 않은 사각 지대를 발견했을 때 페니실린이 발견되었습니다.

큰 숫자의 법칙에 따라 "Big Data"분석이 무작위 상관 관계의 과다한 부분을 밝혀내는 것과 마찬가지로, 같은 법칙에 따라 때로는 무작위 관찰이 페트리 접시의 사각 지대와 같은 예기치 않은 결과를 발견 할 수 있다고 규정되어 있습니다. 더 자세히 봐.

일본 자동차 판매에서 일본 자동차 회사에 근무하면서 자동차 판매 / 자동차 자살 상관 관계가 너무 무작위 적이 아닐 수도 있습니다. 미국 자동차 브랜드 판매가 감소하면서 일본 자동차 판매가 증가하면서 미국의 노동력이 부진한 상황에서 우울증을 유발할 수 있습니다.

이 가능성을 탐색하기 위해 Vigen의 분석과 동일한 기간 동안 미국 브랜드 자동차 판매 (아래 파란색 선)를 비교했습니다. 비교는 일본 자동차의 판매량과 미국 자살 사이의 그럴듯한 연결 고리를 암시한다.

Tyler Vigen/USDT/Eric Haseltine
출처 : Tyler Vigen / USDT / Eric Haseltine

2000 년부터 2001 년까지 미국 자동차 브랜드의 판매가 일본 자동차 판매에 비해 증가했을 때 미국 자동차의 자살은 약 1 년 후에 다소 감소했습니다. 2001 년 미국 자동차 판매가 감소하기 시작한 2002 년 미국 자동차 자살은 1 년 후 증가했다. 2005 년 미국 브랜드 자동차 판매가 급격히 감소한 지 1 년 후 자동차 관련 자살이 급격히 증가했다.

미국 자동차 판매가 하락세를 타고 미국에서 자동차로 자살 한 이유 중 하나는 자동차 업계에서의 불황과 업계에 의존하는 수천 개의 사업을 해체 시켰기 때문입니다. 미국 예방 의학 저널 (American Journal of Preventative Medicine) 의 최근 기사에 따르면 경기 후퇴로 인해 자살이 증가 할 가능성이 높습니다. Drs. Lancet Psychiatry에 기고 한 Webb와 Kapur는 2006 년과 2007 년에 실업률이 연간 40,000 건 이상, 2008 년 경기 침체가 그 해 4,000 건 이상의 자살을 초래 한 것으로 나타났습니다.

아래 차트에서 하단의 갈색 선은 자동차 분야의 미국 전체 고용을 나타냅니다. 일본 자동차 판매가 증가하면서 미국의 일자리가 실제로 증발했다.

Tyler Vigen/USDT/Eric Haseltine
출처 : Tyler Vigen / USDT / Eric Haseltine

마지막으로 CDC 자료에 따르면 미국 브랜드 자동차 판매가 10 년 간 감소한 동안 미국의 자살률 (녹색 줄은 아래)이 꾸준히 상승했습니다.

Tyler Vigen/USDT/USDL/CDC/Eric Haseltine
출처 : Tyler Vigen / USDT / USDL / CDC / Eric Haseltine

일본 자동차 판매와 미국 자동차의 자살 사이에 실질적인 연관성이 있음에도 불구하고, 자동차 산업 고용과 일본 자동차 판매 모두에서 큰 폭의 하락이 있었던 2009 년의 자동차 자살의 급격한 감소는 자동차와의 관계 판매, 실직, 자살 대행은 간단하지 않습니다.

매년 자동차로 자살하는 숫자 (약 100)가 너무 적어서 실업, 자동차 판매 또는 기타 다른 것들에 대한 확고한 결론을 내릴 수는 없다는 점을 지적하는 것도 가치가 있습니다.

또한, 주어진 자동차 충돌이 정말로 자살인지 여부를 결정하는 어려움은 그 그림을 더욱 흐리게 만듭니다. 2009 년 미국의 자살률이 상승한 것을 감안할 때 자동차로 인한 자살 사례가 급격히 줄었고 자동차 통계에 의한 자살의 신뢰성은 의심 스럽습니다. 필립스 (Phillips)와 동료들은 자살에 대한 대중 매체를 통한 자살, 특히 "자필 고양이"자살로 인해 자살에 대한 보도가 급격히 줄어들 었다고 강력하게 시사했다.

이러한 모든 경고에도 불구하고 자동차 판매 / 자살 이야기는 예상치 못한 빅 데이터 상관 관계를 부인하지 말라고 가르치기 때문에주의를 기울일 가치가 있습니다.

생각하기를 그만하면 페니실린의 발견과 같은 예기치 않은 발견은 게임 체인저가 될 수있는 엄청난 잠재력을 가지고 있습니다. 왜냐하면 그들이 현재 세계에 대한 우리의 이해에 부합하지 않기 때문입니다. 그래서 우리가 예기치 않은 것을 발견했을 때 우리는 자연에 대한 우리의 이해를 근본적으로 바꿀 기회를 갖게되었습니다.

그 정신으로 미국의 미래 경제 전망에 대해 예기치 않은 무언가가 있습니다. 아래 그림에서 파란 선은 지난 12 년 동안의 미국 국내 총생산 (GDP, 경제적 산출 지수)을 보여 주며, 들쭉날쭉 한 빨간색 선은 "Happy Belated Birthday"에 대한 Google 검색 량을 나타냅니다. "생일"보다 6 개월 늦은 GDP 데이터는 GDP와 사람들 사이에 매우 높은 상관 관계 (.96)를 보여 주며 "해피 베티 탄 생일"을 6 개월 앞당겨 검색합니다 ( "해피 베이트"와 거의 비슷한 상관 관계가 있음). "Funny Happy Birthday").

Google Correlate
출처 : Google Correlate

즉, 적어도이 데이터 세트의 경우 생일 인사말 관련 검색 량 (온라인 생일 인사말을 찾는 사람들 일 가능성이 높음)은 미국 경제 산출량에 대한 6 개월간의 강력한 예측 지표입니다.

켄터키에서 낚시 보트 익사와 결혼 사이의 연관성과 같이이 상관 관계가 가짜인지 아니면 실체적인 것인가? 직감은 상관 관계가 가짜라고 말합니다.

Ramon Espelt Photography/Shutterstock
출처 : Ramon Espelt 사진 / Shutterstock

그러나 링크가 의미있는 방법을 생각할 수 있습니다. 예를 들어, 사람들이 다음 6 개월 내에 정리 해고에 대한 걱정으로 소비 될 때, 생일 인사말을 보내는 데 시간이 덜 걸리는가? Google 조사원은 총체적으로 경제가 경제보다 어디로 향하고 있는지 더 많이 알 수 있습니까? 그리고 이러한 인식은 경제 통계보다 훨씬 앞서 Google 검색 행동의 변화에 ​​나타날 수 있습니까?

생각해 볼만한 가치가 있습니다 … 특히 최근에 "해피 엎드러 진 생일"에 대한 검색 (차트 오른쪽 끝 부분 참조)이 매우 급격한 급락을 감안할 때 그렇습니다.