너는 너처럼 ‘

소셜 미디어에 대한 귀하의 행동이 귀하에 관해 무엇이라고 말합니까?

금요일에 Facebook은 Cambridge Analytica (CA)를 금지했습니다. 우리는 선거 직후부터 2016 년 미국 대선에서 CA의 고유 타겟 광고 접근법이 수행 한 역할에 대해 이야기 해 왔습니다. 이 훨씬 더 최근의 금지는 데이터 관리 프로토콜 위반 ( 데이터 수집, 전송 및 저장 방법을 광범위하게 다루는) 때문에 발생했습니다. 이러한 데이터가 사용 된 방식이 아니기 때문에가 아닙니다. 학술 연구원 (Aleksandr Kogan)은 Facebook에서의 행동 패턴으로부터 사용자의 인격을 추정하도록 설계된 앱에 사용자가 옵트 인하도록 요청하여 데이터를 수집했습니다. 문제는 코간 박사가 데이터를 다른 사람에게 제공하기 시작했을 때부터 시작되었습니다. CA는 데이터를 액세스하고 사용했기 때문에가 아니라 페이스 북에서 적절한 채널을 통과하지 않았기 때문에 Facebook에서 금지되었습니다. 페이스 북은 데이터 관리 프로토콜의 중단에 대해 알아 냈고 CA가 데이터를 삭제하도록 요청했습니다. CA는 동의했지만 페이스 북은 거짓말 쟁이로부터 거짓말을 한 것으로 밝혀 졌으므로 이제 CA는 금지됩니다.

Blogtrepreneur/flickr

출처 : Blogtrepreneur / flickr

그러나 가장 주목받는 것은 데이터가 사용 된 방법입니다. 겉보기에 무해한 온라인 행동이 사용자의 특성을 예측하는 데 사용될 수있는 정도는 대부분의 사람들에게 충격적입니다. 이러한 예측 및 타겟팅은 귀하의 신원과 연결될 수있는 행동 (온라인 또는 이메일 주소 또는 사이트 쿠키를 비교하여 웹 사이트의 개인을 추적하는 소셜 미디어 프로필을 통해 또는 ‘실제 세계’에서 언제든지 발생할 수 있습니다. 다른 신용 카드사와 신용 카드를 사용하여 다른 매장에서 구매 한 경우). 대부분의 예측은 백그라운드에서 이루어지며 소비자는 거의 생각하지 않으며 데이터를 수집하고 사용하는 것에 대한 동의는 대부분의 사용자가 생각없이 클릭하는 사용자 동의서에 있습니다.

네가 ‘좋아하는 것’이 너에 대해서 말하는거야.

우리는 사람들이 특정 정치인이나 단체를 좋아하거나 따르는 것을 보면서 정치적 오리 엔테이션 같은 것을 추측 할 수 있다는 것을 쉽게 이해합니다. 연구자가 정치인에 의해 정치적 지향을 추론한다면, 우리는 그 얼굴을 유효한 데이터라고 부를 것입니다. 다시 말해, 지원되는 정치인은 우리가 예측하려고하는 것과 분명히 관련되어 있습니다 (정치적 지향).

덜 직관적 인 것은 대부분의 경우 – 개인의 모든 특성은 아니지만 – 당신에 대해 알려진 모든 정보로 추측 할 수 있습니다 (불완전하더라도). 정확한 견적을 제공하기 위해 조치가 유효한 얼굴 일 필요는 없습니다. 한 가지가 다른 것과 지속적으로 관련되어 있다는 것을 입증 할 수 있다면 그 링크가 명백하거나 인과 관계가 있는지는 중요하지 않습니다. 중요한 것은 링크가 존재한다는 것이며, 이제는 링크를 사용하여 예측을 할 수 있습니다. 이것은 일반적으로 경험적, 상향식 또는 데이터 중심의 측정 방식이라고합니다. 이러한 약하지만 (0이 아닌) 많은 정보를 모으면 유효한 추론을 할 수 있습니다. 이는 집계 원칙의 예입니다. 데이터의 일부 또는 전체가 품질이 좋지 않을지라도 더 많은 데이터가 항상 우수합니다. 물론 예측의 정확도를 높이기 위해 고품질 데이터가 덜 필요합니다. 그러나 고품질 데이터가 의심 스럽거나 (예를 들어, 직접적이고 얼굴에 효과적인 측정법에 놓인 것에 대한 우려) 사용이 불가능하거나 (예 : 수백만 명의 인터넷 사용자에 대한 심층 측정) 사용할 수없는 경우, – 품질 데이터는 정상적으로 처리됩니다.

몇 년 전 Michal Kosinski (Stephen Colbert가 아주 잘 요약 한)의 논문은 페이스 북이 좋아하는 그런 얼굴이 아닌 방법이 어떻게 구성 될 수 있는지를 보여주었습니다. 컴퓨터를 사용하여 각 성격 특성 또는 인구 통계 학적 결과를 예측하는 것과 같은 가능한 모든 조합을 테스트하여 연구원은 사용자의 성격, 성적 취향, 정치적 제휴 등을 효율적으로 추정 할 수있었습니다. 연구자가 관심있는 결과의 실제 상태 (흔히 훈련 또는 개발 샘플이라고 함)를 알고있는 사람들의 그룹에서 이러한 알고리즘을 개발하면 결과를 알 수없는 새로운 사람들에게 적용될 수 있습니다. Facebook이나 Twitter에서 자신의 데이터를 사용하여 사용해 볼 수 있습니다. (이 웹 사이트는 CA 스캔들에 연루된 연구원과 관련이 없으며 이러한 사람들이 귀하의 정보를 부적절하게 만들었거나 의심 할 이유가 없지만 다른 사람이 귀하의 데이터에 액세스 할 수있게 할 때 언제든지 귀하의 데이터.)

예측 알고리즘을 통해 내 Facebook 프로필을 실행하면 내가 여성 (내 최고의 예측 자 중 하나 : Vin Diesel을 좋아함), 경쟁력 (Sephora를 좋아하기 때문에), 그리고 매우 똑똑하다는 것을 정확하게 알 수 있습니다. 윌 스미스). 하지만 완벽하지는 않습니다. 알고리즘은 내가 불행하다는 것을 잘못 추측합니다 (나는 맹비약을 좋아하기 때문에 맹세하지 않습니다). 또한 흥미로운 점은 이러한 접근 방식이 여러 특성을 알리는 데 사용되는 동일한 예측 자로 이어지는 방식입니다. Starbucks와 Barack Obama의 좋아하는 점이 나에 대한 거의 모든 예측에 기여한 요인으로 나타납니다. 그러나 이러한 알고리즘의 목표는 각 사람에 대한 완벽한 예측은 아닙니다. 이는 대규모로 데이터를 수집하고 사용함으로써 평균적으로 정치 광고 및 기업 광고를보다 효율적으로 타겟팅하고 (비용을 절감하고 영향을 극대화 할 수 있도록), 학술 / 과학적 관점에서 볼 때 참여자의 시간을 절약 할 수 있습니다. 그것을 공유하고자하는 한 기존 데이터로 추정 할 수있는 수백 가지의 질문을합니다.

참고 문헌

Kosinski, Stillwell, & Graepel (2013). 사적 특성과 속성은 인간 행동의 디지털 기록으로부터 예측 가능하다. 국립 과학 아카데미 회보.