작은 데이터

데이터 수집 전략을 되돌려 보겠습니다.

현재 빅 데이터 시장은 계속해서 탄력을 받고 있습니다. 모바일 장치, 항공 및 원격 감지, 카메라, 마이크, 무선 센서 네트워크 등을 통해 사용 가능한 모든 데이터 소스를 활용하십시오. 데이터는 추세를 파악하고 상관 관계를 찾기 위해 수확되기를 기다리고 있습니다. 엄청난 양의 데이터로 인해 우리는 기계 학습을 비롯한 다양한 형태의 컴퓨터 기반 검색 및 분석을 사용합니다. 빅 데이터 접근법은 엄청난 양의 정보를 고려할 수 있으므로 흥미 진진합니다. Big Data 접근 방식은 우리가 중요하지 않은 부분에 직면 할 때 불안정합니다. 알고리즘과 스마트 기계가 우리가 할 수있는 것보다 훨씬 많은 것을 알고 있음을 인정합니다.

이전에는 빅 데이터 분석이 기존 트렌드를 따르지만 이러한 트렌드를 쓸모 없게 만드는 미묘하지만 중요한 변화를 놓치지 않는 빅 데이터에 대해 불안한 몇 가지 이유를 설명했습니다. 그 에세이는 또한 자료 누락 문제를 제기했다. 사람들은 때때로 어떤 일이 발생하지 않았 음을 알아 차리고 사건이 없으면 상황을 이해하는 데 도움이됩니다. 빅 데이터는 일반적으로 발생하지 않은 이벤트를 무시하고 발생하지 않은 이벤트는 무시합니다.

그러나이 에세이는 빅 데이터의 한계가 아닙니다.

대신, 가능한 한 적은 데이터, 이상적으로는 단일 데이터 요소를 수집하려고하지만 결정을 내리는 데이터 요소는 반대 방향으로 이동하는 것이 좋습니다. 데이터 과부하로 익사하는 것보다는 모호한 신호에 초점을 맞출 때가 있습니다.

여기 몇 가지 예가 있어요.

1.이 사례는 미국 정부 분석가 트레버 해들리 (Trevor Hadley) 출신이다. 2015 년 CIA는 러시아와 중국이 지중해에서 합동 해상 훈련을 실시 할 것인지 결정하려고했다. 공식적인 진술은 없었다. 그 추세는 불분명했으며 증거는 결론을 내리지 못했습니다. 그 다음에 슈퍼 애널리스트 인 외부 분석가는 중국 소 함대를 재 공급하는 데 무엇이 필요한지 궁금해하고 사이프러스의 선박 챈들러 (chandler)에서 온라인 구매 주문을 통해 사냥을 시작했습니다. 그는 이전에는 존재하지 않았던 쌀과 국수에 대한 새로운 명령, 거대한 명령을 발견했습니다. 단지 안전을 위해, 그는 또한 지역 해안 경비대 선원들에 대한 통지를 조사하고 확증적인 증거를 밝혀 냈습니다. 그러나 트릭을 한 것은 쌀과 국수였습니다. 경우 폐쇄.

2. (이 사례는 또한 Trevor Hadley에서 나온 것입니다.) 2011 년에 프랑스는 리비아의 내전에 개입 할 의사가 있었습니까? 프랑스 인은 그러한 개입을 고려하고 있다고하더라도 정보 사회는 그러한 거부를 너무 심각하게 받아들이지 않는다는 것을 배웠다는 것을 부인했다. 프랑스 인이 개입 할 것으로 기대하는 이유가있었습니다. 예측을 시도하지 못했습니다. 예측 시장은 도움이되지 못했습니다. 그 다음에 정보 분석가는 프랑스 군이 현재 활동하고있는 국가들 – 리비아를 포함하여 -을 나열한 프랑스 군 회원들에 대한 생명 보험 규정의 변경을 제안하는 메모 인 프랑스 공무원 지시에서 모호한 진술을 발견했습니다! 이 메모는 며칠 만에 웹 사이트에서 가져와 리비아를 생략 한 버전으로 바뀌었지만 너무 늦었다. (몇 달 후 리비아에서 싸우는 프랑스 군대의 존재가 확인되었다.) 케이스가 닫혔다.

3. 미국 정부는 영국이 Brexit에 투표하는 방법을 예측하기를 원했습니다. 분석가들은 여론 조사에서 득실 거리는 정보를 찾고 있었지만 그 징후는 불투명했다. 한 관측통은 유럽 연합 (EU) 표준이 영국 가정 주부들에게 차를 만들기 위해 다른 방법을 사용하도록 요구할 것이라고 언급했다. 물을 끓여야하는 현재의 찻 주전자는 단순히 에너지가 비효율적이어서 탄소 발자국을 불필요하게 높입니다. EU는 물을 끓는 데 더 효율적인 장치가 필요했지만 5 배의 시간이 걸립니다! 빠른 효과를 위해 이웃을 초대 할 때 어떤 효과가 있었습니까? 경우 폐쇄.

4. 1990 년 미국의 정보 기관은 사담 후세인이 실제로 쿠웨이트 침공을 의도했는지 여부를 예측하려고 시도했다. 어떤 이들은 그가 공격 할 준비가되었다고 느꼈습니다. 다른 이들은 그가 아주 어리 석다는 것에 의문을 제기했다. 그들은 이라크 / 쿠웨이트 국경에서 30,000 명의 병사가 쿠웨이트를 협박하는 위협적인 전술로 보았습니다. 일반적인 유형의 증거는 결정적인 결론을 내리지 못했습니다. 이집트인들은 사담 후세인이 쿠웨이트에 대해 평준화 한 불만을 평화적으로 해결할 것이라고 믿었다. 이라크 주재 미 대사도 마찬가지였다. 쿠웨이트는 쿠웨이트와의 국경에 모든 군대를 배치 한 이후에도 쿠웨이트는 18,000 군대를 동원하지 않았고 많은 사람들이 떠날 수 있도록했습니다. 사담 후세인은 무엇을 할 것인가? 미 에너지 부 (Department of Energy)에서 일하는 한 미국 정보 분석가는 이라크 군이 1 만개 이상의 민간 트럭을 운전했다고 주장했다. 이 모든 트럭을 철거하면 모든 종류의 상업 활동이 중단되어 이라크 경제에 큰 타격을 입혔습니다. 그리고이 트럭 징계는 비밀로 유지되었습니다. 공개적으로 발표되지 않았습니다. 쿠웨이 티스는 그것이 완료되었다는 것을 몰랐기 때문에 쿠웨이트를 협박 할 수 없었다. 왜 사담 후세인은 군사 행동을 위해 트럭이 필요하다고 갑자기 결정하지 않는 한 왜 그런 일을 할까? 경우 폐쇄.

5. 도요타 런 어웨이 가속 문제. 이 문제는 Toyotas가 브레이크를 누르고 차를 늦추려는 운전자의 열렬한 노력에도 불구하고, 제어 할 수 없을 정도로 가속하게 만들었습니다. 이 사건은 국가적인 관심을 받았다. 어떤 이들은 가속 페달을 밟은 두꺼운 바닥 매트에서 문제가 발생했다고 생각했지만, 주요 오작동은 소프트웨어에서 결함으로 보였다. Toyotas는 1 억 라인 이상의 코드를 포함하고 있기 때문에 일부 소프트웨어 버그는 피할 수없는 것처럼 보입니다. 토요타는 수십억 달러의 벌금과 정착금을 지불해야했다. 그러나 인적 요소 공동체는 다른 진단을 내 렸습니다. 운전자가 실수로 가속 페달을 밟았는데 브레이크 페달이라고 생각했습니다. 차가 속도를 줄이기보다는 가속했을 때, 운전자는 브레이크가 고장 났으며 가속이 의도하지 않았고 제어 할 수 없다고 인식했습니다. 운전자는 자연스럽게 페달을 더 세게 밟았습니다. 가속 페달이 브레이크 인 것으로 믿었습니다. 이 설명을 증명하는 쉬운 방법은 없으며 데이터에 대한 많은 논란이있었습니다. 그러나 두 가지 킬러 논쟁이 있음이 밝혀졌습니다. 그 중 하나는 자동차의 블랙 박스를 조사한 결과, 폭주 가속기의 경우 브레이크 페달이 눌려지지 않은 것을 발견했습니다. 두 번째 킬러 논쟁은 그의 수정주의 역사 시리즈의 시즌 1에서 Malcolm Gladwell 팟 캐스트에서 나온 것입니다. 글 래드 웰 (Gladwell)은 카 & 드라이버 (Car & Driver) 지에 도요타 캠리 (Toyota Camry)를 테스트 트랙에 올려 놓았습니다. 훈련 된 운전자는 가속 페달을 바닥까지 줄곧 매어 댔다. 그런 다음 여전히 바닥에 부숴 진 가속 페달이 브레이크에 부딪혔다. 차가 멈 췄어. 시험 재판 후에 차가 멈 췄어. 문제 없습니다. 브레이크가 가속기를 쉽게 압도했습니다. 통계를 검토 할 필요가 없습니다. 수억 줄의 코드를 검토 할 필요가 없습니다. 경우 폐쇄.

이 예는 더 적은 것이 더 많다는 것을 암시합니다. 정보의 질이 양보다 더 중요하다는 것.

“소규모 데이터”라는 용어는 요즘 여러 가지 다른 방식으로 사용됩니다. 마틴 린드 스트롬 (Martin Lindstrom)의 마케팅 자료집 Small Data : 거대한 경향을 밝히는 작은 단서 . 그리고 Wikipedia 항목. 다음은 소규모 데이터와 관련하여 알아 본 몇 가지 특성입니다.

첫째, Small Data는 제한된 양의 정보에 대한 개인적인 연결이라는 것을 주장함으로써 대부분의 참고 문헌은 Small Data to Big Data를 대조하는 반면, Big Data는 스마트 컴퓨터가 모든 확장 가능한 사용 가능한 신호의 양을 구분할 필요성에 관한 것입니다 .

둘째, 빅 데이터는 주로 상관 관계에 관한 반면 작은 데이터는 인과 관계에 관한 것입니다.

셋째, Small Data가 창출하는 개인적인 관계는 개인의 전문성과 경험을 끌어 들이기에 달려 있습니다.

넷째, 소규모 데이터 접근법은 통찰력을 키우고 (Klein, 2013 참조) 사고 방식을 변형시키기위한 것입니다. Bonde는 Small Data가 우리가 실천할 수있는 통찰력을 얻는 데 도움이되도록 명시 적으로 지적합니다.

다섯째, 빅 데이터와 소규모 데이터가 상호 배타적이지 않거나 경쟁에 있지 않다는 것에 모두 동의합니다. 우리는 두 가지 접근법을 모두 사용할 수 있습니다.

여섯째, 작은 데이터의 의미있는 항목을 검색하는 방법에 차이가 있습니다. 어떤 이들은 우리가 빅 데이터로 시작한 다음 로그 및 기타 인공물을 생성하는 출력을 줄여야한다고 제안합니다. 나는 그 전략에 열중하지 않습니다. 대신, 저는 우리가 정신 모형을 사용하여 중요한 정보를 발견하거나 발견 할 때 작은 데이터의 힘이 온다고 생각합니다. 이 에세이의 다섯 가지 예는 모두 빅 데이터 실습의 결과물을 응축하기보다는 중요한 데이터의 숙련 된 발견을 보여줍니다.

일곱 번째로, 훨씬 더 많은 인구에서 몇 가지 대표적인 사례를 선정하여 의사 결정권자를 지원하고 이러한 사례에 대해 자세히 설명 할 수있는 경우가 있습니다. 예를 들어 정치인이 휘발유 가격 인상이 저소득층 사람들에게 어떻게 영향을 미치는지에 대해 숙고하고 있다면 공공 교통 수단을 이용하는 고정 수입을 가진 노인과 세 명의 특정 개인을 정의하는 것이 유용 할 수 있습니다. 교회와 함께 자원 봉사를하는 은퇴자가 여러 사회, 의료 및 복지 관련 행사에 회중을 인도합니다.

여덟째, 중요한 데이터 요소가 발견되면 전문 지식이 필요합니다. 합리적으로 정교한 정신 모델을 사용하여 데이터 요소가 어떻게 작용 하는지를 알 수 있습니다.

Small Data 방식의 한 가지 위험은 오해의 소지가있는 느낌을 전달하는 사례와 일화를 체리로 선택하는 데 오용 될 수 있다는 것입니다. 따라서 소규모 데이터 접근 방식은 기존 증거와 관련하여 사용해야합니다. Small Data 접근법은 분석가가 관련 변수를 조사 할 의무를 제거하지 않습니다. 나는 다섯 가지 예들 각각의 끝에 “케이스 폐쇄”를 썼지 만 사실 조사자들은 그들의 추측을 확인하거나 불확실하게하기 위해 추가 데이터를 적절하게 찾았다. 그러나 Small Data 접근법은 완 전성을위한 강박 관념을 충족시키기 위해 점점 더 많은 데이터를 축적하는 경향을 축소시킬 수 있습니다. 소규모 데이터 접근 방식은 누적 된 데이터의 의미를 평가합니다.

이 에세이의 예는 우리가 정보를 모으기위한 우리의 노력을 다시 형성해야한다고 제안합니다. 사용 가능한 모든 재미난 정보를 비우는 대신 우리는 정보 수집을 감각 습득 및 발견에 직접 지시하는 것이 좋습니다. 우리는 진실로 진단 단서, 이상 징후 및 발생하지 않은 데이터 예상 이벤트 누락을 검색 할 수 있습니다. 우리는 “차이를 만드는 차이점”을 찾아야합니다.

참고 문헌

Martin Lindstrom, Small Data : 거대한 경향을 밝히는 작은 단서. 뉴욕 : St. Martens Press.

Klein, G. (2013). 다른 사람들이보기 싫어하는 것 : 우리가 통찰력을 얻는 놀라운 방법 . 뉴욕 : PublicAffairs.