“최소 튜링 테스트”가 인간에 관해 말하는 것

어떤 사람이 당신이 로봇이 아니라고 설득하기 위해 어떤 말을하겠습니까?

1950 년 컴퓨터 과학자 앨런 튜링 (Alan Turing)은 “기계가 생각할 수 있는가?”라고 물어보고 테스트를 제안했습니다. 컴퓨터가 설득력있는 대화를 통해 인간을 설득력있게 모방 할 수 있었습니까? 이제 두 명의인지 과학자가 인공 지능에 도전하지 않고 인간이 우리를 특별하게 생각하는 것을 탐색하기 위해 단순화 된 버전의 테스트를 제안했습니다.

“최소 튜링 테스트 (Minimal Turing Test)”에서 사람과 기계는 사람 판사에게 자신이 살아 있다는 것을 설득하기 위해 한 단어 만 얻습니다. 너 뭐라고 말 할래? 그들은 온라인 과학 설문 조사를 실시했는데, Journal of Experimental Social Psychology 의 11 월 호에 실 렸습니다. 약 천명의 참가자가 가장 흔한 사랑 (14 %), 연민 (3.5 %), 인간 (3.2 %), 제발 (2.7 %) 등 네 가지 단어를 제공했습니다. 다른 이들은 영향 (예 : 행복 ), 신앙과 용서 ( 예수 ), 음식 ( 바나나 ), 로봇과 동물 ( ), 삶과 죽음 ( 가족 ), 신체 기능과 욕설 ( 음경 ) 범주로 분류되었습니다.

인기를 나타내는 원 크기가 두 번 이상 사용 된 단어 차트를 보려면 아래를 참조하십시오. 색상은 카테고리를 나타냅니다. 위치는 단어의 “임베딩 (embedding)”을 의미합니다. 비슷한 단어가 서로 가까이 있도록 그 의미를 알 수있는 알고리즘입니다.

Journal of Experimental Social Psychology

출처 : 실험적 사회 심리학 저널

사람들의 47 %는 마음과 관련된 단어를 제공했습니다. 그 중 15 %는 사고와 행동 (판단 등)과 관련된 것을 지명했고 85 %는 감각과 느낌 ( 슬픔 과 같은)과 관련된 것을 지명했습니다. 사람들은 컴퓨터가 똑똑하다고 생각하는 것 같지만 주관적인 경험을 묘사하는 단어에는 거의 사용하지 않을 것입니다. ( “마음의 기이 한 계곡”에 대한 이전 연구는 컴퓨터가 감각과 감정에 대해 이야기 할 때 그것이 기분이 좋지 않음을 보여줍니다.)

이러한 선택은 얼마나 효과적입니까? 연구자들은 사랑, 제발, 자비, 연민, 공감, 바나나, 살아있는, 인간, 로봇, 똥차 등 각 카테고리에서 가장 높은 단어를 사용했습니다 . 2 천 명의 온라인 참가자가 무작위로 짝을 지었고 인간이 제공 한 것을 추측했습니다 (두 사람이 모두 같았 음). 제쳐두고, 첫 번째 과제에서의 단어의 인기와 두 번째 단어에서의 설득력 사이에는 상관 관계가 없었기 때문에 제출자가 단어를 받아 들일 방법을 예측하지 못했습니다. 가장 성공한 단어는 이었습니다. 아래 그림에서 백분율은 행 단어가 열 단어를 얼마나 자주 뒤 짚었는지 나타냅니다.

Journal of Experimental Social Psychology

출처 : 실험적 사회 심리학 저널

펜실베이니아 대학의 존 맥코이 (John McCoy)와 MIT의 토머 울먼 (Tomer Ullman)은 두 번째 과제에서 욕설과 같이 단순히 감정을 표현하는 것보다 감정을 불러 일으키는 단어를 더 많이 포함한다면 인간이라고 판단되었다. 실리콘은 일부 사람들이 촉촉한 단어에서 느끼는 내장 혐오를 의심합니까? (이 글을 읽고 나면됩니다.)

smurf, smegma, ginormous, yolo, noob, oops, lol, omg, frienemie, 공존, 히틀러, captcha, 터미네이터, 허, 그리고 f * ck . 일부는 실제로 그 순간을 포착했습니다. 맥코이 (McCoy)는 후자가 실제로 한 단어인지 묻는 질문에 “이 과정 전체에 대한 메타 판사로서 우리는 적절한 반응처럼 보였으므로이를 허용하기로 결정했다”고 말했다.

연구자들은 인간의 기계가 인간과 어떤 차이가 있는지에 대한 사람들의 직감을 강조하고 다른 고정 관념을 테스트하는 데 사용될 수 있다고 믿습니다. 어떤 단어는 사람들이 여자 또는 노인이 말하는 것이라고 생각합니까? 그러나 해석은 응답자가 다른 사람들이 생각하는 방식에 대해 생각해야한다는 사실 때문에 복잡합니다.

나는 연구자들에게 그들의 테스트가 재귀적인 정신 모델링과 다른 프로세스를 통해 응답이 필터링된다는 점을 고려할 때 어떤 특성이 인간과 기계를 분리한다고 생각 하는지를 묻는 시끄러운 방식이라고 말했다. 그들은 사람들에게 유일하게 인간의 속성이나 관심사를 말하도록 요구할 수는 없었습니까? 맥 크러이 (McCroy)는 그러한 판단을 이끌어내는 것이 “실제로 그렇게 명백하지 않다”고 말했다. 그들은 “우리가하는 것처럼 질문하는 경쟁 압력은 사람과 기계를 분리하는 더 명백하고 명백하지 않은 속성을”부트로 티지 (bootylicious) “와 같이 의사 소통하도록 만들 것입니다.”명백한 속성으로 인해 스마트 로봇이 패배 할 수 있기 때문입니다. ”

실제로 일부 사람들은 경쟁 압력을 느꼈습니다. 두 번째 작업에서 Ullman은 한 참가자가 “이봐, 정말 힘들었다. 나는 짧은 Asimov 이야기에 빠진 것처럼 느꼈다. “연구원은이 사람이 본 로봇인간 이 짝을 이루는 단어를 보았다.

참고 문헌

McCoy, JP, & Ullman, TD (2018). 최소 튜링 테스트. Journal of Experimental Social Psychology, 79, 1-8.