대량살상 수학무기 읽고

대량살상 수학무기
캐시 오닐 지음
김정혜 옮김
흐름출판

책도 두껍고, 제목도 무슨 뜻인지 모르겠고, 설명 어렵고('어떻게 빅데이터는 불평등을 확산하고 민주주의를 위협하는가?'라니..), 그래서 이거 과연 읽을 수나 있을까 했던 책인데, 시작해보니 재밌어서 페이지가 쭉쭉 넘어갔다. 후반부는 같은 말의 반복이라 좀 힘들긴 했지만.
이 책은 우리가 인공지능과 4차 산업혁명의 핵심으로 여기는 빅데이터가 얼마나 큰 문제를 안고 있는지 조목조목 설명하는 책이다. 대량살상무기(Weapons of Mass Destruction)의 'Mass'를 'Math(수학)'로 바꾸어 비튼 제목처럼 빅데이터가 여러 사람 죽인다는 뜻이 들어있다.  
일단 시작이 워싱턴 교육감 이야기였는데, 한국계라고 뉴스에서 대서특필했던 미셸 리가 빅데이터로 교사들 점수 매기고 줄세워 해고한 이야기가 나왔다. 얼굴이 화끈거리고 쪽팔렸다. 한국스타일을 미국에 퍼뜨리고 있구나... 문제는 그 데이터가 희한해서 어떤 교사는 첫해에 6점이 나와서 낙제였다가, 다음 해에는 96점이 나왔다는 것이다. 뭥미? 기준을 하나 더 추가했을 뿐인데 무려 90점 차이가 난다. 빅데이터가 그렇다. 절대 맹목적으로 믿을 게 못된다.
범죄가 많이 일어나는 지역을 집중 순찰해 범죄를 예방하려는 목적으로 만들어진 빅데이터 기반 범죄예측 소프트웨어는, 흑인 빈민가가 위험지역이니 집중 순찰하라고 한다. 왜 아니겠는가? 빅데이터를 빼고 상식적으로 생각해도 백인들이 사는 부촌 보다는 흑인 빈민가에서 범죄가 많이 일어나지 않겠는가? 그러나 저자의 판단은 다르다. 이를테면 경미한 마약 같은 경우, 대학교 축제에선 수백명이 한다. 그러나 거기서 잡혀들어가는 애들은 없다. 단속을 안하니까. 그러나 빈민가의 흑인들은 잡혀들어간다. 단속하니까. 기록에는 그것만 남게되고 그 결과 흑인 빈민가는 더욱 집중 순찰 대상이 된다. 즉, 같은 범죄를 저질러도 적발되냐 아니냐에 따라 빅데이터가 갈리는 것이다. 그 예측 프로그램의 60% 이상이 경범죄라고 한다. 정작 강력범죄는 막지도 못하는 것이다. 저자의 말대로 금융범죄 빅데이터에 기반해 집중 순찰한다면 재밌겠다 싶었다. 그래야 맞는 것 같기도 하고.
약탈적 광고에 대한 부분도 인상적이었다. 구글에서 검색하거나 크롬에서 어느 쇼핑몰 한번만 들어갔다 나와도 이후 내내 광고가 붙는 걸 보면서 징그럽다 생각은 했지만, 빈곤층에 악질적인 광고가 붙어다니는 건 징그러운 정도를 넘어 무서웠다. 미국에는 영리 대학이 있다. 실제로 정부에선 빈민층을 위해 학비가 싸거나 무료인 평생교육 제도를 만들었는데, 그 제도를 알아보려고 검색하면 이런 영리학교 광고가 뜨거나 그쪽으로 접속된다고 한다. 절박한 사람들의 무지를 이용해 장사를 해먹는 것이다. 잘 모르는 사람들은 거기가 국가에서 하는 평생교육인가 싶어 등록하는데, 학비가 일반 학교보다 훨씬 더 비싸다. 하...이 부분 읽는데 피가 거꾸로 솟았다. 나쁜 새끼들. 
스타벅스를 비롯해 많은 기업이 판매원의 일정을 짜는데 빅데이터를 이용한다. 그러다 보니 일정을 미리 알 수도 없고, 하루는 새벽 근무였다가 하루는 밤 근무가 되는 등 불규칙하다. 빅데이터는 기업 이윤을 최대로 뽑아내기 위해 손님이 없는 시간과 집중되는 시간의 알고리즘을 만들고, 그에 따라 직원들이 노는 시간을 없애는 스케줄이 나오기 때문이다. 그러니 판매직들은 당장 내일 계획도 못세우고, 삶이 황폐해진다. 프리랜서 노동을 하는 나도 계획이 안나오면 성질나는데, 사람이 어떻게 이렇게 일을 하며 사나? 하.... 그렇게 짜낸 기업의 이윤은 누구 주머니로 들어가는 건가?
또한 최근 나는 인적성검사를 치뤘는데, 그에 대한 문제점도 상세하게 나와있다. 편견에 찌든 면접관보다 빅데이터 통과하기가 어쩌면 더 어렵다는 말에 수긍이 갔다.
미국에선 신용평가점수를 본인 외의 다른 사람이나 기업이 이용하지 못하도록 법으로 엄격히 금지하고 있다. 그럼에도 불구하고 기업들은 이를 피해 e점수라는 걸 개발하고 그걸로 모든 신용(자동차 살때, 학비 대출받을 때, 보험 들때)을 평가한다. 그러나 e점수는 투명하지 못해서 어떤 경로로 자기 e점수가 나오는지 알 수 없다. 동명이인의 신용이 나빠서 불이익을 받은 여자가 그걸 고치기 위해 동분서주한 이야기를 보면 정말 너무하다 싶다.
보험은 힘들 때 십시일반으로 도와줘서 삶이 나락으로 빠지는 걸 막아주는 제도이다. 그런데 보험사들은 자기들 이익을 극대화하기 위해 어려울 가능성이 큰 사람은 아예 보험을 받아주지도 않고, 불안이 많은 사람들의 등을 쳐서 보험금을 높게 매기는 등 보험이라는 제도의 기본을 외면하고 있다는 이야기에도 고개 끄덕여졌다.

그러니까 문제는 이것이다. 빅데이터는 직접 데이터가 아니라 대리 데이터인데, 우리는 그 대리 데이터를 너무 믿고 있으며, 상관관계를 인과관계라고 착각하고 있다. 빅데이터 안에는 개별 사람에 대한 고려가 없다. 사람은 데이터 한점으로 취급된다.
게다가 빅데이터란 인간의 행동으로 모아지는 것인데, 인간이란 얼마나 차별적이고 편견에 찌든 존재인가? 빅데이터는 그걸 금방 배우며 더 고도로 차별적이 되고 있다.
이 수학자의 말에 따르면 '수학 모형은 본질적으로 과거의 기존 패턴들이 반복될 것이라는 가정에 기반을 두고' 설계되는데, 요즘처럼 어제와 오늘이 완전 다른 시대에는 무용지물이다. 
또한 직접 측정한 결과가 아니라 예측값과 실제 결과 사이의 오차항을 토대로 평가지수가 만들어지는 예가 많은데, 이건 추측에 추측을 더하는 방법이라 통계전문가들은 이런 결과값을 '잡음'이라고 부르는데, 기업이나 사회는 이 잡음으로 개인의 생사여탈권을 쥐고 흔든다. 
통계학에는 '심슨의 역설'이라는 현상이 있다. 하나의 추세를 나타내는 전체 데이터를 하위 그룹으로 나누면 전체와 정반대 되는 추세가 나타나는 현상이다. 이를테면 SAT 평균 점수가 17년간 꾸준히 하락해 왔으나, 이는 SAT를 치는 취약계층 아이들이 많아져서 평균점수가 낮아진 거지, 각각 그룹으로 나눠보면 부유층에서 빈곤층까지 모든 계층에서 점수가 상승했다. 이런 식이다.
결국 빅데이터를 쓰려는 사람들의 의도에 따라 디자인 되고, 그것을 해석하는 방식이 중요하다. 차별적으로 쓰려면 더 이상 차별적일 수 없는 게 빅데이터이며, 그걸 과학이라는 이름으로 믿어서는 안된다.


밑줄긋기
25 _ "당신조차 적절히 설명할 수 없는 방법으로 사람들을 평가하는 것을 어떻게 정당화할 수 있습니까?" 그런데 그것이 바로 WMD의 본질이다.
79 _ 본질적으로 MBS의 위험 등급은 불투명하고 수학적으로 매우 복잡해 보이도록 설계됐다. 그 이유 중 하나는, 매수자들이 자신이 보유한 증권의 진정한 위험 수준을 인지하지 못하도록 하기 위해서였다.
168 _ 평등은 정의 구현에 있어서 매우 중요한 부분으로, 다른 무엇보다 형법적 정의를 경험한다는 뜻이다. 불심검문 같은 정책을 지지하는 사람들은 불심검문을 직접 당해보아야 한다. 정의는 사회의 한 부분이 다른 부분에 가하는 것이 되어서는 절대 안된다.
186 _ 엄밀히 말해 직무 수행 능력은 미래에 일어날 일로, 현재로선 알 길이 없다. 그리하여 다른 많은 빅데이터 프로그램과 마찬가지로, 채용 프로그램은 대리 데이터에 의존한다. 여기서 문제는 대리 데이터가 본질적으로 부정확하고 가끔 불공정하다는 것이다.
192 _ 과거에도 고용주들은 편견을 갖고 있었다. 그러나 그런 편견은 회사마다 달랐고, 그랬기에 어딘가에선 카일 같은 사람에게 기회의 문을 열어주었다. 이제 그런 기회는 갈수록 줄어들고 있다.
199 _ 인간에게서 지원자들을 차별하는 법을 배운 컴퓨터는 인간들보다 한 술 더 떠서 기가 막힐 만큼 효율적으로 차별적인 심사를 했다.
245 _ e점수 모형의 개발자들은 "당신은 과거에 어떻게 행동했을까?"라는 질문이 이상적인 상황에서 엉뚱하게도 "당신 같은 사람들은 과거에 어떻게 행동했을까?"라는 질문을 던진다. 이 두 질문의 차이는 엄청나다. 
309 _ 정치인들의 연설은 모든 사람을 만족시키고자 한다. 이는 대부분의 정치 연설이 지루한 이유 중 하나다.
326 _ 정보의 비대칭은 여러 집단이 손을 잡고 힘을 합치는 것을 막는다. 이는 현대 민주주의 체제가 안고 있는 근본적인 문제다.
337 _ 데이터 처리 과정은 과거를 코드화할 뿐, 미래를 창조하지 않는다.



덧글

  • 해리 2018/11/22 10:29 # 삭제 답글

    발제는 니가 해야 할거 같다눈..ㅠ.ㅠ(쿨럭)
  • 이요 2018/11/22 10:30 #

    홧팅!!!
  • 2018/11/28 11:24 # 삭제 답글 비공개

    비공개 덧글입니다.
  • 이요 2018/11/28 11:30 #

    와...재밌겠네요. 그런데 두꺼워서 제가 아마 일이 끝나는 12월말이나 1월은 되어야 서평을 쓸 수 있을 것 같아요. 그래되 될까요?
    주소 : 서울 마포구 창전동 198-5번지 강변빌리지 103호 이유정
    전화 : 010-6253-2326
  • 2018/11/28 14:52 # 삭제 답글 비공개

    비공개 덧글입니다.
댓글 입력 영역