저는 개인정보 지킴이라고 합니다
상태바
저는 개인정보 지킴이라고 합니다
  • 이영훈 기자
  • 승인 2020.05.11 14:39
  • 댓글 0
이 기사를 공유합니다

우리는 인터넷으로 수많은 일을 해낸다. 메일을 이용해 업무를 지시받고 인터넷 쇼핑몰에서 원하는 물품을 구매하며 SNS를 통해 상대방의 삶을 관찰하기도 한다. 이때 필요한 것이 인터넷에서의 나 자신이다. 우리는 이것을 계정 혹은 ID라 부른다. 인터넷에서 사용할 나를 만들기 위해선 회원가입을 해야 하는데 이때 일그러진 문자가 우리의 앞을 가로막곤 한다. 이 문자를 흔히 보안문자라 부른다. 보안문자를 정확히 입력하지 않고선 다음 단계 진행이 불가능해 사용자들은 귀찮음을 느낀다. 대체 이 보안문자라는 것이 무엇이기에 이토록 우리를 귀찮게 하는 걸까? 지금부터 이 보안문자에 대해 알아보도록 하자.

흔히 보안문자로 알려진 ‘캡차’다.
흔히 보안문자로 알려진 ‘캡차’다.

 

나의 이름은?

흔히 보안문자라 불리는 문자열의 진짜 이름은 캡차(CAPTCHA)’‘Completely Automated Public Turing test to tell Computers and Human Apart’의 준말이다. 우리말로 번역하면 컴퓨터 자동 가입 방지 프로그램이다. 캡차는 사용자가 사람인지 컴퓨터 프로그램인지 확인해 개인정보를 보호하고 해킹을 방지하는 역할을 한다. 컴퓨터가 인식할 수 없는 찌그러진 문자를 보여주고 이를 해독 시켜 사람과 컴퓨터를 구분하는 것이다. 캡차의 개발진들은 이 프로그램을 여러 사이트에서 쉽게 사용할 수 있도록 초기부터 무료로 배포했다. 구글을 비롯한 여러 대형 포털 업체가 캡차를 사용하며 대중화됐고 지금은 어느 사이트에서나 쉽게 캡차를 볼 수 있다.

자존심 싸움으로 탄생한 캡차

1997년 과학, 정치, IT 등의 주제로 여러 사람과 토론 할 수 있는 해외 사이트 ‘Slashdot’에서 세계적으로 유명한 대학 중 컴퓨터공학 수준이 가장 높은 곳은 어디인가를 주제로 토론이 진행됐다. 토론은 투표로 이어졌고 초기엔 여러 의견이 분분했지만 어느 순간 카네기멜론대의 투표수가 비정상적으로 높아지기 시작했다. (bot)이라는 컴퓨터 프로그램을 사용해 한 번에 여러 투표를 실행한 것이다. IT에서 봇이란 로봇의 준말로써 인터넷 웹 사이트 방문, 검색, 저장, 관리 등의 명령을 수행하는 프로그램이다. 카네기멜론대에서 개발한 봇은 여러 번의 투표를 진행하도록 명령받았고 이에 타 대학에서도 같은 방식의 봇 프로그램을 만들어 경쟁하기 시작했다. 더 높은 수준의 봇 프로그램을 개발한 대학이 승리를 가져가는 구도로 바뀐 것이다. 이 대결의 최종 승자는 메사추세츠 공과대였고 이때 봇의 위험성을 인식한 카네기멜론대 연구원들은 봇 프로그램을 방어할 프로그램이 필요하다고 생각했다. 그렇게 탄생한 프로그램이 캡차다. 캡차의 등장으로 봇을 이용한 스팸메일을 막을 수 있고 개인정보 해킹을 방지할 수 있게 됐다.

우리의 위대한 10

캡차에 소모되는 시간은 평균 10초다. 사용자는 10초 동안 찌그러진 문자를 정확하게 입력해 개인정보를 보호한다. 개인정보를 보호하는 시간이라고 생각하면 그리 값비싼 투자는 아니지만 종종 발생하는 입력 오류, 인식오류 등의 문제는 사용자의 인내심을 테스트하기도 한다. 이렇게 인내한 10초는 개인의 정보를 보호할 뿐만 아니라 인류의 유산을 위해서도 투자된다. 개개인에게 10초는 짧은 시간일 뿐이지만 전 세계 인터넷 사용자들의 10초를 합치면 천문학적인 시간이 된다. 캡차 프로그램의 개발진들은 이 시간을 좀 더 가치 있게 활용하고 싶었고 이를 인류의 문서를 디지털화하는 구텐베르크 프로젝트에 활용하기로 한다.

구텐베르크 프로젝트는 인류의 모든 서적을 디지털화해 가상도서관을 만드는 대형 프로젝트다. 당시엔 컴퓨터가 서적을 스캔해 디지털화하는 방법을 사용했는데 오래된 서적일수록 종이나 잉크가 바래 해독률이 낮아진다는 단점이 있었다. 출간된 지 50년이 넘는 책을 스캔할 경우 약 30% 정도 해독이 불가했다. 컴퓨터가 인식하지 못한 글자는 사람이 직접 해독해야 하는데 돈, 인력, 시간 등을 따졌을 때 불가능한 일이었다. 여기서 캡차가 활용된다.

캡차는 기존의 문자와 컴퓨터가 인식하지 못한 스캔자료 총 두 개의 문자를 사용자에게 제시한다. 사용자는 이 문자들을 입력해 개인정보를 지킴과 동시에 컴퓨터가 읽지 못한 문자를 대신 읽어주는 일을 하게 된다. 이를 리캡차(ReCAPTCHA)라고 한다. 리캡차로 입력되는 단어의 수는 하루 약 1억 개. 1년에 250만 권의 책을 만들 수 있는 어마어마한 양이다. 2011년엔 리캡차를 이용해 미국의 대표적인 일간지 뉴욕타임스의 모든 기사를 디지털화하는 데 성공했다. 루이스 폰 안 캡차 프로그램 개발자는 피라미드, 파나마 운하, 달 착륙 등 인류의 거창한 업적들은 한 사람이 아니라 모두가 협력해서 해낸 일이다고 말했다.

캡차의 한계

이렇듯 캡차는 개인정보를 보호하고 인류의 유산을 남기는 일에도 활용되는 훌륭한 프로그램이지만 시간이 지나고 기술이 발전되면서 한계를 보여준다. 딥러닝과 같이 컴퓨터가 스스로 학습할 수 있는 기술이 등장해 컴퓨터의 문자 인식 능력이 크게 향상됐다. 이에 2009년 캡차 프로그램을 인수한 구글은 기존의 리캡차 프로그램을 업그레이드해 리캡차v2(ReCAPTCHA version 2)를 개발했다. ‘난 로봇이 아닙니다(I’m not a robot)’ 라는 문구 옆 박스를 클릭해 사람과 컴퓨터를 구별하는 기술이다. 문자 인식이 아닌 행동 패턴으로 사람과 컴퓨터를 구별한다. 이 외에도 표지판이 들어간 사진을 찾으세요등의 이미지를 활용한 기술도 개발됐다. 하지만 이러한 노력에도 불구하고 여전히 캡차 프로그램에는 구멍이 있다.

캡차는 기술뿐 아니라 사회적인 측면에서도 한계를 보여준다. 캡차는 찌그러진 문자를 읽고 답하거나 이미지를 찾는 등의 시각 정보를 바탕에 둔 프로그램이다. 이 때문에 앞을 보지 못하는 시각장애인은 캡차 프로그램을 이용하는데 제한이 생긴다. 시각장애인이 캡차에서 보여주는 문자를 입력하기 위해서는 주변의 도움을 받아야 하고 이 과정에서 개인정보가 유출될 수 있다. 이는 개인정보 보호라는 캡차의 취지에 어긋나는 아이러니한 일이다. 음성인식과 같은 대안책이 있지만 한글의 특성상 없··엎 모두 유사한 발음이기에 이를 컴퓨터가 구별하기 쉽지 않다.

캡차의 미래

개인정보 보호와 서적의 디지털화 등 사람에게 많은 도움이 돼온 캡차는 현재 또 다른 곳에서 활용되고 있다. 캡차를 인수한 구글은 리캡차v2를 개발하며 구글 스트리트뷰에서 컴퓨터가 인식하지 못했던 표지판, 간판 등 실제 촬영된 공간을 문제로 제시했다. 이러한 문제는 구글 맵과 같은 프로그램에서 산, 사람, 건물, 번지수 등을 구별하는 데 활용됐다. 더 나아가 수집된 정보는 머신러닝의 학습 도구로 사용되고 자율 주행 자동차의 물체 인식범위를 확산하는 데 큰 도움을 주고 있다.

20여 년 전 단순한 자존심 싸움에서 탄생한 캡차는 인터넷을 사용하는 전 세계 사람들의 손을 거치며 현재에 이르렀다. 사람과 컴퓨터를 구별하고 인류의 유산을 지키며 미래 기술에 밑바탕이 되는 캡차. 캡차 프로그램의 등장 후 이와 관련된 수십만 개의 논문은 인공지능의 발전에 상당한 영향을 끼쳤다. ‘알고리즘 투게더 with 거니’ IT전문 유튜버는 캡차의 방향성에 대해서는 전적으로 프로그램을 개발하는 구글의 몫이므로 감히 예상할 순 없지만 모두에게 도움이 되는 방향이 될 것이라고 예상했다. 이어 리캡차가 요구하는 답은 우리의 생각과는 다른 경우가 많아 짜증과 귀찮음을 유발하지만 인류의 도움이 된다는 좋은 마음으로 이용했으면 한다고 전했다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
이슈포토