여전히 형편없는 국내 웹개방성… 대학, 연구기관 78%가 검색 제한

강일용 zero@itdonga.com

A대학교 사학과에 재학중인 대학생 B양은 조선왕조실록 관련 논문을 작성하고자 필요한 정보를 찾아 인터넷을 헤맸다. 분명 구글, 네이버 등에 해당 키워드를 입력했지만 원하는 정보는 하나도 나타나지 않았다. 결국 해당 자료를 찾기 위해 국사편찬위원회 홈페이지에 접속해야만 했다.

그런데 또 문제가 발생했다. 관련 연구자료를 찾기 위해 검색엔진에 특정 논문의 제목을 입력했지만 여전히 나타나지 않았다. 결국 해당 논문을 찾고자 A대학교 홈페이지에 직접 접속해 하나하나 뒤져야만 했다. B양은 대체 왜 원하는 자료를 찾을 수 없었을까? 국내 대학 및 학술/연구기관 상당수가 '웹개방성'이 뒤떨어지기 때문이다.

웹개방성이란 사용자들이 얼마나 다양한 방식으로 웹사이트의 정보를 접할 수 있는지 나타내는 척도다. 단순히 검색엔진에 키워드를 입력하는 것만으로도 웹사이트 내의 내용을 모두 찾을 수 있으면 웹개방성이 높은 것으로, 해당 웹사이트에 일일이 접속해 원하는 내용을 찾아야 하면 웹개방성이 낮은 것으로 간주한다.

사단법인 한국인터넷전문가협회(www.kipfa.or.kr, 이하 인전협)와 구글코리아(www.google.co.kr)가 국내 대학교 100곳과 학술/연구기관 100곳 등 총 200개 기관 웹사이트의 웹개방성 현황 조사 결과를 발표했다. 그 결과 전체 200개 기관 가운데 157개(대학 89, 연구기관 68) 기관이 5가지 웹사이트 접근 차단 항목(robots.txt 파일 차단, noindex 태그 차단, 홈페이지를 이미지/플래시/액티브X로 구성, User-agent 기반 접근 차단, URL 비공개) 중 1가지 이상의 방법을 이용해 검색엔진의 접근을 제한하고 있는 것으로 나타났다. 전체의 78.5%에 달하는 수치다.

국내 대학 3곳 중 1곳은 정보접근 완전차단

조사 대상 중 32개 대학교와 22개 학술/연구기관은 구글, 네이버 등 국내외 검색엔진의 접근을 완전 차단하고 있는 것으로 드러났다. 다시 말해 대학 셋 중 하나와 학술/연구기관 넷 중 하나가 검색을 완전 차단하고 있었다는 것.

검색을 완전 차단한다는 것은 구글, 네이버 등 포털을 통해 정보 검색이 불가능하다는 의미다. 정보를 찾으려면 사용자들이 일일이 해당 사이트를 뒤져야 한다. 웹사이트 주소를 모를 경우 해당 웹사이트에 올라온 정보를 찾을 수 없기에 정보 접근성에 문제를 일으킬 수 밖에 없다. 사용자 대부분이 검색 엔진을 통해 인터넷상의 정보를 수집하는 만큼 사용자는 해당 웹사이트에 양질의 자료가 있더라도 존재 유무조차 파악할 수 없게 된다.

국내 대학교, 학술/연구기관은 'robots.txt 파일'을 사용해 '검색 로봇(구글봇, 네이버봇 등)'의 접근을 완전 차단하고 있는 것으로 나타났다. robots.txt 파일이란 인터넷 검색엔진의 접근을 막는 표준 규약으로, 이를 적용하면 홈페이지가 검색되는 것을 막을 수 있다. 검색 로봇이란 검색 결과를 보여주고자 웹페이지를 뒤지는 프로그램을 의미한다. 검색 로봇은 정보를 수집하기 전에 앞서 robots.txt 파일 적용 여부를 기준으로 해당정보를 수집할지 결정한다. robots.txt 파일은 정보 공개 여부를 정하고 방문 트래픽을 조절하는 것이 본래 목적이지만, 유독 국내에선 검색을 완전 차단하기 위해 무분별하게 사용하고 있다.

일부 대학은 구글 등 특정 검색엔진의 접근만 차단해(구글봇만 차단하고 네이버봇은 열어두었다는 의미다), 국내 유학을 계획하는 외국 학생들이 관련 정보를 검색만으로 찾기 어렵게 만들어 두기도 했다.

미국, 일본, 중국의 주요 100개 대학 가운데 검색엔진의 접근을 완전 차단한 대학은 단 한 곳도 없었다. 국내 상황과 대조적인 모습이다.

이미지로 구성된 웹사이트, 아무리 좋은 정보라도 검색은 불가능

전체 조사대상의 절반 이상인 101개 웹사이트(대학교 58, 연구기관 43)는 이미지(JPEG, PNG 등), 어도비 플래시, 액티브X 등과 같은 검색 비친화적 요소를 포함하고 있는 것으로 나타났다. 특히 이미지가 문제였다. 101개 웹사이트 중 97개 사이트(95%)가 본문 텍스트를 이미지로 처리해 검색 불능을 야기했다(대학교 56, 연구기관41).

이미지나 플래시로 문자를 표현할 경우 검색 로봇이 해당 문자를 인식할 수 없어 찾는 것이 불가능하며, 액티브X를 사용할 경우 액티브X 설치 후에만 정보 확인이 가능해 검색 로봇의 접근이 곤란하다.

이같은 검색 비친화적 요소들은 단순히 검색 로봇의 정보 수집을 방해하는 데 그치지 않고 더 큰 문제를 일으킨다. 웹사이트를 이미지와 플래시 파일로 구성하면 텍스트를 음성으로 읽어주는 기능을 사용할 수 없어 시각장애인들이 해당 사이트의 정보에 전혀 접근할 수가 없다. 웹개방성의 부재가 '웹접근성(시각, 청각 장애인 등 일반적인 형태의 웹사이트 이용에 어려움을 느끼는 이들이 얼마나 수월하게 웹사이트를 사용할 수 있는지 나타내는 척도)'마저 영향을 미치고 있는 셈.

오픈넷(opennet.or.kr)을 이끌고 있는 고려대학교 법학전문대학원 김기창 교수는 "검색엔진이 그 내용을 파악할 수 없는 웹사이트는 존재하지 않는 것과 마찬가지다"며, "훌륭한 교육, 연구 콘텐츠를 보유하고 게시까지 해두면서도 정작 검색되지는 못하게 하는 처사는 도무지 납득이 안간다"고 전했다.

이어 "이런 사태는 국내에 떠돌아 다니는 잘못된 보안 지식 때문이 아닌가 생각한다"며, "흔히 robots.txt로 검색엔진이 검색할 수 없게 하면 사이트가 안전해진다고 오해하는 경우가 아직도 있는데, 사이트가 안전해 지는 것이 아니라 쓸모 없어 질 뿐"이라고 밝혔다.

이번 조사는 대학 및 학술/연구 기관의 웹개방성 현황을 파악해, 해당 웹사이트의 웹개방성을 개선하고 나아가 공공 정보 개방에 대한 인식을 재고하고자 실시됐다. 인전협은 해당 조사 결과 전문을 오는 4월 2일 진행할 '웹마스터 컨퍼런스 2013'에서 발표할 계획이다.

글 / IT동아 강일용(zero@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.