상세 컨텐츠

본문 제목

박태웅 칼럼_'기계가 읽을 수 있어야 한다!' 데이터 공개의 제 1원칙

C_s/박태웅 한빛미디어 이사회 의장님

by NONI_Sommelier 2021. 3. 18. 15:23

본문

<원문 출처>

http://www.inews24.com/view/1263751

 

[박태웅 칼럼]‘기계가 읽을 수 있어야 한다!’ 데이터 공개의 제1원칙

사용자’에 관한 글이다. ◆우리에게는 이미 수백 명의 오드리 탕이 있다

www.inews24.com

#요약

 

 글쓴이의 제 4기 공공데이터전략위원으로 공공데이터에 대한 몇 가지 조건들과 실제 사용자에 관한 글이다. ‘공공마스크앱’ 개발에 참여했던 경험으로 부터 시작한다. 한국정보화 진증원(NIA)이 PM을 맡았다. NIA가 가장 먼저 한 일은 시빅해커를 불러모은 것이었다. 토의 과정에서 나온 의견들이다. “수백 만명이 동시에 앱을 열기 때문에 쏟아지는 트래픽을 감당하기 위해 API서버 등 트래픽을 직접 받는 부분은 모두 민간클라우드로 올려야 한다.”, “데이터 포맷을 먼저 알려달라, 그러면 데이터 없이도 앱을 미리 만들어 놓을 수 있다”,  “반드시 베타서비스라는 것을 명시하라,  급히 연 다음 계속 업데이트를 해야하는데, 자칫 기대수준 관리를 못하면 좋은 일을 하고도 큰 비난을 부르게 된다” 등 이다. NIA는 이를 적극 수용했다. 사흘만에 시빅해커들이 만든 앱이 속속 공개됐다. 전설같은 순간이었다. 우리나라에도 수백 명의 오드리 탕이 있다는 것이다. 공공데이터전략위원회에서는 더 많은 시빅해커들이 초대를 받아야 한다. 더 많은 젊은 해커들이 전략을 만들 때부터 참가해야한다. 실제로 공공데이터를 사용하는 것은 엔지니어들이기 때문이다. 자동차를 팔고 싶은 때는 자동차를 살 사람을 대상으로 시장조사를 하는 것이 당연하듯, 공공데이터를 개방한다면 그것을 쓸 엔지니어들에게 처음 의견을 물어야한다.

 공공데이터를 공개할 때 첫번째 조건은 기계가 읽을 수 있어야 한다는 것이다. 우리나라의 공공데이터 개방에 있어 OECD에서 가장 앞선다. 3년 연속 1위를 차지하고 있다. 하지만 개방된 데이터의 일부는 기계로 읽을 수 없다는 것이다.  사용자 입장에서는 사실상 공개된 것이 아니라는 뜻이다.  현재 문제 다음 3가지 이다. 첫째 우리나라 정부부처들의 주요 문서 대부분은 홈페이지를 통해서 공개된다. 누구든 접근할 수 있지만 표준 포맷형식이 아니기 때문에 기계가 쉽게 자동으로 처리할 수 없다. 둘째 숫자로 가득한 PDF파일이다. 이 역시 읽을 수 없다. 엑셀 파일 형식이나 CSV 포맷으로 올리면 자동화 처리를 할 수 있다. 셋째는 웹페이지들이다. 포맷이 제각각이기 때문에 자동화 처리할 수 없다. 이를 변화시킨다면 웹사이트자체가 공개 데이터로 변모할 수 있다. 이렇게 하면 전국 지자체의 축제일정과 주차장 위차가 단번에 하나의 데이터로 만들어질 수 있다. 기계가 자동으로 처리할 수 있기 때문이다. 

 지침 만으로는 안된다. 공공데이터 개발뿐 아니라 운영에도 예산이 함께 지원이 돼야 한다. 그렇지 않으면 다른 유인책이 없다. 데이터는 공개하는 것에서 끝나는게 아니라 제때 업데이트가 돼야 한다. 이것은 잘 안보이는 일이다. 이런 일들이 평가와 예산에 반영이 돼야 실제로 쓸 수 있는 공공데이터가 된다.

 통계가 아니라 로데이터(Raw data). 모든 데이터를 다 공개하기는 현실적으로 어려울 것이다. 자주 요청 받는 데이터, 한번이라도 공개한 적이 있는 데이터, 데이터를 제공받아 정제해서 연구에 사용하는 기관과 사람에게 특별한 사정이 없다면,  정제한 데이터를 다시 제공해야 한다 정도를 원칙으로 하여 시행해보면 어떨까 생각한다.    

 

 

관련글 더보기

댓글 영역