도서관 연결데이터

W3CW3C Incubator Report

 

도서관 연결데이터 보육그룹 최종보고서

W3C 보육그룹 보고서 2011년 10월 25일

2011년 11월 6일 정상원 옮김

이 버전:
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/
최신 게시버전:
http://www.w3.org/2005/Incubator/lld/XGR-lld/
저자
Thomas Baker, Dublin Core Metadata Initiative, 미국(W3C 초청 전문가)
Emmanuelle Bermès, 퐁피두센터, 프랑스(W3C 초청 전문가)
Karen Coyle, 컨설턴트, 미국(W3C 초청 전문가)
Gordon Dunsire, 컨설턴트, 영국(W3C 초청 전문가)
Antoine Issac, 유로피아나 및 Vrije 암스테르담 대학, 네덜란드
Peter Murray, LYRASIS, 미국(W3C 초청 전문가)
Michael Panzer, OCLC 온라인컴퓨터도서관센터, Inc., 미국
Jodi Shneider, 아일랜드 국립대학 골웨이 캠퍼스의 DERI Galway, 아일랜드
Ross Singer, Talis그룹(주), 영국
Ed Summers, 의회도서관, 미국
William Waites, 에딘버러대학(정보학부), 영국
Jeff Young, OCLC 온라인 컴퓨터 도서관센터, 주식회사, 미국
Marcia Zeng, 켄트주립대학, 미국(W3C 초청 전문가)

 


 초록

W3C 도서관 연결데이터 보육그룹(2010년 5월부터 2011년 8월까지 활동)의 사명은 도서관계 안팎의 시맨틱 웹 활동(연결데이터에 초점)에 참여하는 사람들을 규합하고, 기존의 계획을 기초로 하여 미래의 협력 방안을 모색함으로써 웹에서 도서관 데이터의 전세계적 상호운용성을 증진시키는데 일조하는 것이다.

연결데이터 [LINKEDDATA]에서 데이터는 사물간의 관계를 규정짓는 자원기술 프레임워크(RDF)[RDF]와 통일자원식별자(URI , 또는 “웹 주소”)[URI]등의 표준을 사용하여 표현한다. 보육그룹에서 작성한 이 최종보고서에서는 시맨틱 웹 표준과 연결데이터 원칙이 도서관에서 생산되고 관장하고 있는 소중한 정보자산(서지데이터, 전거, 개념체계 등)을 원래의 도서관 영역 밖의 더 넓은 웹에서 보다 더 가시적이고 재사용 가능한 형태로 변모시키기 위해 어떻게 활용될 수 있는지를 다룬다.

보육그룹은 작고 독립적인 프로젝트에서부터 국립도서관 사업에 이르기까지의 각 주체들의 관련 활동에 대한 보고를 확인하는 것에서부터 시작되었다(별도의 보고서, 도서관 연결데이터 보육그룹: 유스케이스를 보라.)[USECASE]. 이들 유스케이스는 이 보고서에 요약된 사업[1) 도서관 연결데이터의 혜택 분석, 2) 전통적인 도서관 데이터와 관련된 현재의 이슈논의, 3) 기존의 도서관 연결데이터 사업과 도서관 데이터에 대한 법적 권리; 4) 다음 단계를 위한 권고]의 출발점이 된다. 이 보고서는 현재 연결데이터 기술에 대한 조사 결과와 지금 활용 가능한 도서관 연결데이터의 조사목록도 요약하고 있다. (보다 자세한 내용은 보고서, 도서관 연결데이터 보육그룹: 데이터셋, 값어휘집, 및 메타데이터 요소셋을 참고하기 바란다.) [VOCABDATASET].

이 보고서의 핵심 권고사항은 다음과 같다.

  • 도서관 지도자는 연결데이터 형태로 조기 노출 가능한 후보 데이터셋을 확인하고 개방형 데이터와 권리에 대한 토론을 장려하라.
  • 도서관 표준기구는 시맨틱 웹 표준화에 도서관 참여를 확대하고, 연결데이터와 호환되는 도서관 데이터 표준을 개발하며, 도서관 연결데이터에 맞는 최상의 디자인 패턴을 보급하라.
  • 데이터 및 시스템 설계자는 연결데이터 기능에 부합하는 향상된 사용자 서비스를 설계하고, 도서관 데이터에 포함된 항목에 대한 URI를 생성하며, RDF 어휘 및 그 URI에 대한 관리정책을 개발하며, 기존의 연결데이터 어휘를 재사용하거나 매핑시킴으로써 도서관 데이터를 표현하라.
  • 사서와 기록관리사는 연결데이터 요소셋과 값어휘집을 보존하는 한편, 관리 및 장기보존과 관련된 도서관의 경험을 연결데이터셋에 적용하라.

이 문서의 상태

이 섹션은 발행 당시 이 문서의 상태를 설명한다. 다른 문서가 이 문서를 대체할 수도 있다. 보육그룹의 최종보고서 목록이 있다. http://www.w3.org/TR/에서 W3C 기술 보고서  색인도 참고하라.

이 문서는 도서관 연결데이터 보육그룹에서 작성하였다.

W3C 보육활동의 일환으로 W3C가 이 문서를 출판했다고 해서 W3C가 그 내용을 보증하지 않음은 물론, W3C가 해결하려는 이슈에 어떤 자원도 할당했거나 하고있거나 또는 하지도 않을 것이다. 보육그룹 참여와 W3C 사이트를 통한 보육그룹 보고서의 출판은 W3C 회원의 혜택이다.

W3C 특허정책에 규정되어있듯이 보육그룹은 로열티 무료를 기반으로 구현될 수 있는 저작물을 생산하는 것을 목표로 한다. 이 보육그룹의 참가자들은 향후에 W3C 권고안에 통합될 이 보육그룹 보고서의 일부에 대한 W3C의 특허정책을 따르는 라이선스 요건에 따라 라이선스를 제공하기로 합의했다.

이 문서에 대한 토론은 공개 메일링리스트인 public-lld@w3.org(아카이브)에서 하기를 바란다.

 

목차

  • 1 이 보고서의 범위
  • 2 연결데이터 접근방식이 가져다 주는 혜택
  • 2.1 연구자, 학생, 이용자가 갖는 혜택
  • 2.2 조직이 갖는 혜택
  • 2.3 사서, 기록관리사 및 큐레이터가 갖는 혜택
  • 2.4 개발자 및 공급자가 갖는 혜택
  • 3 현재 상황
  • 3.1 전통적인 도서관 데이터의 문제
  • 3.1.1 도서관 데이터는 웹 자원과 통합되지 않았다
  • 3.1.2 도서관 표준은 도서관계만을 위해 설계되었다
  • 3.1.3 도서관 데이터는 주로 자연어 텍스트로 표시되어있다
  • 3.1.4 도서관계와 시맨틱 웹 커뮤니티는 유사한 메타데이터 개념에 대해 서로 다른 용어를 사용한다
  • 3.1.5 도서관 기술은 공급자 시스템의 발전에 따라 변화한다
  • 3.2 현재 활용할 수 있는 도서관 연결데이터
  • 3.2.1 서지데이터셋이 연결데이터로 발행된 량은 값어휘집 및 요소셋의 그것보다 더 적다
  • 3.2.2 가용한 데이터의 품질과 이에 대한 지원은 크게 다르다
  • 3.2.3데이터셋간의 연결은 시작되었지만 더 많은 노력과 결집이 필요하다
  • 3.3 권리 문제
  • 3.3.1 권리 소유권이 복잡하다
  • 3.3.2 데이터 권리는 비즈니스 자산으로 간주될 수도 있다
  • 4 권고사항
  • 4.1도서관 대표자에 대한 권고사항
  • 4.1.1연결데이터로 조기 노출할만한 후보 데이터 집합을 확인하라
  • 4.1.2 개방형 데이터와 권리에 대한 토론을 장려하라
  • 4.2표준기구 및 참여자에 대한 권고사항
  • 4.2.1 시맨틱 웹 표준화에 도서관의 참여를 확대하라
  • 4.2.2 연결데이터와 호환되는 도서관 데이터 표준을 개발하라
  • 4.2.3 도서관 연결데이터에 맞는 최상의 디자인 패턴을 개발하여 보급하라
  • 4.3데이터 및 시스템 설계자에 대한 권고사항
  • 4.3.1 설계 및 연결데이터 기능을 기반으로 하는 이용자 서비스를 설계하여 테스트하라
  • 4.3.2 도서관 데이터셋에 들어있는 항목에 대한 URI를 생성하라
  • 4.3.3연결데이터 어휘집 및 그 URI를 관리하기 위한 정책을 개발하라
  • 4.3.4 기존의 연결데이터 어휘집을 재사용하거나 매핑하여 도서관 데이터를 표현하라
  • 4.4 사서와 기록관리사에 대한 권고사항
  • 4.4.1 연결데이터 요소집합과 값어휘집을 보존하라
  • 4.4.2 관리 및 장기보존과 관련된 도서관의 경험을 연결데이터 셋에 적용하라
  • 참조문헌
  • 감사의 글
  • 부록 A: 현행 도서관 연결데이터 자원 조사목록
  • 부록 B: 관련 기술
  • B.1 웹에 실제로 존재하지 않은 사물을 식별하기 위한 URI 사용
  • B.2 정보에 대한 개별 및 대량 접근
  • B.3 기존의 데이터 저장소를 연결데이터와 RDF에 매핑하기 위한 프런트엔드
  • B.4데이터 설계자용 도구
  • B.5 SKOS와 관련 도구
  • B.6 Microformats, Microdata및 RDFa
  • B.7 웹 애플리케이션 프레임워크
  • B.8 콘텐츠 관리 시스템
  • B.9 도서관 연결데이터용 웹 서비스
  • 부록 C: 시맨틱 정렬

1 이 보고서의 범위

이 보고서의 범위인 “도서관 연결데이터”는 다음과 같은 의미를 갖는다.

도서관. 이 보고서에 사용된 “도서관”이라는 단어는 도서관, 박물관, 기록보존소를 포함한 문화유산 및 기억기관 전체를 포괄한다. 이 용어는 세 개의 서로 다른 그러나 관련된 개념 즉, 물리적 또는 추상적 개체(잠재적으로 “디지털”을 포함함)로 구성된 컬렉션, 컬렉션이 있는 장소, 그리고 그 컬렉션을 관리하고 그 장소를 관리하는 주체를 말한다. 컬렉션은 공립이거나 사립, 소규모이거나 대규모일 수 있으며, 자원의 특정 유형에 국한되지 는 않는다.

도서관 데이터. ”도서관 데이터”는 자원을 기술하거나 그 검색을 지원해주는 것으로서 도서관이 생산 또는 관장하는 모든 유형의 디지털정보를 의미한다. 그러나 도서관 개인정보보호정책이 적용되는 데이터는 일반적으로 해당되지 않는다. 본 보고서는 도서관 데이터를 그 일반적인 용도에 따라 데이터셋​​요소셋 및 값어휘집 (부록 A 참조) 등 세가지 실질적인 유형으로 구분한다.

연결데이터. ”연결데이터”는 데이터셋, 요소셋, 및 값어휘집간의 연결을 촉진하기 위해 설정된 원칙에 따라 발행된 데이터를 의미한다[LINKEDDATA]. 연결데이터는 모든 종류의 자원에 대한 전세계적인 고유식별자로서 통일자원식별자(URI) 를 사용하는데, 비유하자면 전통적인 도서관의 전거통제에 식별자가 사용되는 방법과 같다[URI ]. 연결데이터에서 URI는 국제자원식별자(IRIS) 즉,  유니코드가 지원되는 자연어 스크립트의 확장판을 사용하는 웹 주소일 수도 있다. 연결데이터는 사물간의 관계를 지정하는 자원기술프레임워크(RDF) 같은 표준을 사용하여 표현된다. 이때, 관계는 여러 출처에서 나온 정보를 탐색하거나 통합하는데 사용될 수 있다[RDF].

개방형 데이터. ”연결데이터”가 데이터의 기술적 상호운용성을 의미한다면 “개방형 데이터”는 그 법적 상호운용성에 초점을 맞추고 있다. 개방형 서지데이터에 대한 정의에 따르면 개방형 데이터는 본질적으로 자유롭게 사용할 수 있고, 재활용할 수 있으며, 재배포할 수 있으며, 또 대부분 그 속성과 비슷한 요건이 적용된다. 다만 데이터가 개방형 연결데이터로 발행되었을 때가 그 기술적 잠재력이 최고로 발현될 수 있지만 연결데이터 기술 그 자체를 사용하는데 있어서는 데이터가 개방될 필요는 없다.

도서관 연결데이터. “도서관 연결데이터”는 연결데이터로 표현된 모든 유형의 도서관 데이터(위의 정의)를 말한다.

 

2 연결데이터 접근방식이 가져다 주는 혜택

연결데이터 접근방식은 역사적으로 도서관이 활용한 협력적 공유모델을 자연스럽게 확장시켜줌과 동시에 도서관 데이터의 생성 및 배포에 있어서 현재의 관행보다 상당한 이점을 제공한다. 연결데이터 및 특히 개방형 연결데이터는 공유가능하고, 확장가능하며, 쉽게 재사용할 수 있다. 이 접근방식은 언어와 상관없이 URI로 식별되는 개념에 표지를 부착함으로써 데이터 및 이용자 서비스에 필요한 다국어 기능을 지원한다. 이들 특성은 연결데이터 표준에 내재된 것으로서, 데이터 및 개념용 웹 친화적 식별자의 활용으로 도움을 받는다. 자원은 다른 도서관과의 협력을 통해 기술할 수도 있고, 다른 커뮤니티 혹은 개인이 생산한 데이터에 연결할 수도 있다. 오늘날 웹 문서간의 링크와 마찬가지로, 연결데이터는 다른 사람의 전문적 지식으로 재사용되고 재조합 될 수 있는 형태로 누구나 고유한 전문적 지식을 발휘할 수 있도록 해준다. 식별자를 활용하면 동일한 사물에 대해 다양한 기술이 가능하다. 신뢰할만한 출처에서 생산된 보완적인 데이터와의 수많은 연결을 통해 도서관은 개별적으로 보유한 정보원의 합을 넘어 도서관 자체에서 소장한 데이터의 가치를 높일 수 있다.

저작물, 장소, 사람, 사건, 주제, 및 기타 객체 또는 관심 개념을 지칭할 글로벌 고유식별자를 사용함으로써, 도서관은 소장자원이 다양한 데이터 생산처에 인용될 수 있게 할 수 있고, 따라서 그 메타데이터 기술사항에 보다 더 잘 접근하게 수 있다. 인터넷의 도메인이름시스템(DNS)은 이들 식별자를 통제되고 잘 알려진 소유권 및 유지보수 맥락에 진입시킴으로써 안정성과 신뢰성을 보장해준다. 이 개념은 도서관의 장기적 임무와 완벽하게 호환된다. 도서관과 일반적인 기억기관은 장기적으로 문화적으로 중요한 자원에 대해 신뢰할만한 메타데이터를 웹 데이터로서 제공하는 독특한 위치에 서있다.

이들 고유식별자를 재사용함으로써 얻는 또 다른 강력한 효과는 이들이 데이터 공급자로 하여금 그 데이터의 일부를 진술(statements)로 제공할 수 있도록 해준다는 것이다. 현재의 문서기반 생태계에서는 데이터가 항상 전체 레코드의 형태로 교환되고 있어, 이들 레코드 각각이 완벽한 설명일 것이라 간주되고 있다. 반면, 그래프기반 생태계에서는 한 자원에 대해 어떤 조직이 개별적인 설명을 공급할 수 있고, 또, 고유하게 식별 가능한 특정 자원에 대해 기술한 모든 진술이 글로벌 그래프로 집계 수 있다. 예컨대, 어떤 자원에 대해 한 도서관에서는 자국의 국가서지번호를 제공하고, 또 다른 도서관에서는 번역된 표제를 제공할 수도 있다. 도서관이 책 표지의 이미지를 취할 때 지금과 마찬가지로 외부의 많은 정보원에서 생산된 진술을 받아올 수 있다. 연결데이터 생태계에는 문자 그대로 너무 하찮은 공헌은 없다. 이는 이전까지 몰랐던 출처에서 중요한 연결이 나오게 할 수 있는 속성 때문이다.

도서관의 이름 및 주제 전거 데이터는 연결데이터들 사이에 공유되는 핵심 개체들을 명확하게 식별하여 웹에서 서지기술 내용의 중복을 줄이는데 도움이 될 것이다. 이는 또한 도서관 소장자료를 나타내는 메타데이터의 중복을 감소시키는데도 도움이 될 것이다.

2.1 연구자, 학생, 이용자가 갖는 혜택

연결데이터가 도입되더라도 도서관과 문화기관 서비스의 이용자들이 알아차리지 못할 수도 있다. 그 변화는 “후드속” 거짓말을 하기 때문이다. 그러나 기본적인 구조화 데이터가 좀더 풍부하게 연결되어감에 따라 이용자는 데이터를 검색하고 이용하는 기능이 향상되었음을 알게 될 수 있을 것이다. 도서관과 비도서관에 있는 정보자원을 가로지르는 탐색은 좀 더 정교해질 것이다. 제휴 탐색기능은 링크를 사용한 색인의 확장으로 말미암아 향상될 것이며, 이용자들은 풍부한 브라우징 경로를 확보하게 될 것이다.

연결데이터는 웹의 결정적 특성 즉, 끊김없는 정보공간에 이어지는 훑어보기 가능한 링크(URI)를 기반으로 한다. 웹 페이지와 웹 사이트 전체를 이용자와 애플리케이션이 전체적으로 활용할 수 있는 것과 마찬가지로, RDF와 URI를 이용한 데이터셋의 총합은 그 자체로서 URI 링크의 꼬리를 따라감으로써 (“곧장 앞으로 나감”, 즉 “toURIsm”이라는 데이터 구동 형태) 이용자와 애플리케이션이 끊임없이 탐색할 수 있는 글로벌 정보그래프이다.  도서관 이용자에게 있어 연결데이터의 가치는 이러한 기본적인 탐색의 원리에서 파생된다. 도서관과 비도서관 서비스(Wikipedia, GeoNames, MusicBrainz, BBC, New York Times 등)간의 연결은 도서관의 콜렉션을 웹상의 좀더 큰 정보세계로 연결해줄 것이다.

연결데이터는 다른 웹을 만드는 것이 아니라 구조화 데이터를 추가함으로써 웹을 증강시키는 것이다. 이 구조화 데이터 [RDF 속성(RDFa)과 microdata 등의 기술을 사용하여 표현됨]는 탐색엔진과 소셜 네트워크의 크롤링 및 적합성 알고리즘에서 역할을 담당하고, 도서관이 검색엔진 최적화(SEO)를 통해 그 가시성을 향상시키는 방법을 제공한다.  HTML 페이지에 포함된 구조화 데이터는 또한 정보 탐색자들로 하여금 도서관이 서비스하는 데이터를 재사용할 수 있도록 해준다. 인용관리는 URI를 오려붙이기 하는 것만큼 간단해질 수 있다. 연결데이터에서 서지사항 검색을 자동화하거나 웹 자원으로부터 도서관 자원으로의 링크가 생성된다는 것은 도서관 데이터가 연구문헌과 서지로 온전히 통합된다는 것을 의미한다. 연결데이터는 여러 가지 영역의 지식기반간의 연결을 통해 지식을 증강시킴으로써 학제적 연구에 도움을 줄 것이다.

기존의 도서관 데이터를 연결데이터로 흡수하는 일은 단지 첫 단계이며, 이 보고서에 제시된 실험에 쓰인 데이터셋과 그 데이터를 처리하기 위해 저자들이 사용한 모델 또한 연결데이터로 발행될 수 있다. 적절한 어휘와 양식을 사용하여 논문, 데이터셋, 모델을 표현해두면 다른 연구자가 실험을 반복하거나 또는 그 데이터 셋트를 다른 모델과 목적을 위해 재사용하기 보다 쉬워진다.  이런 관행이 정착된다면 연구의 엄밀성을 개선시키고, 연구논문에 기술된 연구 보고내용에 대한 전반적인 평가를 동료들이 보다 쉽게 검증할 수 있도록 좀더 투명하게 만들 수 있다. (예, 첨단 출판 유스케이스.)

2.2 조직이 갖는 혜택

연결데이터는 상향식 데이터 발행방식을 진작시킴으로써 도서관이 자관의 자산을 기술하는 일의 가치를 증진시킬 수 있는 기회를 창출한다. 도서관 데이터에 대한 전통적인 하향식 접근방식(도서관 자료에 대해 독립적으로 기술하여 목록 레코드를 생산하는 방식)에서는 예산의 한도를 기준으로 실행되었으나, 도서관은 좀더 상세한 수준의 정보를 생산하는데 필요한 자원이 없다. 연결데이터를 이용하면 동일한 자산에 대해 상이한 종류의 데이터가 서로 다른 주체에 의해 분산 방식으로 생산된 다음 하나의 그래프로 묶일 수 있다.

연결데이터 기술은 조직이 내부 데이터 관리과정을 개선시키고, 예컨대 디지털 객체와 이에 대한 기술내용간의 좀더 좋은 링크를 유지하는데 도움을 줄 수 있다. 이 기술은 데이터가 완전히 개방되지 않은 조직 내에서도 데이터 발행과정을 향상시킬 수 있다. 오늘날의 도서관 기술은 도서관 데이터 형식에 특화되어있고, 도서관에 특화된 통합 도서관 시스템 기업에서 공급받는데 반해, 도서관은 연결데이터를 관리하기 위한 주류 솔루션을 사용할 수 있게 될 것이다. 주류 연결데이터 기술을 채택하면 도서관이 공급업체들을 폭넓게 선택할 수 있고, 표준 연결데이터 형식을 사용하면 도서관이 좀더 넓은 개발자 풀에서 채용하고 이와 상호작용할 수 있다.

연결데이터는 문화정보를 관리하기 위한 ‘클라우드 기반’ 접근법을 향한 첫 걸음이 될 수 있는데, 이 접근법은 기관의 독립형 시스템보다 비용대비 효과가 높을 수 있다. 이러한 접근방식은 작은 기관 또는 개인 프로젝트가 인프라 비용을 절감하면서도 자체적으로 좀더 가시적이고 좀더 연결될 수 있도록 해줄 수 있다.

개방형 연결데이터로 도서관은 대부분의 정보탐색자들이 있는 웹에서 그 존재감을 높일 수 있다. 식별자에 초점을 맞추면 박물관, 기록보존소, 미술관, ​​시청각 기록보존소 등과 같은 특정 커뮤니티에 맞추어진 내용을 기술할 수 있다. 데이터를 개방하면 위협보다는 기회가 많아진다. 서술형 메타데이터의 라이선스 조건을 명확히 하면 그 재사용을 촉진시킬 수도 있고 기관의 가시성을 향상시킬 수도 있다. 따라서 데이터가 노출되면 “귀 기관의 데이터로 할 가장 멋진 일은 다른 누군가가 생각해낼 것이다.”라는 금언처럼 예상치 못한 용도로 사용될 수 있다.

2.3 사서, 기록관리사 및 큐레이터가 갖는 혜택

이용자와 조직이 갖는 혜택은 도서관 전문직에게도 직접적인 영향을 미칠 것이다. 개방형 연결데이터를 활용함으로써 도서관은 현재의 편목과정에 비해 중복된 노력을 줄이면서도 자원을 기술하는데 활동되고 재활용될 수 있는 개방형 글로벌 공유 데이터 풀을 창출하게 될 것이다.

웹과 웹 기반 식별자를 활용하면 편목자들이 최신의 자원기술내용을 직접 활용할 수 있게 된다. 공유 식별자를 사용하면 이들은 자체 영역환경의 외부에 있는 자원, 모든 문화유산 데이터셋, 심지어 더 넓게는 웹에 있는 자원에 대한 기술내용을 끌어모아 활용할 수 있다. 편목자들은 다른 사람이 이미 잘 작성해놓은 기존의 기술사항을 다시 만들 필요없이 자신의 전문분야에 노력을 집중할 수 있게 될 것이다.

역사는 모든 기술이 일시적이라는 것을 보여주고 있으며, 정보기술의 역사 또한 특정한 데이터 형식의 수명이 특히 짧다는 것을 말해준다. 연결데이터는 특정 데이터 구조(“구문” 또는 “형식”)와는 별개로 데이터의 의미(“sematics”)를 기술하는데, 그 결과 연결데이터는 형식이 변하더라도 그 의미가 유지된다. 이러한 의미에서, 연결데이터는 특정한 데이터구조에 의존하는 메타데이터 형식보다 지속가능하고 견고하다.

2.4 개발자 및 공급자가 갖는 혜택

도서관 개발자와 공급자는 도서관에 특화된 데이터 형식에 얽메이지 않음으로써 곧바로 혜택을 보게 된다. 연결데이터 방식은 모든 메타데이터 공급자가 일관된 방식으로 데이터를 검색하고 재혼합할 수 있게 도와준다. 도서관 중심의 프로토콜을 이용한 데이터 접근 대신(예, Z39.50 정보검색 프로토콜), 연결데이터는 하이퍼텍스트 전송 프로토콜(HTTP)처럼 잘 알려진 표준 웹 프로토콜을 사용한다.

또한 개발자는 ISO 2709기계가독형목록(MARC)처럼 맞춤형 소프트웨어 도구 및 응용 프로그램이 필요한 도서관 특화 데이터 형식으로 작업할 필요가 없다. 연결데이터 방식은 일반적으로 이해할 수 있는 형식으로 웹에 데이터를 게시하는 것이다. 연결데이터를 지원하는 도서관 벤더는 도서관계 밖에서 그 제품의 판로를 개척할 수 있고, 도서관계 외부의 업체도 그들의 보다 일반적인 제품을 도서관의 특정 요구에 맞게 적응시킬 수 있을 것이다. RDF와 HTTP를 활용함으로써, 도서관 개발자는 도메인 특화 소프트웨어를 사용해야 할 부담에서 해방되어 많은 것이 오픈 소스인 일반도구로 길을 넓일 수 있다. 그들은 자체의 데이터를 기반으로 새로운 서비스를 구축하는 편이 쉽다는 것을 깨닫게 될 것이다. 이는 또한 훨씬 더 큰 개발자 커뮤니티에게 문호를 개방하여 도서관에서 정보기술 전문가를 지원하게 될 것이다. RDF Triple의 바다에서는 어떤 개발자도 섬이 아니다.

 

3 현재 상황

3.1 전통적인 도서관 데이터의 문제

3.1.1 도서관 데이터는 웹 자원과 통합되지 않았다

오늘날의 도서관 데이터는 데이터베이스에 탑재되어 있어 웹 탐색 인터페이스와 연결되어있긴 하지만 웹에 있는 다른 데이터 소스와 깊숙이 통합되어있지는 않다. 웹에는 날짜, 지리정보, 사람, 조직 등과 같이 데이터 포인트를 공유하는 상당히 많은 서지데이터와 여타 종류의 자원이 있다. 미래의 연결데이터 환경에서는 이 모든 점들이 연결 수 있다.

3.1.2 도서관 표준은 도서관계만을 위해 설계되었다.

MARC형식이나 정보검색 프로토콜인 Z39.50 등 많은 도서관 표준은 도서관에 특화된 맥락에서 개발되었거나 계속 개발되고 있다. 도서관계의 표준화는 종종 국제도서관협회기관연맹(IFLA)과 RDA개발을 위한공동운영위원회 (JSC)같이 도서관분야에만 초점을 맞춘 기관에 의해 추진된다. 그들의 표준화 범위를 확대하거나 연결데이터 표준화 사업과 연계함으로써, 이들 기구는 다른 커뮤니티가 생산하여 사용하는 데이터에 대해 그들이 제정한 표준의 관련성과 적용가능성을 확대할 수 있다.

3.1.3 도서관 데이터는 주로 자연어 텍스트로 표시되어있다.

도서관 데이터에 있는 대부분의 정보는 보여주기 중심의 자연어 텍스트로 표현된다. MARC 레코드에 있는 필드 중 일부는 언어표시용 고정길이 문자열과 같이 코드화된 값을 사용하지만, 대부분의 코드화된 데이터 필드가 도서관 시스템 기능에 사용되지는 않기 때문에, 이들을 모든 레코드에 포함시킬 확실한 유인책이 없다. 도서용 ISBN처럼 MARC 레코드에 들어있는 식별자중 일부는 원칙적으로 연결용으로 사용될 수 있지만, 이것들이 포함된 텍스트 필드에서 추출하여 정규화를 거친 이후라야 가능하다.

(통제형 이름 및 주제)전거필드 같은 일부 데이터 필드는 별도의 파일에 그 관련 레코드가 있고, 이들 레코드는 도서관 메타데이터 내의 해당 개체를 표현하는데 사용될 수 있는 식별자를 갖고 있다. 그러나, 현재 사용중인 데이터 포맷은 이들 식별자가 레코드에 항상 포함되도록 지원하지는 않고, 따라서 오늘날 많은 도서관 시스템이 그 사용을 제대로 지원하지 않는다. 이들 식별자는 전세계적으로 관리되기보다는 국지적으로 관리되는 경향이 있고, 따라서 이것들이 웹으로 연결될 수 있는 URI로 표현되지 않는다. 도서관 시스템에서 그것들에 대한 링크의 부재 또는 충분치 못한 지원이 중요한 문제를 야기시킨다. 레코드를 권위 있는 내용으로 바꾸기 위해서는 그 텍스트 문자열을 변경하기 위한 모든 관련 서지 레코드가 검색될 필요가 있다. 이는 도서관이 레코드를 적시에 변경하지 못하게 하는 파괴적이고 값비싼 과정이다.

3.1.4 도서관계와 시맨틱 웹 커뮤니티는 유사한 메타데이터 개념에 대해 서로 다른 용어를 사용한다.

도서관 연결데이터에 대한 작업은 도서관계와 시맨틱 웹 커뮤니티에서 사용하는 개념과 용어의 차이로 방해받을 수 있다. 사서들은 메타데이터 “진술”이라는 말을 거의 쓰지 않고, 시맨틱 웹 커뮤니티에는 “표목”이나 “전거통제”와 확실히 상응하는 개념이 없다. 각 커뮤니티는 각자의 어휘를 사용하고 있는데, 이는 그들이 갖는 관점의 차이를 반영한다. 이 두 그룹이 데이터 웹의 건설을 위해 중요한 전문지식을 동원하고 있는 만큼 상호이해가 증진되어야 한다.

3.1.5 도서관 기술은 공급자 시스템의 발전에 따라 변화한다.

도서관계에서 상당부분의 기술적 전문지식이 수서, 이용자, 데이터, 대출반납 등의 도서관 관리기능과 이용자 검색 서비스 둘 다 지원하는 시스템과 소프트웨어를 공급하는 소수의 공급자에게 집중되어있다. 이 때문에 제작규모에서 연결데이터를 도입하고자 할 경우, 도서관이 그 자체의 계획보다는 이들 업체와 그 업체들의 기술개발 계획에 의존해야 한다.

3.2 현재 활용할 수 있는 도서관 연결데이터

도서관 연결데이터의 성공은 다른 가능한 출처를 식별하거나, 재사용하거나, 또는 연결하는 실무자의 능력이 관건이다. 그러나, 지금까지는 연결데이터로서 활용될 수 있는 도서관 데이터셋과 어휘집의 개요를 파악하기 어려웠다. 이 보육그룹에서는 도서관 관련 연결데이터로서 활용할 수 있는 자료를 조사하였으며(부록 A를 보라), 그 결과는 다음과 같다.

3.2.1 서지데이터셋이 연결데이터로 발행된 량은 값어휘집 및 요소셋의 그것보다 더 적다.

지난 몇 년 동안 미국회도서관주제명표목과  듀이십진분류표 등 주요 어휘집을 포함하여 많은 메타데이터 요소셋과 값어휘집이 연결데이터로 발행되었다.  DCMI 메타데이터 용어 같은 핵심 요소셋과 서지레코드의 기능요건(FRBR)같은 참조 프레임워크가 연결데이터 또는 연결데이터와의 호환 형태로 발행되었다.

서지데이터셋이 연결데이터로 공개된 량은 비교적 적고, 저널기사, 인용, 또는 대출반납 데이터에 대한 메타데이터는 훨씬 더 적다. 그러나 이들 데이터는 사실 맥락이 완벽하게 통합된 환경에서는 효과적으로 활용될 수 있는 정보이다. 영국국가서지 발표와 같은 선도적인 사업은 라이선스, 데이터 모델링, 기존 데이터의 처리, 복수의 이용자 커뮤니티와의 협력 등의 난제를 해결하기 위해 필요한 활동을 보여준다. 그렇지만 이것들도 또한 서지 데이터베이스를 연결데이터로 공개하는 데서 얻는 상당한 이점을 보여준다. 커뮤니티의 경험이 증가할수록, 연결데이터로 발표되는 데이터셋의 량이 빠르게 증가하고 있다.

3.2.2 가용한 데이터의 품질과 이에 대한 지원은 크게 다르다

사용 가능한 자원의 성숙도나 안정성의 수준이 크게 다르다. 기존의 많은 자원은 진행중인 프로젝트 작업의 결과이거나 개별 사업의 결과이며, 각 프로젝트는 자체를 완전한 완성품이 아니라 프로토타입이라 설명한다. 실제로, 이러한 활동이 많다는 것은 도서관 연결데이터의 주변활동과 관심을 나타내는 신호로서 연결데이터가 지원하는 신속한 프로토타입과 “민첩한” 개발과정을 예로서 보여주고 있다. 동시에, 그러한 창조적이고 역동적으로 전개되는 활동이 필요한 것은 안정적이고 오랫동안 활용할 수 있는 도서관 연결데이터 자원에 대한 수요에 대응해야 하기 때문이다.

스웨덴, 헝가리, 독일, 프랑스의 국립도서관,​​ 미국국회도서관, 영국도서관에서부터 유엔식량농업기구와 OCLC에 이르기까지 기존의 기관들이 연결데이터 프로젝트에 점점 더 많은 자원을 투자하고 있다는 사실은 고무적이다. 이들 기관은 도서관 연결데이터가 시간이 지남에 따라 성장할 수 있는 안정적인 토대를 제공한다.

3.2.3데이터셋간의 연결은 시작되었지만 더 많은 노력과 결집이 필요하다

연결데이터 기술의 주요 장점은 데이터셋들이 서로 연결될 때 실현된다. 이러한 연결을 만들어내는 것이 성공의 열쇠가 될 것이다. 사용 가능한 데이터 조사목록(부록 A를 보라) 보면 발행된 값어휘집 간에 많은 의미적 링크가 생성되었음을 알 수 있다. 이는 초기 도서관 연결데이터 커뮤니티 전체의 큰 업적이다. 도서관에서 유지하고 있는 여러 가지 전거자원간의 중복문제를 해결하기 위해 더 많은 일을 수행할 수 있고 수행해야 한다.  데이터셋간에 그리고 연결데이터 기술사항의 구조화용 메타데이터 요소셋간의 더 많은 링크가 필요하다. 주요 장애요소들은 어휘집에 대한 비교적 낮은 수준의 장기적 지원, 어휘집 개발자간의 제한된 커뮤니케이션, 그리고 필요한 의미적 링크를 데이터 공급자가 대량으로 생산하는데 드는 비용을 낮춰줄 성숙한 도구의 부족이다. 이 분야의 참여자간의 지식공유 뿐만 아니라 적합한 링크의 생산과 공유를 촉진하기 위한 활동도 이미 시작되었다(부록 C를 참고하라).

3.3 권리 문제

3.3.1 권리 소유권이 복잡하다

일부 도서관 데이터는 자관의 정책, 계약 및 조건에 따라 사용이 제한되어있다. 그러므로 데이터가 개방형 데이터로 공개되는 것을 방해하는 불분명하고 시험해보지 않은 권리문제가 있을 수 있다. 권리문제는 나라마다 크게 다르기 때문에 개방형 데이터 발행에 대해 협력하기 어렵다.

기존의 목록 레코드에 대한 소유권은 지난 50년 동안 도서관 간의 데이터 공유의 정도에 따라 복잡했다. 레코드는 빈번하게 복사되고, 복사본은 지역 편목자들에 의해 수정되거나 내용이 보강된다. 이들 레코드는 이후 지역, 국가, 및 국제 컨소시엄의 목록으로 다시 합쳐질 수도 있다. 관련 주체 및 기관간에 법적으로 흠이 없는 지적소유권을 할당하기가 어려우며, 법적 문제에 틀림없이 주의를 기울이는 커뮤니티에서는 확실성이 없으면 데이터 공유가 잘 않된다.

3.3.2 데이터 권리는 비즈니스 자산으로 간주될 수도 있다

도서관 데이터를 다른 주체와 공유하지 않았을 경우에 그 권리는 메타데이터를 수집, 생성, 유지, 수집하는데 있어 과거, 현재, 미래의 투자에 가치를 투입한 기관이 독점적으로 행사할 수도 있다. 일부 기관들은 레코드를 사업계획상에 자산으로 취급하기 때문에 이들을 개방형 연결데이터로 게시하기 꺼려할 수도 있다. 다른 기관은 메타데이터의 유용성에 영향을 미칠 정도로 의미적 세부사항을 없앤 채 손실이 있거나 일부 내용을 손실한 형태로만 데이터를 공개하려 할 수도 있다.

 

4 권고사항

도서관은 연결데이터로 자관의 데이터를 연결데이터로 활용할 수 있도록 할뿐만 아니라 도서관 서비스에서 데이터 웹을 사용함으로써 정보의 웹을 포용해야 한다. 이상적으로, 도서관 데이터는 웹에 있는 다른 자원과 완벽하게 통합하여 도서관의 가시성을 좀더 넓혀서 정보탐색자에게 도서관 서비스를 인식시켜야 한다. 연결데이터의 웹과 관련하여 도서관은 전통적인 활동에 바탕을 둔 선도적 역할을 수행할 수 있다. 즉 이런 활동이란 현재 이용과 장기적 보존을 위한 자원의 관리, 합의된 규칙에 입각한 자원의 기술, 그리고 정보추구자의 수요에 대한 대응이다.

4.1도서관 대표자에 대한 권고사항

4.1.1연결데이터로 조기 노출할만한 후보 데이터 집합을 확인하라

아주 초기 단계에서는 우선순위가 높고 노력이 적게 드는 연결데이터 프로젝트를 확인해야 한다. 연결데이터는 그 성격상 웹에서 사용할 데이터를 만들기 위한 점증적 접근법을 취하기 쉽게 한다. 도서관의 데이터 환경은 복잡하고, 그 복잡한 데이터를 한꺼번에 모두 연결데이터로 만들려 한다면 성공하기 어렵다. 그러나 도서관 자원 중 일부는 현재의 시스템과 서비스를 중단하지 않고도 연결데이터로 발행할 수 있다. 그 중에는 전거파일 (그 구성요소는 사물을 식별함)과 통제어휘목록이 있다. 그런 “낮게 달린 과일”을 확인한다면 도서관은 업무흐름을 다른 곳으로 변경하지 않고서도 연결데이터 클라우드에서 그 입지를 재빨리 확대하실 수 있다.

4.1.2 개방형 데이터와 권리에 대한 토론을 장려하라

데이터에 대한 권리를 정의하는데 있어서 권리 소유자는, 사용 제한이 미치는 영향을 고려해야 한다. 왜냐하면 사용상의 제약은 연결데이터 환경에서 데이터의 재사용을 복잡하게 하기 때문이다. 도서관의 지도층은 도서관 컨소시엄, 심지어 국가 또는 국제적인 수준에서 권리 및 라이센스에 대한 소유자와의 계약을 추구하는 것은 의미가 있다. (예를 들어, 영국 고등교육기관 도서관용 개방형 서지데이터 지침권리 및 라이선스 섹션을 보라.)

4.2 표준기구 및 참여자에 대한 권고사항

4.2.1 시맨틱 웹 표준화에 도서관의 참여를 확대하라

만약 시맨틱 웹 표준이 표현력이 풍부한 도서관 데이터의 변환을 지원하지 않으면 그 표준이 확장될 수 있다. 예컨대, 지식조직화시스템을 연결데이터로 발행하는데 사용되는 표준인 단순지식조직화시스템(SKOS)이 전조합방식의 주제명표목의 구성요소를 표현하기 위한 장치를 갖고 있지 않으면 실무자들은 예컨대, OWL 웹 온톨로지 언어를 이용하여 그 기본 요소를 확장하는 솔루션의 고안을 고려해야 한다. 연결데이터의 일반 소비자에게 이 새로운 구조를 확실히 이해시키기 위해서는, 실무자들은 시맨틱 웹 커뮤니티와 협력하여 제안된 솔루션이 현행의 모범사례와 확실히 호환되게 해야 하고, 도서관 환경 밖에서의 응용가능성도 극대화시켜야 한다. 도서관계 사람들은 기원의 개념을 포괄하기 위한 W3C의 RDF 확장사업 등과 같이 기술작업반에 참여하거나 공개적 검토과정에 참여함으로써, 도서관과 관련된 표준화에 기여해야 한다. W3C 커뮤니티 그룹은 이 분야에서 중요한 역할을 담당할 수 있을 것이다.

4.2.2 연결데이터와 호환되는 도서관 데이터 표준을 개발하라

시맨틱 웹 기술은 20세기의 데이터 형식을 기반으로 한 개념화와는 근본적으로 다른 방식으로 데이터를 개념화한다. 전통적인 도서관의 데이터 형식이 데이터의 의미와 데이터의 구조화된 부호를 단일 패키지로 결합시키는 것이라면, 연결데이터는 주로 의미와 사물간의 의미있는 관계에 관한 것이다. 데이터 형식상 의미와 부호를 분리할 수 없기 때문에 데이터에 투자하여 얻는 가치의 융통성이 떨어지는 결과가 초래된다. 1960년대 MARC형식의 도입 이래 도서관에서 디지털 데이터는 주로 정확히 지정된 구조의 파일에 저장되는 정보집합으로 한정된 “레코드”형태로 관리되어왔다. 반면, 시맨틱 웹과 연결데이터는 데이터를 그래프로 구조화하기 때문에 원칙적으로 한계가 없는 구조이다. 이들 두 가지 접근방식에 차이가 있다는 것은 도서관 표준 및 데이터셋을 연결데이터로 변환하는 과정이 쉽지 않고, 데이터 설계의 새로운 원칙를 이해한 후 변환해야 함을 의미한다. 도서관 데이터를 위한 온톨로지 및 구조화 어휘집의 구축에 참여할 사람들을 안내할 최상의 설명서와 방안이 필요하다.

4.2.3 도서관 연결데이터에 맞는 최상의 디자인 패턴을 개발하여 보급하라

디자인 패턴은 구현자가 전임자의 경험에 바탕을 둘 수 있도록 해준다. 전통적인 편목 관행은 여러가지 패턴 및 예시와 함께 문서화되어 있고, 연결데이터에 대해서도 모법사례가 문서화되기 시작했다. 그 예로는 연결데이터: 글로벌 데이터 공간으로 웹 진화와 연결데이터 패턴이 있다. 애플리케이션 프로파일은 실무커뮤니티에 특정 유형의 자원을 기술하기 위한 어휘집의 사용에 따른 패턴과 제약사항을 문서화하고 공유하는 방법을 제공한다. 필요한 것은 도서관 연결데이터의 요구사항에 특별히 맞는 디자인 패턴이다. 이들 디자인 패턴은 패턴과 예시를 통해 새로운 기술을 좀더 잘 이해할 수 있는 개발자들의 수요를 충족시켜 줄 수 있으며, 아울러 도서관 연결데이터 전반의 일관성을 높일 수 있다.

4.3 데이터 및 시스템 설계자에 대한 권고사항

4.3.1 설계 및 연결데이터 기능을 기반으로 하는 이용자 서비스를 설계하여 테스트하라

연결데이터는 도서관 밖의 개발자들이 도서관 데이터를 기반으로 응용 프로그램과 서비스를 만들 수 있게 할 뿐만 아니라 궁극적으로 사용자에게 새롭고 더 나은 서비스를 만들 수 있게 해준다. 정보검색과 사용을 위해 어떤 새로운 유형의 서비스가 개발될 수 있을지를 예측하기에는 너무 때 이르다. 도서관 연결데이터를 활용한 실험 서비스는 잠재적인 이용사례를 탐구하고 더 큰 규모의 개발활동의 방향을 알리기 위해 수행되어야 한다.

4.3.2 도서관 데이터셋에 들어있는 항목에 대한 URI를 생성하라

도서관 데이터는 특정 자원 및 도서관 표준 개념에 대한 통일자원식별자(URI) 를 갖지 않고는 연결데이터 환경에서 사용될 수 없다. 자원 데이터 및 표준의 공식 소유자는 가능한 한 빨리URI를 할당해야 한다. 왜냐하면 이런 데이터의 응용 프로그램 개발자와 다른 사용자들은 자신들의 활동을 미루지 않을 것이고, 데이터의 소유기관 밖에 있는 URI를 할당 가능성이 더 높기 때문이다. 소유자가 URI를 적시에 지정할 수 없는 경우에는 똑 같은 사물에 부여되는 URI의 확산을 피하고 이미 할당된 URI의 재사용을 권장하기 위해서라도 URI의 할당과 관리를 맡을 파트너를 찾거나 다른 주체에게 위임해야 한다.

국가서지 같은 목록 레코드와 기타 메타데이터 작성의 책임을 맡고 있는 주체는 기술대상 자원의 URI를 생성하는데 있어 선도적인 역할을 담당할 논리적인 조직이다.

4.3.3 연결데이터 어휘집 및 그 URI를 관리하기 위한 정책을 개발하라

자원과 표준에 대한 URI를 생성하고 유지 관리하는 조직과 개인이 URI의 파생에  활용될 네임스페이스 정책을 개발해놓으면 도움이 될 것이다.  그러한 “네임스페이스 정책”은 효과와 효율성을 증진시켜주는 일관되고 통일성이 있으며 안정적인 접근방법을 진작시키는 한편, URI 및 그 네임스페이스의 사용자에게 그 품질을 보증해 준다.  네임스페이스 정책에는 다음의 사항이 포함될 수 있다.

  • 최상의 지침을 우선적으로 따르는 URI 생성용으로 사용될 패턴
  • URI의 지속성을 유지하기 위한 기관의 활동
  • 어휘집 및 그 용어에 대한 버전통제
  • “HTTP” URI의 사용, 이 HTTP는 웹 브라우저가 보편적으로 지원하는 하이퍼텍스트 전송 프로토콜을 호출하여 모든 웹 페이지 또는 그 URI의 의미를 기술하는 기계가독형 표현으로 바꾸어준다.
  • 타조직에 의한 어휘집의 확장 가능성.
  • 표지와 기타 주석의 다른 언어로의 번역.

4.3.4 기존의 연결데이터 어휘집을 재사용하거나 매핑하여 도서관 데이터를 표현하라

다른 데이터셋과의 연결가능성을 극대화하기 위해서는 도서관 데이터셋을 더 넓은 연결데이터 공간에서 사용되는 데이터셋과 관계가 잘 정립된 연결데이터 용어(속성, 클래스 및 인스턴스)를 사용하여 표현해야 한다.  이것은 두 가지 방법으로 할 수 있다. 즉, 도서관 데이터 셋은 기존의 표준에 근거를 두고 있는 연결데이터 어휘를 사용하거나 도서관계의 연결데이터 용어와 다른 커뮤니티의 그것들간에 명시적 관계를 (“정렬”) 규정짓는 것이다(부록 C에서 추가적으로 다룬다).

4.4 사서와 기록관리사에 대한 권고사항

4.4.1 연결데이터 요소셋과 값어휘집을 보존하라

많은 연결데이터 어휘집은 지역, 국가, 또는 국제적 맥락에서 사람, 장소, 이벤트 및 개념에 대해 권위있는 정보를 제공하는 등 본질적으로 문화적 참고자료이다. 따라서, 연결데이터 어휘집을 보존하는 일은 기억기관 활동의 연장으로서 자연스럽고 필수적인 것이다. 연결데이터는 그 URI가 지속되는 경우에만 지금부터 20년 동안 가용한 상태로 유지될 것이며, 그 의미를 기술한 내용으로 바꿔줄 수 있다. 현재와 미래에 데이터를 올바로 해석하기 위한 열쇠로서 데이터 요소셋과 값어휘집은 특히 보존 대상 객체로 중요하다. 이러한 상황은 연결데이터 생태계를 지원하는데 있어서 도서관이 핵심 역할을 차지할 수 있는 기회가 된다.

4.4.2 관리 및 장기보존과 관련된 도서관의 경험을 연결데이터셋에 적용하라

현재 연결데이터 클라우드에 있는 많은 콘텐츠가 임의로, 즉 공개적으로 가용한 데이터 셋을 RDF로 한번 전환해본 결과로서, 정기적인 정확성 검사나 갱신 유지보수가 적용되지 않고 있다. 품질관리와 장기적인 유지관리 활동 등의 기풍을 가지고, 도서관은 기존 사명의 연장으로서 연결데이터를 관리하는 중요한 기능(지금까지는 무시됨)에서 핵심적인 역할을 맡는 중대한 기회를 갖는다. 데이터셋 내 기술된 자원을 진정으로 연결 가능한 객체로 관리하고 유지함으로써, 도서관은 다른 커뮤니티가 부가가치있는 공헌을 할 수 있도록 그 데이터를 개방하여 얻는 이득을 강화시킬 수 있다. 예컨대, 전기작가 또는 가계도연구가가 생산한 데이터에 링크를 추가하면 일반적으로 도서관에서 제공하지 않는 데이터로 도서관 자원 기술사항을 풍부하게 할 수 있으며, 도서관 장서에 대한 검색과 탐색기능도 향상시킬 수 있다.

 

참조문헌

[LINKEDDATA]

Linked Data, Tim Berners-Lee, World Wide Web Consortium, accessed 18 October 2011. http://www.w3.org/DesignIssues/LinkedData.html를 보라.

[RDF]

Resource Description Framework (RDF), World Wide Web Consortium, accessed 18 October 2011. http://www.w3.org/RDF/.를 보라.

[URI]

RFC 3986 — Uniform Resource Identifier (URI): Generic Syntax, T. Berners-Lee, R. Fielding, L. Masinter, The Internet Society, January 2005, accessed 18 October 2011. http://tools.ietf.org/html/rfc3986를 보라.

[USECASE]

Library Linked Data Incubator Group: Use Cases, Daniel Vila Suero, Editor, W3C Incubator Group Report, 25 October 2011. http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/를 보라. 최신버전 available at http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase/..

[VOCABDATASET]

Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets, Antoine Isaac, William Waites, Jeff Young, and Marcia Zeng, W3C Incubator Group Report, 25 October 2011. http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/를 보라. 최신버전 available at http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/.

 

감사의 글

도서관 연결데이터사업에는 편집자뿐만 아니라 다음 참가자가 포함되어있다. 이들이 없었다면 이 보고서는 나오지 않았을 것이다. Alexander Haffner, Alexandru Constantin, András Micsik, Andrew Houghton, Anette Seiler, Asaf Bartov, Bernard Vatant, Brian Kelly, Carlo Meghini, Dan Brickley, Daniel Vila Suero, Dickson Lukose, Felix Sasaki, Fumihiro Kato, Glen Newton, Guenther Neher, Herbert Van De Sompel, Hideaki Takeda, Ikki Ohmukai, Joachim Neubert, Jon Phipps, Jonathan Rees, Kai Eckert, Kendall Clark, Kevin Ford, Kim Viljanen, Kosuke Tanabe, Lars Svensson, Laszlo Kovacs, Marcel Ruhl, Mark van Assem, Martin Malmsten, Michael Hausenblas, Mike Bergman, Monica Duke, Nicolas Delaforge, Oreste Signore, Ray Denenberg, Renato Iannella, Stu Weibel, Tod Matola, Uldis Bojars, Wolfgang Halb.

커뮤니티에서의 검토도 이 보고서를 완성하는데 일조했다. 특히 다음 분들께 감사함을 표한다. Adrian Pohl, Alan Danskin, Catherine Jones, Ed Chamberlain, J. McRee Elrod, James Weinheimer, Jennifer Bowen, Jody DeRidder, Juha Hakala, Laura Krier, Laura Smart, Lukas Koster, Nicolas Chauvat, Patrick Danowski, René van der Ark, Romain Wenz, Roy Tennant, Teague Allen.

 

부록 A: 현행 도서관 연결데이터 자원 조사목록

가용한 어휘집의 복잡성과 다양성 때문에 그 중복범위, 파생관계 및 정렬과 함께 도서관 연결데이터의 성공의 관건인 재사용과 링크의 불확실성이 발생한다. 많은 사람들이, 특히 도서관 전문가들이 도서관 분야에 이용될 수 있는 연결데이터 셋과 어휘에 익숙하지 있다. 왜냐하면 이것들은 대체로 시맨틱 웹 연구 커뮤니티에서 개발되었기 때문이다. 최신의 신뢰할만한 조망이 도서관 연결데이터 분야에 대해 개괄하고자 하는 초보자나 도서관 연결데이터 프로젝트를 간략하게 참조하거나 환기하고자 하는 전문가에게 도움이 될 수 있다.

이런 이유로 보육그룹에서는 도서관 분야에서의 연결데이터의 생성이나 소비에 대한 유용한 자원에 대한 조사목록을 작성하였다[VOCABDATASET].  별도의 문서로 제공되는 이 조사목록은 시맨틱 웹 및 연결데이터 원칙과 기술을 일찍 도입하여 성숙한 데이터 세트와 어휘를 개발한 분야가 많음을 보여주고 있다. 이 조사목록은 도서관 및 관련 기관이 여전히 핵심적인 공헌을 할 수있는 영역을 적시하고 있다. 마지막으로 이 보고서는 연결데이터 커뮤니티에게 도서관계가 그 데이터에 대해 사용하고 있는 특정 관점, 자원 및 용어를 이해할 수 있는 기회를 제공하는 한편, 문헌정보학 종사자가 그 고유한 전통에 상응하는 연결데이터 개념을 파악하는데 도움을 준다.

연결데이터 기술이 전통적인 도서관의 데이터 개념과는 다르지만 이 보고서에서는 가용한 자원을 다음과 같이 도서관 실무를 반영하는 세가지 상호배타적이지 않은 범주로 분류한다.

  • 데이터: 영국 국가서지, 헝가리 국립도서관 목록, Open Library, CrossRef, Europeana 등과 같은 도서관 관련 자원
  • 값어휘집: 미국국회주제명표목, AGROVOC, 국제가상전거파일 (VIAF), 듀이십진 분류표, GeoNames 등
  • 메타데이터 요소: DCMI 메타데이터 용어, RDA의 구성요소: 자원기술 및 접근, 단순지식조직화시스템(SKOS), Friend Of a Friend (FOAF) 어휘 등

특정 데이터셋은 다양한 값어휘집의 구성요소를 다시 사용할 수도 있고 메타데이터  요소셋의 사양에 따라 구성될 수도 있다. 예컨대, 영국의 국가서지 데이터셋은 미국국회주제명표목의 어휘와 DCMI의 메타데이터 용어(Dublin Core)를 재사용한다. 이들 범주에 속한 사례에 대해서는 간략한 설명, 온라인 위치로의 링크, 우리 그룹이 커뮤니티에서 수집한 유스케이스로 연결하였다.

우리의 조사목록은 넓은 범위의 가용한 데이터 자원을 제공하는데 의도가 있다. 그러나 우리는 이 보고서가 특히 연결데이터의 역동적 특성을 감안할 때, 현재의 데이터 셋 전체를 담아내지는 못하고 새로운 자원이 계속적으로 생겨나고 있으며 기존의 자원도 정기적으로 업데이트된다는 점을 잘 알고 있다. 대표적인 개요를 위해 우리는 의도적으로 우리가 받은 유스케이스에 대한 우리의 작업을 기반으로 하였다. 작성시점에서 가용한 핵심 자원이 간과되지 않도록 하기 위해 보육그룹에 참여한 전문가들이 추가적인 내용을 제공하였다.

우리 보고서가 앞으로 쓸모 있도록 하기 위해 보육그룹이 이 작업을 완료한 후 최신 정보를 제공할 수 있다고 생각되는 도구나 웹 사이트로 연결되는 몇 개의 링크를 포함시켰다. 특히 우리는 도서관 연결데이터 그룹을 도서관 연결데이터셋에 대한 정보를 수집하는 사이트로 만들었다. 이 사이트는 개방형 데이터로 발행되는 데이터에 역점을 두고 데이터 패키지 기술용 중심허브가 되는 것을 목표로 고안된 저장소인 The Data Hub가 호스팅한다. 우리는 이 데이터 허브그룹이 보육그룹의 활동이 종료된 후에도 도서관 연결데이터 커뮤니티가 적극적으로 유지하기를 바란다.

 

부록 B: 관련 기술

연결데이터는 최근에 생겨난 기술이기 때문에 대부분의 도구는 아직 개발 중에 있다. 연결데이터의 원칙은 어떤 특정 도구에 결부되지 않으며, 오히려, 웹 표준과 직접 관련되어 있다. 많은 상황에서, 연결데이터의 생산과 소비는 대규모 재개발 활동을 하지 않고도 기존의 응용 프로그램과 층을 이루거나 서로 결합될 수 있다.  이 도구 및 기술 목록은 망라적이지는 않지만 몇 가지 광범위한 범주를 보여주기 위한 것이다. 비기술적인 관점에서 볼 때, 이들 기술은 재사용이 가능한 어휘의 생성과 발견을 장려하고 그 용어들을 재사용 가능한 (구문적) 진술로 결합하는 방법을 제공한다는 점 때문에 관련성이 있다.

B.1 웹에 실제로 존재하지 않은 사물을 식별하기 위한 URI 사용

웹의 초창기에는 웹에 “존재” 않은 것들을 식별하기 위해 “HTTP URI”(“URL”이라고도 함)을 사용해야 할 지가 불분명했다. 그 우려는 URN과  “info” URI처럼 새로운 URI체계를 정의하기 위한 기초가 되었다. 이러한 불확실성은 결국 W3C 통일자원식별자 관심그룹(RFC 3305)의 보고서와 “HTTPRange-14 “라는 문제에 대한 W3C 기술자문그룹의 결의로 해소되었다. 연결데이터 패러다임에서는 통상 HTTP URI가  “실제 개체”를 식별하는 데에도 사용될 것으로 기대된다. 그럼에도 불구하고, 많은 응용 프로그램이 다른 식별체계를 바탕으로 구축되었다. owl: sameAs 속성을 사용하는 것이 이처럼 추적 불가능한 URI 체계를 HTTP URI의 등가물로 매핑하기 위한 좋은 방법이 될 것이다. 이 매핑이 완료되지 않더라도 추적 불가능한 URI는 여전히 RDF와 SPARQL에서 유용할 것이다.

B.2 정보에 대한 개별 및 대량 접근

연결데이터의 원칙은 2006년경 도입되었고 2008년 “Cool URI”개념의 공식화로 이어졌다. 연결데이터 식별자가 특별한 이유는 광범위한 유스케이스에서 인간과 기계가 정보를 이해하고, 처리하고 연결하도록 도와주는 능력때문이다. 제인 오스틴에 대한 DBpedia자원이 좋은 사례다. 추적 가능한 URI는 우연한 사용, 데이터 진단, 우연한 발견에 아주 좋지만 개별적인 HTTP GET 요청은 개별 데이터가 대량으로 있는 데이터셋에 대해서는 비실용적일 수 있다. 다행히, 연결데이터셋이 RDF dump 로 발행되는 량이 점점 늘어나고 있으며, 서로 연결된 데이터 세트 (VoID)의 어휘를 활용하여 지속적으로 기술되고 있다.

B.3 기존의 데이터 저장소를 연결데이터와 RDF에 매핑하기 위한 프런트엔드

관련 유스케이스 클러스터 : 어휘집 정렬 클러스터

전형적인 XML 문서에서 계층적으로 표시되는 정보와 달리 연결데이터로 발행된 자원은 정보가 유스케이스에 특화된 계층구조에서 해방되므로 예기치 못한 재사용을 가능케 한다. 이 때문에 정보를 쉽게 매쉬업할 수 있을뿐만 아니라, ​​도구와 서비스를 매쉬업하기도 더 쉽다. 이것은 연결데이터 생산자와 소비자에게도 마찬가지다. 예를 들어, 기존의 관계형 데이터베이스는 D2R Server를 활용함으로써 연결데이터와 SPARQL 로 장착될 수 있다. 현재 W3C RDB2RDF 워킹그룹은 이러한 매핑용 표준에 대해 작업하고 있다. 마찬가지로, 몇 가지 재작성 규칙을 이용하여 기존의 SRU 데이터베이스에서 연결데이터를 생성할 수 있다. 자원이 이미 SPARQL 엔드포인트에서 기술되었다면 Pubby 와 같은 연결데이터 프런트엔드를 사용하여 각각의 개별 데이터에 대해 콘텐츠 조절이 가능한 Cool URI 행위를 자동화할 수 있다. 확장형스타일시트언어변환 (XSLT)은 일반 XML을 RDF/XML로 변환하는데 사용할 수 있다.

B.4데이터 설계자용 도구

관련 유스케이스 클러스터 : 어휘집 정렬 클러스터

애플리케이션 프로파일은 실무 커뮤니티가 특정한 유형의 자원을 기술하는데 따르는 특정한 제약사항이 있는 어휘집을 재사용하기 위한 도메인 모델과 패턴을 정의하는 방법을 문서화하는 포괄적인 방법을 제공한다. 현행 OWL 웹 온톨로지 언어 버전에는 어휘집간 정렬(온톨로지 매핑)을 표현하는데 필요한 속성이 들어있기 때문에 전문가들이 관련되거나 보다 공통적인 표현양식과의 상호운용성을 유지하면서도 커뮤니티 표현양식을 사용하여 그들의 분야를 기술할 수 있다. OWL과 관련된 다양한 도구는 W3C의 RDF 위키 와 OWL 위키에서 찾아볼 수 있다 . 통합모델링언어 (UML) 도구는 설계자가 도메인 모델을 시각적으로 표현하고 조작하는데 도움이 된다. 온톨로지 정의 메타모델(ODM) 사양은 UML 과 OWL간의 몇몇 간극을 메우는데 도움이 될 것이다.

B.5 SKOS와 관련 도구

관련 유스케이스 클러스터 : 어휘집 정렬 클러스터

또 다른 핵심기술에 대한 수요는 단순지식조직화시스템 (SKOS) 으로 충족시킬 수 있다. SKOS는 광범위한 개념체계와 시소러스를 표현하기 위한 OWL 온톨로지로서 OWL의 상하위관계와 우선표지 및 대안표지를 표현할 수 있다. 많은 SKOS 관련 도구가 W3C의 SKOS 커뮤니티 위키에 나열되어 있다.

B.6 Microformats, Microdata및 RDFa

관련 유스케이스 클러스터 : 사회 및 새로운 용도 클러스터

MicroformatsMicrodata, RDFa는 모두 구조화된 데이터를 웹 페이지에 포함시키는 방법을 제공한다. 역사적으로 웹에서의 정보출판을 강조한 것이 웹 페이지 출판을 의미했듯이, 이들 기술은 인프라를 추가로 구축하는 것이 아니라 이미 존재하고 있는 것을 개선하는 방법을 제공한다. RDFa는 웹 페이지에 직접 포함된 RDF 데이터의 표현을 지원한다. 따라서 셋 중에서 다른 연결데이터 인프라와 가장 직접적으로 상호운용된다.

현재 개발중인 새로운 HTML5 명세에 정의되는 Microdata는 이 일을 하는 다른 방법을 제공한다. Microdata는 특히 구글, MS, 야후에 의한 Schema.org 발표로 탐색엔진 최적화를 목적으로 했다는 명성을 얻고 있다. 이 특정 유형의 microdata는 임의의 복잡한 데이터를 표현하기 위한 것으로는 보이지 않는다. 또, 그들이 발표한 어휘는 상업과 관광이 특별히 강조되어있다. 원칙적으로 그것들은 확장가능하지만 microdata 체계는 필요한 어휘의 대부분이 없기 때문에 도서관 정보를 표현하기 위해서는 크게 확장될 필요가 있다. Schema.RDFS.org사업 덕분에 연결데이터와 어느 정도의 상호운용성은 보장되지만 이러한 접근법으로는 연결데이터로 가능한 도서관과 기타 데이터셋간의 높은 수준의 상호연결성을 구축하기에는 현재로서는 어려울 것이다.

Schema.org의 지지자들도 RDFa 데이터의 수집을 지원하고 있고 계속 그렇게 할 것이라고 약속했기 때문에 RDFa로 마크업된 HTML 페이지를 출판함으로써 microdata가 제공하는 기회를 어떻게든 “놓칠” 수도 있을 것 같지는 않아 보인다는 점을 인지해야 한다. 탐색엔진의 파서에 있는 버그를 제외하고, 동일한 웹 페이지에서 두 메타데이터 기술이 사용될 수 있어야 한다. 결국 결론은 어떤 구조화된 데이터라도 없는 것보다 있는 것이 낫다는 것이다.

B.7 웹 애플리케이션 프레임워크

관련 유스케이스 클러스터 : 아카이브 및 이종 데이터 클러스터

웹의 인기가 높아감에 따라 소프트웨어 개발 커뮤니티는 웹 애플리케이션의 생성, 관리 및 재사용을 보다 쉽게 해주는 다양한 소프트웨어 라이브러리를 만들었다. 이 라이브러리는 종종 웹 애플리케이션 프레임워크라 불리며, 통상 어떤 방식의 모델-보기-컨트롤러(MVC)패턴을 구현한다.  또한, 웹 애플리케이션 프레임워크는 일반적으로 웹 기술을 중심으로 많은 부분이 표준화되어 있는 Representational State Transfer(REST) Architectural Style 및 Resource Oriented Architecture와 관련된 모범사례를 인코딩하고 장려했다.

웹 애플리케이션 프레임워크의 일반적인 구성요소는 URI 소프트웨어 개발자가 HTTP URI의 패턴을 정의하고 나면 컨트롤러에 매핑한다음 적절한 뷰와 모델을 활용하여 HTTP 응답을 생성하게 할 수 있게 해주는 URI 라우팅 메커니즘이다. 이 활동은 Cool URI와 관련된 모범사례를 장려하는 한편, 개발자들이 웹상에서 접근할 수 있는 자원에 대해 생각하지 않을 수 없게 한다. 연결데이터가 HTTP URI를 이용하여 자원에 이름을 붙이는 일과 그러한 자원의 표현물(인간에게는 HTML로 기계에게는 RDF로)을 배포하는 일에 중점을 두는 것은 이것이 이들 활동을 위한 몇 가지 발판을 이미 제공 준 웹 애플리케이션 프레임워크에 자연히 적합하도록 해준다. 아주 상이한 프로그래밍 언어와 운영체제 환경에서 웹 애플리케이션 프레임워크를 폭넓게 쓸 수 있기 때문에 문화유산 분야에서도 폭넓게 사용될 수 있다.

웹 개발자들은 그들의 현재의 애플리케이션을 버리고 데이터베이스를 트리플 저장구조로 교체하고, 데이터베이스 쿼리언어도 SPARQL로 교체해야만 할 것 같은 충동이 들게 하기 때문에 종종 시맨틱 웹 (연결데이터) 기술을 외면했다. 그러나 RDF 직열화는 웹 애플리케이션 프레임워크가 HTML, XML 및 JSON 표현에 대해 행하는 방식과 마찬가지로 신속하게 생성될 수 있기 때문에 사실은 그렇지 않다.  RDF 데이터 모델을 이용하여 자원을 식별하고 서로 연결하는 데 HTTP URI를 이용하는 것은 데이터베이스 중립적인 방식으로 개체의 상태를 직렬화하여 공유하는 것(전통적으로 문화유산조직과 디지털 보존 커뮤니티의 큰 관심을 끄는 목표)은 자연스러운 선택이다.

B.8 콘텐츠 관리 시스템

관련 유스케이스 클러스터 : 사회 및 새로운 용도 클러스터디지털 객체 클러스터아카이브 및 이종 데이터 클러스터

웹 애플리케이션 프레임워크가 웹의 확산과 함께 진화했던 것처럼, 콘텐츠 관리 시스템 (CMS)이라는 웹 애플리케이션류도 그러했다. CMS는 종종 웹 애플리케이션 프레임워크를 사용하여 구축되지만, 웹에 있는 텍스트, 이미지 및 비디오 등의 콘텐츠를 쉽게 생성, 편집, 표현하고 그 콘텐츠와 관련되는 작업흐름을 관리하는데 필요한 뛰어난 기능을 제공한다. CMS는 일반적으로 웹 프레임워크를 사용하여 구축되기 때문에, HTTP URI로 자원에 이름을 붙이기 위한 동일한 모범사례가 자연스럽게 따라붙는다. 콘텐츠 관리 시스템은 그 폭넓은 가용성에 힘입어 문화유산 분야에서도 많이 사용된다. Drupal같은 일부 콘텐츠 관리 시스템은 RDFa를 이용하여 구조화된 데이터베이스 정보를 HTML 로 완벽하게 층을 형성하여 기계 클라이언트에 노출시키기 시작했다. Google Scholar, Google Maps 및 Facebook과 같은 데이터 소비자는 자사의 서비스를 제공하는데 있어 이 구조화된 메타데이터를 활용하기 시작했다. 반대로, Drupal도 VARQL 과 SPARQL보기와 같이 RDF를 소비하기 위한 플러그인을 제공하기 시작했다.

B.9 도서관 연결데이터용 웹 서비스

관련 유스케이스 클러스터 : 서지데이터 클러스터전거데이터 클러스터

이론적으로, 대부분의 도메인 특화 웹 서비스 API의 기능은 연결데이터URI , OWL , SPARQL 과 SPARQL /Update로 재조정될 수 있을 것이다. 기존의 백엔드 데이터 저장소에 연결데이터 URI 프론트엔드를 깔 수 있다 하더라도 백엔드가 SPARQL 과 SPARQL /Update접근을 지원하기란 그렇게 쉽지 않을 수도 있다. 보안, 견고성 및 성능상의 고려사항 때문에 제작환경에서는 SPARQL지원이 안될 수도 있다.

SPARQL 엔드포인트 및 RDF의 대량 다운로드로 발행된 연결데이터의 검색과 재사용이 대단히 쉬워질 수 있다. 그러나 대부분의 웹 개발자들이 이것을 활용할 수 있으려면 빨리 배워야 하는데, 이는 많은 응용 프로그램의 요구사항에 대한 너무 무거운 부담으로 이어진다.

가장 일반적인 사용을 위해서는 웹 서비스가 대안으로서 제공되어야 한다. 그러나, 대부분의 웹 서비스 API는 도메인 특화적인 경향이 있기 때문에 맞춤식으로 코딩된 에이전트가 필요하다. 이는 API에 대해 문서화가 잘 되어있어야 함을 의미한다. 웹 서비스 인터페이스에 대한 보다 일반적인 접근방법은 OpenSearch (Description Document를 이용하여 문서화 될 수 있음), Linked Data API, 그리고 W3C의 RDF 및 RDFa API에 대한 RDF Web Application Working Group 의 계속 작업 등이 있다. 일부 연결데이터셋은Atom Syndication Format이나 RSS 를 이용한 동기화 접근을 통해서도 얻을 수 있다.

연결데이터를 구축한 몇몇 사례에서는 자원에 대한 검색 및 이용을 향상시키기 위한 시도로서 흔히 모종의 형태로 API를 제공하는 웹 서비스를 구축하였다. 예를 들어, AGROVOC 과 STW Thesurus for Economics는 데이터의 관계를 기반으로 자원을 검색하기 위한 API를 제공하고 있다. VIAF미국국회도서관의 ID.LOC.GOV 서비스, 및 STW는 자원에 대한 자동추천 서비스를 통해 AJAX 브라우저 응용 프로그램에서 곧바로 실행되는 JSON 응답을 제공한다. (물론 원칙적으로 JSON응답은 HTML 및 RDF형태의 응답과 마찬가지로 연결데이터 URI를 통해 내용을 조절할 수 있지만) AGROVOC와 STITCH/CATCH 는 RDF 응답도 지원한다. 어떤 서비스는 본격적인 SOAP API를 지원하고, 다른 서비스는 RESTful 접근법을 지원한다.

연결데이터 웹 서비스는 검색기능을 향상시키기 위해 요청 매개변수와 응답형식에 초점을 맞춤으로써, 데이터가 트리플 저장소에 저장되거나 SPARQL을 통해 탐색이 가능해야 한다는 요건을 없애지는 못하지만 그 부담을 줄여준다. 또한 웹 서비스 API가 일반적이므로 웹 서비스는 연결데이터 접근방식을 채택하기 위한 진입장벽을 낮출 수 있다.

 

부록 C: 시맨틱 정렬

“정렬”이란 상이한 값어휘집, 메타데이터 요소셋 또는 데이터셋간에 의미적으로 상응하거나 유사거나 또는 관련된 개체에 연결하는 것이다. 값어휘집간에는 이미 많은 의미적 연결결과가 존재하는데, 이중 몇몇은 MACSCRISSCROSS 프로젝트에서 처럼 고품질의 수작업을 통해 이루어졌다. 많은 값어휘집 발행자들은 자체에서 보유한 자원과 의미적으로 가까운 자원에 링크를 만들어 유지하기 위해 노력하고 있다. 예컨대, VIAF는 여남은 이상의 국가와 지역기관에서 보유한 전거레코드를 병합한다. AGROVOC는 여섯 개의 주요 시소러스 및 주제명표목과의 링크결과를 발표하였다.  정량적 평가는 우리의 활동범위에서 벗어나지만 우리는 이러한 종류의 링크가 더 많이 생성되어야 한다고 생각한다. ”도서관 데이터 클라우드”에 있는 값어휘집간의 정렬을 증대시키기 위한 많은 노력이 있어야 한다.

정렬은 메타데이터 요소셋과도 관련된다. Linked Open Vocabularies 조사목록에서도 본 바와 같이, 실무자들은 일반적으로 기존의 요소셋을 재사용하거나 여러 셋에서 생성된 요소를 재사용하는 애플리케이션 프로파일을 구축하는 훌륭한 관행을 따른다. Vocabulary Mapping Framework같은 프로젝트는 정렬을 지원하는 일을 목표로 하고 있다.

요소셋에 대한 기관의 지원이 부족하면 공유되는 의미의 장기적인 지속성이 위협받을 수 있다. 더욱이, 일부 참조 프레임워크, 특히 서지레코드에 대한 기능적 요건(FRBR)은 몇 개의 서로 다른 온톨로지로 표현되어 있고, 이렇게 상이한 표현은 항상 명확히 정렬되지 않게 되는데, 이는 그 RDF 어휘가 사용되는 데이터셋간에 의미적 상호운용성을 제한시킨다. 도서관 연결데이터 커뮤니티는 처음부터 새로운 데이터를 생성하기 보다는 기존의 요소 셋을 공동으로 재사용하거나 확장하도록 독려해야 한다. 기존의 요소 셋들이 중복될 경우 이를 정렬할 때는 RDF Description Language (RDF Schema)와 OWL Web Ontology Language에 있는 의미적 관계를 이용하도록 권장해야 한다. 우리는 이들 자원의 생산자와 관리자간의 보다 원활한 의사소통이 이루어지면 LOD-LAM InitiativeDublin Core Meatadata Initiative, FOAF Project가 옹호하듯이 요소셋들이 보다 명확하게 개념적으로 연결될 것으로 기대한다.

데이터셋도 정렬될 수 있다. 예를 들어, Open Library는 그 서지항목에 OCLC 번호를 부착한다. 각 도서 및 기타 도서관 관련 자원을 기술하기 위한 재사용 이슈는 메타데이터 요소셋과 값어휘집에 대한 기술의 이슈보다 덜 중요하다. 예컨대, 종합목록은 이미 도서관련 데이터를 상당한 수준으로 통합했다. 그러나 중요한 것은 도서관 관련 데이터셋이 그 자체의 싸일로에 계속 있을 것이 아니라 공개되어 서로 연결되어야 한다는 것이다. 사실, 이것은 우리 분야에 적용되는 연결데이터의 기대 효과 중 하나이다. 과거의 관행 때문에 도서관계는 “중복제거“같은 어려움을 이미 잘 알고 있다.

우리는 또한 도서관 자원과 다른 조직이나 분야에서 발생하는 자원간에 링크가 구축되고 있다는 점도 알고있다. 예를 들어, VIAF는 다양한 도서관 기관에서 생산된 전거레코드를 취합하고 주요 참여기관을 식별하며, 가능한 경우, 위키피디아에서 추출한 연결데이터인 DBpedia로 연결한다. 예컨대, VIAF, 위키피디아, DBpedia에서의  제인 오스틴에 대한 의미적 정렬은 연결데이터로 얻을 수 있는 기대효과 중 하나를 보여주는 것으로서 데이터가 그 그 기원에 관계없이 손쉽게 네트워크화될 수 있다. 이러한 방식으로 도서관 분야는 다른 분야에서 생산된 데이터를 재사용하는 혜택을 누릴 수 있는 한편, 도서관 데이터가 도서관계에서 기원하지 않은 사업에도 기여할 수 있다.

정렬이 되어있으면 링크를 위한 더 좋은 도구가 나오는 경우 이득을 보게 될 것이다. 많은 활동이 온톨로지 매칭같은 컴퓨터과학 연구분야에 투입되었다. 이것은 예컨대, 문자열 매칭과 통계기법을 기반으로 한 구현으로 이어졌다. 이러한 활동들은 메타데이터 요소셋에 집중하는 경향이 있고, 통상 보다 일반적인 (종종 거대한) 데이터셋과 도서관 영역의 값어휘집에 적용될 준비가 되지는 않았다. 최근의 데이터 연결용 일반 도구는 Silk – Link Discovery FrameworkGoogle Refine Reconciliation Service API 등이 있다. 그럼에도 불구하고 도서관계는 여전히 그 사용경험을 얻고, 이 경험의 결과를 공유하며, 가능한 도서관 연결데이터에 보다 적합한 도구를 구축할 필요가 있다.

마지막 한가지 경고: 데이터 소비자가 명심해야 할 사항은 전통적인 폐쇄형 IT 시스템과는 달리 연결데이터는 개방형 세계 가정을 따른 다는 점이다. 즉, 데이터가 일반적으로 완벽한 것이라 추정할 수도 없고, 원칙적으로 더 많은 데이터가 어떤 개체에 대해서도 활용될 수 있다는 가정이다. 우리는 여기서 언급된 프로젝트의 방침에 의거하여 도서관 분야에서 더 많은 “데이터 연결”이 있기를 바란다.

This entry was posted in Home. Bookmark the permalink.

Leave a Reply