Tools

Biomedical Knowledge Engineering Laboratory

E-health Service

GOClonto

An ontological clustering approach for conceptualizing PubMed abstracts

As biomedical science progresses, there is an overwhelming amount of textual knowledge being recorded in the biomedical literature. PubMed is the most comprehensive database collecting and managing biomedical literature.

To help researchers easily understand collections of PubMed abstracts, numerous clustering methods have been proposed to group similar abstracts based on their shared features.

However, most of these methods do not explore semantic relationships of groupings, which could help better illuminate the groupings of PubMed abstracts.

To address this issue, we proposed an ontological clustering method called GOClonto for conceptualizing PubMed abstracts.

GOClonto uses Latent Semantic Analysis (LSA) and Gene Ontology (GO) to identify key gene-related concepts and their relationships as well as allocate PubMed abstracts based on these key gene-related concepts.

MeSH Ontology in OWL format

This version MeSH ontology is generated based on the MeSH tree 2008. I developed a program to generate this MeSH ontology in OWL format. Although SKOS converted
MeSH into rdf format, but it is not a hierarchical ontology and it is simply a list of all the MeSH terms.

For easily using MeSH in organized structure, I made a program to convert MeSH tree into MeSHOnto.owl. There are totally 48442 terms in this ontology and I believe it can be a good controlled vocabulary to use as our research in medical domain.

I also made a little preprocessing for the MeSH ontology.

    1. All the concepts in MeSH are represented in lowercase.
    2. All the concepts in MeSH are stemmed,
      i.e., the plural words are converted in singular word.
    3. The multiple-word concepts are converted into natural sequence,
      e.g., Forefoot, Human => human forefoot.

The ongoing work is to build more semantic relationship based on the original MeSH file to empower this ontology. You can download the result below site,
http://bike.snu.ac.kr/sites/default/files/meshonto.owl

Any question is welcome.

Author: Hai-Tao Zheng (quicklyfly@gmail.com)

Cephalometric
Predictor Tool

Lexcure Suite

1. 연구 목표

상이한 모델 및 이종의 자료구조를 기반으로 하여 구축된 다양한 의료 용어 체계를, 공통된 모델을 활용하여 기술, 단일한 응용프로그램에서 복수 개의 용어 체계를 불러들여, 이를 검색, 편집, 매핑하는 환경을 지원함으로써, 용어 체계 간의 상호운용성을 증진합니다.

2. 연구 방법 및 성과

  • 정보를 가시화 함에 있어, 의료 용어 체계에서 중요시 되는 계층구조의 표현이 원활하고 공간 대비 효율적인 정보의 표현이 가능한 트리(Tree)와 일반 사용자에게 친숙한 테이블(Table), 관계 정보의 직관적인 표현이 가능한 그래프(Graph)등을 적극 활용하여 정보의 효율적이면서도 직관적인 표현 및 편집을 지원합니다.
  • 계층 구조의 가시화에 있어, 다양한 의료 용어 체계의 계층 구조를 나타내는 관계 정보의 상이함에 뒤따르는 문제점을 해결하고자, 계층 구조를 나타내는 관계 및 관계의 방향성을 설정, 이를 기반으로 하여 계층 구조를 가시화하는 기능을 지원합니다.
  • 하나의 응용프로그램에서의 다수의 용어 체계의 검색 기능은 손쉬운 매핑 환경을 자연스럽게 지원하며, 보다 손쉬운 매핑 관계 설정을 지원하기 위해 드래그 앤 드랍 (Drag and Drop) 기능을 도입하였으며, 기존의 매핑 로그 (Mapping log)를 활용하여 사용자에게 매핑 정보를 추천해 주는 기능을 지원합니다.

LexGrid lgm converter

This lgmConverter supports users to convert the database into lgm files, which can be loaded into LexGrid editor.Note the database should follow the LexGrid DB full scheme design.

Now the drivers for the DB are com.mysql.jdbc.Driver and sun.jdbc.odbc.JdbcOdbcDriver, which can support the MySQL DB and Access DB.

In the future, if any DB we need to consider, I will add the corresponding drivers.


Any comment is welcome.

Author: Hai-Tao Zheng (quicklyfly@gmail.com)

CiDD : Clinical Data Dictionary of CiEHR

1. 연구 목표

표준용어체계 기반의 데이터사전(Data Dictionary: DD:임상용어사전)과 임상콘텐츠모형(Clinical Contents Model: CCM)을 개발하고, 임상콘텐츠모형을 활용한 임상서식 템플릿을 개발하여, 이를 통해 EMR(Electronic Medical Record: EMR)자료의 의미적 일관성과 상호운용성을 보장하기 위함입니다.

2. 연구 방법 및 성과

본 연구에서 정의하는 데이터사전(임상용어사전)은 의료정보시스템에 적용하기 위한 모든 임상어휘(Medical Vocabulary)의 정의를 관리하는 중앙사전으로 모든 객체 간 의미적 관계표현이 가능하고, 표준용어체계와 연결이 가능한 용어시스템입니다. 의료 정보 시스템을 구성하는 핵심 요소 중 하나는 환자데이터를 코드화된 형태로 저장할 수 있도록 하는 용어시스템이며, 성공적인 전자의무기록 시스템을 위해서는 잘 설계된 데이터사전 구축이 필수적입니다. 데이터사전의 코드를 통해 표현된 환자데이터는 임상의사결정지원시스템, 통계, 임상연구자료 등 임상데이터의 활용과 응용이 가능하며 데이터 사전의 관계설정을 통하여 추론이 가능합니다. 전자의무기록 시스템에 사용되는 다양한 용도와 출처의 임상용어에 대한 공통된 이해와 통합을 보장하는 표준용어체계 기반의 데이터 사전 모델을 정의하고, 국내현장에 적합한 콘텐츠를 발굴하여, 환자정보의 획득과 활용 및 교환 시 정확한 의미해석을 지원해야 합니다.

3. 데이터 사전 정의

EHR핵심공통기술연구개발사업단(R&D Center for Interoperable EHR:CiEHR)에서 개발한 데이터사전(Clinical Data Dictionary)이라는 의미로 “CiDD”라고 명명합니다. 이러한 문제를 해결하기 위해 개발한 CiDD는 국내 EMR 환경에 적합한 의학개념 기반의 의학데이터사전을 제공합니다. 진료 정보에 사용되는 용어는 표준용어에서 정의한 개념으로 표현될 때 사용자 및 시스템 상호간의 의미 해석에 일관성이 보장됩니다. 일부 병원에서는 병원내 사용하는 용어코드에 참조용어체계인 SNOMED CT, UMLS등의 표준으로 간주되는 코드를 매핑하여 사용하기도 하나, 각 용어체계는 목적이 다르고 국내 환경에 적합하지 않은 표현이 많으며, 매핑 품질을 보장 할 수 없습니다.

현재 국내 병원 전산시스템에서 사용하는 방대한 데이터와 임상용어는 의학 개념 을 중심으로 하여 체계적이고 일관되게 관리될 필요가 있습니다. EMR시스템에서 사용하는 용어체계가 용어중심으로 구성되거나 병원내 사용하는 용어코드 중심으로 구성되어 있으면, 동일한 내용을 기록함에 있어서 임상의(doctor) 별로 선호하는 용어가 다를 수 있어서 동일한 기록에 대한 정확한 해석이 불가능 합니다. CiDD는 EMR 시스템에서 사용하는 모든 다양한 임상 용어를 의학 개념을 중심으로 통합하고 관리하는 중앙 의학용어저장 시스템입니다.

Ontopath

1. Research Purpose

Development of a controlled natural language and ontology based system for the structured data entry of medical narratives. Ontopath, a controlled natural language for medical narratives, is formalized in a syntactic level and an editor for Ontopath is developed in the Java-2 platform. The editor is designed to guide narrative data entry based on a given ontology. It translates the entered data into RDF which is a semantic web standard markup language.

2. Tool Description

  • Ontopath operates as an independent component under various user interface framework and also in the Internet environment.
  • Its three main functions are…
  1. Suggesting appropriate terms according to a given context for the efficient entry of medical narratives.
  2. Run-time syntactic and semantic error checking with suggestion of possible corrections.
  3. Providing a visual feedback to verify if a user expressed his or her intended meaning in the text.

TPSS

Semantic Technology

MARU Linked
Data Browser

SACE : Sesame SAIL
on Cloud Environment

Semantic Music Search

1. Research Purpose​

Huge data processing on the Semantic data is still not convenient to archive in a single server machines. With employment of Cloud Computing Service, the data processing job is translated to a multiple machine’s work which ensures several our hour of time spend for over millions of triples.

2. Tool Description​

    • Developed service, semantic music metadata searching service, cooperates with a cloud computing service developed by NexR, a Korean cloud computing service.
    • Data translation and indexing for the end user service deployment from raw data set are archived with Hadoop based machines’ work.
    • The raw data of the service is gather from KBS, musicBranz , maniaDB and imported to a ontology for the RDF description.
  •  

Research Informatics

BiKE
Text Analyzer

SEDE
Data Extractor