본문 바로가기
정보보호

데이터 품질 관리

by 오라 가라 2024. 1. 9.
반응형

데이터 품질
데이터 품질

 

1. 데이터 품질 표준

데이터 품질은 사용 가치 관점에서 “실제적 또는 잠재적 사용의 적합성(fitness for use or potential use)”으로 정의된다. 데이터 품질을 측정하는 지표들로는 정확성(accuracy), 완전성(completeness), 최신성(currentness), 정밀성(precision) 등이 있다. 데이터 품질을 확보하려면 데이터 수명 주기 전체에 걸쳐 이러한 품질 지표에 대한 측정과 관리가 이루어져야 한다.

 
2.데이터 품질 통제(QC)와 데이터 품질 보증(QA)

일반적으로 품질 관리의 접근은 과정의 품질(quality of process)과 제품의 품질(quality of product)로 나눌 수 있다. 데이터의 경우 과정의 품질은 데이터 수명 주기에 걸쳐 관리 체계의 성숙도로 측정할 수 있다. 이에 비해 제품의 품질은 데이터의 구조 및 값이 요구되는 기준을 충족하는지로 판별할 수 있다. 이 두 가지 접근이 적절히 조화를 이룰 때 데이터 품질을 확신할 수 있다.

예를 들어, 일시적으로 데이터의 값이 정확하고 완전하고 최신의 값을 가진다 하더라도 시간이 지나면서 데이터 품질이 낮아질 수 있다. 따라서 주기적으로 데이터 값과 구조를 진단하고 오류를 수정하는 것이 필요하다. 이를 위해서는 데이터 품질 관리를 위한 체계적인 조직 구조와 프로세스가 확립되어 되어 있어야 한다. 하지만 주기적인 데이터 오류 진단과 개선이 수반될 때 데이터 품질을 지속적으로 확보할 수 있다.

3. 데이터 오류의 유형

위반의 오류(Error of Commission): 데이터 품질 요건을 직접적으로 위반하는 오류로서 오류 여부를 명확하게 판단할 수 있다. 데이터 입력 또는 등록 과정에서 자리를 바꾸어 입력하거나 잘못 입력하거나 장비 오작동으로 인해 품질 오류가 발생하는 경우이다. 이러한 유형의 오류는 체계적인 입력 프로세스를 적용하고 주기적인 품질 진단을 통해 오류를 적발하여 시정하면 상대적으로 수월하게 낮출 수 있다. 

태만의 오류(Error of Omission): 데이터 값이나 데이터 객체의 콘텐츠는 품질 요건을 직접적으로 위반하지는 않는 오류이다. 데이터 자체에는 문제가 없지만 데이터와 관련한 문서화나 부대 정보가 빈약하여 해당 데이터에 대한 해석이나 활용성이 낮아지는 오류이다. 따라서 품질 오류가 존재하는지 여부를 명확하게 판단하기가 쉽지 않을 수 있다. 이러한 유형의 오류는 데이터 소유자 또는 관리인이 꼼꼼하고 신중하게 관련 정보를 입력하고 유지해야 낮출 수 있다.

4. 데이터 품질 진단

데이터 검증(Verification): 특정 데이터가 다른 원천 데이터 또는 참조 대상 데이터로부터 왔을 경우 서로 간의 일관성을 비교하는 방식으로 오류를 적발한다. 두 데이터가 서로 일치하지 않으면 오류라는 것을 분명하게 판단할 수 있다. 패스워드를 생성하거나 변경할 때 두 번 입력하는 키 검증(key verification), 원천 문서와 입력 결과 간 비교 등과 같은 방법이 대표적인 데이터 검증에 해당한다. 

데이터 확인(Validation): 데이터 자체의 논리적 유효성(validity)을 확인하여 데이터의 품질을 진단한다. 데이터 값이 특정한 상한선(upper limit)이나 하한선(lowe limit) 또는 두 가지가 모두 적용된 범위(range)에 속해야 하는 경우에는 이를 준수하는지 진단하여 오류를 적발한다. 또는 데이터 간 선후 관계가 존재하거나 합리적 조건을 준수하는지 확인하여 데이터 품질을 진단한다.


5. 데이터 표준

데이터 표준은 명확하게 문서화하고 데이터 수명 주기 전체에 적용되어야 한다. 예를 들어, 데이터베이스 또는 데이터 세트를 구축할 때는 사용자 요구사항을 철저히 파악하고 이에 근거하여 데이터 모델을 설계하고 철저히 문서화해야 한다. 물리적 모델은 논리적 모델에 근거해야 하며 상호 일관성을 유지해야 한다. 그렇게 하면 데이터베이스의 무결성을 확보하고 데이터 마이그레이션 용이성을 향상할 수 있다.

데이터베이스를 구성하는 하드웨어와 소프트웨어는 시간이 흐르면서 당연히 기술적 노후화가 발생하기 때문에 주기적으로 업그레이드를 해야 한다. 데이터는 품질 및 보안 관점에서 주기적으로 감사를 해야 한다. 이를 통해 용량 계획, 데이터 공유/재사용/보존 규정 준수, 데이터 유출 방지 상의 리스크를 시기적절하게 적발하여 조치하게 한다. 이용도가 낮은 데이터는 저장 매체의 기술적 노후화 또는 파손으로 접근 불가해 지지 않도록 유의하고 장기적으로 사용하지 않을 경우에는 적절히 아카이빙(장기 저장) 해야 한다.
 

6. 데이터 문서화

모든 데이터 세트는 데이터의 제목 또는 파일 명을 적절히 부여해야 한다. 해당 제목과 이름은 지나치게 길면 직관적인 파악이 어렵다. 하지만 데이터의 내용을 어느 정도 식별할 수 있도록 부여하는 것이 좋으며 생성일자나 버전을 포함하는 것도 좋다. 데이터 파일의 헤더 또는 별도 문서에는 파라미터, 코드화된 필드 값의 표준 목록, 메타데이터 등을 포함하는 것이 좋다. 또한, 값이 존재하지 않는 필드는 디폴트 값을 부여하거나 '대시(-)' 등을 입력하는 것이 좋다.

반응형

'정보보호' 카테고리의 다른 글

전자 매체 위생 처리  (2) 2024.01.09
잔존 데이터 처리  (0) 2024.01.08
전자 증거 개시 제도  (0) 2024.01.08
데이터 수명 주기 관리  (0) 2024.01.07
데이터 보안 통제 3  (0) 2024.01.07