본문 바로가기

데이터 Story/모델링 이론

데이터 통합(서브타입)에 대한 주절거림

데이터 통합은 모델링에서 가장 어려운 주제 중의 하나입니다.

또한 모델러 개개인의 능력 차이가 발생하는 부분입니다.

 

보통 통합하려는 데이터는 핵심적으로 사용되는 데이터일 가능성이 큽니다.

통합에 대한 이슈가 발생할 수 있는 데이터는 더욱 핵심 데이터이고요.

핵심적이지 않은 데이터는 무관심해서 통합과 관련된 이슈가 발생하지 않습니다.

 

정규화는 이론에 대한 이견은 거의 없고(조금 있고), 다만 적용 여부에 대한 논란(어느 정규형까지 적용해야 하는지에 대한 논란)이 많습니다데이터 통합은 모델러마다 이견이 생길 수 있습니다.


통합해야 좋다
, 통합하면 안 좋다는 이견은 언제나 있습니다.

물론 전문가 간에는 의견이 거의 일치한다고 봅니다.

어쨌든 모델러 간에 의견 일치가 어려운 부분이 데이터 통합입니다.

 

데이터를 어떻게 통합했느냐에 따라 모델은 상당히 달라지는데요.

상대적으로 데이터 통합은 이론적인 명확한 규칙에 의해서보다는 직관에 의해 통합하는 경우가 많습니다.

직관에 의해 통합된 모델의 미묘한 차이가 모델러의 커다란 차이를 나타내기도 합니다.

 

데이터 통합은 정규화와 밀접하게 연관돼 있습니다(이에 대해서는 별도로 설명하겠습니다).

따라서 데이터 통합은 정규화를 기반으로 이루어져야 합니다.

정규화가 기반이 되지 않은 통합은 의미가 없고요.

 

또 한가지는, 최근에 데이터 통합이 강조되다 보니 통합을 위한 통합을 하는 경향이 있습니다. 이는 지양해야 합니다.

 

데이터 통합은 모델링에서 중요한 부분입니다. 어느 프로젝트나 데이터 통합을 강조합니다.

하지만 데이터 통합이 자주 언급되는 것만큼 쉬운 일은 아닙니다.

 

데이터를 제대로 통합하기 위해서는 엔터티를 제대로 정의할 수 있어야 하고요(이 단계를 잘못하면 이후는 의미가 없습니다).

어느 선까지 일반화(Generalization)할지를 결정해야 합니다.

그리고 성능과 연관되므로 성능 측면을 검토해야 합니다.

 

유사한 종류의 데이터가 통합되지 못하고 여기 저기에 존재한다는 것은 어플리케이션의 중복 문제와도 무관하지 않습니다.
당연히 데이터 오너십, 모델 오너십과도 연관되고요.

최근에는 MDM(Master Data Management)과도 연관됩니다.

어느 조직이나 데이터 통합은 해결해야 하는 어려운 주제입니다
.

 

이 서브타입(Subtype) 카테고리에서는 데이터 통합과 그 결과를 표현하는 방법인 슈퍼타입/서브타입에 대한 설명을 하겠습니다.