본문 바로가기

데이터 Story/모델링 이론

데이터 통합이란?

데이터 통합이란 유사한 성격의 데이터를 합치는 것을 말합니다.

 

통합하면서 더 포괄적인(일반적인) 데이터를 도출하므로, 데이터를 통합하는 과정을 일반화(Generalization)라고 합니다.

 

통합에서는 집합의 개념이 포함됩니다. A 집합과 B 집합을 합쳐서 C 집합을 만드는 것이죠.

A, B가 개념적인 정의가 될 수도 있고 엔터티가 될 수도 있습니다.

 

이와는 조금 다른 통합이 있는데요.

 

일대일 관계의 엔터티 중에는 그 자체로 이미 하나의 집합인데 성능 등의 이유로 일부 속성을 분리한 경우가 있습니다.

 

이런 일대일 엔터티를 합치는 것을 저는 엔터티 합체라고 합니다. 데이터 통합에 포함시키지 않습니다.

합체라는 단어의 어감이 유아틱하지만 통합과 구분하기 위해 사용합니다.

 

성격 자체가 동일한(같은 집합인) 일대일 엔터티를 합치는 것과 성격이 유사한 다른 집합을 합치는 것은 다릅니다. 후자가 진짜 합치는 거죠.

 

둘 다 합치는 것이라 넓은 의미로 일대일 엔터티 합체도 데이터 통합에 포함시키기도 하지만, 구분해서 분명하게 이해할 필요가 있습니다.

 

그리고 엔터티 통합이란 용어도 약간 다르게 사용합니다.

이는 주로 리버스 모델링에서, 즉 이미 엔터티가 도출된 상태에서 두 엔터티를 통합할 때를 의미합니다.

 

그래서 데이터 통합은 엔터티 통합보다 더 큰 개념이죠.

엔터티를 도출하기 전에 두 집합을 개념적으로 도출한 후에(두 집합을 정의한 후에) 합치는 것이니까요.

 

데이터 통합이 엔터티 통합을 포함하는 개념이므로 주로 데이터 통합이란 용어를 사용합니다.

 

제가 용어에 민감해서, 스스로에게 엄격하게 적용합니다.

용어는 이쯤에서 끝내고요.

 

데이터 통합은 쉬운 작업이 아닙니다.

 

데이터 모델의 토대(구조)를 흔들 수 있는 어렵고 중요한 결정이 데이터 통합입니다.

 

통합에 대한 심적 부담이 컸던 적이 한 번 있는데요. 고객 전체가 주시하는 극도의 부담이었습니다.

반면, 엔터티 합체는 모델 구조를 조금 흔들죠. 부담되는 경우는 거의 없습니다.

 

부담스런 결정이라 어려운 것도 있지만, 데이터의 성격을 정의하는 것 자체가 어려워 데이터 통합이 어렵습니다.

동질성을 가진 데이터라는 판단을 하려면 데이터의 성격을 정의해야 하니까요.

 

데이터 통합은 데이터(엔터티) 정의에 종속된 개념입니다. 데이터 정의에 따라 데이터 통합의 기준이 달라지죠.

 

데이터에 대한 명확한 정의 없이 데이터 통합을 논하는 건 의미가 없다는 점을 항상 염두에 둬야 합니다.