본문 바로가기

일반화

어떤 경우에 통합을 고려하는가? – 다양한 경우 이번 글에서는 통합을 고려할 수 있는 다양한 경우를 설명하겠습니다. 다양한 케이스를 소개하지만 결국은 데이터의 본질이 유사하다는 것으로 통하게 됩니다. 역할을 관리하는 엔터티는 [그림1]과 같이 통합 모델을 사용할 때가 많습니다. [그림1] 사원은 특정 계좌에 대해 관리사원·유치사원·주문사원 등 여러 가지 역할을 할 수 있습니다. 여러 역할에 따른 엔터티가 개별로 존재하는 것이 아니라 계좌관계사원 엔터티와 같은 통합 엔터티로 존재하는 것이 바람직합니다. [그림2]와 같이 대칭적인 업무를 관리하는 데이터도 통합을 고려할 수 있습니다. [그림2] 이경우 업무 성격은 대칭적이지만 데이터 성격은 유사합니다. [그림2]는 식별자가 같지만 식별자가 다르더라도(매출전표번호와 매입전표번호) 통합할 수 있습니다. 매도와.. 더보기
어떤 경우에 통합을 고려하는가? - 두 번째 지난 번에 설명한 데이터 성격이 유사하다는 것이 데이터 통합을 고려할 가장 중요한 요소입니다. - 데이터의 성격(본질)이 유사할 때, 즉 집합의 정의가 유사할 때 [그림1]은 고객이 요청한 알림 서비스를 관리하는 엔터티입니다. [그림1] 고객알림서비스 엔터티는 고객별 알림 서비스를 관리하는 엔터티이고, 계좌알림서비스 엔터티는 계좌별 알림 서비스를 관리하는 엔터티입니다. 어떤 종류의 알림 서비스를 원하는지와 어떻게 알림 서비스를 받는지, 서비스 신청 일자와 알림을 몇 번 반복하는지 등의 데이터 성격은 두 엔터티가 동일합니다. 단지 고객을 지정해 서비스를 하는지, 계좌를 지정해 서비스를 하는지가 달라 주 식별자가 달라졌습니다. 그래서 엔터티가 통합되지 못한 예제인데 통합 대상입니다(주 식별자가 다른 여러 엔.. 더보기
통합이 대세인가? 통합 시 주의할 점 데이터(엔터티) 통합이 대세지만 통합 시 주의할 점이 있습니다. 일반적으로 많이 언급되는 것은 성능입니다. 데이터를 통합하면 데이터는 많아질 수밖에 없습니다. A집합과 B집합의 인스턴스 개수가 합쳐지기 때문에 데이터가 늘어납니다. 데이터가 증가하는 것과 성능은 유관합니다. 요건에 따라 때론 큰 차이가 생기고, 때론 미미한 차이가 생깁니다. 때론 성능이 좋아지기도 하고요. 통합해야 성능이 좋아지는 요건도 많아 저는 통합을 우선적으로 고려합니다. 그러면서 성능이 나빠질 수 있다는 점을 염두에 두죠. 흔하지는 않지만 대기 현상으로 인한 인서트 성능 저하를 고려할 때도 있습니다. 인서트가 많이 발생하는 엔터티에 어떤 엔터티를 통합하는 것은 바람직하지 않습니다. 인서트가 많다는 기준이 애매한데요. 참고로 말씀드리.. 더보기
데이터 통합이란? 데이터 통합이란 유사한 성격의 데이터를 합치는 것을 말합니다. 통합하면서 더 포괄적인(일반적인) 데이터를 도출하므로, 데이터를 통합하는 과정을 일반화(Generalization)라고 합니다. 통합에서는 집합의 개념이 포함됩니다. A 집합과 B 집합을 합쳐서 C 집합을 만드는 것이죠. A, B가 개념적인 정의가 될 수도 있고 엔터티가 될 수도 있습니다. 이와는 조금 다른 통합이 있는데요. 일대일 관계의 엔터티 중에는 그 자체로 이미 하나의 집합인데 성능 등의 이유로 일부 속성을 분리한 경우가 있습니다. 이런 일대일 엔터티를 합치는 것을 저는 엔터티 합체라고 합니다. 데이터 통합에 포함시키지 않습니다. 합체라는 단어의 어감이 유아틱하지만 통합과 구분하기 위해 사용합니다. 성격 자체가 동일한(같은 집합인) 일.. 더보기
일반화(Generalization)와 상세화(Specialization) 데이터 통합과 관련된 용어로 일반화(Generalization)와 상세화(Specialization)가 있습니다. 이에 대해 간략하게 언급하겠습니다. 많은 분야에서 사용하는 용어일텐데, 이번 글에서는 데이터 모델링에서 사용하는 의미로 한정하겠습니다. 일반적인 용어를 공개적으로 설명하는 것은 용기가 필요하니 약간의 장치가 있어야죠. ㅎㅎ 모델링에서 일반화한다는 것은 데이터 통합을 의미합니다. 유사한 것을 묶는 것을 일반화라고 합니다. 원래 유사한 것을 묶을 수도 있고, 인위적으로 유사하게 만들어 묶을 수도 있습니다. 정의를 어떻게 하냐에 따라 유사한 것일 수도 있고, 유사하게 만든 것일 수도 있습니다(이 부분이 데이터 통합도 어렵게 하고 이에 대한 설명도 어렵게 하죠). 사전에서 찾은 '일반화하다'의 뜻은.. 더보기
데이터 통합(서브타입)에 대한 주절거림 데이터 통합은 모델링에서 가장 어려운 주제 중의 하나입니다. 또한 모델러 개개인의 능력 차이가 발생하는 부분입니다. 보통 통합하려는 데이터는 핵심적으로 사용되는 데이터일 가능성이 큽니다. 통합에 대한 이슈가 발생할 수 있는 데이터는 더욱 핵심 데이터이고요. 핵심적이지 않은 데이터는 무관심해서 통합과 관련된 이슈가 발생하지 않습니다. 정규화는 이론에 대한 이견은 거의 없고(조금 있고), 다만 적용 여부에 대한 논란(어느 정규형까지 적용해야 하는지에 대한 논란)이 많습니다. 데이터 통합은 모델러마다 이견이 생길 수 있습니다. 통합해야 좋다, 통합하면 안 좋다는 이견은 언제나 있습니다. 물론 전문가 간에는 의견이 거의 일치한다고 봅니다. 어쨌든 모델러 간에 의견 일치가 어려운 부분이 데이터 통합입니다. 데이터.. 더보기