본문 바로가기

데이터 Story

실체 엔터티의 변경이력 엔터티 설계 원천 엔터티가 실체 엔터티일 때는 변경이력 데이터를 별도의 엔터티에서 관리하도록 설계한다. [그림1] 고객실체 엔터티는 실체인 고객 데이터를 관리하는 실체 엔터티다. [그림1] 만약 고객명 속성이나 전화번호 속성의 변경이력 데이터를 관리할 때, 고객은 실체이기 때문에 아래 모델처럼 별도의 엔터티에서 변경이력 데이터를 관리하도록 설계한다. [그림2] 고객실체 엔터티의 속성 중에서 하나라도 변경되면, 그 시점의 고객실체 엔터티 인스턴스는 고객실체이력 엔터티로 이동한다. 고객실체이력 엔터티는 변경된 과거 데이터이므로 주로 사용되지 않으며, 필요 시에만 참고 용도로 사용하기 위해 보관하는 역할을 한다. 실체 엔터티는 실체에 대한 개별 인스턴스를 관리하는 엔터티다. 실체 엔터티에서 실체의 변경된 데이터까지 관리한.. 더보기
[번역글] 텍스트 분석: 차세대 빅데이터 개인적으론 너무 마케팅에만 치우친 것 같아 텍스트 분석이 그다지 매력적이지는 않은데요.시대의 흐름이고 DQ와도 연관돼 있어 관심을 가질 필요가 있는 거 같습니다.더욱이 모델러는 데이터를 다루는 사람이니 연관 분야입니다. 주로 텍스트 분석의 중요성에 대해서 언급한 기사입니다.특별한 내용은 없지만 참고하세요. 텍스트 분석은 도구를 이해하는 게 중요할 거 같다는 생각이 드네요.DQ 솔루션과 겹치는 부분도 있을 거 같고요. 출처: http://insidebigdata.com/2015/06/05/text-analytics-the-next-generation-of-big-data/ --다니엘 구티에레스. 2015. 6. 15 이 특집 기사에서 Lexalytics의 제프 캐틀린은 텍스트 분석의 사례와 빅데이터의 관심.. 더보기
관계 엔터티 설계 엔터티 간의 관계에서 생기는 관계 속성은 한 엔터티에 여러 개가 있을 수 있으며, 그 관계 속성 중에는 유사한 성격의 속성이 있을 수 있다. 이때 유사한 관계 속성이 두 개 이상이며, 추가될 가능성이 조금이라고 있다면 별도의 관계 엔터티로 설계한다. [그림1] 보험계약 엔터티에는 세 개의 관계 속성이 존재한다. [그림1] 보험을 계약한 고객과 보험의 피보험자 고객, 보험의 연대보증 고객이 누구인지를 관리하는 속성이 관계 속성이다. 따라서 계약고객번호/피보험고객번호/연대보증고객번호 속성은 관계 속성이며, 관계선이 세 개이므로 관계 속성과 마찬가지로 관계 명에도 역할(Role) 이름을 사용한 모델이다. 이미 세 개의 관계 속성이 존재하지만 연대 보증인의 경우에는 여러 명을 관리할 수도 있어서 관계 속성이 더.. 더보기
[번역글] 데이터 아키텍트(Data Architect)의 삶 데이터 아키텍트(DA)에 대한 번역글입니다.당연히 미국의 DA 상황인데요.한국의 DA 역할과 매우 유사하다고 생각되는데, 기술 능력은 너무 광범위하네요. 그래도 빅데이터 관련 기술이 눈에 띄입니다.현재 한국에서는 DA에게 빅데이터 관련 지식을 요구하지 않을 거 같지만 앞으로는 그렇게 될 수도 있다는 생각이 듭니다.데이터 아키텍트의 확장판(?)인 빅데이터 아키텍트가 생길 수도 있고요. 원문: http://www.mastersindatascience.org/careers/data-architect/ -- 데이터 아키텍트는 데이터 관리 시스템을 위한 청사진을 만든다. 데이터 아키텍트는 회사의 잠재적인 데이터 소스(내부 및 외부)를 평가한 후 통합하고 중앙 집중화하며, 보호 및 관리하는 계획을 설계한다. 이를 .. 더보기
[번역글] 데이터 과학자(Data Scientist)란? 데이터 과학자에 대해 조금이나마 알 수 있는 글입니다.데이터 모델러와는 완전 다르네요. ㅎ 원문: https://www.sas.com/en_us/insights/analytics/what-is-a-data-scientist.html# -- 데이터 과학자는 복잡한 문제를 해결할 수 있는 기술적 능력을 갖추고 있고, 해결돼야 할 문제를 찾는 호기심이 있는 새로운 유형의 분석 데이터 전문가다. 그들은 수학자이고, 컴퓨터 과학자이자 유행에 민감한 사람이다. 그리고 비즈니스와 IT 세계를 아우르고 있기 때문에 수요가 많고 급여가 높다. 누가 데이터 과학자가 되고 싶지 않겠는가? 그들은 시대의 상징과 같다. 데이터 과학자들은 10년 전에 많은 관심을 끌지 못했지만, 갑작스런 인기는 기업이 현재 빅데이터에 대해 어떻.. 더보기
모델러가 모델링을 하는 목적은 좋은 모델을 만들기 위함이어야 한다 또 다시 새해를 맞았습니다.자꾸 새해가 밀려오네요. 모델링의 가치가 무엇인지는 최근 2~3년 동안 스스로에게 많이 했던 질문입니다. 한참 전에는 모델링이 재미있어서 했습니다.바둑 둘 때나 농구할 때와 같이 모델링을 하면 시간 가는 줄을 몰랐어요.아무리 많은 일을 맡아도 힘들지 않고 재미있게 했습니다.몰두하면 머리도 맑아지고, 재미있는데 돈까지 벌 수 있으니 좋았어요. 그러다 체력이 떨어지고 건강이 나빠지기 시작하니까 모델링이 힘들어지기 시작했어요.여전히 재미는 있었지만, 힘든 상황에서 무엇을 위해 모델링을 해야 하는지를 자주 생각하게 됐습니다. 사설이 걸어졌네요. 결국, 모델링을 하는 목적은 좋은 모델을 만들기 위함이라고 생각합니다.좋은 모델을 간단하게 설명할 수 없지만, 데이터 자체를 있는 그대로설계하.. 더보기
배타 서브타입 설계 서브타입을 설계할 때는 특정 시점을 기준으로 설계하기 때문에 변경이력 데이터를 포함시키지 않고 현재 시점의 데이터로 판단한다. 서브타입이 배타 서브타입인지 중복 서브타입인지는 특정 시점을 기준으로 판단한다. 특정 시점에 어느 하나의 서브타입에만 속하는지(배타 서브타입) 여러 서브타입에 속할 수 있는지(중복 서브타입)에 따라 서브타입의 유형이 정해진다. 따라서 과거 데이터인 변경이력 데이터는 제외하고 현재 시점을 기준으로 판단해서 서브타입 유형을 설계한다. 데이터 성격이나 업무 요건은 서브타입 간에 중복 데이터가 없어야 하는데 변경이력 데이터로 인해 중복된 것처럼 보이는 경우가 있기 때문에 주의해야 한다. 사원은 정규직이거나 임시직이어야 한다는 업무 요건이 있다면, 아래 모델처럼 배타 서브타입으로 설계해야.. 더보기
실체 엔터티 설계 보이거나 만질 수 있는 실제의 물체(物體)를 나타내는 데이터는 실체 엔터티로 설계한다. 엔터티를 정의할 때 엔터티에서 관리하는 데이터가 실제로 존재하는 물체인지, 만질 수 있는 물건인지를 가장 먼저 따져서 실체를 나타낸다면 실체 엔터티로 설계한다. 실체 엔터티는 엔터티 명에 ‘실체’ 접미어를 붙인다. [그림1] 서적실체 엔터티는 만질 수 있는 실체인 책을 관리하는 엔터티다. [그림1] 서적실체 엔터티는 실체 엔터티이기 때문에 엔터티 명에 ‘실체’ 접미어를 붙인다. 책을 한 권씩 개별적으로 다룬다면 서적실체 엔터티가 필요하다. 바코드 정보가 있어 해당 책을 관리할 수 있다. 하지만 서적실체 엔터티에는 책에 대한 이름이나 저자 등과 같은 기본 정보가 없다. 이런 정보는 책을 상징하는 정보로서 실체 정보는 아.. 더보기
종속 엔터티의 엔터티 명 엔터티에 속한 속성이 많을 때, 성능이나 관리 측면에서 좋지 않은 영향을 미친다면 일부 속성을 별도의 엔터티로 분리할 수 있다. 이때 속성 성격에 따른 분리가 아닌 사용 빈도에 따른 분리일 경우, 즉 유사한 성격의 속성으로 분리할 수 없고 자주 사용되는 않는 속성, 덜 중요한 속성으로 분리할 때는 엔터티 명을 ‘상위 엔터티 명+상세(Suffix)’ 형식으로 정한다. 이런 속성으로 구성된 엔터티는 특별한 데이터 성격이 없기 때문에 엔터티 명을 정하기가 어렵다. 이때는 상위 엔터티 명에 ‘상세’라는 접미어를 붙어서 정한다. [그림1] 고객 엔터티에 속성이 많아 일부 속성을 별도의 엔터티로 분리해야 한다고 가정한다. [그림1] 엔터티를 속성 기준으로 수직 분리할 때는 유사한 성격의 속성을 분리하는 것이 바람직.. 더보기
기준 엔터티의 엔터티 명 기준 엔터티는 기준 데이터임을 명확하게 구분하기 위해서 엔터티 명에 ‘기준’이라는 단어를 접미어(Suffix)로 붙인다. 그리고 접미어 앞에는 데이터 성격을 나타내는 명사형의 단어를 사용하며, 필요 시 명사형 단어 앞에 수식어를 사용한다. [그림1] 환율기준 엔터티는 기준 정보로서 환율 데이터를 관리하는 엔터티다. [그림1] 기준 데이터로 관리하려는 대상이 환율이기 때문에 ‘환율’은 데이터의 성격을 나타내는 명사형의 단어다. 데이터 성격은 기본 속성을 보면 알 수 있다. 기본 속성이 환율을 의미하기 때문에 데이터 성격을 나타내는 명사형의 단어는 ‘환율’이다. 그리고 명사형의 단어 앞에 수식어가 필요 없기 때문에 접미어인 ‘~기준’을 사용해 ‘환율기준’이라고 붙인다. [그림2] 고객수수료율기준 엔터티는 고.. 더보기