본문 바로가기

책 Story

[서평] 마스터 알고리즘/페드로 도밍고스/강형진/비즈니스북스/2015년

너무 어려운 책이다. 책을 읽으면서 이렇게 이해하지 못한 책은 없었던 거 같다.

읽기를 포기했던 책이 몇 번 있는데, 그건 어려워서가 아니라 도움이 될 거 같지 않아서였다.

 

읽는 게 무의미할 정도로 이해가 안 돼서 읽기를 포기해야 했던 책이지만, 용어라도 익숙해지기 위해 끝까지 글자를 눈으로 본 책이다.

 

마스터 알고리즘/페드로 도밍고스/강형진/비즈니스북스/2015

 

 

이 책을 읽으면서 한 생각은 많지 않다. 이해를 못했으니 생각할 것도 없었다. 다만, 한 사람의 지식이 이렇게 광범위할 수 있다는 것을 느끼게 한 책이다. 최대한 쉽게 쓰려고 했던 거 같지만 어쨌든 지식 자랑을 많이 한 책이다.

 

저자는 뭔가를 알고 있는 거 같다. 기초 지식을 쌓은 후에 다시 읽을 생각이다.

 

--

 

머신러닝과는 무관하지만 의사결정트리를 설명하는 부분에 미국인의 지지 정당을 알 수 있는 내용이 있다. 세금감면, 낙태금지, 총기규제 세 가지에 대한 의견을 알면 민주당 지지자인지 공화당 지지자인지를 알 수 있다고 한다.

 

어떻게 저 세 가지로 지지정당을 알 수 있을까? 사람들의 성향이 너무 일률적인가 아닌가?

라는 생각을 했다. 우리에 대해 생각하지 않을 수 없었다. 미국은 세 가지로 지지 정당을 알 수 있는데, 우리는 어떨까? 너무나 강력한 한 가지 밖에 떠오르지 않아서 씁쓸했다.

 

위의 내용을 통해 또 하나 깨달은 점은 문제를 단순한 방법으로 해결할 필요가 있다는 생각이다. 홍길동이 보수주의자인지를 알려면 너무 복잡하게 접근하지 않고 위의 세 가지 질문만 하면 거의 맞는다는 것이다. 진리는 복잡하지 않다.

 

뭔가 중요할 거 같은 내용을 발췌했다.

 

--

 

알고리즘이란 컴퓨터가 수행할 일을 순서대로 알려주는 명령어의 집합이다.

 

논리곱, 논리합, 부정 세 가지 기본 동작이면 아무리 복잡한 알고리즘도 표현할 수 있다.

 

알고리즘은 명령어를 아무렇게나 모아놓은 것이 아니다. 멍령어는 컴퓨터가 수행할 수 있을 정도로 정확하고 분명해야 한다.

 

알고리즘은 언제나 똑같은 결과를 낸다.

 

알고리즘은 까다로운 기준을 만적해야 한다알고리즘으로 표현할 수 없으면 진정으로 이해한 게 아니다.

 

알고리즘을 설계한 뒤에는 자바나 파이썬 같이 컴퓨터가 이해할 수 있는 언어로 바꿔야 한다. 이 단계에서 알고리즘은 프로그램이라 불린다.

 

알고리즘은 입력과 출력이 있다. 데이터를 컴퓨터에 넣으면 알고리즘이 처리하여 결과를 출럭한다. 머신러닝은 이 과정을 바꾸었다. 데이터와 원하는 결과를 넣으면 데이터를 결과로 바꿔주는 알고리즘을 내놓는다.

 

머신러닝은 씨앗이고 데이터는 토양, 학습된 프로그램은 식물이다. 머신러닝 전문가는 농부와 같이 씨를 뿌리고 물과 비료를 주고 농작물의 건강상태를 늘 살펴보지만 그 외에는 한발 물러나 식물 스스로 자라게 한다.

 

데이터를 더 많이 얻을수록 이시너닝은 더 많이 배울 수 있다

 

머신러닝 측은 확률probability 을 말하고 지식공학자 측은 논리logic를 말한다.

 

합리주의자는 감각은 우리를 속이기 때문에 논리적 추론만이 지식에 도달하는 확실한 길이라고 믿는다. 경험주의자는 모든 추론은 틀릴 수 있으며 지식은 관찰과 실험에서 나와야 한다고 믿는다.

 

합리주의자는 첫 행동을 개시하기 전에 모든 것을 계획한다. 경험주의자는 여러가지 시도를 해보고 결과가 어떻게 나오는지 확인한다.

 

뉴턴의 원리. 우리가 경험한 모든 일에 진실한 것은 우주의 모든 것에 진실하다.

 

머신러닝에서 개념에 맞는 사례를 긍정적 예라고 하고 개념에 반하는 예를 부정적 예라고 한다.

 

당신은 긍정적 예는 모두 포함하고 부정적 예는 모두 배제한 규칙의 정의를 얻는다. 이제 데이터는 모두 버리고 이 규칙만 가지고 있으면 된다.

 

긱 규칙은 그 사항의 모든 측정치를 규정하고, 이런 규칙의 모습은 개념의 정의가 된다.

 

학습은 중요한 부분을 기억햐는 만큼 세부 항목은 잊는 것이다.

 

괴적합 문제는 가정이 너무 많고 가정들을 시험하여 솎아낼 데이터는 충분하지 않을 때 발생한다.

 

학습은 보유한 데이터의 앙과 고려하는 가설 수 사이의 경주다. 데이터가 많을수록 살아남는 가설의 수를 기하급수적으로 줄이지만 많은 가설을 가지고 시작하면 니쁜 가설들이 남아 있는 채로 가설 검증이 끝날 수 있다.

 

귀납법은 연역법의 역이다.

 

기호주의자 학습과 연결주의자 학습의 차이점은 기호주의는 순차적인sequential 반면 연결주의는 동시적parallel이라는 점이다.

 

역연역법은 전제에서 목표 결론에 이르기 위해 필요한 규칙을 한 번에 한 단계씩 파악했다. 연결주의자 모형에서 모든 신경세포는 규칙에 따라 동시에 학습한다.

 

--

 

마지막으로 그림을 하나 첨부했다. 전혀 이해하지 못했지만, 이 책의 핵심 내용을 요약한 것임에 틀림없다.