Tablet on Sofa

SAS BOOK

SAS Viya 기반의 실무에 바로 적용하는 머신러닝

 

SAS Viya 기반의 실무에 바로 적용하는 머신러닝
저자:강봉주
페이지 수:300
가격:₩26,000
출판일:2019-06-20
출판사:자유아카데미
ISBN:9791158082208(93000)

머리말

이 책은 필자가 최근 3년간 SAS코리아에서 ‘SAS Enterprise Miner 기반의 머신러닝의 이해와 활용’이라는 강의를 하면서 준비했던 자료들을 기반으로 작성되었다.
현재 시중에 SAS Enterprise Miner 기반의 번역서나 국내도서는 많이 있지만, SAS의 새로운 머신러닝 플랫폼이라고 할 수 있는 ‘SAS Viya’ 기반 관련 도서는 아직 국내에서 출판된 적이 없다. 이것은 SAS Viya가 많이 보급되지 않았고 실제 사용자가 사용해볼 수 있는 환경도 극히 제한적이었기 때문이다. 하지만 이제는 출시된 지 이미 몇 해가 지났고 국내에서도 몇몇 고객사를 확보하여 활용되고 있는 상황이라는 점을 감안하면 많이 아쉬운 부분이다. 또한, SAS Viya의 제품군이 다양한 데다가 실제 활용을 위한 각 옵션들의 설명이 여기저기 산재해 있어서 사용자 스스로 사용자 가이드, 레퍼런스 가이드 등을 파악하는 데에는 많은 시간이 소요된다. 이러한 필요에 따라 SAS Viya 제품군의 대표격이라 할 수 있는 SAS VDMML(Visual Data Mining and Machine Learning) 제품을 이용하여 머신러닝을 직접 실무에 적용할 수 있는 책을 저술하게 되었다.
SAS VDMML 제품은 시각화가 아주 잘 되어 있으며, 내부적인 계산은 메모리 기반이고, 클라우드 서비스가 가능한, 사용자가 쓰기에 가장 좋은 인터페이스로 구성되어 있다. 상용 제품이다 보니 파이썬, R과 같은 오픈소스 기반의 머신러닝 라이브러리보다 훨씬 안정적이고, 일일이 원하는 알고리즘을 찾는 수고를 덜어주며 매우 시각적이다. 이는 필자가 저술한 책인 「파이썬으로 실무에 바로 적용하는 머신러닝」을 비롯한 R, 파이썬 관련 책의 실제 코드를 보면 느낄 수 있을 것이다.
이 책은 주요한 머신러닝 알고리즘으로 구성되어 있지만 머신러닝을 위한 또 다른 중요한 요소이자 데이터 준비 단계인 데이터 품질, 특징 추출, 특징 선택 등에도 많은 지면을 할애하였다. 머신러닝을 응용하는 독자라면 분석을 위한 입력 데이터를 구성하는 것이 무엇보다도 중요하고 어렵다는 것을 공감할 것이다. 이를 특히 특징 공학이라고도 하는데, 여기에 도움이 되었으면 한다. 데이터 준비 과정을 거친 후 실무에서 바로 접하는 문제는 그중에 어떤 특징 또는 변수가 유의미한 것인지 판단하는 것이다. 따라서 정밀도행렬에 의한 방법을 추가로 소개하였다. 머신러닝의 모형들은 자체적으로 많은 초모수값을 지정해야 하는데 이 부분에 대한 해결 과정으로 자동 조율 방법을 수록하였으며, 또한 최근에 많은 관심을 받고 있는 해석 가능 머신러닝의 대표적인 기법들도 소개하였다. 머신러닝이 고도화되면서 알고리즘이 블랙박스와 같이 되어 산출물에 대한 이해를 입력변수와 연관지어 판단하기가 어려워졌는데, 이를 조금이나마 해소할 수 있는 기회가 되었으면 한다.
이 책은 단순 개요를 넘어서서 실제 적용을 위한 다양한 옵션에 대해 풍부하게 설명하였으며, 추가 설명이 필요한 경우 어떤 책, 논문, SAS 프로시저를 읽고 이해해야 할지에 대해서도 안내하였다.
이 책은 SAS 제품, 특히 SAS Viya 플랫폼으로 빅데이터 또는 머신러닝 프로젝트를 해야 하는 독자들을 대상으로 한다. 하지만 일반 SAS 독자이거나 오픈소스 기반의 프로젝트를 수행하는 독자들도 이 책의 시각화되고 잘 정리된 옵션 집합을 보면 하나의 인사이트를 얻을 수 있을 것이라고 생각된다.
각각의 알고리즘으로 구성된 장들은 독립적으로 읽어도 무방하지만 데이터 준비, 특징 선택, 선형회귀와 머신러닝 알고리즘 구조, 해석 가능 머신러닝은 반드시 읽기를 권장한다.
좋은 책을 위해 최선을 다했지만 오류나 부족한 부분이 있을 수 있다. 이에 대한 독자 여러분의 많은 조언을 구하며, 출간 후에라도 수정사항이 있을 경우에는 자유아카데미 홈페이지(http://www.freeaca.com) 자료실에 제공할 예정이니 참조하길 바란다.

목차

1장 머신러닝 개요
1.1 머신러닝 정의
1.2 머신러닝 프로세스
1.3 머신러닝의 응용 분야
1.4 머신러닝 알고리즘
1.5 머신러닝 알고리즘의 범위
1.6 머신러닝 알고리즘의 구현

2장 SAS Viya
2.1 개요
2.2 SAS Drive
2.3 SAS VDMML
2.4 모형 스튜디오

3장 사용 데이터 레이아웃
3.1 [CLAIM] 데이터
3.2 [BANK] 데이터
3.3 [USERMOVIE] 데이터
3.4 [DIGITS] 데이터
3.5 [HOUSING] 데이터

4장 모형 스튜디오와 데이터 탐색기
4.1 개요
4.2 프로젝트 생성
4.3 데이터 탐색기를 이용한 데이터 탐색
4.4 프로젝트 생성 옵션
4.5 메타데이터 정의
4.6 파이프라인

5장 데이터 준비
5.1 개요
5.2 데이터 품질
5.3 파생 변수 생성
5.4 연속변수의 변수 변환
5.5 범주변수의 변수 변환
5.6 결측값의 처리
5.7 특징 추출

6장 이상값 탐지
6.1 개요
6.2 지지벡터 데이터 기술
6.3 SAS VDMML 옵션
6.4 SAS VDMML 예제

7장 특징 선택
7.1 개요
7.2 모형 평가와 선택
7.3 포장 방법에 의한 변수 선택
7.4 내장 방법에 의한 변수 선택
7.5 여과 방법에 의한 변수 선택
7.6 정밀도행렬에 의한 변수 선택

8장 표기법

9장 선형회귀와 머신러닝 알고리즘 구조
9.1 개요
9.2 가설함수와 비용함수
9.3 알고리즘
9.4 비용함수에 대한 이해

10장 분류 문제와 로지스틱 회귀분석
10.1 개요
10.2 선형회귀 대 로지스틱 회귀
10.3 비용함수에 대한 이해
10.4 로그-오즈
10.5 연결함수
10.6 분류 문제에서의 모형 평가
10.7 소프트맥스 회귀
10.8 SAS VDMML 옵션
10.9 SAS VDMML 예제

11장 분류와 회귀나무
11.1 개요
11.2 회귀나무의 성장
11.3 최적 회귀나무의 선택
11.4 분류 나무
11.5 나무의 몇 가지 이슈
11.6 SAS VDMML 옵션
11.7 SAS VDMML 예제

12장 랜덤 포레스트
12.1 개요
12.2 배깅
12.3 가방밖 오차
12.4 변수 중요도
12.5 랜덤 포레스트 알고리즘
12.6 변수 중요도
12.7 SAS VDMML 옵션
12.8 SAS VDMML 예제

13장 해석 가능 머신러닝
13.1 부분종속그림
13.2 개별조건부기댓값
13.3 지역 대리 모형

14장 그래디언트 부스팅
14.1 개요
14.2 부스팅
14.3 AdaBoost.M1
14.4 부스팅과 가법모형
14.5 전진 순차방식 가법모형
14.6 지수손실함수와 적응 부스팅
14.7 부스팅의 확장
14.8 부스팅의 초모수 조정
14.9 부스팅의 정칙화
14.10 SAS VDMML 옵션
14.11 SAS VDMML 예제

15장 지지벡터 머신
15.1 개요
15.2 로지스틱 회귀와 초평면
15.3 표기법
15.4 마진과 최적 마진 분류기
15.5 라그랑지 쌍대성
15.6 라그랑지 쌍대성을 이용한 최대 마진 분류기
15.7 소프트 마진 초평면
15.8 커널 속임수
15.9 비용함수에 대한 이해
15.10 지지벡터 머신의 모수추정
15.11 SAS VDMML 옵션
15.12 SAS VDMML 예제

16장 다층 신경망
16.1 개요
16.2 표기법
16.3 전진 패스
16.4 활성함수
16.5 전진 패스의 예시
16.6 후진 패스
16.7 후진 패스의 예시
16.8 초깃값 주기
16.9 기울기 소멸 문제
16.10 입력변수의 표준화
16.11 과적합 문제
16.12 SAS VDMML 옵션
16.13 SAS VDMML 예제

17장 특잇값 분해
17.1 개요
17.2 분해행렬의 계산
17.3 특잇값 분해 계산
17.4 특잇값 분해 예제: 추천 시스템
17.5 SAS VDMML 옵션
17.6 SAS VDMML 예제

18장 주성분 분석
18.1 개요
18.2 주성분의 계산
18.3 주성분을 이용한 차원 축소
18.4 주성분의 기하학적 의미
18.5 SAS VDMML 옵션
18.6 SAS VDMML 예제
18.7 SAS VDMML 실습

19장 군집분석
19.1 개요 258
19.2 t-SNE 259
19.3 K-평균 군집화 265

Back to Top