1~5장까지는 지도 학습의 내용이고, 이제 비지도 학습이 시작되는 6장입니다.
■ 6장 : 비지도 학습
☞ 대표적인 군집 알고리즘 : k-평균, DBSCAN 학습
☞ 대표적인 차원 축소 알고리즘 : 주성분 분석(PCA) 학습
비지도 학습에 군집 vs 차원축소 크게 2가지에 대해서 개념을 잘 정립해야 합니다.
■ 6-1장 : 군집 알고리즘
- 대표적인 비지도 학습 중에 하나
- 비지도 학습에서는 타깃값을 모르기때문에 샘플의 평균값을 알수가 없다. → "k평균" 이용
- 클러스터 : 군집 알고리즘으로 만든 그룹
■ 6-2장 : k-평균(군집 알고리즘)
- 평균값을 자동으로 찾아줌, 클러스터의 중심에 위치하기 때문에 (클러스터 중심, 센트로이드)라고 불리움
- 어떠한 것이 있는지 알수가 없기 때문에, 아래와 같이 평균값을 찾아간다.
- 1. 무작위로 k개의 클러스터 중심을 정함
- 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 → 클러스터 샘플 지정
- 클러스터 샘플 평균값으로 클러스터 중심 이동
- 변화가 없을때 까지 2번 돌아가면서 반복
- 몇번을 반복해서 중심점을 찾아가기
- 엘보우 : 이너셔(클러스터 중심과 샘플 사이 거리의 제곱합)
- 이너셔가 꺽이는 지점이 적절한 클러스터 k의 갯수
■ 6-3장 : 주성분분석 (차원축소 알고리즘)
- 차원 축소가 필요한 이유
- 원본데이터가 점점 늘어나고, 사이즈가 커지는 현상 발생
- 사이즈를 줄여서, 시각화도 쉽고 알고리즘의 성능도 좋아짐
- 원본데이터의 특성을 적은 수의 새로운 특성으로 변환하는 방법
- 주성분 분석
- 데이터에서 가장 분산이 큰 방향을 찾는 방법
- PCA(principal component analysis)라고 불리운다.
- 원본 차원과 같고, 주성분으로 바꾼 데이터는 차원이 줄어든다.
- 여기서 차원(Dimension) : 특성의 의미
■ 기본 미션
k-평균 알고리즘 작동 방식 설명하기
☞ 6-2장에서 기본적인 설명을 진행하였습니다.
비지도 학습을 수행할때, 가장 중요한것은 몇번 반복하여서 수행할지 파악하는게 중요합니다.
이것을 클러스터 갯수의 지정이라고 합니다. 이 부분이 매우 중요한 부분입니다.
■ 선택 미션
1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을수 있는 주성분 개수는 몇개일까요?
① 10개
② 20개
③ 50개
④ 100개
☞ 정답: 2번, 주성분=특성의 갯수 만큼 찾을수 있다.
(주성분 분석시에는 원본 특성보다 개수가 작아야 하기 한다고 생각하고 20보다 작은 1번이 정답선택해서 틀림)
2. 샘플 개수가 1,000개이고, 특성 갯수는 100개인 데이터셋이 있습니다. 즉 이 데이터넷의 크기는 (1000,100) 입니다.
이 데이터를 사이킷런의 PCA클래스를 사용해서 10개의 주성분을 찾아 변환했습니다. 변화된 데이터셋의 크기는 얼마일까요?
① (1000,10)
② (10, 1000)
③ (10,10)
④ (1000,1000)
☞ 정답 1번 (1000,100)의 이미는 100개의 특성을 가지 1000개의 픽셀이라고 말할 수 있습니다.
10개로 주성분을 줄이면 앞에 이미지 숫자는 그래로 유지하고 (1000,10)으로 구성, P.324에 예시를 보시면 좀더 이해가 쉽습니다.
3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇번째인가요?
① 첫번째 주성분
② 다섯번째 주성분
③ 열 번째 주성분
④ 알 수 없음
☞ 정답 1번, 분산이 큰 방향부터 순서대로 찾습니다.
'study' 카테고리의 다른 글
혼공 파이썬 1주차 (0) | 2022.07.04 |
---|---|
혼공 머신러닝/딥러닝 6주차 (0) | 2022.02.26 |
혼공 머신러닝/딥러닝 4주차 (0) | 2022.02.10 |
혼공 머신러닝/딥러닝 3주차 (0) | 2022.01.26 |
혼공 머신러닝/딥러닝 2주차 (0) | 2022.01.17 |