본문 바로가기

study

혼공 머신러닝/딥러닝 5주차

1~5장까지는 지도 학습의 내용이고, 이제 비지도 학습이 시작되는 6장입니다.

 

6장 : 비지도 학습

☞ 대표적인 군집 알고리즘 : k-평균, DBSCAN 학습 

☞ 대표적인 차원 축소 알고리즘 : 주성분 분석(PCA) 학습

비지도 학습에 군집 vs 차원축소 크게 2가지에 대해서 개념을 잘 정립해야 합니다.

 

■ 6-1장 : 군집 알고리즘

  • 대표적인 비지도 학습 중에 하나
    • 비지도 학습에서는 타깃값을 모르기때문에 샘플의 평균값을 알수가 없다. → "k평균" 이용
  • 클러스터 : 군집 알고리즘으로 만든 그룹

■ 6-2장 : k-평균(군집 알고리즘)

  • 평균값을 자동으로 찾아줌, 클러스터의 중심에 위치하기 때문에 (클러스터 중심, 센트로이드)라고 불리움
  • 어떠한 것이 있는지 알수가 없기 때문에, 아래와 같이 평균값을 찾아간다.
    • 1. 무작위로 k개의 클러스터 중심을 정함
    • 2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 → 클러스터 샘플 지정
    • 클러스터 샘플  평균값으로 클러스터 중심 이동
    • 변화가 없을때 까지 2번 돌아가면서 반복
  • 몇번을 반복해서 중심점을 찾아가기
    • 엘보우 : 이너셔(클러스터 중심과 샘플 사이 거리의 제곱합)
    • 이너셔가 꺽이는 지점이 적절한 클러스터 k의 갯수

 

■ 6-3장 : 주성분분석  (차원축소 알고리즘)

 

  • 차원 축소가 필요한 이유
    • 원본데이터가 점점 늘어나고, 사이즈가 커지는 현상 발생 
    • 사이즈를 줄여서, 시각화도 쉽고 알고리즘의 성능도 좋아짐
    • 원본데이터의 특성을 적은 수의 새로운 특성으로 변환하는 방법
  • 주성분 분석
    • 데이터에서 가장 분산이 큰 방향을 찾는 방법
    • PCA(principal component analysis)라고 불리운다.
    • 원본 차원과 같고, 주성분으로 바꾼 데이터는 차원이 줄어든다.
    • 여기서 차원(Dimension) : 특성의 의미

 

■ 기본 미션

k-평균 알고리즘 작동 방식 설명하기

6-2장에서 기본적인 설명을 진행하였습니다.

    비지도 학습을 수행할때, 가장 중요한것은 몇번 반복하여서 수행할지 파악하는게 중요합니다.

    이것을 클러스터 갯수의 지정이라고 합니다. 이 부분이 매우 중요한 부분입니다.

 

 선택 미

1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을수 있는 주성분 개수는 몇개일까요?

① 10개

20개

50개

100개

☞ 정답: 2번, 주성분=특성의 갯수 만큼 찾을수 있다.

    (주성분 분석시에는 원본 특성보다 개수가 작아야 하기 한다고 생각하고 20보다 작은 1번이 정답선택해서 틀림)

 

2. 샘플 개수가 1,000개이고, 특성 갯수는 100개인 데이터셋이 있습니다. 즉 이 데이터넷의 크기는 (1000,100) 입니다.

    이 데이터를 사이킷런의 PCA클래스를 사용해서 10개의 주성분을 찾아 변환했습니다.  변화된 데이터셋의 크기는 얼마일까요?

① (1000,10)

② (10, 1000) 

(10,10)

(1000,1000)

정답 1번 (1000,100)의 이미는 100개의 특성을 가지 1000개의 픽셀이라고 말할 수 있습니다. 

    10개로 주성분을 줄이면 앞에 이미지 숫자는 그래로 유지하고 (1000,10)으로 구성, P.324에 예시를 보시면 좀더 이해가 쉽습니다.

 

3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇번째인가요?

① 첫번째 주성분

② 다섯번째 주성분

 열 번째 주성분

 알 수 없음

 정답 1번, 분산이 큰 방향부터 순서대로 찾습니다. 

'study' 카테고리의 다른 글

혼공 파이썬 1주차  (0) 2022.07.04
혼공 머신러닝/딥러닝 6주차  (0) 2022.02.26
혼공 머신러닝/딥러닝 4주차  (0) 2022.02.10
혼공 머신러닝/딥러닝 3주차  (0) 2022.01.26
혼공 머신러닝/딥러닝 2주차  (0) 2022.01.17