본문 바로가기

Machine Learning

06. 분류(1) - kNN(k Nearest Neighbor) 분류-Classify분류는 레이블이 있는 학습 데이터를 이용해 미지의 데이터를 하나의 그룹으로 분류하는 지도학습의 일종이다kNN 알고리즘(k-Nearest Neighbor Algorithm)kNN은 학습을 미뤄두고 있다가 미지의 데이터가 입력되면 그제서야 학습을 시작하는 Lazy Learning의 방법이다. kNN 알고리즘은 미지의 데이터를 중심으로 k개의 가장 가까운 데이터를 기준으로 미지의 데이터를 분류한다.kNN 알고리즘의 동작 데이터세트 안에서, 미지의 데이터를 중심으로 가상의 원(3차원에서는 구)을 확장시켜 나가면 범위 안에 들어오는 데이터를 구할 수 있다. 이 때, k=1이라 하면, 이 미지의 데이터는 원을 확장시킬 때 가장 처음으로 만나는 데이터의 그룹에 속하게 된다.다음으로, k=3일 때의.. 더보기
05. 강화학습(1) - 유전 알고리즘 - Genetic Algorihm 유전 알고리즘 - Genetic Algorithm 존 홀랜드가 개발한 최적화 기법의 일종으로, 생명체의 진화를 모방하여 가장 적절한 해집단을 찾아간다유전 알고리즘의 역사 미국 최초의 컴퓨터과학 박사로도 알려진 존 홀랜드 교수는, 평소 스승이었던 아서 막스 교수와 폰 노이만 교수의 오토마타 이론과 로널드 피셔의 자연선택을 다룬 책, 을 읽고 그 영향을 받아 '유전 알고리즘'을 창시하게 된다. 발표 당시 연결주의론의 위기 등과 맞물려 인공지능 연구에 대한 지원이 크게 줄었고, 당시 학자들 또한 유전 알고리즘을 이해하길 꺼려했던 이유로 유전 알고리즘은 크게 주목받지 못하였다. 하지만, 인공지능이 다시 부흥하게 되며 그의 제자들과 다른 여러 학자들은 유전 알고리즘을 다시 주목하게 되었고, 이후 여러 연구가 거듭.. 더보기
04. 군집화(2)-DBSCAN(Density-based spatial clustering of applications with noise) 군집화-Clustering군집화는 주어진 데이터들을 비슷하거나 유사한 데이터끼리 그룹으로 묶는 비지도학습의 일종이다. DBSCAN(Density-based spatial clustering of applications with noise) (그림 : DBSCAN이 잘 처리하는 데이터 분포 VS DBSCAN 사용이 비효율적인 분포) DBSCAN은 군집화의 여러 방법 중 하나로, 노이즈에 대해 강건하며, K 평균에 비해 연산량은 많지만 K평균이 잘 처리하지 못하는 오목한 데이터세트에 대해 높은 처리 능력을 보여주는 방법이다. DBSCAN은 '노이즈가 있는 애플리케이션을 위한 밀도에 근거한 공간적인 군집화'의 줄임말이다. 이름만 들어선 왠지 데이터베이스를 스캔해야 할 것 같지만 데이터베이스와 DBSCAN은 별.. 더보기
03. 군집화(1) - K 평균 알고리즘 군집화-Clustering군집화는 주어진 데이터들을 비슷하거나 유사한 데이터끼리 그룹으로 묶는 비지도학습의 일종이다. K 평균 알고리즘 ( K-Means Algorithm ) 군집화의 방법 중 가장 일반적이고, 간편하며 빠른 알고리즘은 K-평균 알고리즘이다. k-평균 알고리즘은 주어진 데이터세트를 중심 K 개로 군집화하며, 이 K 값은 임의로 정해진다. (그림 : K 평균 알고리즘 군집화의 예시) K 평균 알고리즘의 동작 K 평균 알고리즘의 오차함수를 작성하려면, 너무 많이 복잡하고, 오랜 시간이 소요되기 때문에 이 군집화 방법에 있어선 휴리스틱한 접근 방법을 요구한다. 따라서, 중심의 초깃값을 어떻게 설정하느냐에 따라 결과에 영향을 미친다. 먼저, 데이터를 n차원 좌표계에 나타낼 수 있도록 가공하고, .. 더보기
02. 선형 회귀(2) - 다중 선형 회귀 선형 회귀-Linear Regression 선형 회귀는 레이블된 데이터를 통해 종속변수와 독립변수 간의 관계를 모델링하는 통계학적 머신러닝 메소드이다. 선형 회귀는 레이블된 데이터들을 입력받고, 레이블과 데이터 간의 관계를 파악하는데, 이를 학습이라고 한다. 선형 회귀는 변수의 개수에 따라 단순 선형 회귀와 다중 선형 회귀로 나뉘어지는데, 독립변수가 하나이면 단순, 독립변수가 두 가지 이상이면 다중으로 부른다. 다중 선형 회귀둘 이상의 독립변수와 하나의 종속변수 간의 상관관계를 모델링하는 통계학적 방법을 다중 선형 회귀라 한다. 다중 선형 회귀에서 회귀식 그래프는 독립변수의 개수에 따라 결정되는데, 독립변수가 2개이면 평면, 3개이면 3차원 평면으로 나타내어지게 된다.예를 들어 독립변수가 두개인 회귀식은.. 더보기
01. 선형 회귀(1) - 단순 선형 회귀 선형 회귀 - Linear Regression 선형 회귀는 레이블된 데이터를 통해 종속변수와 독립변수 간의 관계를 모델링하는 통계학적 머신러닝 메소드이다. 선형 회귀는 레이블된 데이터들을 입력받고, 레이블과 데이터 간의 관계를 파악하는데, 이를 학습이라고 한다.선형 회귀는 변수의 개수에 따라 단순 선형 회귀와 다중 선형 회귀로 나뉘어지는데, 독립변수가 하나이면 단순, 독립변수가 두 가지 이상이면 다중으로 부른다. 단순 선형 회귀 종속변수(y)와 독립변수 하나(x)의 관계를 선형으로 모델링하는 기법을 단순 선형 회귀라 한다. 단순 선형 회귀에서, x와 y의 관계식을 구하면 미지수가 두 개인 일차식 꼴로 나타나게 되는데, 이를 회귀식이라 한다. 선형 회귀의 목표는 바로 이 회귀식을 구하는 것이다. : 여기서.. 더보기