사전 학습 알고리즘
국제 권위 학술기구인 IEEE 데이터 마이닝 국제회의 (ICDM) 는 데이터 마이닝 분야의 10 대 고전 알고리즘 (C4.5, K-means, SVM, Apriori, EM, PageRank, AdaBoost, KNN,) 을 선정했다
상위 10 위 알고리즘뿐만 아니라 선정에 참여한 18 개의 알고리즘도 있는데, 그 중 어느 것도 클래식 알고리즘이라고 할 수 있어 데이터 마이닝 분야에 큰 영향을 미쳤다. 오늘은 주로 10 클래식 알고리즘을 공유하는데, 내용이 건조해서 소장하고 나중에 공부할 것을 제안합니다.
1.C4.5
C4.5 알고리즘은 기계 학습 알고리즘의 분류 결정 트리 알고리즘이며 핵심 알고리즘은 ID3 알고리즘입니다. C4.5 알고리즘은 ID3 알고리즘의 장점을 상속하고 다음과 같은 측면에서 ID3 알고리즘을 개선했습니다.
1) 정보 게인을 사용하여 속성을 선택하면 정보 게인이 있는 속성을 선택할 때 값이 많은 속성을 선택하는 단점을 극복할 수 있습니다.
2) 나무 만드는 과정의 가지 치기;
3) 연속 속성의 이산화를 완료 할 수 있습니다.
4) 불완전한 데이터를 처리 할 수 있습니다.
C4.5 알고리즘은 생성된 분류 규칙이 이해하기 쉽고 정확도가 높다는 장점이 있습니다. 단점은 트리를 구성하는 동안 데이터 세트를 여러 번 스캔하고 정렬해야 하므로 알고리즘이 비효율적이라는 것입니다 (카트 알고리즘은 데이터 세트를 두 번만 스캔하면 됩니다. 다음은 의사 결정 트리의 장단점에 불과합니다).
2.K 평균 알고리즘은 k 평균 알고리즘입니다.
K-means 알고리즘은 객체의 속성에 따라 n 개의 객체를 k 개의 파티션으로 나누는 클러스터링 알고리즘입니다
3. 지원 벡터 머신
지원 벡터 머신, 영어 Support Vector Machine, 약어 SV 머신 (이 문서는 총칭 SVM) 입니다. 그것은 통계 분류와 회귀 분석에 광범위하게 적용되는 감독 학습 방법이다. 지원 벡터기는 벡터를 더 높은 차원의 공간에 매핑하여 이 공간에 간격이 가장 큰 하이퍼평면을 설정합니다. 데이터를 분리하는 하이퍼평면의 양쪽에는 두 개의 평행한 하이퍼평면이 있습니다. 편경사 평면을 분리하면 두 평행 편경사 평면 간의 거리가 극대화됩니다. 평행 하이퍼평면 간의 거리나 간격이 클수록 분류기의 총 오차가 작아진다고 가정합니다. 훌륭한 가이드는 C. J.C Burges 의' 패턴 인식 지원 벡터기 가이드' 입니다. 벤더워트와 바나드는 지원 벡터기를 다른 분류기와 비교했다.
4. 선험적 알고리즘
Apriori 알고리즘은 부울 연관 규칙 빈번 항목 집합을 마이닝하는 가장 영향력 있는 알고리즘입니다. 핵심은 2 단계 주파수 세트 사상을 기반으로 하는 재귀 알고리즘입니다. 이 상호 관계 규칙은 분류에서 단일 차원, 단일 레벨, 부울 상호 관계 규칙에 속합니다. 여기서 최소 지지도보다 큰 모든 항목 세트를 빈번 항목 세트 또는 간단히 빈도 세트라고 합니다.
5. 최대 기대 알고리즘
통계 계산에서 최대 기대 (EM) 알고리즘은 확률 모델에서 매개변수의 최대 우도 추정을 찾는 알고리즘입니다. 여기서 확률 모델은 관찰할 수 없는 숨겨진 변수 (Latent Variabl) 에 따라 달라집니다. 가장 큰 기대는 기계 학습 및 컴퓨터 시각에 일반적으로 사용되는 데이터 클러스터링 분야입니다.
6. 페이지 순위
PageRank 는 구글 알고리즘의 중요한 부분입니다. 2006 년 9 월 구글 창업자 중 한 명인 래리 페이지는 그에게 미국 특허를 수여했다. 따라서 PageRank 의 Page 는 웹 페이지가 아니라 page 를 의미합니다. 즉, 이 순위 방법은 page 의 이름을 따서 명명되었습니다.
PageRank 는 웹 사이트 외부 링크 및 내부 링크의 수와 품질을 기준으로 웹 사이트의 가치를 측정합니다. PageRank 뒤의 개념은 페이지의 각 링크가 해당 페이지에 대한 투표라는 것입니다. 링크가 많을수록 다른 사이트에서 더 많은 투표를 받을 수 있다는 것입니다. 이것이 바로' 링크 유행' 이라고 불리는데, 얼마나 많은 사람들이 그들의 웹사이트를 당신의 웹사이트에 연결하고자 하는지를 측정하는 것이다. (알버트 아인슈타인, 자기관리명언) PageRank 의 개념은 학술계에서 논문이 인용되는 빈도에서 비롯된다. 즉, 논문이 다른 사람이 인용한 횟수가 많을수록 논문의 권위성이 높은 것으로 판단된다.
7.adaboost 알고리즘
Adaboost 는 동일한 교육 세트에 대해 서로 다른 분류자 (약한 분류자) 를 훈련시킨 다음 이러한 약한 분류자를 조립하여 더 강력한 최종 분류자 (강한 분류자) 를 형성하는 반복 알고리즘입니다. 알고리즘 자체는 데이터 분포를 변경하여 이루어집니다. 각 교육 세트에 있는 각 샘플의 분류가 올바른지, 마지막 전체 분류의 정확성에 따라 각 샘플의 가중치를 결정합니다. 수정된 가중치를 가진 새 데이터 세트는 교육을 위해 하위 분류기로 전송되고, 마지막으로 각 교육에서 얻은 분류자를 최종 의사 결정 분류기로 융합합니다.
8.kNN: k 최근 접 분류
K- 가장 가까운 이웃 (KNN) 분류 알고리즘은 이론적으로 비교적 성숙한 방법이자 가장 간단한 기계 학습 알고리즘 중 하나이다. 이 방법의 아이디어는 한 피쳐 공간에서 가장 비슷한 (즉, 가장 가까운) K 개의 샘플 중 대부분이 범주에 속할 경우 해당 샘플도 해당 범주에 속한다는 것입니다.
9. 소박한 베이지안
많은 분류 모델 중에서 가장 널리 사용되는 두 가지 분류 모델은 의사 결정 트리 모델과 NBC (naive Bayesian model) 입니다. 소박한 베네치아 모델은 고전적인 수학 이론에서 유래한 것으로, 견고한 수학 기초와 안정적인 분류 효율을 갖추고 있다.
또한 NBC 모델은 추정해야 할 매개변수가 적고 누락된 데이터에 민감하지 않으며 알고리즘이 비교적 간단합니다. 이론적으로 NBC 모델의 오류율은 다른 분류 방법에 비해 가장 낮습니다. 그러나 NBC 모델은 속성이 서로 독립적이라고 가정하기 때문에 실제 적용에서 종종 근거가 없는 경우가 많기 때문에 NBC 모델의 올바른 분류에 어느 정도 영향을 미칠 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마) 속성 수가 많거나 속성 간의 종속성이 큰 경우 NBC 모델은 의사 결정 트리 모델보다 분류 효율이 떨어집니다. 속성 종속성이 작을 때 NBC 모델의 성능이 가장 좋습니다.
10.CART: 분류 및 회귀 트리
카트, 분류 및 회귀 트리. 분류 나무 아래에는 두 가지 핵심 아이디어가 있다. 첫 번째는 인수 공간을 재귀적으로 나누는 사상 (이진 분할법) 입니다. 두 번째 아이디어는 유효성 검사 데이터를 사용하여 트리밍하는 것입니다 (사전, 사후). 회귀 트리를 기반으로 모델 트리를 구축하는 것이 더 어려울 수 있지만 분류 효과도 향상되었습니다.
참고 도서: 실제 전투에서 기계 학습