본문 바로가기
728x90

인공지능학/기계학습10

[기계학습] 10. 고차원 데이터의 차원 축소 고차원 데이터의 차원 축소고차원 데이터는 많은 특성을 포함하고 있어, 분석과 학습이 복잡하고 시간이 많이 소요될 수 있습니다. 차원 축소는 이러한 고차원 데이터를 더 낮은 차원으로 변환하여 데이터를 더 간결하게 표현하고, 분석 및 모델 학습을 더 효율적으로 수행할 수 있게 도와줍니다. 이번 글에서는 차원 축소 기법 중에서 가장 널리 사용되는 PCA(주성분 분석)와 선형판별 분석법에 대해 알아보겠습니다.1. PCA 알고리즘의 이해PCA(주성분 분석, Principal Component Analysis)는 데이터의 변동성을 최대한 보존하면서 고차원 데이터를 저차원으로 변환하는 통계 기법입니다. PCA는 데이터의 주요 변동 방향(주성분)을 찾고, 이를 새로운 축으로 삼아 데이터를 변환합니다.PCA의 주요 개념.. 2024. 9. 15.
[기계학습] 9. 앙상블 학습의 이해, 랜덤 포레스트 모델의 이해 1. 앙상블 학습의 이해앙상블 학습은 여러 개의 학습 알고리즘을 결합하여 하나의 강력한 모델을 만드는 방법입니다. 이번 글에서는 앙상블 학습의 개념과 대표적인 기법인 부스팅과 스태킹에 대해 알아보겠습니다. 앙상블 학습의 개념앙상블 학습(Ensemble Learning)은 여러 개의 모델(약한 학습기)을 결합하여 예측 성능을 향상시키는 기법입니다. 개별 모델이 가진 약점을 상호 보완하여 전체 모델의 성능을 높이는 것이 목표입니다. 앙상블 학습의 주요 장점은 모델의 안정성과 예측 성능을 향상시키는 것입니다. 주요 앙상블 기법배깅(Bagging) : 여러 모델을 병렬로 학습하고, 이들의 예측을 평균 또는 투표 방식으로 결합합니다. 대표적인 예로 랜덤 포레스트가 있습니다.부스팅(Boosting) : 여러 모델을.. 2024. 8. 20.
[기계학습] 8. 의사결정트리의 이해 의사결정트리의 이해 (1)의사결정트리는 기계 학습과 데이터 분석에서 널리 사용되는 알고리즘으로, 예측 문제를 해결하는 데 효과적입니다. 이번 글에서는 의사결정트리의 개요와 예측트리(회귀)에 대해 자세히 알아보겠습니다.의사결정트리의 개요의사결정트리(Decision Tree)는 의사 결정 규칙과 그 결과를 트리 구조로 나타낸 모델입니다. 트리의 각 노드는 속성을 나타내고, 각 분기는 조건을 나타내며, 각 리프 노드는 결과를 나타냅니다. 의사결정트리는 직관적이며 이해하기 쉬운 모델로, 데이터에 기반한 결정을 시각화하고 설명할 수 있습니다. 주요 개념노드(Node) : 의사 결정 트리의 각 분기점으로, 특정 속성을 기준으로 데이터를 분리합니다.루트 노드(Root Node) : 트리의 최상위 노드로, 전체 데이터.. 2024. 8. 7.
[기계학습] 7. 서포트벡터머신의 이해 서포트 벡터 머신(Support Vector Machine)의 이해 (1)서포트 벡터 머신(SVM)은 분류와 회귀 분석에 널리 사용되는 강력한 기계 학습 알고리즘입니다. 이번 글에서는 SVM의 개념을 이해하기 위해 최대 마진 분류기와 선형 SVM에 대해 알아보겠습니다.최대 마진 분류기최대 마진 분류기(Maximum Margin Classifier) : 최대 마진 분류기는 두 클래스 간의 마진을 최대화하는 초평면(hyperplane)을 찾는 분류 모델입니다. 마진이란 초평면과 가장 가까운 데이터 포인트(서포트 벡터) 사이의 거리입니다. 목표클래스 간의 분리를 최대화하여 일반화 성능을 향상시킵니다.데이터에 가장 잘 맞는 초평면을 찾아 분류합니다. 마진의 정의마진(margin) : 초평면과 서포트 벡터 사이의.. 2024. 8. 7.
[기계학습] 6. 군집화의 이해 군집화의 이해 (1)군집화는 기계학습에서 비지도 학습의 한 유형으로, 데이터 포인트들을 비슷한 특성을 가진 그룹으로 나누는 작업입니다. 이번 글에서는 군집화의 개요, 계층적 군집화와 분리형 군집화, K-평균 군집화에 대해 알아보겠습니다.군집화의 개요군집화(Clustering) : 군집화는 주어진 데이터 세트를 유사한 데이터 포인트의 그룹(군집)으로 분할하는 과정입니다. 각 군집은 데이터 포인트의 집합으로, 군집 내의 데이터는 서로 유사하고, 다른 군집의 데이터와는 상이한 특징을 가집니다. 목적데이터 구조 발견 : 데이터의 자연스러운 그룹을 식별하여 데이터의 구조를 이해합니다.차원 축소 : 고차원 데이터를 요약하여 간결한 표현을 제공합니다.이상 탐지 : 비정상적이거나 이상한 데이터 포인트를 식별합니다.적용.. 2024. 8. 6.
[기계학습] 5. KNN 알고리즘과 로지스틱 회귀모델 KNN 알고리즘KNN(K-Nearest Neighbors, K-최근접 이웃)은 가장 간단하면서도 효과적인 비모수(non-parametric) 분류 알고리즘 중 하나입니다. 이번 글에서는 Decision Theory의 이해, Non-parametric 모델의 이해, KNN 알고리즘의 이해에 대해 알아보겠습니다.Decision Theory의 이해Decision Theory : Decision Theory는 주어진 정보와 불확실성을 바탕으로 최적의 결정을 내리는 이론입니다. 이 이론은 다양한 분야에서 의사결정 문제를 해결하는 데 사용됩니다. 기본 개념결정 공간 : 가능한 모든 결정의 집합.손실 함수 : 특정 결정을 내렸을 때 발생하는 손실을 측정하는 함수.위험 함수 : 손실 함수의 기대값으로, 가능한 모든 결.. 2024. 8. 5.
728x90