데이터베이스, 데이터 웨어하우스, 데이터 마이닝 기술 간의 차이점

데이터 마이닝은 대량의 데이터에서 잠재적이고 가치 있는 지식(모델 또는 규칙)을 추출하는 프로세스입니다.

1. 데이터 마이닝은 무엇을 할 수 있나요?

1) 데이터 마이닝은 다음과 같은 6가지 작업(분석 방법)을 수행할 수 있습니다.

분류() p>

추정

예측

친화도 그룹화 또는 연관 규칙

클러스터링

p>

설명 및 시각화(Descriptionand)

2) 데이터 마이닝 분류

위의 6가지 데이터 마이닝 분석 방법은 직접 데이터 마이닝, 간접 데이터 마이닝의 두 가지 범주로 나눌 수 있습니다.

직접 데이터 마이닝

사용 가능한 데이터를 활용하여 특정 변수에 대한 나머지 데이터를 데이터베이스의 테이블 속성, 즉 열로 이해할 수 있는 모델을 구축하는 것이 목표입니다

).

간접 데이터 마이닝

대상은 특정 변수를 선택하고 이를 모델로 설명하는 대신 모든 변수 간에 특정 관계를 설정합니다.

< p>분류 , 평가, 예측은 직접 데이터 마이닝에 속하며, 후자의 세 가지는 간접 데이터 마이닝에 속합니다.

3) 다양한 분석 방법 소개

분류()

< p> 먼저, 데이터에서 분류된 훈련 세트를 선택하고, 훈련 세트에 대해 데이터 마이닝 분류 기술을 활용하여 분류 모델을 구축하여 분류되지 않은 데이터를 분류합니다.

예:

a. 위험도가 낮음, 중간, 높음으로 분류된 신용카드 신청자

b. 고객을 사전 정의된 고객 샤드에 할당합니다. p>

참고: 클래스 수는 결정되고 사전 정의됩니다.

추정

추정은 분류와 유사하지만 차이점은 분류가 이산형 변수의 출력을 설명하는 반면 평가는 연속 값의 출력을 처리합니다. 분류 범주의 수는 고정되어 있지만 평가 금액은 불확실합니다.

예:

a. 구매 패턴을 기준으로 가족의 자녀 수를 추정합니다.

b. 구매 패턴을 기준으로 가족의 소득을 추정합니다.< /p >

c.부동산 가치 추정

일반적으로 평가는 분류의 첫 번째 단계로 사용될 수 있습니다. 일부 입력 데이터가 주어지면 추정을 통해 알 수 없는 연속변수의 값을 구한 후 미리 설정된 임계값에 따라 분류합니다. 예: 주택 융자 사업의 경우 은행은 가치 평가를 통해 각 고객의 점수를 매깁니다(Score0~1). 그런 다음 기준점에 따라 대출 등급이 분류됩니다.

예측

일반적으로 예측은 분류 또는 평가를 통해 작동합니다. 즉, 분류 또는 평가를 통해 모델이 파생되고 해당 모델이 예측에 사용됩니다.

알 수 없는 변수. 이런 의미에서 예언은 실제로 별도의 범주로 분류될 필요가 없습니다.

예측의 목적은 미래에 알려지지 않은 변수를 예측하는 것입니다. 이러한 종류의 예측은 검증하는 데 시간이 걸립니다. 즉, 정확도가 높아지려면 일정 시간이 지나야 합니다.

예측은 알려져 있습니다.

친화도 그룹화 또는 연결 규칙

어떤 일이 함께 일어날지 결정합니다.

예:

a. 슈퍼마켓에서 고객이 A를 구매하면 B를 구매하는 경우가 많습니다. 즉, A=gt;B(연관 규칙)

b .고객이 A를 구매한 후 일정 시간이 지나면 B를 구매하게 됩니다(순서 분석)

클러스터링

클러스터링은 레코드를 그룹화하여 유사한 레코드를 클러스터에 넣는 것입니다.

집계와 분류의 차이점은 집계는 미리 정의된 클래스에 의존하지 않으며 훈련 세트가 필요하지 않다는 것입니다.

예:

a. 일부 특정 증상의 집합은 특정 질병을 나타낼 수 있습니다.

b. VCD를 대여하는 고객의 집합은 서로 다른 유형을 나타낼 수 있습니다. 구성원은 서로 다른 하위 문화 그룹에 속합니다.

집계는 데이터 마이닝의 첫 번째 단계로 자주 사용됩니다. 예를 들어, "고객에게 가장 잘 반응하는 프로모션 유형은 무엇입니까?" 이런 유형의 질문의 경우 먼저 전체 고객을 집계하고 고객을 각각의 클러스터로 그룹화한 다음 서로 다른 그룹으로 분류하여 함께 모아서 질문에 대답하는 것이 더 나을 수 있습니다.

설명 및 시각화(Descriptionand)

데이터 마이닝 결과를 표현하는 방법입니다.

2. 데이터 마이닝의 사업 배경

데이터 마이닝은 먼저 비즈니스 환경에서 많은 양의 데이터를 수집해야 하며, 그다음 마이닝된 지식이 가치가 있어야 합니다.

비즈니스의 가치는 비용 절감, 주가 상승, 세 가지 상황에 지나지 않습니다.

1) 연구 도구로서의 데이터 마이닝(Research)

2) 프로세스 제어 개선을 위한 데이터 마이닝(ProcessImprovement)

3) 마케팅으로서의 데이터 마이닝 도구( 마케팅)

4) 고객 관계 관리 CRM 도구로서의 데이터 마이닝(CustomerManagement)

3. 데이터 마이닝의 기술적 배경

1) 데이터 마이닝 기술에는 알고리즘과 데이터 모델링 기능이라는 세 가지 주요 부분이 포함됩니다.

2) 데이터 마이닝 및 기계 학습(기계 학습)

기계 학습은 컴퓨터 과학 발전의 산물입니다. 인공 지능 AI< /p>

기계 학습은 두 가지 학습 방법으로 나뉩니다. 즉, 자기 조직화 학습(예: 신경망), 예에서 규칙 유도(예: 의사결정 트리)

데이터마이닝의 유래

데이터마이닝은 1980년대 AI 연구사업에 대한 투자가 실패한 뒤 AI가 실용화되면서 제안됐다. 이는 상업적 응용을 지향하는 신흥 AI 연구입니다. 데이터 마이닝이라는 용어를 선택한 것은 오랫동안 예측 모델링에 종사해 온 통계, 보험계리 과학, 경제학자와 기술적 중복이 없음을 나타냅니다.

3) 데이터 마이닝 및 통계

통계도 데이터 마이닝을 지원하기 시작합니다. 통계에는 예측 알고리즘(회귀), 샘플링, 경험 기반 설계 등이 포함됩니다.

4) 데이터 마이닝 및 의사결정 지원 시스템

데이터 웨어하우스

OLAP( 온라인 분석 처리), DataMart(데이터 마트), 다차원 데이터베이스

의사결정 지원 도구 통합

데이터 웨어하우스, OLAP, 데이터 마이닝을 통합하여 기업 의사결정 분석 구성 환경.

4. 데이터 마이닝의 사회적 배경

데이터 마이닝과 개인 예측: 데이터 마이닝은 과거 데이터 분석을 통해 고객 행동을 예측할 수 있다고 주장하지만 실제로는

< p>고객 자신도 다음에 무엇을 하고 싶은지 모를 수도 있습니다. 따라서 데이터 마이닝의 결과는 사람들이 상상하는 것만큼 신비롭지도 않고, 완전히 정확할 수도 없습니다.

고객 행동은 사회적 환경과 관련이 있기 때문에 데이터 마이닝 자체도 사회적 배경의 영향을 받습니다. 예를 들어, 미국의 은행 신용카드 고객을 위한 신용 평가 모델은 매우 성공적이었지만 중국에는 적합하지 않을 수 있습니다.