본문 바로가기

Data & Analysis

[엑셀] 엑셀을 활용한 통계분석 1/2

엑셀에서 통계분석을 하시려면, '분석도구'가 설치 되어 있어야 합니다.
보통은 설치 되어 있지 않으니 아래 순서로 클릭해 주세요.

엑셀
도구 추가기능 분석도구 첵크- 확인

CD가 필요 하실 수 도 있습니다.


MS에서 도구분석에 이용되는 통계분석 개념을 정리 해 놓은 내용
----------------------------------------------------------------------------------------------------------


Microsoft Excel 분석 도구라 불리는 데이터 분석 도구의 집합을 제공합니다. 복잡한 통계 또는 공학 분석을 전개할 단계를 절약하기 위해 사용할 있습니다. 각각의 분석에 대해 데이터와 매개 변수를 제공하면, 도구는 적합한 통계 또는 공학 매크로 함수를 사용하여 출력 테이블에 결과를 나타냅니다. 일부 도구는 출력 테이블과 함께 차트를 생성합니다.

워크시트 관련 함수   Excel 기타 통계, 재무 공학 워크시트 함수를 여러 제공합니다. 일부 통계 함수는 기본 제공 함수이며 다른 함수는 분석 도구를 설치해야 사용 가능합니다.

데이터 분석 도구 액세스 분석 도구는 아래에 설명된 도구를 포함합니다. 도구에 액세스하려면 도구 메뉴에서 데이터 분석 클릭합니다. 데이터 분석 명령을 사용할 없으면 분석 도구 추가 기능 (추가 기능: Microsoft Office 사용자 지정 명령 또는 사용자 지정 기능을 추가하는 보조 프로그램입니다.) 프로그램을 로드해야 합니다.

표시분산 분석

분산 분석 도구는 다양한 유형의 분산 분석을 제공합니다. 사용할 도구는 검사할 모집단의 표본 집단 수와 배치 수에 따라 다릅니다.

분산 분석: 일원 배치법    도구는 이상의 표본에 대해 단순 분산 분석을 수행합니다. 모든 표본에 대한 기본 확률 분포가 다르다는 가설에 반해 기본 확률 분포가 같은 표본을 추출했다는 가설을 검증하는 분석입니다. 표본이 개뿐이면 워크시트 함수 TTEST 대신 사용할 있습니다. 표본이 이상일 때는 TTEST 전혀 도움이 되지 않으므로 일원 배치법 모델을 대신 호출할 있습니다.

분산 분석: 반복 있는 이원 배치법    분석 도구는 가지 다른 차원을 기준으로 데이터를 분류할 있을 유용한 도구입니다. 예를 들어 식물의 높이를 측정하는 실험에서 서로 다른 상표(: A, B, C) 비료와 배양 온도(: 저온, 고온) 사용합니다. 그리고 가능한 6가지 {비료, 온도} 각각에 대해 동일한 횟수로 식물의 높이를 관측합니다. 이러한 분산 분석 도구를 사용하여 다음을 검정할 있습니다.

1.       다른 상표의 비료를 사용한 식물들의 높이가 동일한 기본 모집단에서 추출되는지 여부( 분석에서 온도는 무시함).

2.       다른 온도로 유지된 식물들의 높이가 동일한 기본 모집단에서 추출되는지 여부( 분석에서 비료 상표는 무시함).

3.       1단계에서 관찰한 비료의 상표 차이와 2단계에서 관찰한 온도차에 따른 영향을 고려하여 가능한 모든 {비료, 온도} 쌍을 나타내는 6개의 표본이 동일한 모집단에서 추출되는지 여부. 비료 또는 온도차만의 영향을 초월하여 특정 {비료, 온도} 쌍으로 인한 영향이 있다는 가설도 있습니다.

분산 분석 입력 범위 설정

분산 분석: 반복 없는 이원 배치법    분석 도구는 반복 있는 이원 배치법과 같이 가지 다른 차원을 기준으로 데이터가 분류될 유용한 도구입니다. 그러나 도구에서는 ( 예의 경우 {비료, 온도} ) 1회만 관측한다고 가정합니다. 도구를 사용하여 '분산 분석: 반복 있는 이원 배치법' 1단계와 2단계에 검정을 적용할 있지만 3단계에는 데이터가 부족하여 검정을 적용할 없습니다.

표시상관 관계

CORREL PEARSON 스프레드시트 함수는 모두 N개의 대상 각각에 대해 변수에 대한 측정이 조사될 개의 측정 변수 사이의 상관 계수를 계산합니다. 조사에서 빠뜨린 대상은 분석에서 무시됩니다. 상관 분석 도구는 N 대상에 대한 측정 변수가 이상일 특히 유용합니다. 분석 결과 테이블에는 측정 변수 쌍에 적용된 CORREL(또는 PEARSON) 값을 보여 주는 상관 행렬이 출력됩니다.

상관 계수가 공분산과 유사한 점은 측정 변수가 "상관되어 변화하는" 정도의 측정이라는 점이고, 다른 점은 상관 계수 값이 측정 변수의 표시 단위와 무관하게 결정된다는 점입니다. 예를 들어 측정 변수가 각각 중량과 높이인 경우, 중량이 파운드에서 킬로그램으로 변환되어도 상관 계수의 값은 변하지 않습니다. 상관 계수 값은 -1에서 +1 사이여야 합니다.

상관 관계 분석 도구를 사용하면 측정 변수 쌍을 조사하여 측정 변수가 상관적으로 변화하는지 있습니다. , 변수의 값이 증가하면 다른 변수의 값도 증가하는지(양의 상관 관계), 변수의 값은 감소하지만 다른 변수의 값은 증가하는지(음의 상관 관계) 또는 변수 값이 서로 관계가 없는지(상관 관계가 0 가까움) 있습니다.

표시공분산

상관 관계 도구와 공분산 도구는 하나의 집합에서 N개의 측정 변수를 관찰할 동일한 설정에서 사용됩니다. 상관 관계와 공분산 도구는 각각 상관 계수와 공분산을 보여 주는 행렬을 테이블에 출력합니다. 차이점은 상관 계수는 -1에서 +1 사이의 값을 갖지만 그에 해당하는 공분산은 눈금이 지정되지 않는 다는 것입니다. 상관 계수와 공분산은 모두 개의 변수가 "상관되어 변화하는" 정도에 대한 측정입니다.

공분산 도구는 측정 변수 쌍에 대해 COVAR 워크시트 함수의 값을 계산합니다. 측정 변수가 개뿐이면(N=2) 공분산 도구 대신 COVAR 함수를 직접 사용하는 것이 좋습니다. 공분산 도구의 출력 테이블에서 대각선 항목(i , i ) i번째 측정 변수의 공분산으로, VARP 워크시트 함수를 사용한 계산과 같이 해당 변수에 대한 모집단 분산일 뿐입니다.

공분산 도구를 사용하면 측정 변수 쌍을 조사하여 측정 변수가 상관적으로 변화하는지 있습니다. , 변수의 값이 증가하면 다른 변수의 값도 증가하는지(양의 상관 관계), 변수의 값은 감소하지만 다른 변수의 값은 증가하는지(음의 상관 관계) 또는 변수 값이 서로 관계가 없는지(상관 관계가 0 가까움) 있습니다.

표시기술 통계법

기술 통계법 분석 도구는 입력 범위의 데이터에 대한 일변량 통계 보고서를 만들어 데이터의 중심 경향성과 변동성에 대한 정보를 제공합니다.

표시지수 평활법

지수 평활법 분석 도구는 이전 예측값을 기준으로 오류를 수정한 예측값을 구합니다. 도구는 평활 상수 a 사용하며, 상수는 값의 크기에 따라 이전 예측값의 오류가 예측값에 얼마나 반영되었는지를 나타냅니다.

 참고   평활 상수값은 0.2 - 0.3 적당합니다. 값은 이전 예측값의 오류에 대해 현재 예측값을 20% - 30% 조정했다는 것을 나타냅니다. 상수값이 크면 반응은 빠르지만 다른 결과를 얻을 있습니다. 상수값이 작으면 예상값에 대한 반응이 느려집니다.

표시F-검정: 분산에 대한 표본

F-검정: 분산에 대한 집단 분석 도구는 개의 모집단 분산을 비교하기 위해 표본에 대한 F-검정을 수행합니다.

예를 들어 수영팀 각각의 수영 기록에서 시간 표본에 대해 F-검정 도구를 사용할 있습니다. 도구는 표본이 동일한 분산을 갖는 분포에서 추출된다는 가정과 분산이 기본 분포에서 동일하지 않다는 반대적 가정에 대한 검정 결과를 제공합니다.

도구는 F 통계량(또는 F 비율) 값을 계산합니다. 값이 1 가까우면 기본 모집단 분산이 동일하다는 증거입니다. 출력 테이블에서 f 1보다 작으면 “P(F <= f) one-tail” 모집단 분산이 동일할 f 미만의 F 통계량 값을 관측할 확률을 제공하고, “F Critical one-tail” 선택된 유의 수준 Alpha 대해 1 미만의 임계값을 제공합니다. f 1보다 크면 “P(F <= f) one-tail” 모집단 분산이 동일할 f보다 F 통계량 값을 관측할 확률을 제공하고, “F Critical one-tail” Alpha 대해 1보다 임계값을 제공합니다.

표시푸리에 분석

푸리에 분석 도구는 FFT(고속 푸리에 변환) 메서드로 선형 시스템의 문제를 해결하고 주기적인 데이터를 분석하여 데이터를 변환합니다. 또한 변환된 데이터를 거꾸로 변환하여 원래의 데이터로 복원할 있는 역변환을 지원합니다.

푸리에 분석을 위한 입력과 출력 범위

표시히스토그램

히스토그램 분석 도구는 범위의 데이터와 데이터 저장소에 대한 개별 누적 빈도를 계산합니다. 데이터 집합에서 값이 발생하는 개수에 대한 데이터를 생성합니다.

예를 들면 20명의 학생이 있는 학급에서, 알파벳 학점 구분의 분포를 정할 있습니다. 히스토그램 테이블은 알파벳 학점 경계와, 최소 경계와 현재 경계 사이에 있는 점수의 개수를 나타냅니다. 가장 많이 발생하는 점수 하나가 데이터의 최빈값입니다.

표시이동 평균

이동 평균 분석 도구는 지정된 지난 기간 동안 변수의 평균값을 기준으로 특정 기간의 값을 예측합니다. 이동 평균은 모든 누적 데이터의 단순 평균에서는 없는 추세 정보를 제공합니다. 도구를 사용하여 판매량, 재고량, 기타 추세를 예측할 있습니다. 다음 수식을 사용하여 예상 값을 구할 있습니다.

이동 평균을 계산하는 수식

여기서

*      N 이동 평균에 추가할 이전 기간

*      Aj j 때의 실제

*      Fj j 때의 예측

표시난수 생성

난수 생성 분석 도구는 여러 개의 분포 하나에서 추출된 독립 난수로 범위를 채웁니다. 모집단 구성원의 특성을 확률 분포로 나타낼 있습니다.

예를 들어 정규 분포로 개인의 신장에 대한 모집단의 특성을 나타내거나, 가지 가능성에 대한 베르누이 분포로 동전의 앞면과 뒷면이 나올 확률에 대한 모집단의 특성을 나타낼 수도 있습니다.

표시순위와 백분위수

순위와 백분위수 분석 도구는 데이터 집합의 값에 대한 순위와 백분율을 나타내는 테이블을 만듭니다. 데이터 집합에 있는 값의 상대적 위치를 분석할 있습니다. 도구는 워크시트 함수 RANK PERCENTRANK 사용합니다. RANK 묶인 값을 계산에 포함하지 않습니다. 묶인 값을 계산에 포함하려면 RANK 도움말 파일에서 제안하는 수정 인수와 함께 RANK 워크시트 함수를 사용합니다.

표시회귀

회귀 분석 도구는 배열 또는 범위에 선을 맞추는 "최소 제곱법" 사용하여 선형 회귀 분석을 수행합니다. 단일 종속 변수가 하나 이상의 독립 변수들의 값에 의해 어떻게 영향을 받는지를 분석할 있습니다.

예를 들어 나이, 신장, 몸무게에 의해 영향을 받는 운동 선수의 성과를 분석할 있습니다. 성과 데이터의 집합을 기초로 세가지 요인들에 대한 성과 측정의 역할을 배분할 있습니다. 결과를 사용하여 검정을 하지 않은 운동 선수의 성과를 예측합니다.

회귀 분석 도구는 LINEST 워크시트 함수를 사용합니다.

표시표본

표본 분석 도구는 입력 범위를 모집단으로 하여 모집단에서 표본 집단을 추출합니다. 모집단이 너무 커서 데이터를 처리할 없거나 차트를 만들 없으면 대표가 되는 표본 집단을 사용할 있습니다. 또한 주기적으로 데이터를 입력할 경우에는 주기의 특정 부분의 값만 포함된 표본 집단을 만들 수도 있습니다.

예를 들어 입력 범위에 분기별 매출액이 들어 있고 주기율이 4 표본 집단을 추출하면 출력 테이블에 같은 분기의 값들이 나타납니다.

표시t-검정

표본 t-검정 분석 도구는 표본의 모집단 평균들의 동일 여부를 검사합니다. 개의 도구에 각각 다른 가정을 사용하는데, 모집단 분산이 동일하다는 가정, 모집단 분산이 동일하지 않다는 가정, 그리고 개의 표본이 동일한 대상에 대한 처리 전과 처리 관측을 나타낸다는 가정입니다.

아래의 도구 모두의 경우, t 통계값인 t 계산되고 출력 테이블에 "t Stat" 표시됩니다. 데이터에 따라, t 값은 음수나 양수 또는 0 됩니다. 기본 모집단 평균이 동일하다는 가정 하에 t 0미만이면 “P(T <= t) one-tail” t 통계값이 t보다 음수일 확률을 제공하고, t 0 이상이면 >=0, “P(T <= t) one-tail” t 통계값이 t보다 수일 확률을 제공합니다. “t Critical one-tail” 기준 값을 제공하므로 “t Critical one-tail” 이상의 t 통계값이 관측될 확률은 Alpha 됩니다.

“P(T <= t) two-tail” t 통계값이 t 절대값보다 확률을 제공합니다. “P Critical two-tail” 기준 값을 제공하므로 “P Critical two-tail”보다 절대값이 t 통계값이 관측될 확률은 Alpha 됩니다.

t-검정: 등분산 가정 표본    분석 도구는 표본 집단에 대해 스튜던트 t-검정을 합니다. t-검정은 데이터 집합이 동일한 분산을 갖는 분포에서 추출된다고 가정하며, 이를 등분산적 t-검정이라고 합니다. t-검정으로 표본 집단이 동일한 모집단 평균을 갖는 분포에서 추출될 가능성이 높은지 있습니다.

t-검정: 이분산 가정 표본   분석 도구는 표본 집단에 대해 스튜던트 t-검정을 합니다. 이러한 t-검정에서 데이터 집합이 동일하지 않은 분산을 갖는 분포에서 추출되었다고 이를 이분산적 t-검정이라고 합니다. 위의 등분산 t-검정과 마찬가지로 이분산 t-검정을 사용하여 표본 집단이 동일한 모집단 평균을 갖는 분포에서 추출될 가능성이 높은지 있습니다. 표본 집단에 특이한 대상이 있을 검정을 사용합니다. 연구 대상 집단이 하나이고 개의 표본이 대상에 대한 측정을 표시할 때는 아래 설명된 쌍체 검정을 사용하십시오.

다음은 통계값 t 결정하는 수식입니다.

t 값을 계산하는 수식

다음 수식은 자유도(df) 계산할 사용합니다. 계산 결과는 보통 정수가 아니므로 t 테이블에서 임계값을 구하기 위해 df 값은 가장 가까운 정수로 반올림됩니다. Excel 워크시트 함수인 TTEST 정수가 아닌 df 값을 사용하여 TTEST 대한 값을 계산할 있기 때문에 반올림하지 않고 df 값을 계산합니다. 자유도를 결정하는 방법의 이러한 차이로 인해 이분산의 경우에 TTEST 계산 결과와 t-검정 도구의 결과가 다릅니다.

자유도의 근사값을 계산하는 수식

t-검정: 평균에 대한 쌍을 이룬 표본   표본 그룹에 대해 실험 전과 후에 검사할 쌍을 이룬 쌍체 검정을 사용할 있습니다. 분석 도구와 수식은 쌍을 이룬 표본 집단에 대해 스튜던트 t-검정을 하여 실험 전의 관측과 실험 후의 관측이 동일한 모집단 평균을 갖는 분포에서 추출될 가능성이 높은지 있습니다. t-검정 양식은 모집단의 분산이 동일하다는 가정을 하지 않습니다.

 참고    도구로 산출되는 결과 중에는 흩어진 데이터를 평균에 대해 누적 측정한 공동 분산이 있습니다. 산출식은 다음과 같습니다.

공동 분산을 계산하는 수식

표시z-검정

 



'Data & Analysis' 카테고리의 다른 글