[경영통계학] 명목변수, 서열변수, 층별추출, 군집추출, 누적빈도, 베르누이시행, 이항분포, 정규분포, 모수, 표본추출오차

2021. 8. 30. 12:48공부

728x90
반응형

[경영통계학] 명목변수, 서열변수, 층별추출, 군집추출, 누적빈도, 베르누이시행, 이항분포, 정규분포, 모수, 표본추출오차

명목변수 : 측정대상의 특성을 분류하기 위해 숫자를 부여하는 것

- 숫자는 크기를 가지는 것이 아니라 단순히 구분 기호로 사용

 

서열변수 : 측정대상 간의 크고 작음, 높고 낮음 등의 순서를 부여하는 것

- 서열변수의 자료는 사칙연산이 포함되는 분석은 불가능

 

통계학이란?

불확실한 상황에서 현명한 의사결정을 하기 위한 이론과 방법의 체계

- 자료의 수집, 분류, 분석과 해석의 체계를 가지는 학문

 

정부기관, 회사, 공공단체 또는 개인 등 조사자 이외의 다른 사람이 수집하여 이미 발견한 자료는 2차 자료

 

층별추출 : 모집단을 인위적인 기준에 따라 집단이나 계층내에서는 동질성이 높게 여러 집단 또는 계층으로 중복되지 않게 분류하여 각 집단 또는 계층으로부터 일정한 수를 무작위로 추출하는 방법

 

군집추출 : 물리적인 유사성을 기준으로 모집단을 중복되지 않게 여러 군집으로 묶은 다음 여러 군집 중에서 군집을 선택하여 추출하는 방법

 

- 눈굴리기추출 : 모집단의 구성원을 찾기 어려울 때 사용하는 방법으로 표본으로 선택된 구성원에게 알고 있는 모집단의 다른 구성원을 추천하도록 하여 표본의 수를 늘려 나가는 방법

 

- 편의추출 : 조사자가 주위에서가장 쉽게 구할 수 있는 구성원을 선택하는 방법이므로 시간과 비용에 심한 제약을 받을 때 많이 사용, 시간과 비용의 제약으로부터 비교적 자유로움

 

1. 좋은 약도 병의 증상에 맞게 적절한 시기에 투입되어야 효과가 있음. 증상에 맞지 않거나 시기를 놓치면 아무 효험이 없을 뿐만 아니라 오히려 해가 되듯이, 적법한 절차를 따르지 않은 통계자료와 부적절한 경과의 해석은 조사대상의 특성을 오도하고 의사결정에 심각한 문제 야기

 

2. 표본조사의 필요성 : 경제성, 시간성, 무한모집단 또는 모집단의 불확실성, 조사과정의 파괴성, 정확성

 

3. 확률표본추출 : 단순확률추출, 계통추출, 층별추출, 군집추출

 

4. 비확률표본추출 : 판단추출, 편의추출, 눈굴리기추출


누적빈도 : 어떤 등급에 해당되는 빈도를 포함해서 그 이하 또는 그 이상에 있는 모든 빈도를 합한 것

 

상대적 누적빈도 : 한 집단에서 어떤 등급 이상 또는 이항에 해당되는 누적빈도가 전체 관찰대상 중 얼마만큼의 비율을 차지하고 있는가를 말해주며, 총 관찰수가 다른 두 개 이상의 집단 간 누적빈도를 비교할 때 유용

 

도수분포표 : 수집된 자료를 적절한 등급 또는 범주로 분류하고 각 등급에 해당되는 빈도수 등을 정리한 표

 

- 막대그림표는 질적 자료에 가장 많이 쓰이는 도표

 

1. 도수분포표 : 관찰 및 측정에 의하여 산출된 자료의 구조를 파악하기 위하여 자료를 간단한 표로 나타내는 통계표 중에 하나이다.

2. 상대도수(Relative Frequency) : 관찰로 얻어진 실제의 도수를 도수의 총합으로 나눈 값을 의미한다.

3. 막대그래프 : 질적자료에 가장 많이 쓰이는 도표는 막대그래프(bar graph)다. 도표를 그릴 때에는 수평축에 범주를, 수직축에 빈도수나 상대적 빈도를 표시하며, 이 때 각 범주 간의 간격은 똑같아야 하고, 범주와 범주 사이에는  여유를 둔다.

4. 꺾은선 그래프 : 막대그림표의 각 중간점을 이어서 그린 것으로 자료가 연속적인 성격을 가졌을 때에만 사용하며, 질적자료나, 양적 자료에서의 이산적 자료에서는 꺾은선그림표를 사용할 수 없다.

5. 누적백분율곡선 : 각 등급구간의 중간점에서 누적백분율만큼 올라가서 점을 찍고 각 점은 연결한 것으로, 한 관찰 값이 그 집단에서 어떤 위치에 있는가를 알아본다든가, 또는 특정한 위치(예를 들면 50%)에 해당되는 사람의 관찰 값이 얼마인가 등을 손쉽게 알아볼 수 있다는 장점이 있다.



1. 중심화경향(집중화경향, central tendency)은 관찰된 자료들이 어디에 집중되어 있는가를 나타내주는 것으로서, 대표적인 것으로는 산술평균, 중앙값, 최빈값 등이 있다.

2. 중앙값은 자료의 크기를 순서대로 정리해 얻은 대푯값이므로 다른 통계적 처리를 위한 기초자료로는 사용하기 어렵다.

3. 최빈값은 양적 자료나 질적자료에 다 같이 사용 - 한 집단의 대푯값을 가장 빠르게 알아보고자 할 때에는 편리하다.

4. 산술평균은 극단적 관찰 값이 있을 때에는 평균계산에 너무 큰 영향을 끼쳐 대푯값으로 부적당 하나 중앙값, 최빈값과 달리 수학적 연산이 가능하다. 추측통계에서 모집단의 모수를 추정할 때도 산술평균이 가장 신뢰할 만한 추정값이다.


1. 산포도(degree of dispersion)란 관찰된 자료가 흩어져 있는 정도를 말하며, 이를 나타내는 방법으로는 범위, 평균편차, 표준편차, 그리고 분산 등이 있다.

2. 범위(range)란 관찰 값들 중에서 가장 큰 수치와 가장 작은 수치의 차이로, 분산도를 측정하는 간단한 방법이다.


1. 피어슨의 비대칭도(Pearson’s coefficient of skewness)는 비대칭도를 측정하는 방법으로 많이 쓰인다.

2. 산술평균과 중앙값의 차이가 표준편차에 비하여 얼마나 떨어져 있는가를 나타낸다. 피어슨 비대칭도 계산결과 왼쪽꼬리분포에서는 음(-)의 값이, 오른쪽꼬리분포에서는 양(+)의 값이 나오게 된다.

3. 확률(probability)이란 어떤 일이 발생할 가능성을 수치로 표현한 것이다.확률의 덧셈법칙, 확률의 곱셈법

4. 의사결정수 : 사상이 발생하는 상황이 순차적으로 발생할 때, 그 사상과 확률을 시각적으로 제시하는 데 유용한 도구이다.


1. 실험(experiment) : 어떤 결과를 관측하거나 측정하는 행위

2. 사상(event) : 실험에서 나타나는 결과

3. 단순사상(simple event) : 더 이상 작은 사상으로 분할 할 수 없는 사상

4. 표본공간(sample space) : 실험에서 발생 가능한 모든 단순사상의 집합

5. 독립사상(independent events) : 어떤 사상이 발생한다는 사실이 다른 사상의 발생 확률에 영향을 주지 않을 때, 그 사상은 서로 독립적인 사상이라 한다.

6. 확률변수(random variable)란 일정한 확률을 가지고 발생하는 사건에 수치를 부여한 것을 말하며, 보통 X로 표시한다.

7. 확률분포(probability distribution)란 어떤 확률변수가 취할 수 있는 모든 값들과 이 값들이 나타날 확률을 표시한 것이다.

8. 이산확률변수(discrete random variable)란 확률변수가 취할 수 있는 값의 수가 유한하거나 무한하더라도 셀 수 있는(countable) 확률변수이다.

9. 연속확률변수(continuous random variable)란 확률변수가 취할 수 있는 값이 일정한 구간 내의 실수로서 그 수가 무한한 확률변수립적인 사상이라 한다.


1. 기댓값 : 확률분포의 집중화경향을 나타내는 기댓값(expected value)이란 평균값(average, weighted average)과 같은 개념으로, 확률변수가 취할 수 있는 모든 값들의 평균의 의미한다.

2. 주변 확률분포(marginal probability distribution)는 X와 Y의 결합분포에서 X 또는 Y의 어느 하나만의 확률분포를 말하며, 결합 확률분포의 주변(margin)에 표시되기 때문에 이를 주변 확률분포라고 한다.

3. 공분산(covariance)이란 두 확률변수의 분포가 결합될 때 그 결합 확률분포의 분산을 측정하는 것으로 Cov(X, Y)로 표시한다.


1. 베르누이시행: 어떤 실험을 하거나 또는 표본을 뽑을 때, 그 실험의 결과 또는 표본을 뽑은 결과가 상호배타적인 두 가지 사건으로만 나타나는 경우이다.

2. 이항확률변수: 여러 번의 베르누이시행을 할 때 특정횟수의 성공이 나타날 확률을 알고 싶어 할 경우, 이와 같은 실험을 이항실험이라 하고, 이항실험 시 성공의 횟수 또는 실패의 횟수를 이항확률변수(binomial random variable)라고 하며 보통 X로 표시한다.

3. 이항확률변수의 분포를 이항확률분포(binomial probability distribution) 혹은 간단히 이항분포라고 한다.

4. 포아송과정(Poisson process)은 주어진 시간, 거리, 공간에서발생확률이 아주 작은 사상이 발생하는 현상을 의미한다.

5. 포아송과정에서 사상의 발생빈도 X는 포아송 분포를 따르는 확률변수이다.


1. 이항분포가 성립되기 위한 중요한 가정 중의 하나는 매 시행마다 어떤 사건이 일어날 가능성, 즉 성공의 확률은 언제나 일정하다는 것이다. 그러나 이러한 조건을 충족시키지 못하는 시행도 많다.

2. 매 시행마다 발생할 결과가 성공과 실패의 두 가지가 있으나, 표본이 비복원으로 추출되기 때문에 베르누이시행의 조건 중, 매 시행마다 성공확률이 일정하다는 조건이 만족되지 않는 경우에 적용될 수 있는 확률모형이 초기하분포(hypergeometric distribution)이다.


1. 정규분포는 흔히 가우스분포라고 한다.

2. 정규분포는 평균을 중심으로 종모향의 좌우대칭형태를 이룬다.

3. 표준정규분포 : 모양과 위치가 각기 다른 두 분포의 성격을 비교하거나 특정 정규분포에서 확률을 계산하기 위해서  모든 정규분포의 평균과 표준편차를 표준화하여 표준적인 정규분포를 만든다. 

4. 표준정규분포는 평균이 , 표준편차가 인 정규분포를 변형시켜 얻은 분포로 항상 평균이 0, 표준편차가 1, 다시 말하면 평균과 표준편차가 다른 모든 정규분포를 똑같은 평균과 표준편차로 표준화시킨 것이다.

5. 표준정규분포는 X 대신 Z를 확률변수로 바꾸었기 때문에 Z-분포라고도 불린다.


1. 지수분포는 포아송분포와 밀접한 관계를 가지고 있다. 

2. 포아송분포는 주어진 단위구간 내에 발생확률이 아주 작은 이산 확률변수에 관한 분포 이고 지수분포는 발생확률이 아주 작은 이산 확률변수가 발생하는 간격 즉 한 건이 발생하고 그 다음 건이 발생하는 시간, 거리, 공간의 간격에 관한 연속확률분포이다.


1. 모집단의 특성을 수치로 표현한 것을 모수(parameter)이라고 하고 표본을 분석하여 그 특성을 수치로 표현한 것을 모수(parameter)라고 한다.

2. 중심극한 이론: 모집단의 분포모양과는 관계없이 평균μ 분산σ2 인 모집단에서 크기가 n인 선택가능한 모든 표본을 뽑을 때, 평균의 표본분포는 n을 증가시킬수록 정규분포에 접근하게 된다.

3. 표본추출오차(sampling error)란 모집단을 대표할 수 있는 전형적인 구성요소를 표본으로 선택하지 못했기 때문에 발생하는 오류. 표본추출상의 오류는 두 가지 요인에서 발생하게 되는데, 하나는 표본의 크기 때문에 생기는 우연에 의한 오류고 다른 하나는 모집단을 대표할 수 없는 비전형적인 구성요소를 표본으로 뽑았기 때문에 일어나는 오류이다.

4. 표본의 선택방법과는 관계없이 오차가 발생하기도 하는데, 이러한 오류를 비표본추출오차(non-sampling error)라고 한다.

5. 모집단의 분포가 정규분포인 경우에는, S2의 표집분포의 평균이 모분산인 2과 같으며, 분산의 표집분포 모양은 n의 크기에 따라 2-분포(chi-square distribution)를 이룬다.


1. 점추정이란 하나의 값으로 모수값을 추정하는 방법을 지칭한다.

2. 좋은 추정량을 선택하는 기준은 다음의 네 가지 조건으로 설명할 수 있다. 그 조건은 ① 불편성(unbiasedness) ② 효율성(efficiency) ③ 일치성(consistency) ④ 충분성(sufficiency)이다.

3. 구간추정에서 1 α는 신뢰도(confidence level) 또는 신뢰수준이라고 한다. 신뢰도는 이와 같이 구간으로 추정된 추정값이 실제 모집단의 모수를 포함하고 있을 가능성을 의미하는데 이 때 모수가 포함될 것으로 추정된 구간을 신뢰구간(confidence interval)이라 한다.

728x90
반응형