통계학/ADP

[ADP] 통계분석의 이해

헬로희 2024. 12. 1. 21:03
728x90

1. 통계

: 조사나 실험을 통해 나온 결과에 대한 요약된 행태의 표현

  • 전수 조사(census): 대상 집단 모두 조사. 많은 비용과 시간 소모
  • 표본조사: 모집단에서 표본을 추출하여 진행하는 조사
    - 모집단(population): 조사 대상 집단 전체
    - 원소(element): 모집단을 구성하는 개체
    - 표본(sample): 조사하기 위해 추출한 모집단의 일부 원소
    - 모수(parameter): 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

2. 표본 추출 방법

  • 단순랜덤 추출법(simple random sampling): 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법.
    각 샘플은 선택될 확률이 동일함.
    ex) 비복원, 복원 추출
  • 계통추출법(systematic sampling): 임의 위치에서 매 k번쨰 항목을 추출하는 방법
  • 집락추출법(cluster random sampling): 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법
    ex) 지역표본추출, 다단계표본추출
  • 층화추출법(stratified random sampling): 유사한 원소끼리 몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법
    ex) 비례층화추출법, 불비례층화추출법

3. 측정(measurement)

: 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것

  • 질적척도(범주형자료, 크기 차이 계산 불가능)
      - 명목척도: 어느 집단에 속하는지 분류하는 척도 (ex. 성별, 출생지)
      - 순서척도: 서열관계를 관측하는 척도 (ex. 만족도, 학년, 신용등급)
  • 양적척도(수치형자료, 크기 차이 계산 가능)
      - 구간(등간)척도: 구간 사이의 간격(양)을 측정하는 척도. 덧셈과 뺄셈은 가능하나 곱하거나 나누는 것은 불가. (ex. 온도, 지수)
      - 비율척도: 절대적 기준인 0이 존재하고 사칙연산이 가능한 척도 (ex. 무게, 나이, 시간, 거리)

4. 통계분석

: 특정 집단이나 불확실한 현상을 대상으로 자료를 수집하고 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

  • 기술통계(descriptive statistic): 주관을 배제하고 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
    ex) 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등
  • 통계적추론(추측통계, inference statistics): 표본을 통해 모집단을 추정하는 것
    1) 모수추정: 표본집단으로부터 모집다느이 특성인 모수(평균, 분산 등)를 분석하여 모집단을 추론하는 것
    2) 가설검정: 특정 가설을 설정한 후 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론
    3) 예측: 미래의 불확실성을 해결해 효율적인 의사결정을 하기위해 활용 (ex. 회귀분석, 시계열분석)

5. 확률

: 표본공간 Ω 의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때,
다음과 같이 정의

  • 표본공간( sample space, Ω): 어떤 실험을 실시할 떄 나타날 수 있는 모든 결과들의 집합
  • 사건(event): 표본공간의 부분집합
  • 원소(element): 나타날 수 있는 개별의 결과들
  • 확률변수(random variable): 특정값이 나타날 가능성이 확률적으로 주어지는 변수
      - 정의역(domain)이 표본공간, 치역(range)이 실수값(0<y<1)인 함수
      - 이산형 확률변수(discrete random variable)
      - 연속형 확률변수(continuous random variable)

확률변수의 기대값
확률변수 X의 k차 적률(k-th moment)
확률변수 X의 k차 중심적률(k-th cental moment)

  • 덧셈정리
    - 사건 A와 사건 B가 동시에 일어날 수 있을 때(배반 X): P(A ⋃ B) = P(A) + P(B) - P(A ⋂ B)
    - 사건 A와 사건 B가 동시에 일어나지 않을 때(배반 O): P(A  B) = P(A) + P(B)
  • 곱셈정리
    - 사건 A와 B가 서로 무관계하게 나타날 때(독립사건):   P(A B) = P(A) * P(B) 
    - 사건 B가 주어졌을 때 사건 A의 조건부 확률: P(A |B) = P(A  B) / P(B) = P(A)

6. 확률분포

1) 이산형 확률변수: 0이 아닌 확률값을 갖는 확률 변수를 셀수 있는 경우 (확률질량함수)

 

[확률분포] 이산형 확률분포

이산형 확률변수: 0이 아닌 확률값을 갖는 확률 변수를 셀수 있는 경우1. 베르누이 확률분포(Bernoulli distribution)베르누이 시행(Bernoulli trial): 결과가 두 가지 중 하나로만 나오는 실험이나 시행ex)

hello-heehee.tistory.com

  • 베르누이 확률분포(Bernoulli distribution): 결과가 2개만 나오는 경우 (ex. 동전던지기, 합격/불합격)
  • 이항분포(Binomial distribution): 베르누이 시행을 n번 반복했을 때 k번 성공할 확률 (ex. 5번 중 3번 안타칠 확률)
    - 성공할 확률p가 0과 1에 가깝지 않고 n이 충분히 크면 정규분포에 가까워 짐
  • 기하분포(Geometric distribution): 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
  • 다항분포(Multinomial distribution): 이항분포의 확장. 세가지 이상의 결과를 가지는 반복시행에서 발생하는 확률분포
  • 포아송분포(Poisson distribution): 시간과 공간내에서 발생하는 사건의 발생횟수에 대한 확률분포
    (ex.책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률)

2. 연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수 (확률밀도함수)

 

[확률분포] 연속형 확률분포

연속형 확률변수: 가능한 값이 실수 거느 특정구간 전체에 해당하는 확률변수 (확률밀도함수)1. 균등분포(Uniform distribution)모든 확률변수 X가 균일한 확률을 가지는 확률분포ex) 다트2. 정규분포(No

hello-heehee.tistory.com

 

  • 균일분포(Uniform distribution): 모든 확률변수 X가 균일한 확률을 가지는 확률분포
  • 정규분포(Normal distribution): 평균이 μ이고, 표준편차가 σ 인 x의 확률밀도함수
    - 표준편차가 클 경우 퍼져보이는 그래프가 됨
  • 지수분포(Exponential distribution): 어떤 사건이 발생할 떄까지 경과 시간에 대한 연속확률분포
    (ex. 전자레인지의 수명시간, 정류소에서 버스가 올 때까지의 시간)
  • t-분포(t-distribution): 표본의 크기가 적을 때 사용. 평균이 0을 중심으로 좌우가 동일
    - 표본이 30개 이상으로 커져 자유도가 증가하면 표준정규분포와 가까워 짐
    - 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
  • χ^2 분포(chi-square distribution): 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설검정에 사용. 자유도 1개
    - 두 집단간의 동질성 검정에 활용 (범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)
  • F-분포(F-distribution): 확률변수는 항상 양의 값만 갖고 자유도가 2개. 자유도가 커질수록 정규분포에 가까워짐
    - 두 집단간 분산의 동일성 검정에 사용

7. 추정과 가설검정

  • 확률표본(random sample)
    - 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음
    - 특정 확률분포로부터 독립적으로 반복해 표본을 추출하는 것
    - 각 관찰값들은 서로 독립적이며 동일한 분포를 가짐
  • 추정: 표본으로부터 미지의 모수를 추측하는 것
    - 점추정(point estimation): 모수가 특정한 값일 것이라고 추정하는 것으로 표본의 평균, 중위수, 최빈값 등을 사용
    - 구간추정(interval estimation): 모수가 특정한 구간에 있을 것이라고 추정하는 것

구간 추정 시 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구간 안에 모수가 있을 가능성의 크기(신뢰수준, confidence interval)가 주어져야 한다. 95% 신뢰수준 하에서 모평균의 신뢰구간은 다음과 같다.

  • 가설검정
    1) 정의
      - 모집단에 대한 어떤 가설을 설정한 뒤 표본을 통해 그 가설의 채택여부를 결정하는 분석방법
      - 귀무가설과 대립가설 중 하나를 선택하는 과정으로 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후 귀무가설의 채택여부 결정
    2) 귀무가설(null hypothesis, H0): "비교하는 값과 차이가 없다, 동일하다"를 기본개념으로 하는 가설
    3) 대립가설(alternative hypothesis, H1): "동일하지 않다, 크다, 작다"를 기본개념으로 하는 가설 (not H0)
    4) 검정통계량(test statistic): 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
    5) 유의수준(significance level): 귀무가설을 기각하게 되는 확률의 크기. 귀무가설이 옳은데도 이를 기각하는 확률
    6) 기각역(critical region): 귀무가설이 옳다는 전제하에서 구하는 검정통계량의; 분포에서 확률이 유의수준인 부분
    7) 채택역(acceptance region): 기각역의 반대

  • 제 1종오류: 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류
  • 제 2종오류: 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류

8. 비모수검정

  • 모수적 방법: 모집단의 분포에 대한 가정을 하고 그 가정하에서 검정통계량과 검정통계량 분포를 유도해 검정을 실시하는 방법
  • 비모수적 방법
      - 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법
      - 관측된 자료가 특정분포를 따른다고 가정할 수 없을 경우에 이용
      - 관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체간의 서열관계를 나타내는 경우 이용
  • 모수적 검정과 비모수 검정의 차이점
    1) 가설
      - 모수적 검정: 가정된 분포의 모수에 대해 가설 설정
      - 비모수 검정: 가정된 분포가 없으므로 가설은 "분포형태가 동일하다", "동일하지 않다"로 설정
    2) 검정 방법
      - 모수적 검정: 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시
      - 비모수 검정: 절대적 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정
  • 비모수 검정 예
      - 부호검정(sign test)
      - 윌콕슨의 순위합검정(rank sum test)
      - 윌콕슨의 부호순위합 검정(Wilcoson signed rank test)
      - 만-위트니의 U검정
      - 런검정(run test)
      - 스피어만의 순위상관계수

 

 

728x90