통계는 현명한 의사결정을 하는데 도움을 줍니다. 불확실한 현실 세계에서 보이지 않던 것들을 보게 해주고, 과학적 근거의 틀을 마련해 미래에는 과거보다 더 나은 선택을 할 수 있도록 도와줍니다. 빠르게 변화하는 현대 사회에서 통계를 이해하고 활용하는 일은 중요합니다.
이처럼 통계를 이용해 현실을 깊이 이해하는 통찰력을 데이터 문해력(data literacy)이라고 합니다. 영국의 통계학자 데이비드 스피겔할터(David Spiegelhalter)는 데이터 문해력에 대해 다음과 같이 정의합니다.
불확실한 현실 세계에서 현실 세계 문제에 관한 통계를 해석하는 능력, 다른 사람이 도출한 통계적 결론을 이해하고 비판적으로 분석하려는 능력
데이터 문해력의 기초는 정확한 용어를 사용하는데서 시작합니다. 우리가 의사결정모델이라는 집을 짓는다면, 정확한 용어는 집을 이루는 기초 철근 구조물과도 같습니다. 용어를 정확하게 이해하고 사용할수록 기반이 단단한 집을 지을 수 있습니다.
이번 시간에는 확률과 통계에서 사용하는 주요 용어를 살펴보겠습니다. 글에서 다룬 용어는 머신러닝과 딥러닝에서도 자주 사용됩니다. 각 용어 카드에는 용어의 국문명, 영문명, 기호, 정의, 공식, 특징, 예제가 함께 제시되어 있습니다. 글에서 다룬 주요 정의는 참고 문헌에 있는 전문 통계학 도서와 온라인 강의 자료 및 교양 통계 도서에서 차용하였습니다. 내용은 지속적으로 업데이트될 예정입니다.
집합
정의
원소(elements) 또는 구성원(members)의 모임
- 원소의 순서는 의미가 없음 {1, 3, 5} = {3, 5, 1}
- 알파벳 대문자로 표기
집합을 이루는 개별 사물, (수학적) 개체
- 알파벳 소문자로 표기
표기법
기본
원소를 나열하여 집합을 나타내는 표기법
- {a, e, i, o, u}
- {흰색, 검은색}
- {1, 4, 9, 16, …}
어떤 집합을 그 집합의 원소들이 만족하는 성질(조건)을 서술(제시)함으로써 나타내는 표기법
- {x|x는 홀수, x < 5}
- {x|x = k^2, k는 자연수}
- {x^2|x는 자연수}
- 순서 중요
수체계
두 정수의 비율 또는 분수의 형식으로 나타낼 수 있는 수
두 정수의 비의 형태로 나타낼 수 없는 실수, 분수로 나타낼 수 없는 소수
실수와 허수의 합의 꼴로써 나타내는 수
구간
그림
겹치는 원 또는 기타 모양을 사용하여 두 개 이상의 항목 집합 간의 논리적 관계를 설명하는 그림
크기
집합의 크기(cardinality)는 집합을 이루는 구성 원소의 수입니다. 집합의 크기는 '||'로 나타냅니다.
유한개의 원소로 이루어진 집합, 집합의 원소를 셀 수 있는 집합
무한개의 원소로 이루어진 집합, 집합의 원소를 셀 수 없는 집합
종류
특정한 문제에서 가능한 모든 원소의 집합
모든 원소 중 일부를 나타내는 집합
- 집합 E의 모든 원소가 집합 S의 원소이면 E는 S의 부분집합
부분 집합 중 자기 자신은 원소로 갖지 않는 집합
위의 집합 A 중 그 자신인 A집합
위의 집합 중 W는 A의 초 집합
어떠한 원소도 갖지 않는 집합
- |Ø| = 0
- |{Ø}| = 1
전체 집합 U에 속하나 A에는 속하지 않는 집합
집합 A에 대해 모든 가능한 부분 집합들의 집합
- S = {1, 2}, P(S) = {Ø, {1}, {2}, {1,2}}
어떤 집합을 서로소(disjoint)가 되도록 조각/분리/나누는 것, 멱집합 중의 특정한 부분 집합
- {1, 3, 5}와 {2, 4, 6}은 서로소
연산
정의
덧셈, 뺄셈, 곱셈과 같은 수의 연산처럼 집합 간에 취해지는 연산
- 여러 집합 간의 연산으로 새로운 집합을 만드는 것
종류
집합 A 또는 집합 B에 속하는 원소들로 구성된 집합
- 논리연산 OR에 해당
집합 A와 집합 B에 공통적으로 속해 있는 원소만을 포함하는 집합
- 논리연산 AND에 해당
- {1,2} ∩ {1,3,4} = {1,3}
집합 A에는 속하나 집합 B에는 속하지 않는 원소들의 집합
- {1,2} - {1,3,4} = {2}
두 집합 A,B의 원소들로 만들어지는 모든 (a,b)들의 집합, a∈A 이고 b∈B에 대해 모든 순서쌍 (a,b)들의 집합
- 카테시안 곱의 크기, 즉 가능한 모든 순서쌍의 개수는 두 집합 A,B 곱의 크기는 각각의 크기를 곱한 것과 같음
- A = {1,2}, B = {a,b} 이면, A x B = {(1,a),(1,b),(2,a),(2,b)}
- 2차원 실수 공간: 2차원 실수 순서쌍 전체의 집합 = 평면상의 모든 점들의 집합 = 모든 실수 순서쌍들의 집합 R^2 = R × R = {(x,y)|x,y : 실수 }
법칙
두 집합의 합집합의 보집합은 각각의 집합의 보집합의 교집합과 같음
두 집합의 교집합의 보집합은 각각의 집합의 보집합의 합집합과 같음
순열과 조합
대상이 되는 요소들의 배치(배열)에 대해 연구하는 수학의 한 분야, 다양한 패턴으로 나열하는(조합시키는) 방법을 연구하는 학문
기초
시행(trial)을 통해 일어날 수 있는 사건(event)의 가짓수
수(경우의 수)를 세는 방법, 어떤 사건(event)이 발생할 수 있는 경우의 수를 계산하는 것
- 덧셈: 하나씩 세는 것
- 곱셈: 똑같은 덧셈이 몇 번인가를 세는 것
규칙
원소들이 서로소(Disjoint, X ∩ Y=0) 또는 상호배타적인 부분집합으로 나누어질 때 각 부분집합의 원소의 개수를 합하면 전체가 됨
각 사건에서의 발생 가능한 경우의 수 n을 모두 곱하면 전체 경우의 수와 같아짐
- n개의 비트로 표현 가능한 총 경우의 수 = 2^n
개념
순열
서로 다른 n개의 객체를 나열하는 경우의 수
서로 다른 n개의 객체 중에서 r개의 객체를 중복을 허락하지 않고 순서를 고려하면서 선택하는 경우의 수
n개의 서로 다른 객체 중에서 r개를 중복을 허용하여 뽑아서 한 줄로 나열하는 경우의 수
조합
서로 다른 n개의 객체 중에서 r개의 객체를 순서를 고려하지 않고 선택하는 경우의 수
- n choose r 이라고 함
정리
이항의 거듭제곱을 전개하여 다항식을 구하는 정리
- 파스칼의 삼각형(Pascal's triangle)
다항의 거듭제곱을 전개하여 다항식을 구하는 정리
서로 다른 n개의 객체 중에서 r개를 뽑는 경우의 수
n개의 객체 중에서 r개로 그룹 지어 구분하는 경우의 수
확률
용어
실험
데이터를 생성해내는 모든 과정
- 데이터 수집 방법의 하나인 실험과 동일한 의미
- 동전 던지기
- 주사위 던지기
- 마트의 방문 고객 수 세기
표본공간
실험으로부터 나온 모든 결과를 담고 있는 집합, 실험이나 관찰에서 생길 수 있는 모든 사건의 모임, 측정 가능한 모든 결과의 집합
- 표본점(sample): 표본 공간을 이루는 개개의 관찰 결과
- 우리가 수집한 표본은 표본 공간의 부분집합
표본공간 안에 담겨 있는 집합의 원소가 이산형인 표본공간
- 1개의 동전 던지기: S = {H, T}
- 주사위 던지기: S = {1, 2, 3, 4, 5, 6}
표본공간 안에 담겨 있는 집합의 원소가 연속형인 표본공간
- 0에서 100 사이의 모든 숫자: S = {x|0 < x < 100}
- 반지름이 2인 모든 원 위의 점: S = {(x, y)|x^2 + y^2 = 4}
사건
표본공간의 부분집합으로 어떤 조건을 만족하는 특정한 표본점들의 집합, 실험이나 관찰에서 얻은 결과
- 주사위를 던졌을 때 홀수가 나오는 경우의 수: E = {odd number} = {1, 3, 5}
여러 개의 사건 가운데 한 개의 사건
교집합이 없는 사건
정의
어떤 사건이 일어날 가능성
- 상대적 비율 또는 상대적 빈도로 표현할 수 있음
어떤 사건이 나타날 확률은 실험을 무한에 가깝게 계속적으로 시행했을 때 전체 시행횟수에서 그 사건이 나타나는 빈도수, 동일한 조건 하에서 동일한 실험을 무수히 반복해서 시행할 때 나올 수 있는 모든 경우의 수(표본공간) 중 어떤 특정 사건이 발생하는 비율
- : A사건이 발생할 확률
- : 총 시행횟수
- : A사건이 발행한 횟수
어떤 실험이나 관찰의 결과로 나타날 수 있는 모든 경우들이 각각 동일한 가능성을 가지고 발생할 것이라는 가정하에서 특정 사건 A가 일어날 확률을 정의한 것, 전체의 경우 중에서 어떤 특정사건이 차지하는 경우의 구성 비율(proportion)과 같은 의미를 지님
- 확률 = 구성 비율
종류
누가 계산해도 동일한 값이 나오는 엄밀한 확률
= 선험적 확률, 이론적 확률동일 조건/독립적으로 몇 번 반복하였을 때의 발생 확률(도수 이론:frequency theory)
= 통계적 확률, 상대빈도확률, 객관적 확률관찰자의 주관적 믿음/확신으로써 표현되는 확률
- 베이즈확률: 모집단을 미리 확정짓지 않고, 모수를 마치 확률변수처럼 취급
표본공간에서 각 사건에 대한 확률이 동일한 것
- : 표본공간의 원소수
바로 전의 실험결과에 의해 변화된 표본 공간에서 어떤 사건이 일어날 확률, 사건 B가 발생했다는 조건하에서 사건 A가 발생할 확률
확률측도
전체 중의 부분집합(사건)에 숫자를 대응시킨 함수
공리와 법칙
공리
- : 표본공간
- 공리1: 실험으로부터 나온 모든 결과에 대한 확률은 0과 1사이에 있다
- 공리2: 표본공간 S 안에 있는 점(point), 즉 사건이 나올 확률의 합은 1이다
- 공리3: 상호배타적인 사건들의 합집합에 대한 확률은 각 사건에 대한 확률을 더한 것과 같다, 상호배타적인 사건들에 대하여 적어도 하나의 사건이 발생할 확률은 각각의 확률의 합이다
법칙
집합이론의 합집합 개념에 대응되는 확률
집합이론의 교집합 개념에 대응되는 확률
- 사건 A와 B가 동시에 일어날 확률은 사건 A가 일어날 확률과 사건 A가 일어난 다음 사건 B가 일어날 확률을 곱한 것과 같음
사전확률과 사전정보 조건부확률을 바탕으로 사후확률을 계산하는 법칙
- : 정보
- : 사전확률(prior probability)
- : 사전정보 조건부확률(data probability)
- : 사후확률(posterior probability)
- 사후확률은 사전확률의 업데이트 버전과 같음
- 실험의 결과로써 얻은 정보를 토대로 하여 어떤 사건의 알려져 있지 않은 확률을 구하려고 하는 가장 간단한 방법
사건 A가 발생하지 않을 경우 대비 발생할 확률
- 성공 확률이 1일 경우: 오즈는 무한대의 값
- 성공 확률이 0일 경우: 오즈는 0의 값
- 피파의 대한민국 오즈 500:1, 1/500: 1달러를 걸었을 때 배당금 500달러를 받음 = 우승확률이 1/501로 약 0.001996(0.1996%)
종속과 독립
처음에 어떤 결과가 나왔느냐 하는 것이 다음에 어떤 사건이 발생할 확률에 아무 영향을 주지 않는 경우, 사건 A가 나올 확률은 사건 B의 결과에 관계없이 언제나 같음
- 복원추출
조건부 확률처럼 한 사건의 발생이 다음에 발생할 사건에 영향을 주는 경우
- 비복원추출
추첨 후 다음번에도 중복 추출이 가능하도록 해당 샘플을 다시 모집단에 포함시키는 추출
한번 뽑힌 원소는 추후 추첨에 사용하지 않는 추출
- 흰공과 검은공이 있을 때 비복원 추출로 두 번 모두 흰공이 나올 확률
- 사건 A와 사건B가 독립이면, 사건 A와 사건 B의 여집합도 독립
- 흰공과 검은공이 있을 때 복원 추출로 두 번 모두 흰공이 나올 확률
확률변수
정의
표본 공간의 모든 원소(X)를 실수(Y)로 대응시키는 함수, 실험으로부터 나온 표본(실험 결과)들을 실수 로 변환하는 함수, 일정한 확률을 가지고 발생하는 사건(확률시행으로 인해 나타날 수 있는 여러 사건)을 수치로 변환하는 함수, 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과에 그에 상응하는 실숫값을 부여하는 변수, 확률 실험에서 나올 수 있는 모든 결과를 대변하는 변수
- 입력(input): 표본 공간의 모든 원소들(실험으로 부터 나온 각각의 결과들), 출력(output): 실수
- 상태공간(state space): 확률변수 X가 취하는 모든 실수들의 집합
- 표본공간 -> 실수공간
- X: 동전을 두 번 반복해서 던지는 게임에서 앞면이 나온 횟수
종류
확률변수는 실험으로부터 나온 개별 결과들을 실수로 변환할 때 필요한 함수가 확률변수입니다. 이때 실수가 이산적 값이면 이산확률변수(discrete random variable), 셀 수 없는 연속적 값이면 연속확률변수(continuous variable)입니다.
확률변수가 취할 수 있는 값의 수가 유한하거나 무한하더라도 셀 수 있는 확률변수, 상태공간이 유한 집합 또는 셀 수 있는 무한집합인 확률변수
- 확률의 총합은 더하기(Σ), 확률변수가 가질 수 있는 값이 유한함(이산형)
- 동전 던지기에서 동전 앞면이 나온 횟수
확률변수가 취할 수 있는 값이 일정한 구간 내의 실수로서 그 수가 무한한 확률변수
- 확률의 총합은 적분(∫), 확률변수가 가질 수 있는 값이 무한함(연속형)
- 제품의 중량
- 대한민국 국민의 평균 소득
- 학생들의 키
- 미국 주식 시장의 다우존스 지수
이때 확률변수의 출력값인 각각의 실수가 실제로 나올 가능성을 표현해주는 수학적 방법이 바로 확률함수(probability function)입니다.
확률함수
정의
확률변수로부터 나온 실수를 0~1사이의 확률값으로 바꿔주는(대응시키는) 함수, 확률의 흩어짐을 표현하는 함수, 확률변수가 어떤 특정 실수를 취할 것인지에 대한 확률을 나타내는 함수, 확률변수가 일어날 확률을 나타내는 함수
- 확률변수가 분포하는 형태를 함수적으로 보여줌
- 입력(input): 확률변수가 취하는 실수
- 출력(output): 확률
- 0과 1 사이의 값
- 실수공간 -> 확률
통계학에서는 이 확률함수를 확률변수의 출력값의 유형, 즉 확률함수의 입력값이 이산형인지 연속형인지에 따라 다른 이름을 사용합니다. 이산확률변수가 취하는 확률함수를 확률질량함수(probability mass function, PMF)라 하고, 연속확률변수가 취하는 확률함수를 확률밀도함수(probability density function, PDF)라고 합니다.
종류
이산확률변수의 확률분포를 표현하는 함수, 이산확률변수에서 특정 값에 대한 확률을 나타내는 함수, 이산확률변수 X의 분포를 나타내는 함수
- : 확률변수
- : 확률변수가 취할 수 있는 이산형 값
- : 확률변수 X가 특정한 값을 가질 확률
- p.m.f 값 = 함수값 = 확률
연속확률변수의 확률분포를 표현하는 함수, 연속확률변수에서 확률변수가 취할 수 있는 모든 값에 대해 그 값을 가질 확률이 얼마인지를 알려주는 함수, 확률변수의 분포를 나타내는 함수, 연속확률분포의 양상을 나타내는 곡선을 식으로 표현한 것, 연속확률변수 X의 분포를 나타내는 함수
- 확률밀도함 수 f(x)는 특정한 한 순간에서의 확률은 0
- 하지만 특정 구간에서는 확률의 의미를 갖음
- 함수 아래의 면적 = 확률
확률질량함수와 확률밀도함수는 누적분포함수를 통해 쉽게 유도할 수 있습니다. 누적분포함수가 불연속함수일 때는 누적분포함수의 특정 값끼리 뺄셈을 하면 확률질량함수를 구할 수 있습니다. 만일 누적분포함수가 연속함수일 때는 누적분포함수를 미분해서 확률밀도함수를 구할 수 있습니다. 다시 말해 이산확률분포의 확률질량함수에서 부터 특정 값 사이에 있는 모든 확률변수에 대한 확률을 더하거나 연속확률분포의 확률밀도함수를 적분하면 누적분포함수가 됩니다.
확률변수와 그 확률변수가 있는 값 이하의 값을 취하는 확률과의 관계를 나타낸 함수, 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수, 주어진 확률변수에서의 누적 확률을 나타내는 함수, 특정값 x에 대해 확률변수 X가 x보다 같거나 작은 모든 경우의 확률의 합
- pdf는 cdf의 미분값
- cdf는 단조증가함수
ECDF는 n개의 데이터 포인트 각각에서 1/n 씩 점프하는 계단 함수
= 누적분포함수(cumulative density function, CDF)어떤 한 점의 x값 이상의 모든 x값들이 갖는 비율을 누적한 값
지금까지 확률변수와 확률함수의 개념을 살펴보았습니다. 확률변수와 확률함수를 이용하면 특정 사건이 일어날 확률을 계산할 수 있습니다. 그리고 확률변수의 모든 값과 각 확률변수의 값에 대응하는 모든 확률들의 분포를 그림으로 나타낸 것이 확률분포(probability distribution)입니다.
확률분포의 개념을 알아보기 전에 먼저 확률변수로부터 실수가 얻어졌을 때 이 실수들을 요약하는 방법이 있습니다. 이 방법이 기댓값(expected value)과 분산(variance)입니다. 기댓값은 실수들의 중심 경향성을 파악할 수 있도록 돕고 분산은 실수들이 흩어진 정도를 알 수 있도록 도와줍니다.
요약값
기댓값
확률변수가 취할 수 있는 모든 값들의 평균, 확률분포의 성격을 결정짓는 확률적 평균치, 확률변수가 나타내는 확률분포에서 중심 위치에 있는 대표적인 값, 모든 값이 동일하게 나온다는 가정을 가진 특별한 기댓값인 산술평균(average) 또는 확률변수에 취해지는 확률적 가중평균(weighted average)과 같은 개념, 범주에 해당하는 어떤 수치가 있을 때 범주의 출현 확률(probability)에 따른 평균, 모집단에 대한 통계적 파라미터 중 하나로써 기대되는 예측치들의 평균값으로 모집단 확률분포의 모수에 대한 무게중심으로 기대되는 값, 기대값은 매 표본 집단마다 얻어지는 표본 평균들에 대한 일반화, 시행횟수가 무한해지면 대수의 법칙에 따라 표본평균은 모집단(확률변수)의 기댓값에 수렴
- 확률분포의 집중화경향을 알고 싶을 때
- : 확률변수로부터 나온 실숫값
- : 각 실숫값에 해당하는 확률
기댓값은 통계량(statistic)에서 다룰 평균(means)과 다른 개념입니다. 기댓값에서는 각 사건들이 일어날 확률이 모두 다릅니다. 그래서 확률변수가 취할 수 있 는 모든 값, 기대되는 예측치들의 평균값을 내는 것입니다. 반면 평균에서는 각 사건들이 일어날 확률이 모두 동일하게 나온다고 가정합니다. 평균에 대한 개념은 통계적 기술의 위치통계를 참조하시면 됩니다.
분산
확률변수들이 기댓값 E(X)로부터 얼마나 떨어져 있는가를 나타내는 것
- 확률분포의 분산도를 알고 싶을 때
특정 집단 내 데이터들의 표준편차
- 개별 데이터 포인트의 변동성을 측정하는 지표
- 확률분포의 표준편차를 알고 싶을 때
확률변수는 표본 공간의 모든 원소를 실수로 대응시키고, 확률함수는 이 실수들이 나오는 확률을 나타냅니다. 이 실수들이 나오데는 어떤 패턴이 있습니다. 확률분포(probability distribution)는 확률함수로부터 확률변수가 된 각 실숫값이 나올 확률들의 패턴입니다.
확률분포
정의
확률함수의 각 실수값이 취하는 확률값들이 이루는 패턴, 확률함수로부터 생성된 확률값들의 패턴, 확률변수의 모든 값과 그에 대응하는 확률들이 나타내는 분포, 어떤 확률변수가 취할 수 있는 모든 값들과 이 값들이 나타날 확률을 나타내는 것, 한 변수에 대해 어떤 실험이나 관찰의 결과로 나타날 수 있는 모든 상황과 각 상황이 나타날 확률을 나타내는 것, 확률변수가 취하는 값에 대해 합이 1인 확률이 어떻게 분포되어 있는지를 나타내는 것, 한 변수가 어떤 실험이나 관찰의 결과로 나타날 수 있는 모든 상황과 각 상황이 나타날 확률을 나타내는 것
- 확률함수가 확률분포를 정함
종류
이산확률변수의 확률분포, 이산형 확률함수로부터 나온 확률들의 패턴
= 이산형 확률분포연속확률변수의 확률분포, 연속형 확률함수로부터 나온 확률들의 패턴
= 연속형 확률분포이산확률분포와 연속확률분포의 가장 큰 차이점은 확률을 로 표현할 수 있는지의 여부입니다. 이산확률변수는 로 가능합니다. 하지만 연속확률변수는 불가능합니다. 연속확률변수에서는 처럼 범위로 표현해야 합니다.
또한, 각 확률분포의 세부적인 모양은 모수(parameters)에 의해 결정됩니다. 모든 확률함수에는 하나 이상의 파라미터가 존재합니다.
지금까지는 하나의 확률변수에 대한 확률분포를 알아보았습니다. 이와 다르게 한 실험에서 두 개 이상의 확률변수가 상호작용면서 만들어지는 확률분포가 있습니다. 바로 결합확률분포(joint probability distribution)와 주변확률분포(marginal probability distribution)입니다.
결합확률분포와 주변확률분포
결합확률함수로부터 나오는 확률 패턴
- 두개의 확률변수가 각 실수로 대응되는 확률을 구하고 싶을 때 사용
- : 결합확률함수
- : 확률변수 X가 x를 갖고 확률변수 Y가 y를 동시에 갖을 확률
- 결합확률함수(joint probability function): 두 개의 확률변수가 어떤 특정 실수값을 동시에 가질 때의 확률을 나타내는 함수
확률변수 X와 확률변수 Y의 결합분포에서 X 또는 Y의 어느 하나만의 확률분포, 결합확률분포의 주변(margin)에 표시되는 확률분포
- : 주변확률함수(marginal probability function)
두 개의 실수 집합 A, B가 다음 전제를 만족시킬 때 독립인 확률변수 X, Y
- 확률변수 X와 Y가 독립이면, 두 확률변수는 서로 영향을 주지 않음
확률변수 X+Y의 누적확률함수
- 컨볼루션(cdf)을 미분해서 pdf를 구함
- 컨볼루션을 미분한 pdf를 통해 두 확률변수의 합의 확률분포를 알 수 있음
이산확률분포와 연속확률분포의 종류는 다음과 같습니다.
이산확률분포
확률변수 X가 두 개의 값(성공과 실패)만을 갖을 때 확률분포, 베르누이 확률변수의 확률분포, 베르누이 확률함수로부터 생성되는 확률들의 패턴
- : 성공 확률
- 베르누이 시행을 n번 해서 나타나는 확률분포가 이항분포
- 동전을 던져서 앞이 나올지 뒤가 나올지
- 상품의 구매 여부
- 약의 효과 유무
- 시행(trial)
- 독립된 결과를 가져오는 하나의 사건
- 성공(success)
- 시행에 대한 관심의 결과
- 베르누이 시행(bernoulli trials)
- 어떤 실험의 결과가 2가지인 시행(성공/실패, 예/아니오, 0/1, 이진)
- 베르누이 확률변수(bernoulli random variable)
- 매 시행마다 오직 두 가지의 가능한 결과만 일어난다고 할 때 실험을 1회 시행하여 일어난 두 가지 결과(성공 또는 실패)에 의해 그 값이 각각 0과 1로 결정되는 확률변수
성공 확률이 p로 일정한 베르누이 시행을 독립적으로 n번 반복했을 때 주어진 시행 횟수(n) 중에서 성공한 횟수(x)의 도수분포, 이항확률변수의 확률분포
- : 성공 확률
- : 시행 횟수
- p(x)는 0과 1 사이의 확률
- 이항확률변수(binominal random variable)
- 여러 번 베르누이시행을 할 때 성공의 횟수 또는 실패의 횟수
표집된 단위 시간 또는 단위 공간 안에 특정 사건(드물게 발생)이 몇 번 발생할 것인지를 확률로 표현한 포아송 확률함수로부터 생성된 확률들의 패턴 또는 도수분포, 단위 시간 혹은 단위 공간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포
- : 포아송확률변수
- : 해당 사건의 발생수
- : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값(모수), 평균발생횟수
- : 자연상수(2.71828...)
- 단위 시간당 사건 발생 횟수를 설명하는 분포 | 이항분포의 매개변수에서 n이 무한대로 가고 p가 작을 때 이항분포를 포아송 분포로 근사할 수 있음
- 어떤 집단에서 100세 이상까지 사는 사람들의 수
- 어떤 책 한 페이지에 있는 오타의 수
- 매일 잘못 걸려온 전화의 수
- 람다
- 어떤 일정 시간 또는 공간의 구간 안에서 발생한 평균 사건 수, 단위 시간이나 단위 면적당 사건이 발생하는 비율
첫 번째 성공(success)이 나올 때까지 독립적인 베르누이 시행을 할 때 나오는 확률분포, 기하확률함수로부터 나온 확률들의 패턴
k번째 성공이 나올 때까지 독립적인 베르누이 시행을 할 때 나오는 확률분포, 음이항확률함수로부터 나온 확률들의 패턴
- : 총 성공 횟수
- r=1일 때 기하분포가 됨
초기하확률함수가 생성한 확률들의 패턴
- 품질검사(불량 측정)
- N개의 공(흰 공 m개, 검은 공 N-m개)에서 비복원추출로 표본 n개를 뽑을 때 n개의 표본 중에서 흰 공의 개수가 나올 확률
지금까지 이산확률분포의 종류를 알아보았습니다. 이번에는 연속확률분포의 종류를 알아보겠습니다.
연속확률분포
균일분포
확률변수가 취하는 모든 구간에서 각 사건의 발생확률이 일정한 분포
- 두 균등분포의 합의 분포는 삼각확률밀도함수(triangular probability density function)로 만들어짐
정규분포와 표준정규분포
정규곡선(normal curve)으로부터 유래한 분포로 19세기 초 가우스(Carl F.Gauss)가 물리계측의 오차를 계산하는 과정에서 도입된 확률분포
- : 3.1416...(원주율[상수])
- : 2.7183...(자연대수[상수])
- : 분포의 평균
- : 분포의 표준편차
- 정규분포의 모양과 위치를 결정하는 것은 분포의 평균과 표준편차(분포의 평균(μ)과 표준편차(σ)를 제외하고는 모두 상수이고 X는 확률변수이기 때문)
- 정규분포의 확률밀도함수는 평균(μ)을 중심으로 좌우 대칭인 종모양을 이룸: 단봉분포(unimodal distribution)
- 확률변수 X가 취할 수 있는 값의 범위는 −∞ < X < +∞ 이므로 정규곡선은 X축(수평축)에 닿지 않음
- 분포의 평균(μ)과 표준편차(σ)가 어떤 값을 갖더라도, 곡선 아래의 면적은 모든 사건이 일어날 확률을 나타내므로 정규곡선 X축 사이의 전체 면적값은 항상 1
모수(평균, 표준편차)가 다른 정규분포를 가진 집단을 서로 비교하기 위해 정규분포를 표준화할 수 있습니다. 표본통계량이 '표본평균'일 때, 정규분포를 표준화(정규화)시킨 표본 분포를 표준정규분포(standard normal distribution)라고 합니다.
- 평균 = 0, 표준편차 = 1: 측정 단위에 영향을 받지 않게 중심위치와 척도 조정을 통해 절대 비교 가능
표준정규분포는 Z통계량으로 표준화시켰다고 해서 Z분포라고도 합니다. 표준정규분포는 개념적으로 정규분포와 동일하며 정규분포의 평균 해석에 많이 사용됩니다.
정규분포를 평균 μ=0이고 표준편차 σ=1 이 되도록 표준화한 분포, 표준정규확 률함수가 생성한 확률 패턴
- 모집단이 정규분포를 이룰 때
- 표준화(standardization) 또는 정규화(normalization)한다는 의미는 평균을 빼고 표준편차로 나눈다는 뜻
- 어떤 확률변수 X의 관찰값이 그 분포의 평균으로부터 표준편차의 몇 배 정도나 떨어져있는가를 다음과 같이 표준화된 확률변수 Z로 나타냄
표준정규분포의 확률변수(확률밀도함수의 x축), 개별 데이터 포인트를 정규화한 결과
- 평균값에서 표준편차의 몇 배 정도 떨어져 있는지를 평가하는 수치
- 분자: 어떤 개별 데이터가 평균으로부터 떨어진 정도
- 분모: 해당 집단의 표준편차에 비해 떨어진 정도
- 표준편차의 ± 1배 범위 내: 약 68%
- 표준편차의 ± 2배 범위 내: 약 95%
- 표준편차의 ± 3배 범위 내: 약 99%
정규분포를 사용하여 이항분포의 확률을 구하는 방법
지수분포
포아송 분포에 의해 생성된 사건들 사이에 걸린 시간(interarrival time)에 대한 확률분포, 한 사건에서 그다음 사건까지의 시간이나 거리에 대한 도수분포
- : 단위 시간당(면적당) 발생하는 사건 평균 건수
- 정규분포 다음으로 일상생활의 문제를 잘 묘사할 수 있는 분포
- 감마 분포에서 α=1 인 분포
- 서로 독립인 지수확률변수들의 합의 분포는 감마분포를 따름
- 서비스 기관에서 두 고객이 도착했을 때 각 도착 사이의 시간
- 한 전자기기에서 특정 부품의 최초 고장과 다음번 고장이 일어날 때 걸리는 시간
지수분포를 일반화하면 감마분포(gamma distribution)가 됩니다.
감마분포
α번째 사건이 일어날 때까지(총 α번의 사건이 발생할 때까지) 걸리는 시간에 대한 확률분포
- : 팩토리얼(factorial) 함수를 실수와 복소수까지 확장한 함수, 팩토리얼의 범위를 복소수까지 넓혀 일반화한 함수
- : 형상모수(shape parameter)
- : 척도모수(rate/scale parameter)
- 감마분포는 지수분포의 합
- 지수분포를 일반화하면 감마분포가 됨: 감마분포의 α가 1이 되는 경우 지수분포가 됨 Gamma(1, λ) = Expotential(λ)
- 제2종 오일러 적분(Euler integral of the second kind)
베타분포
- 불순률
- 작동률
- 불량률
- 고장률
조건부 확률분포
일반화
적률/모멘트를 생성하는 함수
- MGF가 있으면 확률함수와 1:1 대응이 되며 각 MGF는 고유한 확률분포를 결정함(하나의 MGF는 하나의 확률분포로 대응함)
- 두 개의 확률변수가 동일한 MGF를 갖는다면, 두 확률변수는 동일한 확률분포를 갖게 됨
- 따라서, 확률변수에 대한 MGF를 찾는 것은 확률분포를 결정하는 것과 같음
- MGF를 미분하고 t=0을 넣으면 테일러급수(Taylor series)를 사용해 모멘트를 구할 수 있음: 1회 미분 시 첫 번째 모멘트 얻음, 2회 미분 시 두 번째 모멘트 얻음, ...
통계 기초
정의
표본을 이용하여 모집단의 특성을 파악하는 학문, 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)를 수집하고 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후 표본의 특성을 이용하여 모집단의 특성을 추론하는 원리와 방법을 제공하는 체계, 학문
- 궁극적으로 알고 싶은 집단은 모집단임. 하지만 모집단은 정확히 알 수 없음. 따라서, 모집단에서 추출한 표본으로부터 모집단의 특성을 추정함
- 추정 결과를 검정하는 과정을 통해 최종적으로 모집단의 특성을 유추함
- 1단계 정의: 관심 또는 연구의 대상(문제, 주제, 가설) 설정
- 2단계 수집: 실험/관찰/조사를 통해 자료를 수집
- 3단계 분석: 수집한 자료를 정리, 요약, 탐색적으로 분석하여 자료의 특성을 파악
- 4단계 검증: 자료의 특성을 이용하여 관심 또는 연구 대상을 추론, 설정한 가설을 검증
분석 대상이 되는 집단의 특징을 측정한 데이터의 집합
- 데이터를 기반으로 불확실한 현실 세계에서 합리적인 의사결정을 돕는 도구
종류
일반
통계적 자료를 수집하고, 정리, 요약, 해석하는 과정을 통해 모집단 혹은 표본집단의 특성을 규명하는 통계학
- 수치(특성량)
- 표
- 그래프
표본에서 얻은 통계량을 기초로 해서 모집단의 특성을 추론하는 통계학
- 추정
- 검정
합리적 의사결정을 위해 통계적 방법론(도구 사용 등)에 입각하여 분석하는 통계학
- 분산분석
- 상관분석
- 회귀분석
- 다변량분석
모집단에 대한 가정 유무
모집단의 확률분포에 대한 명시적인 가정을 하는 통계학
- 대체로 수량적 자료(구간 자료, 비율 자료) 중에서도 연속적 자료가 사용됨
모집단의 분포모양에 대한 가정을 하지 않는 통계학
- 모집단의 분포모양에 대한 가정이 필요 없음
- 표본의 크기가 작아도 됨
- 주로 질적 자료(명목 자료, 서열 자료)를 사용
- 수량적 자료라 하더라도 빈도수와 같은 비연속적 자료를 많이 사용
통계적 추론에 대한 사고 방식
빈도론에 근거하여 통계적 추정, 가설검정, 분산분석 등의 방법
하나의 사건에서의 믿음의 정도(degree of belief)를 확률로 나타내는 베이즈 확률론에 기반한 통계학
- 경험에 따른 주관적 견해를 확률로 변환해서 추론에 이용
용어1: 모집단과 표본
우리는 다양한 정보를 알고 싶어 합니다. 예를 들면 다음과 같은 것들입니다:
- 대한민국 전체 인구의 삶의 만족도
- 특정 분야에서 일하는 모든 근로자의 평균 임금
- 어떤 공장에서 생산되는 모든 제품의 불량률
이처럼 연구, 조사, 또는 관심의 대상이 되는 전체 집단이나 데이터를 모집단(population)이라고 합니다.
연구/조사/관심의 대상이 되는 전체 집단/데이터
- 모집단을 구성하는 개체의 수가 유한한 모집단
- 로트(lot) 검사(제조단위번호가 있는 수입검사, 출하검사 등)
모집단을 구성하고 있는 구성 요소가 무한한 모집단
- 표본을 다시 복원하는 복원추출, 실험을 무한히 반복, 공정의 제조 능력(어느 공장에서 타이어를 만들고 있다고 할 때 공장의 생산능력은 연간 몇십만 본으로 규정되어 있어 유한모집단으로 생각되기 쉬우나 끊임없이 연료를 공 급해서 타이어를 무한대로 생산할 수 있는 경우)
그러나 모집단 전체를 조사하는 것은 대부분의 경우 현실적으로 불가능하거나 매우 비효율적입니다. 시간, 비용, 인력 등 다양한 자원의 제약이 있기 때문입니다. 이러한 한계를 극복하기 위해, 우리는 모집단의 일부를 추출하여 그 특성을 조사합니다. 이렇게 추출된 모집단의 부분집합을 표본(sample)이라고 합니다.
연구자가 측정 또는 관찰한 결과들의 집합, 모집단으로부터 선택된 일부의 개체, 직접적인 조사 대상이 된 모집단의 일부, 모집단을 대표하여 추출틀로부터 뽑혀진 추출단위들의 집합
= 샘플같은 모집단에서 서로 영향을 주지 않으면서 동일한 확률로 추출된 표본
용어2: 데이터, 변수, 척도
정의
어떤 변수가 가질 수 있는 다양한 가능성 중의 하나가 현실 세계에 구체화된 값, 변수를 관찰하여 기록한 결과, 관찰/측정/실험 등을 통해 수집되며 의미를 갖을 수 있는 모든 사실 또는 값
= 자료요인(factor)을 구성하고 있는 요소(element)로 일정한 측정 단위(척도)로 표현될 수 있는 것, 자료분석의 관점에서 보는 자연 및 사회현상의 여러 가지 요인들, 연구자의 관심대상이 되는 성격 또는 속성(attribute)이나 연구대상들이 서로 구별되어 나타나는 속성, 데이터를 구성하는 모든 유형의 관측 기록을 아우르는 용어, 다른 상황에서 다른 값을 취할 수 있는 임의의 측정값, 다른 상황에서 다른 값을 취할 수 있는 임의의 측정값, 데이터를 구성하는 모든 유형의 관측 기록을 아우르는 용어
- 척도를 통해 측정할 수 있는 값 = 변할 수 있는 값
- 학생의 학업: 학업 성적(점) -
- 학생의 신체조 건: 키(cm), 몸무게(kg), 혈액형(A, B, O, AB)
- 학생의 가정환경: 가족 구성원(부, 모, 형제/자매), 직업
대상 특성의 단위
종류
데이터는 완전히 분류되는 것이 아니라 상황에 따라 서로 중복될 수 있습니다.
기준1: 구조
미리 정해진 형식과 구조에 따라 저장된 데이터
- 가장 일반적인 형태는 행과 열이 있는 테이블 데이터(rectangular dada)
- 일반적으로 머신러닝 기법 활용
- 관계형 데이터베이스 테이블, 엑셀 스프레드시트, CSV(콤마로 구조가 결정됨)
구조화되어 있지만 데이터의 형식과 구조가 변경될 수 있는 데이터
- 스키마(데이터 개체, 속성, 관계와 이들에 대한 제약 조건들에 대한 정보) 수정이 쉽고 파일 단위로 구성되어 전송과 공유가 용이
- 정형 데이터와 비교하여 질의 처리(query processing)가 어려워 파일에 포함된 데이터 구조 정보를 바탕으로 데이터 분석에 사용할 경우 정형 데이터로 변환(테이블 형태의 데이터베이스 스키마로 변환)하고 데이터를 매핑(mapping)하여 정형 데이터로 변환할 수 있음
- HTML, XML, JSON
미리 정의된 구조가 없어 정형화되지 않은 데이터
- 반정형 또는 정형 데이터로 변환하는 전처리가 필요
- 딥러닝 기법 활용
- 텍스트(메일, 보고서, 소셜 미디어 게시물 등), 이미지, 음성, 동영상
기준2: 형식
테이블
행과 열로 이루어진 테이블 형태의 구조를 가진 데이터
- 이차원 행렬
- 엑셀 스프레드시트 테이블, 데이터베이스 테이블, 파이썬과 R의 데이터 프레임(data frame)
테이블의 각 행 @ 한 특정 경우에 대한 입력과 출력을 담고 있는 벡터
= 기록값, 사건(case), 개체/인스턴스(instance), 샘플(sample), 관측값/관측치(observed value), 관측개체, 사례/예제/예시(example), 패턴테이블의 각 열 @ 각 관측치의 특성치
- 연구에서 결과(outcome)을 예측하기 위해 열을 사용
- 피처벡터(feature vector)는 열에 있는 실제 데이터 모음을 의미
실험이나 연구에서는 결과(outcome)를 예측하기 위해 피처를 사용합니다. 이때 결과는 종속변수이고 피처는 독립변수입니다.
원인이 되는 변수, 어떤 변수가 다른 변수에 영향을 주고받는 경우 영향을 주는 변수, 응답치를 예측하기 위해 사용되는 변수
- 결과에 영향을 받지 않아 독립적이라고 함
- 표(table)에서는 원인이 되는 열을 의미
- 머신러닝에서는 데이터의 특징을 나타내는 변수를 의미함
결과가 되는 변수, 어떤 변수가 다른 변수에 영향을 주고받는 경우 영향을 받는 변수, 예측하고자 하는 변수, 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수
- 원인에 종속받아 종속적이라고 함
- 표(table)에서는 결과가 되는 열을 의미
반응변수와 설명변수에 모두 영향을 미치는 변수
- 위약효과(placebo effect), 관찰자 편향(observer bias)
비테이블
- 동일한 개체에 대해 횡단면 자료와 시계열 자료가 합쳐진 것
하나의 변수를 여러 시점에서 관측한 자료
- 시간의 경과에 따른 추세를 알고 싶을 때
- 동일한 변수 안에 연속적인 측정값을 갖음
- 관중 추이, 주가, 현금흐름
서로 다 른 개체에 대해 매 시점에서 조사된 시계열 자료(pseudo panel)
- 동일한 걔체를 반복적으로 관찰하는 것이 아님
- 물리적 관계, 사회적 관계, 추상적이 ㄴ관계 표현
기준3: 측정
정형 데이터는 측정 가능 여부에 따라 수치형 데이터(numerical data)와 범주형 데이터(categorical data)로 나뉩니다.
수치형 데이터
수치로 표현되며 수학적 연산이 의미 있는 측정 가능한 데이터, 양적 변수를 기록한 자료
- 수치 자료를 범주화하면 순서자료가 됨
- 수치형 데이터 X: 우편번호
속성을 수치로 나타낼 수 있는 변수
수치형 데이터는 연속성 여부에 따라 이산형 데이터(discrete data)와 연속형 데이터(continuous data)로 나뉩니다.
셀 수 있는(countable) 형태의 자료, 정수 데이터, 이산변수의 관찰 결과
- 범주형 자료의 발생빈도를 표현하기도 함
- 자녀의 수, 주사위 눈의 수, 책의 페이지 수, 학급의 학생 수, 일별 방문자 수, 사건 발생 빈도
정숫값을 취할 수 있는 변수
- 각 세대의 자녀수, 자동차의 판매대수
연속적인 수로 표현하는 자료, 실수 데이터, 연속적 변수의 관찰 결과
- 데이터 자체를 숫자로 표현
- 대부분 이산화를 통해 절사된 형태로 표시
- 연속형 데이터를 순서형 데이터로 표현하면 정보의 손실이 발생함
- 몸무게, 키, 나이, 수입
연속적인 모든 실숫값을 취할 수 있는 변수
- 길이, 무게, 온도 변화
범주형 데이터
수학적 연산이 불가능하거나 의미 없으며 가능한 범주 안의 값만을 취하는 데이터, 질적 변수를 기록한 자료
- 범위가 정해진 값을 갖음
- 1) 전혀 다른 집합: 사과, 오렌지, 2) 정도를 나타내는 요인변수의 수준(낮음, 중간, 높음), 3) 구간별로 나뉜 수치 데이터
둘 이상의 배타적 개별 범주로 구분되는 측정값을 갖는 변수
속성을 수치로 나타낼 수 없는 변수
= 정성변수범주형 데이터는 순서를 매길 수 있는지 여부에 따라 명목형 데이터(이진형 데이터 포함)와 순서형 데이터로 나뉩니다.
대상의 범주적 속성만을 나타내는 질적 자료
- 숫자를 바꾸어도 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시하는 것
- 국적, 성별, 결혼상태(기혼/미혼), 혈액형, 도시명, 우편번호, TV 스크린 종류(플라즈마/LCD/LED), 제품 불량 여부(양품/불량), 보험/신용카드 사기 여부(정상/비정상), 고객 이탈 여부(유지/이탈), 이메일 스팸 여부(정상/스팸)
측정 대상의 특성을 분류 또는 구분하기 위하여 숫자를 부여하는 변수
- 가장 낮은 수준의 변수
- 수준: 범주
- 성별, 국적, 인종, 종교, 거주 지역, 우편번호, 자녀 유무, 혈액형, 운동선수 등번호, 질병여부, 자동차 색깔, 수술한 병원
숫자로 표현될 수 있지만 수량적인 의미를 갖지 않고, 범주를 구분하는 용도로 쓰이는 척도
- 각 자료를 구분하는 용도로만 사용하는 척도
- 말 그대로 명목적인(이름뿐인) 단위
특정 사건의 발생 유무와 같이 두 가지 값(0/1 또는 참/거짓)만을 갖는 범주형 데이터
- 이진 데이터의 집합은 어떤 사건이 발생한 경우의 수 또는 백분율로 요약할 수 있음
- 암 수술 후 사망 여부를 나타내는 데 이터(1=생존, 0=사망), 제품불량여부(양품/불량), 보험사기여부(정상/비정상)
0또는 1만 가지는 변수, 예/아니오라는 두 가지 값으로만 대답할 수 있는 질문과 같은 변수
= 더미변수(dummy variable), 지표변수(indicator variable), 설계변수(design variable), 처치(treatment), 이진지시자(Boolean indicator)대상의 속성을 순서로 구분할 수 있는 범주형 데이터, 순위를 매길 수 있는 데이터
- 상대적 비교 가능
- 범주화를 통해 수치자료를 순서자료로 바꾸기도 함
- 순서 자료에서 명목 자료가 되면 정보의 손실이 발생함
- 학력, 학년, 학점, 계급, 메달, 평점(1~5), 비만도, 선호도
측정 대상 간의 순서를 매기기 위하여 사용되는 변수
- 명목변수보다 한 단계 높은 수준의 변수
- 수준: 범주 + 순위
- 석차, 등급, 등수, 성적, 학력, 군인의 계급, 경제적 수준, 선호도, 만족도, 신뢰도
관찰 대상의 순위를 나타내는 척도
- 서열은 있지만 간격이 서로 같지 않으므로, 수량화할 수 없고 사칙연산 불가능
측정대상의 순서뿐만 아니라 순서 사이의 간격을 알 수 있는 변수
- 수준: 범주 + 순위 + 등간
- 섭씨 온도, 지능지수, 대학학년