λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

πŸ‘©‍πŸ’»Deep Wide School/πŸ“ŠData Analytics & Statistics

πŸ“Šν™•λ₯ κ³Ό 톡계 기초 간단메λͺ¨

728x90
λ°˜μ‘ν˜•

πŸ“Š ν™•λ₯ κ³Ό 톡계 BASIC CONCEPT 

ν™•λ₯ κ³Ό 톡계, ν‘œλ³Έκ³΅κ°„μ— λŒ€ν•΄ 정리해본닀. 


βœ”οΈ ν™•λ₯ κ³Ό ν†΅κ³„λž€? 

ν™•λ₯ : μ˜€λžœμ‹œκ°„λ™μ•ˆ κ²½ν—˜μ μœΌλ‘œ μŒ“μ•„μ˜¨ ν™•λ₯ ν˜„상에 λŒ€ν•œ κ²½ν—˜μ  인식을 λ°”νƒ•μœΌλ‘œ μ΄λ‘ ν™”ν•œ 것. 

톡계: 자료λ₯Ό μˆ˜μ§‘ν•œ λ’€ 뢄석, 해석 및 ν‘œν˜„μ„ λ‹€λ£¨λŠ” μˆ˜ν•™μ˜ ν•œ λΆ„μ•Ό

 

*ν™•λ₯ κ³Ό ν†΅κ³„λŠ” λ³„κ°œμ˜ ν•™λ¬Έμ΄μ§€λ§Œ, 톡계λ₯Ό ν•˜λ €λ©΄ ν™•λ₯ μ§€μ‹μ„ μ•Œμ•„μ•Ό ν•œλ‹€. 

 

 

βœ”οΈν™•λ₯ 

1. μˆ˜ν•™μ  ν™•λ₯  : λˆ„κ°€ κ³„μ‚°ν•˜λ“  λ™μΌν•œ κ°’μœΌλ‘œ κ³„μ‚°λ˜λŠ” ν™•λ₯ 

2. 톡계적 ν™•λ₯ : 동일쑰건& λ…λ¦½μ μœΌλ‘œ λ¬΄ν•œλ°˜λ³΅ν–ˆμ„ λ•Œ λ°œμƒν•˜λŠ” ν™•λ₯ 

3. 주관적 ν™•λ₯ : κ΄€μ°°μžμ˜ 주관에 따라 λ‹€λ₯΄κ²Œ ν‘œν˜„λ˜λŠ” ν™•λ₯ 

 

βœ”οΈν‘œλ³Έκ³΅κ°„(Sample Space)  & 사건(Event)

-ν™•λ₯ μ΄λ‘ μ€ 'ν‘œλ³Έκ³΅κ°„(sample space)'의 μ •μ˜λΆ€ν„° μ‹œμž‘ν•œλ‹€. ν‘œλ³Έκ³΅κ°„μ€ '톡계적 μ‹€ν—˜μ—μ„œ λ°œμƒκ°€λŠ₯ν•œ λͺ¨λ“  κ²°κ³Όλ“€μ˜ 집합'으둜 μ •μ˜ν•˜κ³  이λ₯Ό S둜 λ‚˜νƒ€λ‚Έλ‹€.

-ν‘œλ³Έκ³΅κ°„μ€ λͺ¨λ“  결과의 집합을 λ‚˜νƒ€λ‚΄κΈ° λ•Œλ¬Έμ—, 이 결과듀을 가지고 뢀뢄집합을 λ§Œλ“€μˆ˜ μžˆλ‹€.

-"ν‘œλ³Έκ³΅κ°„μ˜ 뢀뢄집합"을 사건(event)이라고 ν•œλ‹€. ('사건'은 ν‘œλ³Έκ³΅κ°„ λ°–μ—μ„œ λ§Œλ“€μ–΄μ§ˆ 수 μ—†λ‹€.)

-즉, ν‘œλ³Έ κ³΅κ°„μ—μ„œ νŠΉμ •ν•œ 쑰건을 λ§Œμ‘±ν•˜λŠ” κ²°κ³Όλ₯Ό λͺ¨μ•„놓은 집합을 'ν™•λ₯ μ  사건'이라고 ν•˜κ³  κ°„λ‹¨ν•˜κ²Œ '사건(event)'이라고 ν•œλ‹€.

β‡’ν‘œλ³Έ 곡간 μƒμ—μ„œ μ–΄λ–€ 뢀뢄집합이냐에 따라 μ‚¬κ±΄μ˜ 이름이 달라진닀. 

1) 전사건(total event) : ν‘œλ³Έκ³΅κ°„ S의 λͺ¨λ“  μ›μ†Œλ₯Ό ν¬ν•¨ν•˜λŠ” 사건 
2) 곡사건(null event) : ν‘œλ³Έκ³΅κ°„ S의 μ–΄λ–€ μ›μ†Œλ„ ν¬ν•¨ν•˜μ§€ μ•ŠλŠ” 사건
3) 여사건(complementary event): ν‘œλ³Έκ³΅κ°„ S의 사건 E에 μ†ν•˜μ§€ μ•ŠλŠ” S의 λͺ¨λ“  μ›μ†Œλ“€μ˜ 집합인 사건 
4) 합사건(union event) : 두 사건 E와 F에 λŒ€ν•˜μ—¬ E와 F 쀑 적어도 ν•œμͺ½μ€ μΌμ–΄λ‚˜λŠ” 사건
5) 곱사건(intersection event) : 두 사건 E와 F에 λŒ€ν•˜μ—¬ E와 Fκ°€ λ™μ‹œμ— μΌμ–΄λ‚˜λŠ” 사건
6) λ°°λ°˜μ‚¬κ±΄(mutually exclusive event) : 두 사건 E와 F에 λŒ€ν•˜μ—¬ E와 F 쀑 ν•œ μͺ½μ΄ μΌμ–΄λ‚˜λ©΄ λ‹€λ₯Έ μͺ½μ€ μΌμ–΄λ‚˜λ©΄ λ‹€λ₯Έ μͺ½μ€ μΌμ–΄λ‚˜μ§€ μ•Šμ„ λ•Œ, E와 FλŠ” μ„œλ‘œ 배반이라 ν•œλ‹€. (μ„œλ‘œ 곡톡뢀뢄이 μ—†λ‹€) 

 

 

 

πŸ“Š ν™•λ₯ κ³Ό ν™•λ₯ λ³€μˆ˜ 

ν™•λ₯ κ³Ό ν™•λ₯ λ³€μˆ˜μ— λŒ€ν•΄ μ•Œμ•„λ³Έλ‹€. 


βœ”οΈμΌλ°˜μ μΈ ν™•λ₯  μ •μ˜:
'λͺ¨λ“  μ‚¬κ±΄μ˜ 경우의 수'에 λŒ€ν•œ 'νŠΉμ •ν•œ 사건이 λ°œμƒν•œ λΉˆλ„μˆ˜'의 λΉ„μœ¨. 즉, λΉ„μœ¨(ratio)λ‹€. 

사건(Event) A의 ν™•λ₯ μ€, 사건 A μ•ˆμ— μžˆλŠ” λͺ¨λ“  μ›μ†Œμ— ν• λ‹Ήλœ ν™•λ₯ μ˜ ν•©μœΌλ‘œ, 사건 A의 ν™•λ₯ μ€ 0=< P(A) =<1의 λ²”μœ„λ₯Ό κ°–λŠ”λ‹€. 

 

βœ”οΈν• λ‹Ήλœ ν™•λ₯ 

사건 A의 각각의 μ›μ†Œμ— κ°€μ€‘μΉ˜(weight)κ°€ λΆ€μ—¬λλ‹€λŠ” λœ»μ΄λ‹€. 

 

βœ”οΈν™•λ₯ λ³€μˆ˜ = ν•¨μˆ˜ (ν‘œλ³Έκ³΅κ°„μ˜ 각 μ›μ†Œλ‘œλΆ€ν„° λŒ€μ‘λ˜λŠ” ν•˜λ‚˜μ˜ μ‹€μˆ˜λ₯Ό 'ν™•λ₯ λ³€μˆ˜'라고 ν•œλ‹€.

ν™•λ₯ λ³€μˆ˜μ˜ μ’…λ₯˜μ—λŠ” '이산확λ₯ λ³€μˆ˜'와 '연속확λ₯ λ³€μˆ˜' 두 μ’…λ₯˜κ°€ μžˆλ‹€. 

 

이산확λ₯ λ³€μˆ˜ : ν™•λ₯ λ³€μˆ˜ X의 집합을 μ…€ 수 있으면 이산확λ₯  λ³€μˆ˜λ‹€. μœ ν•œκ°œμ˜ κ°’ λ˜λŠ” μ…€ 수 μžˆλŠ” 개수의 κ°’μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ μžˆλŠ” ν™•λ₯ λ³€μˆ˜λ‹€. '이산'은 λΆˆμ—°μ†μ„ λœ»ν•œλ‹€. 

연속확λ₯ λ³€μˆ˜ : ν™•λ₯ λ³€μˆ˜ Xκ°€ 연속적인 ꡬ간 λ‚΄μ˜ 값을 μ·¨ν•˜λ©΄ '연속확λ₯  λ³€μˆ˜'λ‹€. 연속확λ₯ λ³€μˆ˜λŠ” 연속적인 λ²”μœ„μ˜ 값을 κ°–λŠ” ν™•λ₯  λ³€μˆ˜λ‹€. 예λ₯Ό λ“€μ–΄ μ‹œκ°„μ€ μ…€μˆ˜ μ—†κΈ° λ•Œλ¬Έμ— λ²”μœ„λ‘œ ν‘œν˜„ν•΄μ•Ό ν•œλ‹€. 

 

βœ”οΈ 이산확λ₯  λ³€μˆ˜μ™€ 연속확λ₯ λ³€μˆ˜μ˜ κ°€μž₯ 큰 차이: P(X=x)둜 ν‘œν˜„ν•  수 μžˆλŠ”μ§€μ˜ μ—¬λΆ€λ‹€. 

 

 

 

πŸ“Š ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜(Probability Mass Function of Discrete Random Variable) & 이산확λ₯ λ³€μˆ˜μ˜ λˆ„μ λΆ„ν¬ν•¨μˆ˜ (Culmulative Distribution Function of Discrete Random Variable)

-ν™•λ₯ λΆ„포와 ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜ & λˆ„μ λΆ„ν¬ν•¨μˆ˜μ— λŒ€ν•΄ μ•Œμ•„λ³Έλ‹€. 
-이산확λ₯ λ³€μˆ˜


βœ”οΈ'ν™•λ₯ λΆ„포

'뢄포(disctribution)'λΌλŠ” 말은 μΌμ •ν•œ λ²”μœ„μ— 흩어져 퍼져 μžˆλŠ” 것을 μ˜λ―Έν•œλ‹€. 즉, 'ν™•λ₯ λΆ„포'λŠ” ν™•λ₯ λ³€μˆ˜μ— 따라 ν™•λ₯ μ΄ μ–΄λ–»κ²Œ 흩어져 μžˆλŠ”μ§€λ₯Ό ν‘œν˜„ν•œλ‹€. 흩어져 μžˆλŠ” 것을 ν‘œν˜„ν•˜κΈ° μœ„ν•΄ ν•¨μˆ˜λ₯Ό λ„μž…ν•˜λŠ” 것이닀. 

 

βœ”οΈν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜

ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜λŠ” 이산확λ₯ λ³€μˆ˜μ˜ ν™•λ₯ ν•¨μˆ˜λ‹€. 

 

βœ”οΈμ΄μ‚°ν™•λ₯ λ³€μˆ˜μ˜ ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜

ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜μ˜ μ„±μ§ˆ: 

 

βœ”οΈλˆ„μ λΆ„ν¬ν•¨μˆ˜ (Culumative distribution function; cdf) 

주어진 ν™•λ₯ λ³€μˆ˜κ°€ νŠΉμ • 값보닀 μž‘κ±°λ‚˜ 같은 ν™•λ₯ μ„ λ‚˜νƒ€λ‚΄λŠ” ν•¨μˆ˜λ‹€. 

 

 

 

πŸ“Š ν™•λ₯ λ°€λ„ν•¨μˆ˜(Probability Density Function 

-ν™•λ₯ λ°€λ„ν•¨μˆ˜μ— λŒ€ν•΄ μ•Œμ•„λ³Έλ‹€.
-연속확λ₯ λ³€μˆ˜


βœ”οΈ'연속확λ₯ λΆ„포'μ—μ„œ ν™•λ₯ μ„ ꡬ할 λ•ŒλŠ” 항상 λ²”μœ„λ‘œ ν‘œν˜„ν•œλ‹€. 

βœ”οΈμ—°μ†ν™•λ₯ λ³€μˆ˜μ—μ„œ, a와 bμ‚¬μ΄μ˜ ν™•λ₯ μ„ κ΅¬ν•˜λŠ” 것은 ν™•λ₯ λ°€λ„ν•¨μˆ˜ κ·Έλž˜ν”„μ˜ 넓이λ₯Ό κ΅¬ν•˜λŠ” 것이닀. 

 

 

 

 

πŸ“Š 연속확λ₯ λ³€μˆ˜μ˜ λˆ„μ λΆ„ν¬ν•¨μˆ˜ (cdf; Culmulative Distribution Function of Continuous Random Variable)

-연속확λ₯ λ³€μˆ˜μ˜ λˆ„μ λΆ„ν¬ν•¨μˆ˜


 

 

 

 

μ°Έκ³ : https://blog.naver.com/mykepzzang/220836321999

728x90
λ°˜μ‘ν˜•