λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

πŸ‘©‍πŸ’»Deep Wide School/πŸ“ŠData Analytics & Statistics

πŸ“’ν†΅κ³„κ³΅λΆ€λ…ΈνŠΈπŸ“’ [톡계학 μž…λ¬Έ] λŒ€ν‘―κ°’κ³Ό 산포도 #1

728x90
λ°˜μ‘ν˜•

πŸ“’ν†΅κ³„κ³΅λΆ€λ…ΈνŠΈπŸ“’

πŸ“Œν†΅κ³„ν•™μ—μ„œλŠ” 데이터 개수λ₯Ό 'ν‘œλ³Έ 크기', 'μƒ˜ν”Œ μ‚¬μ΄μ¦ˆ'라고도 ν•œλ‹€. 

πŸ“Œλ¬΄μ—‡μ„ λ‚˜νƒ€λ‚΄λ €λŠ” λΆ„μ„μžλ£ŒμΈμ§€ μ—Όλ‘ν•˜κ³ , 그것에 λ§žλŠ” λŒ€ν‘―κ°’μ„ μ°ΎλŠ” 것이 μ€‘μš”ν•˜λ‹€. 

πŸ“Œλ°μ΄ν„°λ₯Ό 숫자둜 λ³΄μ§€λ§Œ μ•Šκ³ , ν‘œλ‚˜ κ·Έλž˜ν”„λ‘œ 정리해 νŠΉμ§•μ„ μ‚΄νŽ΄λ³΄λŠ” 게 ν†΅κ³„ν•™μ˜ 기본이닀.


1. λŒ€ν‘―κ°’(AVERAGE) : ν†΅κ³„ν•™μ—μ„œ λŒ€ν‘―κ°’μ€ μ—¬λŸ¬κ°œλ‹€. 

1) 평균값 : mean 

데이터 값을 λ‹€ 더해 데이터 수둜 λ‚˜λˆˆ κ°’. 'μ‚°μˆ ν‰κ· 'κ³Ό 'κΈ°ν•˜ν‰κ· μ΄'이 μžˆλ‹€. λ°₯을 λ¨Ήκ³  각자 λ‚˜λˆ μ„œ λˆμ„ 넀을 λ•Œ 이 돈이 ν‰κ· κ°’μ˜ μ „ν˜•μ  사둀닀. κ·Ήλ‹¨μ μœΌλ‘œ 높은 값이 있으면 그것에 λ§Žμ€ 영ν–₯을 λ°›κΈ° 쉽닀. 극단값(이상값/아웃라이어)의 영ν–₯을 많이 λ°›λŠ” 값이닀. 

 

2) 쀑앙값 : median 

λͺ¨λ“  데이터λ₯Ό 큰 μˆœμ„œλŒ€λ‘œ λ‚˜μ—΄ν•  λ•Œ κ°€μš΄λ°(쀑앙)에 μžˆλŠ” 값이닀. 데이터가 ν™€μˆ˜λ©΄ λŒ€μƒ 값은 ν•˜λ‚˜μ§€λ§Œ, 짝수라면 κ°€μš΄λ° 두 수의 평균값을 κ³„μ‚°ν•˜λ©΄ λœλ‹€. 

쀑앙값 μ„€λͺ… @deepwidestudioa
쀑앙값 μ„€λͺ… @deepwidestudioa

쀑앙값은 μ•„μ›ƒλΌμ΄μ–΄μ˜ 영ν–₯을 받지 μ•ŠλŠ”λ‹€. 또 쀑앙값을 μ€‘μ‹¬μœΌλ‘œ 쒌우의 데이터 κ°―μˆ˜κ°€ λͺ¨λ‘ κ°™λ‹€. (50%μ”©)

 

3) μ΅œλΉˆκ°’: mode

데이터 μ€‘μ—μ„œ κ°€μž₯ μΆœν˜„νšŸμˆ˜κ°€ λ§Žμ€ 값을 μ˜λ―Έν•œλ‹€. μΆœν˜„νšŸμˆ˜κ°€ 많기 떄문에 '데이터 μ „μ²΄μ˜ μ£Όμš”ν•œ κ°’'으둜 보며, 'λ°μ΄ν„°μ˜ 쀑심을 μ•Œλ €μ£ΌλŠ” κ°’'μœΌλ‘œμ„œ μ΅œλΉˆκ°’μ€ λŒ€ν‘œμ„±μ„ μ§€λ‹Œλ‹€. μ΅œλΉˆκ°’λ„ 쀑앙값과 λ§ˆμ°¬κ°€μ§€λ‘œ μ•„μ›ƒλΌμ΄μ–΄μ˜ 영ν–₯을 받지 μ•ŠλŠ”λ‹€λŠ” νŠΉμ§•μ΄ μžˆλ‹€. 

 

4)μ‚°μˆ ν‰κ· κ³Ό κΈ°ν•˜ν‰κ· 

μ‚°μˆ ν‰κ· =λ§μ…ˆμ˜ 합계λ₯Ό λ°μ΄ν„°λ‘œ λ‚˜λˆˆ κ°’. 

κΈ°ν•˜ν‰κ· =데이터듀을 κ³±ν•΄μ„œ κ΅¬ν•˜κ³ , μ΄λŠ” μ¦κ°€μœ¨μ˜ 평균을 μ‚°μΆœν•  λ•Œ μ“΄λ‹€. 

 

μ‚°μˆ ν‰κ·  @deepwidestudio
κΈ°ν•˜ν‰κ·  @deepwidestudio


2. μ΅œλΉˆκ°’μ„ μ’€ 더 μ•Œμ•„λ³΄μž

πŸ“Œλ°μ΄ν„° μˆ˜κ°€ 적은 κ²½μš°μ—λŠ” μΆœν˜„ νšŸμˆ˜μ— 차이가 없을 μˆ˜λ„ μžˆλ‹€. 

πŸ“Œλ˜, λͺΈλ¬΄κ²Œμ™€ ν‚€μ²˜λŸΌ κ·Έ 값이 λ―Έλ―Έν•˜κ²Œ λ‹€λ₯Έ κ²½μš°μ—λŠ” 데이터 μˆ˜κ°€ 아무리 λ§Žμ•„λ„ μΆœν˜„νšŸμˆ˜λ‘œ κ΅¬λΆ„ν•˜κΈ° μ–΄λ ΅λ‹€. 

이럴 λ•Œ ν•„μš”ν•œ 것이 'λ„μˆ˜λΆ„ν¬ν‘œ'λ‹€. 

 

βœοΈλ„μˆ˜λΆ„ν¬ν‘œ

:주어진 데이터λ₯Ό μΌμ •ν•œ λ²”μœ„λ‘œ λ‚˜λˆ„κ³ , κ·Έ λ²”μœ„μ— μΆœν˜„ν•˜λŠ” 데이터 개수λ₯Ό 쑰사해 λ‚˜νƒ€λ‚Έ ν‘œλ‹€. 

쀑학ꡐ λ•Œ λ‚˜μ˜€λŠ” 이 κ°œλ…λ“€μ„ λ‹€μ‹œ μ°¨κ·Όμ°¨κ·Ό....

μœ„ ν‘œμ˜ λ°μ΄ν„°μ˜ μ΅œλΉˆκ°’μ€ 7.5이닀.

βœοΈνžˆμŠ€ν† κ·Έλž¨

: λ„μˆ˜λΆ„ν¬ν‘œλ₯Ό 그림으둜 λ‚˜νƒ€λ‚Έ 것이 νžˆμŠ€ν† κ·Έλž¨μ΄λ‹€. λ§‰λŒ€ κ·Έλž˜ν”„μ˜ ν•œ μ’…λ₯˜λ‹€. νžˆμŠ€ν† κ·Έλž¨μ€ μ„Έλ‘œμΆ•μ΄ λ„μˆ˜, κ°€λ‘œμΆ•μ΄ 계급이닀. κ²°κ΅­ 각 계급에 데이터가 λͺ‡ 개 λ“±μž₯ν•˜λŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚Έ κ·Έλž˜ν”„λ‹€. 

 

βœοΈμƒλŒ€λ„μˆ˜

: 'μ–΄λ–€ κ³„κΈ‰μ˜ λ„μˆ˜κ°€ 전체 λ„μˆ˜μ—μ„œ λͺ‡ %λ₯Ό μ°¨μ§€ν•˜λŠ”μ§€' λ‚˜νƒ€λ‚΄λŠ” κ°’. 

μƒλŒ€λ„μˆ˜= ν•΄λ‹Ήλ²”μ£Ό κ΄€μΈ‘κ°œμ²΄μ˜ 수/전체 κ΄€μΈ‘ 개체의 수

 

βœοΈμƒλŒ€λ„μˆ˜ νžˆμŠ€ν† κ·Έλž¨

: λͺ¨λ“  κ³„κΈ‰μ˜ μƒλŒ€λ„μˆ˜λ₯Ό κ΅¬ν•΄μ„œ, x좕은 계급 & y좕은 μƒλŒ€λ„μˆ˜(%)의 λ§‰λŒ€κ·Έλž˜ν”„λ‘œ λ‚˜νƒ€λ‚Έ 것. 

 


3. 산포도: 흩어진 정도λ₯Ό λ‚˜νƒ€λ‚΄λŠ” μ§€ν‘œ(ν‰κ· νŽΈμ°¨, λΆ„μ‚°, ν‘œμ€€νŽΈμ°¨, λ²”μœ„, μ‚¬λΆ„μœ„ λ²”μœ„)

βœοΈν‘œμ€€νŽΈμ°¨: 데이터가 흩어진 정도λ₯Ό λΉ„κ΅ν•˜λŠ” μ§€ν‘œ 

λ¨Όμ €, νŽΈμ°¨λž€ '데이터 κ°’μ—μ„œ 평균값을 λΊ€ κ°’'이닀.

 

νŽΈμ°¨μ—λŠ” μ–‘μˆ˜μ™€ μŒμˆ˜κ°€ 있기 λ•Œλ¬Έμ— 합계가 0이 λœλ‹€. 보닀 μ‹œκ°μ μœΌλ‘œ 편차λ₯Ό 잘 λΉ„κ΅ν•˜κΈ° μœ„ν•΄, μ΄λŸ¬ν•œ 편차λ₯Ό λ‹€λ£¨λŠ” 두 가지 방법이 μžˆλ‹€. 

1) 편차λ₯Ό μ–‘μˆ˜λ‘œ λ°”κΎΈμ–΄μ„œ λ”ν•œλ‹€.

이λ₯Ό 'μ ˆλŒ“κ°’'이라 ν•˜κ³ , κ·Έ 합계λ₯Ό 데이터 수둜 λ‚˜λˆˆλ‹€ ='ν‰κ· νŽΈμ°¨'

 

2) 편차λ₯Ό μ œκ³±ν•΄μ„œ λ”ν•œλ‹€. 

두 λ²ˆμ§ΈλŠ” μŒμˆ˜λ„ μ œκ³±ν•˜λ©΄ μ–‘μˆ˜κ°€ λ˜λŠ” 이치λ₯Ό μ΄μš©ν•œ 방법이닀. λͺ¨λ“  편차λ₯Ό μ œκ³±ν•΄ '합계(편차제곱의 ν•©)"λ₯Ό κ΅¬ν•œ λ‹€μŒ 데이터 수둜 λ‚˜λˆˆλ‹€. 이것이 'λΆ„μ‚°(variance)'λ‹€.

 

728x90
λ°˜μ‘ν˜•