Základné štatistické funkcie

JupyterLab
Pandas
Štatistika
Autor

Jakub Šperka

Publikované

18. septembra 2025

📊 Úvod

V tejto kapitole sa zameriame na základné štatistické operácie, ktoré Pandas ponúka priamo nad objektom DataFrame alebo Series.

Medzi najčastejšie používané patria: - Popisné štatistiky (mean, median, mode, std, var, min, max) - Súčty a počty (sum, count) - Percentily a kvantily (quantile) - Komplexný prehľad pomocou funkcie .describe()


🧪 Ukážkové dáta

Kód
import pandas as pd

data = {
    "Meno": ["Anna", "Boris", "Cyril", "Dora", "Eva", "Filip"],
    "Vek": [25, 30, 35, 28, 22, 40],
    "Mesto": ["Bratislava", "Košice", "Žilina", "Bratislava", "Nitra", "Košice"],
    "Body": [88, 92, 75, 90, 66, 98],
}
df = pd.DataFrame(data)
df
Meno Vek Mesto Body
0 Anna 25 Bratislava 88
1 Boris 30 Košice 92
2 Cyril 35 Žilina 75
3 Dora 28 Bratislava 90
4 Eva 22 Nitra 66
5 Filip 40 Košice 98

📈 Základné štatistiky

Kód
print("Priemerný vek:", df['Vek'].mean())
print("Medián bodov:", df['Body'].median())
print("Najčastejší vek:", df['Vek'].mode()[0])
print("Rozptyl bodov:", df['Body'].var())
print("Štandardná odchýlka bodov:", df['Body'].std())
print("Minimum bodov:", df['Body'].min())
print("Maximum bodov:", df['Body'].max())
Priemerný vek: 30.0
Medián bodov: 89.0
Najčastejší vek: 22
Rozptyl bodov: 142.56666666666666
Štandardná odchýlka bodov: 11.940128419186566
Minimum bodov: 66
Maximum bodov: 98

➕ Súčet a počet hodnôt

Kód
print("Počet riadkov:", df['Meno'].count())
print("Súčet bodov:", df['Body'].sum())
Počet riadkov: 6
Súčet bodov: 509

🎯 Percentily a kvantily

Kód
print("25. percentil veku:", df['Vek'].quantile(0.25))
print("50. percentil (medián) veku:", df['Vek'].quantile(0.5))
print("75. percentil veku:", df['Vek'].quantile(0.75))
25. percentil veku: 25.75
50. percentil (medián) veku: 29.0
75. percentil veku: 33.75

📋 Funkcia .describe()

Komplexný prehľad štatistík pre číselné stĺpce

Kód
df.describe()
Vek Body
count 6.00000 6.000000
mean 30.00000 84.833333
std 6.60303 11.940128
min 22.00000 66.000000
25% 25.75000 78.250000
50% 29.00000 89.000000
75% 33.75000 91.500000
max 40.00000 98.000000

Komplexný prehľad štatistík pre všetkz stĺpce

Kód
df.describe(include='all')
Meno Vek Mesto Body
count 6 6.00000 6 6.000000
unique 6 NaN 4 NaN
top Anna NaN Bratislava NaN
freq 1 NaN 2 NaN
mean NaN 30.00000 NaN 84.833333
std NaN 6.60303 NaN 11.940128
min NaN 22.00000 NaN 66.000000
25% NaN 25.75000 NaN 78.250000
50% NaN 29.00000 NaN 89.000000
75% NaN 33.75000 NaN 91.500000
max NaN 40.00000 NaN 98.000000

🧠 Zhrnutie

  • Pandas ponúka množstvo vstavaných štatistických funkcií (mean, median, std, var, min, max).
  • Funkcia describe() rýchlo poskytne súhrnné štatistiky pre všetky stĺpce.

📚 Oficiálna dokumentácia Pandas

Podrobný popis funkcií, ich parametrov a príkladov použitia nájdete v oficiálnej dokumentácii knižnice Pandas na adrese: [https://pandas.pydata.org/docs/](https://pandas.pydata.org/


🎞️ Videonávod