آموزش Pandas | تجزیه و تحلیل داده‌ها

محاسبه میانگین و میانه

در تجزیه و تحلیل داده‌ها، محاسبه میانگین و میانه از مهم‌ترین و پرکاربردترین معیارهای مرکزی هستند که به ما کمک می‌کنند مرکز توزیع داده‌ها را درک کنیم.

میانگین (Mean):
میانگین که به آن معدل نیز گفته می‌شود، با جمع کردن تمام مقادیر و تقسیم بر تعداد آن‌ها محاسبه می‌شود. در Pandas می‌توانید از تابع mean() استفاده کنید:

import pandas as pd

# ایجاد یک DataFrame نمونه
data = {'سن': [25, 30, 35, 40, 45, 50, 55, 60, 65, 200]}
df = pd.DataFrame(data)

# محاسبه میانگین سن
میانگین_سن = df['سن'].mean()
print(f"میانگین سن: {میانگین_سن}")

میانه (Median):
میانه مقدار وسطی در یک مجموعه داده مرتب‌شده است. اگر تعداد داده‌ها فرد باشد، میانه دقیقاً مقدار وسط است و اگر زوج باشد، میانگین دو مقدار وسط محاسبه می‌شود. در Pandas از تابع median() استفاده می‌کنیم:

# محاسبه میانه سن
میانه_سن = df['سن'].median()
print(f"میانه سن: {میانه_سن}")

تفاوت میانگین و میانه:

  • میانگین به مقادیر极端 (Outliers) حساس است. در مثال بالا، مقدار 200 (که احتمالاً یک خطا در داده است) میانگین را به شدت تحت تأثیر قرار داده است.
  • میانه در برابر مقادیر极端 مقاوم است و تصویر واقعی‌تری از مرکز داده‌ها ارائه می‌دهد.

محاسبه برای کل DataFrame:
شما می‌توانید میانگین و میانه را برای تمام ستون‌های عددی DataFrame محاسبه کنید:

# ایجاد DataFrame با چند ستون عددی
data = {
    'سن': [25, 30, 35, 40, 45],
    'درآمد': [50000, 60000, 70000, 80000, 90000],
    'تجربه': [2, 5, 8, 12, 15]
}
df = pd.DataFrame(data)

# محاسبه میانگین برای تمام ستون‌های عددی
میانگین_ها = df.mean()
print("میانگین‌ها:")
print(میانگین_ها)

# محاسبه میانه برای تمام ستون‌های عددی
میانه_ها = df.median()
print("\nمیانه‌ها:")
print(میانه_ها)

محاسبه برای گروه‌های مختلف:
می‌توانید میانگین و میانه را برای گروه‌های مختلف داده محاسبه کنید:

# ایجاد DataFrame با ستون گروه‌بندی
data = {
    'دپارتمان': ['فروش', 'فروش', 'مهندسی', 'مهندسی', 'مهندسی'],
    'سن': [25, 30, 35, 40, 45],
    'درآمد': [50000, 60000, 70000, 80000, 90000]
}
df = pd.DataFrame(data)

# محاسبه میانگین بر اساس دپارتمان
میانگین_گروهی = df.groupby('دپارتمان').mean()
print("میانگین بر اساس دپارتمان:")
print(میانگین_گروهی)

# محاسبه میانه بر اساس دپارتمان
میانه_گروهی = df.groupby('دپارتمان').median()
print("\nمیانه بر اساس دپارتمان:")
print(میانه_گروهی)

این محاسبات به شما کمک می‌کنند تا درک بهتری از توزیع داده‌های خود داشته باشید و تصمیمات بهتری در تحلیل داده‌ها بگیرید.

پرسش و پاسخ این درس

برای ثبت پرسش ابتدا در سایت وارد شوید.

  • 1
  • 2
  • 3