آموزش Pandas | تجزیه و تحلیل دادهها
خطای دسترسی
برای ثبت پاسخ، ابتدا باید در سایت وارد شوید.
محاسبه میانگین و میانه
در تجزیه و تحلیل دادهها، محاسبه میانگین و میانه از مهمترین و پرکاربردترین معیارهای مرکزی هستند که به ما کمک میکنند مرکز توزیع دادهها را درک کنیم.
میانگین (Mean):
میانگین که به آن معدل نیز گفته میشود، با جمع کردن تمام مقادیر و تقسیم بر تعداد آنها محاسبه میشود. در Pandas میتوانید از تابع mean() استفاده کنید:
import pandas as pd
# ایجاد یک DataFrame نمونه
data = {'سن': [25, 30, 35, 40, 45, 50, 55, 60, 65, 200]}
df = pd.DataFrame(data)
# محاسبه میانگین سن
میانگین_سن = df['سن'].mean()
print(f"میانگین سن: {میانگین_سن}")
میانه (Median):
میانه مقدار وسطی در یک مجموعه داده مرتبشده است. اگر تعداد دادهها فرد باشد، میانه دقیقاً مقدار وسط است و اگر زوج باشد، میانگین دو مقدار وسط محاسبه میشود. در Pandas از تابع median() استفاده میکنیم:
# محاسبه میانه سن
میانه_سن = df['سن'].median()
print(f"میانه سن: {میانه_سن}")
تفاوت میانگین و میانه:
- میانگین به مقادیر极端 (Outliers) حساس است. در مثال بالا، مقدار 200 (که احتمالاً یک خطا در داده است) میانگین را به شدت تحت تأثیر قرار داده است.
- میانه در برابر مقادیر极端 مقاوم است و تصویر واقعیتری از مرکز دادهها ارائه میدهد.
محاسبه برای کل DataFrame:
شما میتوانید میانگین و میانه را برای تمام ستونهای عددی DataFrame محاسبه کنید:
# ایجاد DataFrame با چند ستون عددی
data = {
'سن': [25, 30, 35, 40, 45],
'درآمد': [50000, 60000, 70000, 80000, 90000],
'تجربه': [2, 5, 8, 12, 15]
}
df = pd.DataFrame(data)
# محاسبه میانگین برای تمام ستونهای عددی
میانگین_ها = df.mean()
print("میانگینها:")
print(میانگین_ها)
# محاسبه میانه برای تمام ستونهای عددی
میانه_ها = df.median()
print("\nمیانهها:")
print(میانه_ها)
محاسبه برای گروههای مختلف:
میتوانید میانگین و میانه را برای گروههای مختلف داده محاسبه کنید:
# ایجاد DataFrame با ستون گروهبندی
data = {
'دپارتمان': ['فروش', 'فروش', 'مهندسی', 'مهندسی', 'مهندسی'],
'سن': [25, 30, 35, 40, 45],
'درآمد': [50000, 60000, 70000, 80000, 90000]
}
df = pd.DataFrame(data)
# محاسبه میانگین بر اساس دپارتمان
میانگین_گروهی = df.groupby('دپارتمان').mean()
print("میانگین بر اساس دپارتمان:")
print(میانگین_گروهی)
# محاسبه میانه بر اساس دپارتمان
میانه_گروهی = df.groupby('دپارتمان').median()
print("\nمیانه بر اساس دپارتمان:")
print(میانه_گروهی)
این محاسبات به شما کمک میکنند تا درک بهتری از توزیع دادههای خود داشته باشید و تصمیمات بهتری در تحلیل دادهها بگیرید.
برای ثبت پرسش ابتدا در سایت وارد شوید.