آموزش Pandas | پاکسازی داده‌ها

شناسایی داده‌های گمشده

داده‌های گمشده (Missing Data) به مقادیری گفته می‌شود که در مجموعه داده‌ها وجود ندارند. در Pandas، این مقادیر معمولاً به صورت NaN (Not a Number) یا None نمایش داده می‌شوند.

برای شناسایی داده‌های گمشده در DataFrame می‌توان از چند روش استفاده کرد:

۱. استفاده از تابع isnull():
این تابع برای هر سلول در DataFrame یک مقدار布尔 (True/False) برمی‌گرداند که نشان می‌دهد آیا آن سلول حاوی داده‌ی گمشده است یا خیر.

import pandas as pd
import numpy as np

# ایجاد یک DataFrame نمونه با داده‌های گمشده
data = {
    'نام': ['علی', 'رضا', np.nan, 'سارا'],
    'سن': [25, np.nan, 30, 22],
    'شهر': ['تهران', 'مشهد', 'اصفهان', np.nan]
}

df = pd.DataFrame(data)

# شناسایی داده‌های گمشده
مقادیر_گمشده = df.isnull()
print(مقادیر_گمشده)

۲. استفاده از تابع isna():
این تابع عملکردی مشابه isnull() دارد و همان خروجی را تولید می‌کند.

مقادیر_گمشده = df.isna()
print(مقادیر_گمشده)

۳. شمارش داده‌های گمشده در هر ستون:
برای دریافت تعداد داده‌های گمشده در هر ستون می‌توان از ترکیب isnull() و sum() استفاده کرد:

تعداد_داده_های_گمشده = df.isnull().sum()
print(تعداد_داده_های_گمشده)

۴. محاسبه درصد داده‌های گمشده:
برای درک بهتر میزان داده‌های گمشده، محاسبه درصد آن‌ها مفید است:

درصد_داده_های_گمشده = (df.isnull().sum() / len(df)) * 100
print(درصد_داده_های_گمشده)

۵. استفاده از تابع info():
این تابع اطلاعات کلی درباره DataFrame نمایش می‌دهد و تعداد داده‌های غیر-تهی (non-null) را نشان می‌دهد:

df.info()

۶. شناسایی داده‌های گمشده در ستون‌های خاص:
اگر فقط می‌خواهید داده‌های گمشده در ستون‌های خاصی را بررسی کنید:

داده_های_گمشده_ستون_سن = df['سن'].isnull().sum()
print(f"تعداد داده‌های گمشده در ستون سن: {داده_های_گمشده_ستون_سن}")

شناسایی دقیق داده‌های گمشده اولین و مهم‌ترین قدم در فرآیند پاکسازی داده‌ها است، زیرا به شما کمک می‌کند تصمیم بگیرید که چگونه با این داده‌ها برخورد کنید.

پرسش و پاسخ این درس

برای ثبت پرسش ابتدا در سایت وارد شوید.

  • 1
  • 2
  • 3