آموزش Pandas | پاکسازی دادهها
خطای دسترسی
برای ثبت پاسخ، ابتدا باید در سایت وارد شوید.
شناسایی دادههای گمشده
دادههای گمشده (Missing Data) به مقادیری گفته میشود که در مجموعه دادهها وجود ندارند. در Pandas، این مقادیر معمولاً به صورت NaN (Not a Number) یا None نمایش داده میشوند.
برای شناسایی دادههای گمشده در DataFrame میتوان از چند روش استفاده کرد:
۱. استفاده از تابع isnull():
این تابع برای هر سلول در DataFrame یک مقدار布尔 (True/False) برمیگرداند که نشان میدهد آیا آن سلول حاوی دادهی گمشده است یا خیر.
import pandas as pd
import numpy as np
# ایجاد یک DataFrame نمونه با دادههای گمشده
data = {
'نام': ['علی', 'رضا', np.nan, 'سارا'],
'سن': [25, np.nan, 30, 22],
'شهر': ['تهران', 'مشهد', 'اصفهان', np.nan]
}
df = pd.DataFrame(data)
# شناسایی دادههای گمشده
مقادیر_گمشده = df.isnull()
print(مقادیر_گمشده)
۲. استفاده از تابع isna():
این تابع عملکردی مشابه isnull() دارد و همان خروجی را تولید میکند.
مقادیر_گمشده = df.isna()
print(مقادیر_گمشده)
۳. شمارش دادههای گمشده در هر ستون:
برای دریافت تعداد دادههای گمشده در هر ستون میتوان از ترکیب isnull() و sum() استفاده کرد:
تعداد_داده_های_گمشده = df.isnull().sum()
print(تعداد_داده_های_گمشده)
۴. محاسبه درصد دادههای گمشده:
برای درک بهتر میزان دادههای گمشده، محاسبه درصد آنها مفید است:
درصد_داده_های_گمشده = (df.isnull().sum() / len(df)) * 100
print(درصد_داده_های_گمشده)
۵. استفاده از تابع info():
این تابع اطلاعات کلی درباره DataFrame نمایش میدهد و تعداد دادههای غیر-تهی (non-null) را نشان میدهد:
df.info()
۶. شناسایی دادههای گمشده در ستونهای خاص:
اگر فقط میخواهید دادههای گمشده در ستونهای خاصی را بررسی کنید:
داده_های_گمشده_ستون_سن = df['سن'].isnull().sum()
print(f"تعداد دادههای گمشده در ستون سن: {داده_های_گمشده_ستون_سن}")
شناسایی دقیق دادههای گمشده اولین و مهمترین قدم در فرآیند پاکسازی دادهها است، زیرا به شما کمک میکند تصمیم بگیرید که چگونه با این دادهها برخورد کنید.
برای ثبت پرسش ابتدا در سایت وارد شوید.