آموزش داده کاوی با پایتون | کتابخانه‌های رایج در داده کاوی

پانداس

پانداس (Pandas) یکی از کتابخانه‌های بسیار محبوب و قدرتمند در زبان برنامه‌نویسی پایتون است که برای تجزیه و تحلیل داده‌ها و کار با داده‌های جدولی طراحی شده است. این کتابخانه به ویژه برای کار با داده‌های ساختاریافته مانند داده‌های موجود در فایل‌های CSV، دیتابیس‌ها و دیگر فرمت‌های مشابه بسیار کارآمد است. پانداس به کاربران این امکان را می‌دهد که داده‌ها را به راحتی بارگذاری، تمیز، و تحلیل کنند.

پانداس شامل دو نوع داده اصلی است: Series و DataFrame. Series یک آرایه یک بعدی است که می‌تواند شامل هر نوع داده‌ای باشد، در حالی که DataFrame یک ساختار داده دو بعدی است که مشابه جدول‌های پایگاه داده یا صفحات گسترده است. به عنوان مثال، اگر بخواهیم داده‌های مربوط به فروش یک فروشگاه را در یک DataFrame ذخیره کنیم، می‌توانیم ستون‌هایی برای نام محصول، قیمت، و تعداد فروش داشته باشیم.

مثال:

برای نصب پانداس، می‌توانید از دستور زیر استفاده کنید:

pip install pandas

سپس، برای بارگذاری داده‌ها در یک DataFrame، می‌توانید از کد زیر استفاده کنید:

import pandas as pd

# بارگذاری داده‌ها از یک فایل CSV
data = pd.read_csv('sales_data.csv')

# نمایش اولین 5 سطر از داده‌ها
print(data.head())

در این مثال، ما ابتدا کتابخانه پانداس را با نام مستعار pd وارد می‌کنیم. سپس با استفاده از تابع read_csv داده‌ها را از یک فایل CSV به نام sales_data.csv بارگذاری می‌کنیم و با استفاده از تابع head، پنج سطر اول داده‌ها را نمایش می‌دهیم. این کار به ما کمک می‌کند تا نگاهی اولیه به ساختار داده‌های خود داشته باشیم.

پرسش و پاسخ این درس

برای ثبت پرسش ابتدا در سایت وارد شوید.

  • 1
  • 2
  • 3
  • 4
  • 5