آموزش تحلیل داده با پایتون | آشنایی با دادهها و بارگذاری آنها
در ابتدا، یاد میگیریم چطور دادهها را شناسایی، وارد محیط کاری کنیم و پیشنمایشی از آنها داشته باشیم.
1. آشنایی با انواع دادهها
دادهها معمولاً در یکی از فرمتهای زیر ذخیره میشوند:
- CSV (Comma Separated Values): رایجترین فرمت برای دادههای جدولی.
- Excel (فایلهای .xlsx یا .xls).
- SQL (دادههای ذخیرهشده در پایگاه داده).
- JSON (برای دادههای ساختاریافته).
برای یادگیری، از یک مجموعه داده ساده استفاده میکنیم. به عنوان مثال، از فایل CSV titanic.csv
(اطلاعات مسافران کشتی تایتانیک) استفاده خواهیم کرد. میتوانید این فایل را دانلود کنید یا از منابع آنلاین پیدا کنید. در این پروژه از لینک مستقیم زیر برای بارگیری این فایل استفاده می کنیم:
https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv
در ادامه دوره با بقیه انواع داده ها نیز کار خواهیم کرد.
برای ثبت پرسش ابتدا در سایت وارد شوید.