data-engineer-handbook/data_cleaning.md at main · DataExpert-io-Community/data-engineer-handbook

Data Cleaning Best Practices

import pandas as pd

df = pd.read_csv("data.csv")

df = df.drop_duplicates() df.columns = [c.lower().replace(" ", "_") for c in df.columns]

num_cols = df.select_dtypes(include="number").columns df[num_cols] = df[num_cols].fillna(df[num_cols].median())

if "date" in df.columns: df["date"] = pd.to_datetime(df["date"])