Suggested Additions

1. 🛠️ Corrección del paso 2 (mediana)

Your code calculates and fills the median, but the assignment is missing. You should update this line:

analytics_data['age'].fillna(age_median) 

To:

analytics_data['age'].fillna(age_median)

So that the changes are saved.

2. 📈 Visual aid idea

You can include a small histograma of the age column before y después de rellenar los valores faltantes:

import matplotlib.pyplot as plt

analytics_data['age'].hist(bins=20)
plt.title('Distribución de edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

3. ¿Cómo eliminar duplicados?

You're detecting duplicates, but you could show how to remove them too:

# Eliminar filas duplicadas
df_students_cleaned = df_students.drop_duplicates()

And optionally:

# Eliminar filas duplicadas
print("Filas originales:", len(df_students))
print("Filas después de eliminar duplicados:", len(df_students_cleaned))

🧠 Resumen (mejorado para redes o docencia):

  • Valores faltantes → afectan la integridad.
    Usa .fillna() con la mediana para no distorsionar.

  • Filas duplicadas → inflan métricas.
    Detecta con .duplicated(), elimina con .drop_duplicates().

Reply

or to participate