Cómo eliminar filas duplicadas en Pandas Python

Pandas es una biblioteca de Python utilizada para el análisis y manipulación de datos. Al trabajar con conjuntos de datos grandes, es común que se presenten valores duplicados en una o varias filas. Por suerte, Pandas ofrece una manera sencilla de eliminar filas duplicadas. En este artículo, aprenderás cómo hacerlo.

📋 Aquí podrás encontrar✍

Requisitos previos
Cómo eliminar filas duplicadas en Pandas Python
Ejemplo completo
Conclusión
Preguntas frecuentes
Sección de ejemplos

Requisitos previos

Para poder seguir las instrucciones de este artículo necesitarás tener instalado Python y la biblioteca Pandas. Si no los tienes instalados, por favor consulta la documentación oficial de estos programas para más información.

Cómo eliminar filas duplicadas en Pandas Python

Paso 1: Carga del archivo de datos

El primer paso que debemos seguir es cargar el archivo de datos en el programa. Esto se puede hacer utilizando la función read_csv de Pandas.

Por ejemplo:

import pandas as pd
df = pd.read_csv('datos.csv')

Donde 'datos.csv' es el nombre del archivo de datos que deseas cargar.

Paso 2: Identificar filas duplicadas

Una vez que hemos cargado el archivo de datos en Pandas, debemos identificar las filas duplicadas. Para ello, podemos utilizar la función duplicated.

Por ejemplo:

df.duplicated()

Esta función devuelve una lista de valores booleanos, donde True indica que la fila correspondiente es un duplicado y False indica que no lo es.

Paso 3: Eliminar las filas duplicadas

Finalmente, podemos eliminar las filas duplicadas utilizando la función drop_duplicates.

Por ejemplo:

df.drop_duplicates(inplace=True)

Donde inplace=True indica que los cambios se realizarán directamente en el DataFrame original.

Ejemplo completo

Aquí te dejamos un ejemplo completo de cómo eliminar filas duplicadas en Pandas Python.

import pandas as pd
df = pd.read_csv('datos.csv')
df.drop_duplicates(inplace=True)
print(df)

Conclusión

En este artículo has aprendido a eliminar filas duplicadas en Pandas Python utilizando las funciones duplicated y drop_duplicates. Esperamos que esta información te haya sido de ayuda en tu trabajo con datos y te invitamos a seguir explorando las muchas posibilidades que ofrece Pandas.

Preguntas frecuentes

¿Puedo eliminar solo las filas duplicadas en una columna específica?

Sí, puedes utilizar la función drop_duplicates especificando el nombre de la columna en la que deseas buscar duplicados.

df.drop_duplicates(subset='nombre_de_la_columna', inplace=True)

¿Puedo eliminar las filas duplicadas basándome en un conjunto de columnas?

Sí, puedes utilizar la función drop_duplicates para buscar duplicados en más de una columna.

df.drop_duplicates(subset=['columna_1', 'columna_2'], inplace=True)

¿Puedo eliminar las filas duplicadas y mantener solo una de ellas?

Sí, puedes utilizar la función drop_duplicates con el parámetro keep para especificar cuál de las filas duplicadas deben mantenerse.

df.drop_duplicates(keep='first', inplace=True)

¿Puedo eliminar las filas duplicadas y mantener solo la última de ellas?

Sí, puedes utilizar la función drop_duplicates con el parámetro keep para especificar cuál de las filas duplicadas deben mantenerse.

df.drop_duplicates(keep='last', inplace=True)

¿Cómo puedo saber cuántas filas duplicadas hay en mi conjunto de datos?

Puedes utilizar la función sum para contar el número de valores True en la lista generada por la función duplicated.

print(df.duplicated().sum())

Sección de ejemplos

Aquí te dejamos un ejemplo de código que te puede ayudar a entender cómo eliminar filas duplicadas en Pandas Python:

import pandas as pd
data = {'Nombre':['Pedro', 'Juan', 'Maria', 'Maria'], 'Edad':[25, 30, 28, 28]}
df = pd.DataFrame(data)
print(df)
df.drop_duplicates(inplace=True)
print(df)

En este ejemplo se utiliza un diccionario para crear un DataFrame con dos columnas: 'Nombre' y 'Edad'. Luego se utilizan las funciones drop_duplicates e inplace para eliminar las filas duplicadas y guardar los cambios en el DataFrame original.