Pandas drop na

Pandas drop na

Pandas es una biblioteca de Python para el análisis de datos que permite manipular grandes conjuntos de datos de manera eficiente. Una de las funciones más utilizadas en Pandas es dropna(), que permite eliminar filas o columnas que contienen datos ausentes o NaN (valores no numéricos).

En este artículo, exploraremos la función dropna() de Pandas y cómo se puede usar para limpiar y preprocesar datos antes de su análisis. Discutiremos cómo funciona la función y cómo se puede personalizar para eliminar filas o columnas basadas en diferentes criterios.

📋 Aquí podrás encontrar✍
  1. ¿Qué es dropna()?
    1. Eliminar filas con dropna()
    2. Eliminar columnas con dropna()
    3. Personalizar la eliminación de filas o columnas con dropna()
  2. Ejemplos de código
    1. Ejemplo 1: Eliminar filas con NaN
    2. Ejemplo 2: Eliminar columnas con NaN
    3. Ejemplo 3: Personalizar la eliminación de filas o columnas con dropna()
  3. Conclusión
  4. Preguntas frecuentes
    1. ¿Es posible eliminar solo las filas que contienen NaN en todas las columnas?
    2. ¿Qué es el argumento thresh de dropna()?

¿Qué es dropna()?

La función dropna() de Pandas permite eliminar filas o columnas que contengan valores ausentes. Un valor ausente puede ser NaN o NaT (no es un momento). Por defecto, dropna() elimina cualquier fila que contenga valores ausentes. Sin embargo, es posible eliminar columnas o seleccionar filas específicas para eliminar.

Eliminar filas con dropna()

El uso básico de dropna() consiste en eliminar todas las filas que contengan valores ausentes. Por ejemplo, consideremos el siguiente DataFrame:


import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, np.nan], 'C': [6, 7, 8]})

Podemos utilizar la función dropna() para eliminar cualquier fila que contenga un valor NaN:


df.dropna()

Esto dejará solo la última fila del DataFrame. Nota que en este caso Pandas elimina cualquier fila que contenga valores ausentes. Si queremos eliminar solo aquellas filas que contengan valores ausentes en una sola columna específica, podemos usar el argumento subset:


df.dropna(subset=['B'])

Esto eliminará todas las filas que contengan un valor NaN en la columna 'B'.

Eliminar columnas con dropna()

Para eliminar columnas que contengan valores ausentes, podemos establecer el valor de axis a 1:


df.dropna(axis=1)

Esto eliminará la columna 'C' del DataFrame ya que es la única columna que contiene un valor NaN.

Personalizar la eliminación de filas o columnas con dropna()

Existen varios argumentos que se pueden usar para personalizar la eliminación de filas o columnas con dropna(). Algunos de los más importantes son:

- thresh: define el número mínimo de valores no nulos que se requieren para que una fila o columna se mantenga.
- how: especifica si eliminar filas o columnas que contengan valores NaN. Puede tener los valores "any" (eliminar si cualquier valor es NaN) o "all" (eliminar solo si todos los valores son NaN).
- subset: permite especificar una lista de columnas para buscar valores NaN.

Ejemplos de código

Para ilustrar la función dropna() de Pandas, a continuación se muestran algunos ejemplos de código:

Ejemplo 1: Eliminar filas con NaN


import pandas as pd
import numpy as np

# Crear DataFrame
df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, np.nan], 'C': [6, 7, 8]})

# Eliminar filas con NaN
df.dropna()

Ejemplo 2: Eliminar columnas con NaN


import pandas as pd
import numpy as np

# Crear DataFrame
df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, np.nan], 'C': [6, 7, 8]})

# Eliminar columnas con NaN
df.dropna(axis=1)

Ejemplo 3: Personalizar la eliminación de filas o columnas con dropna()


import pandas as pd
import numpy as np

# Crear DataFrame
df = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, 5, np.nan], 'C': [6, 7, 8]})

# Eliminar filas que tengan al menos 2 valores NaN
df.dropna(thresh=2)

# Eliminar filas que tengan NaN en la columna 'B'
df.dropna(subset=['B'])

# Eliminar filas que contengan valores NaN en cualquier columna
df.dropna(how='any')

# Eliminar filas que contengan valores NaN en todas las columnas
df.dropna(how='all')

Conclusión

La función dropna() de Pandas es una herramienta muy útil para limpiar y preprocesar datos antes de su análisis. Permite eliminar filas o columnas que contienen valores ausentes, que pueden distorsionar los resultados o generar errores. Es importante tener en cuenta los diferentes argumentos que se pueden utilizar para personalizar la eliminación de filas o columnas, según las necesidades específicas del análisis.

Preguntas frecuentes

¿Es posible eliminar solo las filas que contienen NaN en todas las columnas?

Sí, es posible. Simplemente debes establecer el valor del argumento 'how' a 'all':


df.dropna(how='all')

¿Qué es el argumento thresh de dropna()?

El argumento thresh de dropna() permite establecer el número mínimo de valores no nulos que deben existir en una fila o columna para que se mantenga. Por ejemplo, si estableces thresh=2, Pandas solo eliminará aquellas filas o columnas que contengan menos de 2 valores no nulos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir