Cómo crear un DataFrame de Pandas en Python

Cómo crear un DataFrame de Pandas en Python

En el mundo de la programación de análisis de datos, Pandas es una de las bibliotecas más utilizadas en Python. Pandas es una biblioteca para manipular y analizar datos en Python que proporciona estructuras de datos de alta calidad y herramientas de análisis de datos fáciles de usar.

Una de las estructuras de datos más utilizadas en Pandas es el DataFrame. Un DataFrame es como una tabla en la que los datos se almacenan en filas y columnas.

En este artículo, exploraremos cómo crear un DataFrame en Pandas y manipular los datos en él.

📋 Aquí podrás encontrar✍
  1. Creando un DataFrame básico
  2. Manipulando un DataFrame
    1. Selección de datos
    2. Añadiendo y eliminando filas o columnas
  3. Conclusión
  4. Preguntas frecuentes
    1. ¿Puedo crear un DataFrame a partir de un conjunto de datos de archivo CSV?
    2. ¿Puedo hacer cálculos estadísticos en un DataFrame?
    3. ¿Puedo trabajar con valores faltantes en un DataFrame?
    4. ¿Cómo selecciono una subsección de filas y columnas de un DataFrame?
  5. Ejemplos de código

Creando un DataFrame básico

Para crear un DataFrame en Pandas, necesitamos importar la biblioteca Pandas y proporcionar los datos en una estructura de datos compatible como una lista o un diccionario.


import pandas as pd

#Creando un DataFrame
df = pd.DataFrame({'Nombre': ['Juan', 'Ana', 'Pedro'],
'Edad': [25, 30, 20]})
print(df)

En el ejemplo anterior, hemos creado un DataFrame con el nombre y la edad de tres personas usando un diccionario que contiene listas.

Manipulando un DataFrame

Después de crear un DataFrame, podemos manipular los datos en él. Podemos agregar, eliminar o actualizar filas o columnas, así como realizar cálculos en los datos.

Selección de datos

Podemos seleccionar una fila o una columna de un DataFrame usando los métodos loc o iloc.

- loc: selecciona las filas y columnas por nombre
- iloc: selecciona las filas y columnas por índice


#Seleccionando la fila en el índice 0 con el método loc
print(df.loc[0])

#Seleccionando la columna 'Nombre' con el método loc
print(df.loc[:, 'Nombre'])

#Seleccionando la fila en el índice 1 con el método iloc
print(df.iloc[1])

#Seleccionando la columna en el índice 1 con el método iloc
print(df.iloc[:, 1])

Añadiendo y eliminando filas o columnas

Podemos agregar o eliminar filas o columnas de un DataFrame usando los métodos insert, append o drop.

- insert: inserta una nueva columna en un DataFrame
- append: agrega una nueva fila a un DataFrame
- drop: elimina una fila o columna de un DataFrame


#Añadiendo una nueva columna al DataFrame
df.insert(2, 'Ciudad', ['Bogotá', 'Medellín', 'Cali'])
print(df)

#Agregando una nueva fila al DataFrame
nueva_fila = {'Nombre': 'Laura', 'Edad': 22, 'Ciudad': 'Bogotá'}
df = df.append(nueva_fila, ignore_index=True)
print(df)

#Eliminando la fila en el índice 2 del DataFrame
df = df.drop(2)
print(df)

#Eliminando la columna 'Ciudad' del DataFrame
df = df.drop('Ciudad', axis=1)
print(df)

Conclusión

Pandas es una biblioteca poderosa para el análisis de datos en Python que proporciona la estructura de datos del DataFrame. En este artículo, hemos aprendido cómo crear un DataFrame en Pandas y cómo manipular los datos en él.

Ahora que conoces cómo crear un DataFrame básico en Pandas, puedes aplicar esta técnica para trabajar con tus propios datos y realizar análisis avanzados.

Preguntas frecuentes

¿Puedo crear un DataFrame a partir de un conjunto de datos de archivo CSV?

Sí, Pandas tiene un método llamado read_csv que permite leer un archivo CSV y crear un DataFrame a partir de él.

¿Puedo hacer cálculos estadísticos en un DataFrame?

Sí, Pandas proporciona una amplia variedad de métodos para realizar cálculos en los datos de un DataFrame, como media, mediana, desviación estándar, etc.

¿Puedo trabajar con valores faltantes en un DataFrame?

Sí, Pandas tiene métodos que permiten manejar valores faltantes, como dropna y fillna.

¿Cómo selecciono una subsección de filas y columnas de un DataFrame?

Se puede usar el método loc o iloc para seleccionar una subsección de filas y columnas de un DataFrame, proporcionando el rango especificado de índices de filas y columnas.

Por ejemplo: df.loc[0:2, 'Nombre':'Ciudad'] seleccionaría las primeras tres filas y las columnas de Nombre a Ciudad.

Ejemplos de código

Puedes encontrar más ejemplos de código para crear DataFrames y manipular datos en la documentación de Pandas: https://pandas.pydata.org/docs/

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir