Diferentes maneras de crear un DataFrame en PySpark

En este artículo, aprenderás diferentes formas de crear DataFrames en PySpark. Un DataFrame es una estructura de datos similar a una tabla en una base de datos relacional. Un DataFrame se puede crear a partir de diferentes orígenes como CSV, DataFrames existentes, RDD, etc.

📋 Aquí podrás encontrar✍

Crear un DataFrame desde un archivo CSV
Crear un DataFrame a partir de otro DataFrame
Crear un DataFrame a partir de RDD
Conclusión
Preguntas frecuentes
Ejemplos de codigos o comandos

Crear un DataFrame desde un archivo CSV

CSV (Comma Separated Values) es un formato de archivo comúnmente utilizado para intercambiar datos entre aplicaciones. Usando PySpark podemos crear un DataFrame a partir de un archivo CSV fácilmente.

Para hacer esto, primero importa la biblioteca de PySpark y crea una sesión. A continuación, utiliza la función "read.csv()" para leer el archivo CSV y almacenarlo en un DataFrame. Aquí está el código:

from pyspark.sql import SparkSession

# crea la sesión
spark = SparkSession.builder.appName("CrearDataFrameDeCSV").getOrCreate()

# crea el DataFrame desde archivo csv
df = spark.read.csv("archivo.csv", header=True, inferSchema=True)

En este código, "header=True" se utiliza para utilizar la primera línea del archivo como nombres de columnas y "inferSchema=True" se utiliza para inferir el tipo de datos de cada columna.

Crear un DataFrame a partir de otro DataFrame

A veces, es posible que necesites crear un nuevo DataFrame a partir de uno existente. PySpark proporciona varias funciones para hacer esto.

Por ejemplo, supongamos que tienes un DataFrame llamado "df1" y desea crear un nuevo DataFrame que contenga solo las filas con un valor específico en alguna columna. Aquí está el código que se puede utilizar:

# crea el nuevo DataFrame a partir de df1
df2 = df1.filter(df1.columna==valor)

Además, puedes combinar varios DataFrames en uno solo utilizando la función "union()":

# combina los DataFrames df1 y df2 en uno solo
df3 = df1.union(df2)

Crear un DataFrame a partir de RDD

RDD (Resilient Distributed Datasets) es una estructura de datos fundamental en PySpark. Puedes crear un DataFrame a partir de RDD utilizando la función "toDF()". Aquí está el código:

# crea un RDD
rdd = spark.sparkContext.parallelize([(1, "uno"), (2, "dos"), (3, "tres")])

# crea el DataFrame a partir de RDD
df = rdd.toDF(["columna1", "columna2"])

En este código, "parallelize()" se utiliza para crear un RDD y "toDF()" se utiliza para convertirlo en un DataFrame. El argumento "names" de "toDF()" se utiliza para especificar los nombres de las columnas.

Conclusión

En este artículo, has aprendido diferentes maneras de crear DataFrames en PySpark. Puedes crear un DataFrame a partir de un archivo CSV, a partir de otro DataFrame o a partir de un RDD. Utiliza estas técnicas para manipular y transformar datos en PySpark.

No dudes en explorar otras funciones y opciones que PySpark tiene para ofrecer en la creación de DataFrames. ¡Buena suerte!

Preguntas frecuentes

¿Qué es un DataFrame?

Un DataFrame en PySpark es una estructura de datos similar a una tabla en una base de datos relacional.

¿Cómo puedo crear un DataFrame a partir de un archivo CSV?

Para crear un DataFrame a partir de un archivo CSV, utiliza la función "read.csv()" que se proporciona en PySpark.

¿Cómo puedo crear un nuevo DataFrame a partir de otro DataFrame existente?

Para crear un nuevo DataFrame a partir de otro DataFrame existente, utiliza funciones como "filter()" o "union()".

¿Cómo puedo crear un DataFrame a partir de RDD?

Puedes crear un DataFrame a partir de RDD utilizando la función "toDF()". El argumento "names" se utiliza para especificar los nombres de las columnas.

Ejemplos de codigos o comandos

# crea la sesión 
spark = SparkSession.builder.appName("CrearDataFrameDeCSV").getOrCreate()

# crea el DataFrame desde archivo csv 
df = spark.read.csv("archivo.csv", header=True, inferSchema=True)

# crea el nuevo DataFrame a partir de df1 
df2 = df1.filter(df1.columna==valor)

# combina los DataFrames df1 y df2 en uno solo 
df3 = df1.union(df2)

# crea un RDD 
rdd = spark.sparkContext.parallelize([(1, "uno"), (2, "dos"), (3, "tres")])

# crea el DataFrame a partir de RDD 
df = rdd.toDF(["columna1", "columna2"])