Mostrando las filas superiores de un DataFrame PySpark

En el procesamiento de datos con PySpark, es común trabajar con DataFrame, una estructura de datos que se asemeja a una tabla en una base de datos relacional. Una tarea común al manipular DataFrame es mostrar las filas superiores para examinar y verificar el conjunto de datos. Aquí te mostraremos cómo hacerlo.
Mostrando las filas superiores de PySpark DataFrame
Para mostrar las filas superiores de un DataFrame PySpark, puedes utilizar los siguientes métodos:
método show()
El método show () es uno de los métodos más comunes para mostrar las filas superiores de un DataFrame PySpark. Este método muestra las primeras n filas del DataFrame, siendo 'n' el número predeterminado de filas que se muestran.
Para usar el método show (), es necesario seguir los siguientes pasos:
- Crear el DataFrame PySpark
- Llamar al método show ()
Ejemplo de uso del método show():
df.show(10)
Este ejemplo mostrará las primeras 10 filas del DataFrame 'df'.
método head()
El método head() es similar al método show() por su función de mostrar las primeras filas del DataFrame, pero con la diferencia de que head() muestra las primeras filas en forma de lista.
Para usar el método head (), es necesario seguir los siguientes pasos:
- Crear el DataFrame PySpark
- Llamar al método head ()
Ejemplo de uso del método head():
df.head(10)
Este ejemplo mostrará las primeras 10 filas del DataFrame 'df' en forma de lista.
método take()
El método take() muestra las primeras n filas del DataFrame en una lista, al igual que el método head(). Pero take() tiene otra funcionalidad, permite la selección de las columnas que se desean mostrar en la lista.
Para usar el método take(), es necesario seguir los siguientes pasos:
- Crear el DataFrame PySpark
- Llamar al método take() con el número de filas deseadas y la selección de columnas (opcional)
Ejemplo de uso del método take():
df.take(10)
Este ejemplo mostrará las primeras 10 filas del DataFrame 'df' en forma de lista. En el caso que se quieran seleccionar las columnas 'col1' y 'col2', se utilizaría el siguiente código:
df.take(10)[['col1', 'col2']]
Ejemplo de uso de los métodos show() y head()
Supongamos que tenemos un archivo.csv que contiene información sobre los registros de ventas. La información contiene los siguientes campos: 'id_venta', 'producto', 'fecha', 'cantidad', 'monto'. Para leer este archivo en PySpark y mostrar las primeras filas del DataFrame, haríamos lo siguiente:
from pyspark.sql.functions import *
from pyspark.sql.types import *
df = spark.read.csv('ruta/archivo.csv', header=True, inferSchema=True)
df.show(10)
df.head(5)
Este ejemplo mostrará las primeras 10 filas del DataFrame 'df' con el método show (), y las primeras 5 filas en forma de lista con el método head().
Conclusión
La tarea de mostrar las filas superiores de un DataFrame PySpark se puede lograr fácilmente utilizando los métodos show(), head() y take(). Cada método tiene sus propias características y usos, y se deben usar según sea necesario. Esperamos que este tutorial haya sido beneficioso para usted.
Preguntas frecuentes
¿Puedo cambiar el número de filas que muestra el método show()?
Sí, puede hacerlo pasando el número de filas requerido como argumento del método show (). Ejemplo: df.show(20) mostrará las primeras 20 filas del DataFrame en lugar de las predeterminadas.
¿Cómo puedo seleccionar columnas específicas para mostrar con el método take()?
Puede hacerlo pasando los nombres de las columnas que desea seleccionar como una lista dentro del método take(). Ejemplo: df.take(10)[['col1', 'col2']] seleccionará las primeras 10 filas de las columnas 'col1' y 'col2' y las devolverá como una lista.
¿Puedo mostrar las filas superiores de un DataFrame sin encabezado?
Sí, puede hacerlo desactivando el argumento "header" en el método csv al leer el archivo. Ejemplo: df = spark.read.csv('ruta/archivo.csv', header=False, inferSchema=True) leerá el archivo CSV sin encabezado y lo almacenará en la variable 'df'.
[nekopost slugs="pyspark-union-y-unionall,pyspark-sql-se-une,metodo-de-recoleccion-pyspark,la-matriz-de-pyspark-contiene,pyspark-array-union-array-intersect-matray-excepto,pyspark-distinto,pyspark-desc-nulls-first-desc-nulls-last,pyspark-posexplode-posexplode-outter,max-pyspark"]

Deja una respuesta