Funciones de fecha en PySpark

Funciones de fecha en PySpark

PySpark es una herramienta poderosa para el procesamiento de datos a gran escala. Si estás trabajando con fechas y necesitas hacer un análisis de datos temporal, PySpark es una excelente opción. PySpark viene con funciones integradas para trabajar con fechas, lo que te permite realizar cálculos complejos de forma sencilla. En este artículo, exploraremos algunas de las funciones de fecha de PySpark que puedes utilizar para realizar análisis de datos más robustos.

📋 Aquí podrás encontrar✍
  1. Funciones de fecha en PySpark
    1. date()
    2. year()
    3. month()
    4. dayofmonth()
    5. dayofweek()
    6. datediff()
  2. Ejemplos de código
    1. Creación de columna de fecha a partir del formato de cadena dado
    2. Seleccionar registros entre dos fechas
  3. Conclusión
  4. Preguntas frecuentes
    1. ¿Qué es PySpark?
    2. ¿Qué tipos de formatos de fecha admite PySpark?
    3. ¿Cómo extraigo el mes de una fecha en PySpark?

Funciones de fecha en PySpark

date()

El método date() se utiliza para convertir una cadena de fecha o marca temporal en una fecha. El formato de entrada debe ser 'AAAA-MM-DD', 'DD-MM-AAAA' o 'AAAA-MM-DD HH: MM: SS'.

Ejemplo:

from pyspark.sql.functions import date_format
df.select(date_format('date_time', 'yyyy-MM-dd').alias('date')).show()

El código anterior crea una columna 'date' a partir de la columna 'date_time' con la fecha en formato 'año-mes-día'.

year()

El método year() se utiliza para extraer el año de una fecha.

Ejemplo:

from pyspark.sql.functions import year
df.select(year('date_time').alias('year')).show()

El código anterior crea una columna 'year' a partir de la columna 'date_time' con el año de la fecha.

month()

El método month() se utiliza para extraer el mes de una fecha.

Ejemplo:

from pyspark.sql.functions import month
df.select(month('date_time').alias('month')).show()

El código anterior crea una columna 'month' a partir de la columna 'date_time' con el mes de la fecha.

dayofmonth()

El método dayofmonth() se utiliza para extraer el día del mes de una fecha.

Ejemplo:

from pyspark.sql.functions import dayofmonth
df.select(dayofmonth('date_time').alias('day')).show()

El código anterior crea una columna 'day' a partir de la columna 'date_time' con el día del mes de la fecha.

dayofweek()

El método dayofweek() se utiliza para extraer el día de la semana de una fecha, siendo 1 para domingo y 7 para sábado.

Ejemplo:

from pyspark.sql.functions import dayofweek
df.select(dayofweek('date_time').alias('day_of_week')).show()

El código anterior crea una columna 'day_of_week' a partir de la columna 'date_time' con el día de la semana de la fecha.

datediff()

El método datediff() se utiliza para calcular la diferencia entre dos fechas en días.

Ejemplo:

from pyspark.sql.functions import to_date, datediff
df.select(datediff(to_date('2016-04-01'), to_date('2016-03-01')).alias('diff')).show()

En el código anterior, se calcula la diferencia entre las fechas '2016-04-01' y '2016-03-01' en días.

Ejemplos de código

A continuación, se presentan algunos ejemplos de código adicionales para trabajar con fechas en PySpark.

Creación de columna de fecha a partir del formato de cadena dado

from pyspark.sql.functions import to_date
df.select(to_date(df.date_str, 'yyyy-MM-dd').alias('date')).show()

En el código anterior, se crea una nueva columna 'date' a partir de la columna 'date_str' utilizando el formato 'año-mes-día'.

Seleccionar registros entre dos fechas

df.filter((df.date > lit('2020-01-01')) & (df.date < lit('2020-12-31'))).show()

En el código anterior, se seleccionan los registros que tienen fecha entre '2020-01-01' y '2020-12-31'.

Conclusión

Utilizando las funciones de fecha de PySpark, puedes realizar análisis de datos más detallados y precisos en tus proyectos de data science. Esperamos que los ejemplos presentados en este artículo te hayan sido útiles y te permitan sacar el máximo provecho de PySpark.

Preguntas frecuentes

¿Qué es PySpark?

PySpark es una herramienta de procesamiento de datos en memoria distribuida que se utiliza para procesar big data de manera eficiente.

¿Qué tipos de formatos de fecha admite PySpark?

PySpark admite formatos de fecha estándar, como 'AAAA-MM-DD', 'DD-MM-AAAA' y 'AAAA-MM-DD HH: MM: SS'.

¿Cómo extraigo el mes de una fecha en PySpark?

Para extraer el mes de una fecha en PySpark, puedes utilizar el método month(), que es una de las funciones de fecha integradas de PySpark.
[nekopost slugs="devuelve-las-ultimas-filas-de-las-ultimas-filas-pyspark-pandas-datafra,agregar-nueva-columna-pyspark-dataframe,pyspark-posexplode-posexplode-outter,pyspark-encendido,pyspark-dropna,max-pyspark,avg-pyspark,pyspark-expr,pyspark-case-sql-cuando"]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir