Consulta Sql para pyspark dataframe função

Question 1

Eu quero replicar o código abaixo usando pyspark DataFrame funções, em vez de consulta SQL.

spark.sql("select date from walmart_stock order by high desc limit 1").show()

Link do conjunto de dados

Question 2

Aqui está o código, se você iniciar a partir da vinculado arquivo CSV. Você deve reconhecer as funções SQL. Observe que usamos o inferSchema opção a fim de analisar diretamente os números em duplas e obter a ordenação correta (ele não funcionar conforme o esperado com o padrão de tipo de seqüência de caracteres). Outra forma seria a de lançar a coluna, depois de ler o CSV.

spark.read
    .option("header", "true")
    .option("inferSchema", "true")
    .csv("walmart_stock.csv")
    .orderBy(f.col("High"), desc=True)
    .limit(1)
    .select("Date")
    .show()

o que produz

+----------+
|      Date|
+----------+
|2015-11-13|
+----------+

Oli · Answer 1 · 2021-11-23T14:21:37

Aqui está o código, se você iniciar a partir da vinculado arquivo CSV. Você deve reconhecer as funções SQL. Observe que usamos o inferSchema opção a fim de analisar diretamente os números em duplas e obter a ordenação correta (ele não funcionar conforme o esperado com o padrão de tipo de seqüência de caracteres). Outra forma seria a de lançar a coluna, depois de ler o CSV.

spark.read
    .option("header", "true")
    .option("inferSchema", "true")
    .csv("walmart_stock.csv")
    .orderBy(f.col("High"), desc=True)
    .limit(1)
    .select("Date")
    .show()

o que produz

+----------+
|      Date|
+----------+
|2015-11-13|
+----------+

Eu criei uma tabela chamada walmart_stock e trabalhar com ele. Sim, a partir de seu código que eu tenho a minha resposta. Obrigado.

Consulta Sql para pyspark dataframe função

Pergunta

Melhor resposta

Em outros idiomas

Esta página está em outros idiomas

Popular nesta categoria

Perguntas populares nesta categoria