Eu quero replicar o código abaixo usando pyspark DataFrame funções, em vez de consulta SQL.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Eu quero replicar o código abaixo usando pyspark DataFrame funções, em vez de consulta SQL.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Aqui está o código, se você iniciar a partir da vinculado arquivo CSV. Você deve reconhecer as funções SQL. Observe que usamos o inferSchema
opção a fim de analisar diretamente os números em duplas e obter a ordenação correta (ele não funcionar conforme o esperado com o padrão de tipo de seqüência de caracteres). Outra forma seria a de lançar a coluna, depois de ler o CSV.
spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("walmart_stock.csv")
.orderBy(f.col("High"), desc=True)
.limit(1)
.select("Date")
.show()
o que produz
+----------+
| Date|
+----------+
|2015-11-13|
+----------+