Iterar os arquivos da pasta e processá-los em scala

0

Pergunta

Eu tenho um par de arquivos em uma pasta para os diferentes países. como abaixo

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

agora eu tenho para o processo de levar esses arquivos processá-los por país sábio e copiar as respectivas pastas. a minha estrutura de pasta de destino será como

2021-->11-->GBR

2021-->11-->ARG

Em faísca scala/scala me ajudar a escrever código para processar o arquivo de país e ir para o respectivo país de pasta.

apache-spark scala
2021-11-24 06:42:17
1

Melhor resposta

0

Parece que você está olhando para partitionBy definido no DataFrameWriter. A partir do scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partições a saída pelas colunas no arquivo de sistema. Se especificado, a saída é apresentado no sistema de arquivos semelhante ao Ramo do esquema de particionamento. Como um exemplo, quando nós partição de um conjunto de dados por ano e, em seguida, o mês, o diretório de esquema de como seria:

year=2016/month=01/
year=2016/month=02/

O particionamento é uma das técnicas mais utilizadas para otimizar física layout de dados. Ele fornece um coarse-grained índice ignorando os dados desnecessários lê quando as consultas têm predicados no particionado colunas. A fim de particionamento para funcionar bem, o número de valores distintos em cada coluna deve, normalmente, ser inferior a dezenas de milhares.

Isto é aplicável para todos os arquivos baseados em fontes de dados (e.g. em Parquet, JSON), começando com Faísca 2.1.0.

2021-11-24 08:25:52

existe uma maneira de obter como 2016/01 e foreach ajuda para iterar um por um arquivo
Krishna Murthy

tenho para processar um por um arquivo no dataframe e copie no blob
Krishna Murthy

Em outros idiomas

Esta página está em outros idiomas

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................