Iterar os arquivos da pasta e processá-los em scala

Question 1

Eu tenho um par de arquivos em uma pasta para os diferentes países. como abaixo

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

agora eu tenho para o processo de levar esses arquivos processá-los por país sábio e copiar as respectivas pastas. a minha estrutura de pasta de destino será como

2021-->11-->GBR

2021-->11-->ARG

Em faísca scala/scala me ajudar a escrever código para processar o arquivo de país e ir para o respectivo país de pasta.

Question 2

Parece que você está olhando para partitionBy definido no DataFrameWriter. A partir do scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partições a saída pelas colunas no arquivo de sistema. Se especificado, a saída é apresentado no sistema de arquivos semelhante ao Ramo do esquema de particionamento. Como um exemplo, quando nós partição de um conjunto de dados por ano e, em seguida, o mês, o diretório de esquema de como seria:

year=2016/month=01/
year=2016/month=02/

O particionamento é uma das técnicas mais utilizadas para otimizar física layout de dados. Ele fornece um coarse-grained índice ignorando os dados desnecessários lê quando as consultas têm predicados no particionado colunas. A fim de particionamento para funcionar bem, o número de valores distintos em cada coluna deve, normalmente, ser inferior a dezenas de milhares.

Isto é aplicável para todos os arquivos baseados em fontes de dados (e.g. em Parquet, JSON), começando com Faísca 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

Parece que você está olhando para partitionBy definido no DataFrameWriter. A partir do scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partições a saída pelas colunas no arquivo de sistema. Se especificado, a saída é apresentado no sistema de arquivos semelhante ao Ramo do esquema de particionamento. Como um exemplo, quando nós partição de um conjunto de dados por ano e, em seguida, o mês, o diretório de esquema de como seria:

year=2016/month=01/
year=2016/month=02/

O particionamento é uma das técnicas mais utilizadas para otimizar física layout de dados. Ele fornece um coarse-grained índice ignorando os dados desnecessários lê quando as consultas têm predicados no particionado colunas. A fim de particionamento para funcionar bem, o número de valores distintos em cada coluna deve, normalmente, ser inferior a dezenas de milhares.

Isto é aplicável para todos os arquivos baseados em fontes de dados (e.g. em Parquet, JSON), começando com Faísca 2.1.0.

existe uma maneira de obter como 2016/01 e foreach ajuda para iterar um por um arquivo
tenho para processar um por um arquivo no dataframe e copie no blob

Iterar os arquivos da pasta e processá-los em scala

Pergunta

Melhor resposta

Em outros idiomas

Esta página está em outros idiomas

Popular nesta categoria

Perguntas populares nesta categoria