Eu estou tentando ler um pequeno arquivo txt que é adicionado como uma tabela para o padrão de banco de dados em Databricks. Ao tentar ler o arquivo via API de Arquivo, recebo um FileNotFoundError
, mas eu sou capaz de ler o mesmo arquivo como Faísca RDD usando SparkContext.
Por favor, encontrar o código abaixo:
with open("/FileStore/tables/boringwords.txt", "r") as f_read:
for line in f_read:
print(line)
Isto dá-me o erro:
FileNotFoundError Traceback (most recent call last)
<command-2618449717515592> in <module>
----> 1 with open("dbfs:/FileStore/tables/boringwords.txt", "r") as f_read:
2 for line in f_read:
3 print(line)
FileNotFoundError: [Errno 2] No such file or directory: 'dbfs:/FileStore/tables/boringwords.txt'
Onde, como, eu não tenho nenhum problema de leitura do arquivo usando SparkContext:
boring_words = sc.textFile("/FileStore/tables/boringwords.txt")
set(i.strip() for i in boring_words.collect())
E, como esperado, eu obter o resultado acima, o bloco de código:
Out[4]: {'mad',
'mobile',
'filename',
'circle',
'cookies',
'immigration',
'anticipated',
'editorials',
'review'}
Eu também estava se referindo a DBFS documentação aqui para entender o Local do Arquivo API limitações, mas não têm qualquer vantagem sobre o problema. Qualquer ajuda seria muito apreciada. Obrigado!