Eu tentei extrair tabelas de PDFs que não estão no formato adequado que eu acho. As tabelas estes PDFs tem um formato de tabela, mas não fechado corretamente com verical fronteiras. Vou anexar o pdf de exemplo e de saída com duas bibliotecas. Quando eu tentei usar o tabula para detecção de tabela, um espaço em branco datadrame é devolvido em todas as páginas em pdf.
introduza 0 para páginas únicas, de 1 para 2 para a página específica: 2 introduza o número de página: 25 não há tabelas, consultar esta página por tábua.
E quando eu uso camelot não há mesmo nenhuma resposta quando eu uso flovor='lattice'
introduza 0 para páginas únicas, 1 para todas as páginas 2 páginas, em tabelas, são detectados por tábua, 3 para páginas específicas: 3 introduza 0 para treliça ou 1 para fluxo: 0 introduza o número de página: 25 não há tabelas encontradas nesta página de camelot.
e quando eu uso flovor='stream'
, Eu recebo uma dataframe que tem cada linha de ler linha por linha separados por tabulação de dados, mas vai incluir texto normal, bem como no que dataframe.
introduza 0 para páginas únicas, 1 para todas as páginas 2 páginas, em tabelas, são detectados por tábua, 3 para páginas específicas: 3 introduza 0 para treliça ou 1 para fluxo: 1 introduza o número de página: 25
Eu só precisa de uma forma eficiente para detectar tabela e extrair os mesmos dados se vertical colocando linhas da tabela não estão presentes. Tanto tabula e camelot bibliotecas estão funcionando bem, se a tabela está no formato adequado, delimitadas por linhas verticais e horizontais.