É possível substituir o valor de uma célula em um arquivo csv usando o grep,sed, ou ambos

Question 1

Eu tenho escrito o seguinte comando

#!/bin/bash
awk -v value=$newvalue -v row=$rownum -v col=1 'BEGIN{FS=OFS=","} NR==row {$col=value}1' "${file}".csv >> temp.csv && mv temp.csv "${file}".csv

Exemplo de Entrada de arquivo.csv

Header,1
Field1,Field2,Field3
1,ABC,4567
2,XYZ,7890

Assuiming $newvalue=3 ,$rownum=4 e col=1, então o código acima irá substituir:

Saída Necessária

Header,1
Field1,Field2,Field3
1,ABC,4567
3,XYZ,7890

Então, se eu sei que a linha e a coluna, é possível substituir o dito valor usando o grep, sed?

Edit1: Campo3 sempre vai ter um valor único para as suas respectivas linhas. ( no caso de que a informação ajuda de qualquer maneira)

Question 2

Assumindo que o seu arquivo CSV é tão simples como o que se mostra (sem vírgulas em campos entre aspas), e seu newvalue não contém caracteres que sed iria interpretar de uma forma especial (por exemplo, o " e " comercial, barras ou barras invertidas), o seguinte deve funcionar com apenas sed (testado com o GNU sed):

sed -Ei "$rownum s/[^,]*/$newvalue/$col" file.csv

Demonstração:

$ cat file.csv
Header,1
Field1,Field2,Field3
1,ABC,4567
3,XYZ,7890
$ rownum=3
$ col=2
$ newvalue="NEW"
$ sed -Ei "$rownum s/[^,]*/$newvalue/$col" file.csv
$ cat file.csv
Header,1
Field1,Field2,Field3
1,NEW,4567
3,XYZ,7890

Explicações: $rownum é usado como o endereço (aqui o número da linha), onde aplicar o comando a seguir. s é o sed comando substituir. [^,]* é a expressão regular para procurar e substituir: a maior string que não contém uma vírgula. $newvalue é a seqüência de caracteres de substituição. $col é a ocorrência de substituir.

Se newvalue pode conter " e " comercial, barras ou barras invertidas devemos higienizar-lo primeiro:

sanitizednewvalue=$(sed -E 's/([/\&])/\\\1/g' <<< "$newvalue")
sed -Ei "$rownum s/[^,]*/$sanitizednewvalue/$col" file.csv

Demonstração:

$ newvalue='NEW&\/&NEW'
$ sanitizednewvalue=$(sed -E 's/([/\&])/\\\1/g' <<< "$newvalue")
$ echo "$sanitizednewvalue"
NEW\&\\\/\&NEW
$ sed -Ei "$rownum s/[^,]*/$sanitizednewvalue/$col" file.csv
$ cat file.csv
Header,1
Field1,Field2,Field3
1,NEW&\/&NEW,4567
3,XYZ,7890

Question 3

Com sed, como sobre:

#!/bin/bash

newvalue=3
rownum=4
col=1

sed -i -E "${rownum} s/(([^,]+,){$((col-1))})[^,]+/\\1${newvalue}/" file.csv

Resultado file.csv

Header,1
Field1,Field2,Field3
1,ABC,4567
3,XYZ,7890

${rownum} corresponde ao número da linha.
(([^,]+,){n}) corresponde a n-tempo de repetição do grupo de não-vírgula caracteres seguido por uma vírgula. Em seguida, ele deve ser a subseqüência de caracteres antes de destino (para ser substituído) coluna atribuindo npara col - 1.

Question 4

Vamos Tentar Implementar o comando sed

Vamos considerar um exemplo de arquivo CSV com o seguinte conteúdo:

$ cat file

Solaris,25,11
Ubuntu,31,2
Fedora,21,3
LinuxMint,45,4
RedHat,12,5

Para remover o 1º campo ou coluna :

$ sed 's/[^,]*,//' file

25,11
31,2
21,3
45,4
12,5

Esta expressão regular procura por uma sequência de não-vírgula([^,]*) caracteres e exclui-los, o que resulta no 1º campo de ficar removido.

Para imprimir apenas o último campo, OU remover todos os campos, exceto o último campo:

$ sed 's/.*,//' file

11
2
3
4
5

Este regex remove tudo até a última vírgula(.*,) o que resulta na exclusão de todos os campos, exceto o último campo.

Para imprimir apenas o 1º campo:

$ sed 's/,.*//' file

Solaris
Ubuntu
Fedora
LinuxMint
RedHat

Este regex(,.*) remove os caracteres a partir de 1 de vírgula até o final, resultando na exclusão de todos os campos, exceto o último campo.

Para eliminar o 2º campo:

$ sed 's/,[^,]*,/,/' file

Solaris,11
Ubuntu,2
Fedora,3
LinuxMint,4
RedHat,5

A regex (,[^,]*,) procura por uma vírgula e a sequência de caracteres seguido por uma vírgula, o que resulta na correspondência com a 2ª coluna, e substitui esse padrão de correspondência com apenas uma vírgula, em última análise, terminando em eliminar a 2ª coluna.

Nota: Para excluir os campos no meio fica mais mais difícil no sed, já que cada campo tem de ser compensada, literalmente.

Para imprimir apenas o 2º campo:

$ sed 's/[^,]*,\([^,]*\).*/\1/' file

25
31
21
45
12

A regex corresponda ao primeiro campo, no segundo campo e o resto, no entanto, os grupos do 2º campo sozinho. Toda a linha é agora substituído com o 2º campo(\1), portanto, apenas o 2º campo é exibido.

Imprimir apenas as linhas em que a última coluna é um número único dígito:

$ sed -n '/.*,[0-9]$/p' file

Ubuntu,31,2
Fedora,21,3
LinuxMint,45,4
RedHat,12,5

A regex (,[0-9]$) verifica a existência de um único dígito no último campo e o p de comando imprime a linha que corresponde a esta condição.

Para o número de todas as linhas no arquivo:

$ sed = file | sed 'N;s/\n/ /'

1 Solaris,25,11
2 Ubuntu,31,2
3 Fedora,21,3
4 LinuxMint,45,4
5 RedHat,12,5

Esta é a simulação do cat-n de comando. awk faz isso facilmente usando a variável especial NR. O '=' comandos do sed, dá o número da linha de cada linha, seguido por a linha em si. A sed de saída é encaminhado para outra sed comando para associar a cada 2 linhas.

Substitua o último campo em 99 se o 1º campo é 'Ubuntu':

$ sed 's/\(Ubuntu\)\(,.*,\).*/\1\299/' file

Solaris,25,11
Ubuntu,31,99
Fedora,21,3
LinuxMint,45,4
RedHat,12,5

Este regex corresponda 'Ubuntu' e, até o fim, exceto a última coluna e grupos, cada um deles também. Na peça de substituição, o 1º e o 2º grupo, juntamente com o novo número 99 é substituído.

Excluir o 2º campo se o 1º campo é 'RedHat':

$ sed 's/\(RedHat,\)[^,]*\(.*\)/\1\2/' file

Solaris,25,11
Ubuntu,31,2
Fedora,21,3
LinuxMint,45,4
RedHat,,5

1º o campo "RedHat", o 2º campo e os campos restantes são agrupados, e a substituição é feita apenas com o 1º e o último grupo , resuting em obter a 2ª campo excluído.

Para inserir uma nova coluna no final(última coluna) :

$ sed 's/.*/&,A/' file

Solaris,25,11,A
Ubuntu,31,2,A
Fedora,21,3,A
LinuxMint,45,4,A
RedHat,12,5,A

A regex (.*) corresponde a toda a linha e substituindo-o com a linha em si (&) e o novo campo.

Para inserir uma nova coluna em o início(1ª coluna):

$ sed 's/.*/A,&/' file

A,Solaris,25,11
A,Ubuntu,31,2
A,Fedora,21,3
A,LinuxMint,45,4
A,RedHat,12,5

Mesmo como último exemplo, apenas a linha correspondente é seguido pela nova coluna

Espero que isso irá ajudá-lo. Deixe-me saber se você precisar usar o Awk ou qualquer outro comando. Obrigado

Renaud Pacalet · Answer 1 · 2021-11-24T11:13:43

Assumindo que o seu arquivo CSV é tão simples como o que se mostra (sem vírgulas em campos entre aspas), e seu newvalue não contém caracteres que sed iria interpretar de uma forma especial (por exemplo, o " e " comercial, barras ou barras invertidas), o seguinte deve funcionar com apenas sed (testado com o GNU sed):

sed -Ei "$rownum s/[^,]*/$newvalue/$col" file.csv

Demonstração:

$ cat file.csv
Header,1
Field1,Field2,Field3
1,ABC,4567
3,XYZ,7890
$ rownum=3
$ col=2
$ newvalue="NEW"
$ sed -Ei "$rownum s/[^,]*/$newvalue/$col" file.csv
$ cat file.csv
Header,1
Field1,Field2,Field3
1,NEW,4567
3,XYZ,7890

Explicações: $rownum é usado como o endereço (aqui o número da linha), onde aplicar o comando a seguir. s é o sed comando substituir. [^,]* é a expressão regular para procurar e substituir: a maior string que não contém uma vírgula. $newvalue é a seqüência de caracteres de substituição. $col é a ocorrência de substituir.

Se newvalue pode conter " e " comercial, barras ou barras invertidas devemos higienizar-lo primeiro:

sanitizednewvalue=$(sed -E 's/([/\&])/\\\1/g' <<< "$newvalue")
sed -Ei "$rownum s/[^,]*/$sanitizednewvalue/$col" file.csv

Demonstração:

$ newvalue='NEW&\/&NEW'
$ sanitizednewvalue=$(sed -E 's/([/\&])/\\\1/g' <<< "$newvalue")
$ echo "$sanitizednewvalue"
NEW\&\\\/\&NEW
$ sed -Ei "$rownum s/[^,]*/$sanitizednewvalue/$col" file.csv
$ cat file.csv
Header,1
Field1,Field2,Field3
1,NEW&\/&NEW,4567
3,XYZ,7890

Isso não funciona. Apenas algumas indicações de que: eu não estava ciente antes de esta resposta de ` [^,]*` mas se sed é capaz de substituir para uma célula específica, então por que estamos incluindo [^,]* . Eu tentei sed -Ei "$rownum s/$newvalue/$col" file.csv e ele jogou um erro, mas gostaria de saber mais sobre isso. Qualquer recurso para ler nos seria útil.
Precisamos ` [^,]*` porque é o que define o que é uma célula é. o sed não é um CSV processador, ele é um qualquer processador de texto. Por isso, não tem conhecimento do que vocês chamam de uma célula é. Devemos dizer a ele. O sed comando substituto do (s) é explicado em profundidade detalhes na sed manual que você vai encontrar facilmente (se você estiver sob o GNU/Linux ou macOS tentar man sed ou, melhor ainda, info sed). O comando substituir você fechar é sintaticamente incorreto, portanto, o erro.

tshiono · Answer 2 · 2021-11-24T07:21:19

Com sed, como sobre:

#!/bin/bash

newvalue=3
rownum=4
col=1

sed -i -E "${rownum} s/(([^,]+,){$((col-1))})[^,]+/\\1${newvalue}/" file.csv

Resultado file.csv

Header,1
Field1,Field2,Field3
1,ABC,4567
3,XYZ,7890

${rownum} corresponde ao número da linha.
(([^,]+,){n}) corresponde a n-tempo de repetição do grupo de não-vírgula caracteres seguido por uma vírgula. Em seguida, ele deve ser a subseqüência de caracteres antes de destino (para ser substituído) coluna atribuindo npara col - 1.

mesmo que isso não funciona, não é este um pouco mais complicado de fazer as coisas, em comparação com o Renauld resposta. Como, por que precisamos para coincidir com o n-tempo de repetição se nós em vez disso, pode diretamente substituir? Útil, não obstante,

Amogh Saxena - REXTER · Answer 3 · 2021-11-24T07:36:29

Vamos Tentar Implementar o comando sed

Vamos considerar um exemplo de arquivo CSV com o seguinte conteúdo:

$ cat file

Solaris,25,11
Ubuntu,31,2
Fedora,21,3
LinuxMint,45,4
RedHat,12,5

Para remover o 1º campo ou coluna :

$ sed 's/[^,]*,//' file

25,11
31,2
21,3
45,4
12,5

Esta expressão regular procura por uma sequência de não-vírgula([^,]*) caracteres e exclui-los, o que resulta no 1º campo de ficar removido.

Para imprimir apenas o último campo, OU remover todos os campos, exceto o último campo:

$ sed 's/.*,//' file

11
2
3
4
5

Este regex remove tudo até a última vírgula(.*,) o que resulta na exclusão de todos os campos, exceto o último campo.

Para imprimir apenas o 1º campo:

$ sed 's/,.*//' file

Solaris
Ubuntu
Fedora
LinuxMint
RedHat

Este regex(,.*) remove os caracteres a partir de 1 de vírgula até o final, resultando na exclusão de todos os campos, exceto o último campo.

Para eliminar o 2º campo:

$ sed 's/,[^,]*,/,/' file

Solaris,11
Ubuntu,2
Fedora,3
LinuxMint,4
RedHat,5

A regex (,[^,]*,) procura por uma vírgula e a sequência de caracteres seguido por uma vírgula, o que resulta na correspondência com a 2ª coluna, e substitui esse padrão de correspondência com apenas uma vírgula, em última análise, terminando em eliminar a 2ª coluna.

Nota: Para excluir os campos no meio fica mais mais difícil no sed, já que cada campo tem de ser compensada, literalmente.

Para imprimir apenas o 2º campo:

$ sed 's/[^,]*,\([^,]*\).*/\1/' file

25
31
21
45
12

A regex corresponda ao primeiro campo, no segundo campo e o resto, no entanto, os grupos do 2º campo sozinho. Toda a linha é agora substituído com o 2º campo(\1), portanto, apenas o 2º campo é exibido.

Imprimir apenas as linhas em que a última coluna é um número único dígito:

$ sed -n '/.*,[0-9]$/p' file

Ubuntu,31,2
Fedora,21,3
LinuxMint,45,4
RedHat,12,5

A regex (,[0-9]$) verifica a existência de um único dígito no último campo e o p de comando imprime a linha que corresponde a esta condição.

Para o número de todas as linhas no arquivo:

$ sed = file | sed 'N;s/\n/ /'

1 Solaris,25,11
2 Ubuntu,31,2
3 Fedora,21,3
4 LinuxMint,45,4
5 RedHat,12,5

Esta é a simulação do cat-n de comando. awk faz isso facilmente usando a variável especial NR. O '=' comandos do sed, dá o número da linha de cada linha, seguido por a linha em si. A sed de saída é encaminhado para outra sed comando para associar a cada 2 linhas.

Substitua o último campo em 99 se o 1º campo é 'Ubuntu':

$ sed 's/\(Ubuntu\)\(,.*,\).*/\1\299/' file

Solaris,25,11
Ubuntu,31,99
Fedora,21,3
LinuxMint,45,4
RedHat,12,5

Este regex corresponda 'Ubuntu' e, até o fim, exceto a última coluna e grupos, cada um deles também. Na peça de substituição, o 1º e o 2º grupo, juntamente com o novo número 99 é substituído.

Excluir o 2º campo se o 1º campo é 'RedHat':

$ sed 's/\(RedHat,\)[^,]*\(.*\)/\1\2/' file

Solaris,25,11
Ubuntu,31,2
Fedora,21,3
LinuxMint,45,4
RedHat,,5

1º o campo "RedHat", o 2º campo e os campos restantes são agrupados, e a substituição é feita apenas com o 1º e o último grupo , resuting em obter a 2ª campo excluído.

Para inserir uma nova coluna no final(última coluna) :

$ sed 's/.*/&,A/' file

Solaris,25,11,A
Ubuntu,31,2,A
Fedora,21,3,A
LinuxMint,45,4,A
RedHat,12,5,A

A regex (.*) corresponde a toda a linha e substituindo-o com a linha em si (&) e o novo campo.

Para inserir uma nova coluna em o início(1ª coluna):

$ sed 's/.*/A,&/' file

A,Solaris,25,11
A,Ubuntu,31,2
A,Fedora,21,3
A,LinuxMint,45,4
A,RedHat,12,5

Mesmo como último exemplo, apenas a linha correspondente é seguido pela nova coluna

Espero que isso irá ajudá-lo. Deixe-me saber se você precisar usar o Awk ou qualquer outro comando. Obrigado

obrigado pela explicação detalhada, mas, infelizmente, ele não resolver o problema em questão.

É possível substituir o valor de uma célula em um arquivo csv usando o grep,sed, ou ambos

Pergunta

Melhor resposta

Em outros idiomas

Esta página está em outros idiomas

Popular nesta categoria

Perguntas populares nesta categoria