‘rinz2022 23:63
CodeStack.club
Novas questées > python
python - Come ler um arquivo de inhas json compactado com gzip no datatrame do PySpark? - CodeSiack club
Questées Tag
Como ler um arquivo de linhas json compactado com gzip
no dataframe do PySpark?
Eu tenho um arquivo de linhas JSON que desejo ler
em um quadro de dados PySpark. 0 arquivo &
compactado com gzip.
O nome do arquivo é semelhante a este: file j.gz
Eu sei como ler este arquivo em um dataframe do
pandas:
df= pd.read_json(‘file.jl.gz', lines=True, conpre
Sou novo no pyspark e gostaria de aprender 0
equivalente do pyspark a isso. Existe uma maneira de
ler este arquivo em dataframes pyspark?
EDITAR 2
%pyspark
df=spark.read.option( ‘multiline’ , ‘true’).json(’
Eu executei o comando acima e recebi este erro,
Fail to execute line 1:
Traceback (most recent call last):
File
File
format(target_id,
*/usr/1ib/spark/python/ 1ib/pyspark.2ip/p
rn (#2, **kw)
‘/use/1ib/spark/python/1ib/py4j-0.1.7-s
'» name), value)
py4j.protocol.Py43JavaError: An error occurred
: java.
at
at
at
at
at
at
at
at
at
at
at
at
at
at
at
at
at
at
at
Lang. T1legalArgument€xception: java.net.
org.apache.hadoop. fs.Path. initialize(Pat
org-apache.hadoop.fs.Path.(Path.ja
org. apache. spark. sql.execution.datasourc
org-apache. spark.sql.execution.datasourc
scala. collection. TraversableLike$$anonfu
scala. collection. TraversableLike$$anonfu
scala. collection inmutable. List. foreach(
scala.collection.Traversablelike$class.#
scala. collection. inmutable. List. flatmap(
org-apache. spark.sql.execution.datasourc
org. apache. spark. sql.execution.datasourc
org.apache. spark.sql.DataFraneReader.1oa
ong. apache. spark.sql.DataFraneReader.1oa
org.apache. spark. sql.DataFraneReader. jso
sun. reflect .NativeMethodAccessorInpl. inv
sun. reflect .NativeMethodaccessorinpl. inv
sun. reflect .DelegatingMethodAccessorinp]
java. Lang. reflect .Method.. invoke (Method .j
by4j. reflection. MethodInvoker. invoke (Met
Novas quest6es
2. Dividir um par de cordas no suporte
usando python
Resposta errada as vezes
Como manter linhas com mais de trés.
colunas maiores que (em pandas)
Como fazer 0 filtro de DataFrame usando
(0 método .Query trabalhar com uma variavel?
2 Convertendo de trés casas decimais para
duas casas decimais em uma lista
Comportamento estranho ... apenas
algum texto ndo pode ser desenhado com a
Reporiab em um loop
Linhas de saida com valores proximos a0,
valor de entrada
Como fago para iterar através de um
python dict para extrair um valor especifico de
uma chave especifica?
Substituindo 0 valor de uma coluna
condicional em duas outras colunas em Pandas
Python3 Erro ao tentar decodificar
(base64) entao descompressar (gzip)
Novas perguntas com tag python >
python
Python é uma linguagem de programagao
multiparadigma, tipada dinamicamente e
multifuncional. Ele foi projetado para ser rapido
para aprender, entender e usar, ¢ impor uma
sintaxe limpa e uniforme. Observe que o Python
2 esta oficialmente sem suporte em 01-01-
2020. Ainda assim, para questdes especificas
da verso do Python, adicione a tag [python-
2.7] ou [python-3.x]. Ao usar uma variante
Python (por exemplo, Jython, PyPy) ou
biblioteca (por exemplo, Pandas e NumPy),
inclua-a nas tags.
Mais sobre python...
hitpsiicodestack club/questions!1956157/como-ler-um+-arquivo-de-nhas-son-compactado-com-grp-no-satatrame-do-pyspark 18‘rinz2022 23:63 python - Como ler um arquivo de irhas json compactado com gzip no datatrame do PySpark? - CodeSiack cub
at py4j.reflection.ReflectionEngine. invoke(
at py4j.Gateway. invoke(Gateway..java:282)
at py4j.conmands.AbstractConmand. invokeMeth
at py4j.connands.Cal1Conmand.execute(Callco
at py4j.GatewayCannection.run(GatewayConnec
at Java. lang. Thread.run(Thread. java: 748)
Caused by: java-net.URISyntaxException: Relativ
at java.net-URT. checkPath(URT. java: 1823)
at Java.net.URT. (URI. java: 745)
at org.apache.hadoop. fs.Path.initialize(Pat
sss 26 more
python apache-spark pyspark _apache-spark-: *
0 sachin kumar s. 27 dez, 2020 as 10:53
2 respostas
Melhor resposte
This command just considered all the 9@ Mill.
df
park.read-option( ‘multiline’, ‘true').j
This command below worked fine for me:
park.read.json('file.j1.g2")
0 sachin kumar s 6 jan. 2021 as 16:32
park.read.option( ‘multiline’, "true').json
E sempre melhor fornecer um esquema ao ler json
complexo
0 Aditya Vikram Singh 27 dez. 2020 as 08:18
CodeStack.club
Linguas Bibliotecas Frameworks Mobil
avaScript Java Panda:
hitpsiicodestack club/questions!1956157/como-ler-um+-arquivo-de-nhas-son-compactad-com-grp-no-satatrame-do-pyspark
28‘rinz2022 23:63
HTML c
css cH
PHP cH
Python
sat switt
python - Como ler um arquivo de irhas json compactado com gzip no datatrame do PySpark? - CodeSiack cub
React
jQuery
Angulé
Numpy
React
native
TensorFlow
Matpiotlib
Bootstrap
Keras
Openc\
Flask
Docker
ios
Android
Studio
Dart
he
Cordo)
hitpsiicodestack club/questions!1956157/como-ler-um+-arquivo-de-nhas-son-compactado-com-grp-no-satatrame-do-pyspark
38