ПиСпарк чита ЦСВ()

Pispark Cita Csv



Конструисање ПиСпарк ДатаФраме-а из ЦСВ података је могуће у ПиСпарк-у помоћу функције реад.цсв(). У неким сценаријима, ако желите да учитате спољне податке у ПиСпарк ДатаФраме, ПиСпарк подржава многе формате као што су ЈСОН, ЦСВ, итд. У овом водичу ћемо видети како да прочитате ЦСВ податке и учитате их у ПиСпарк ДатаФраме. Такође, разговараћемо о учитавању више ЦСВ датотека у један ДатаФраме истовремено са примерима.

Писпарк.скл.ДатаФрамеРеадер.цсв()

Овај метод се користи за читање података из ЦСВ датотека и њихово складиштење у ПиСпарк ДатаФраме. Узима опције док чита ЦСВ у ДатаФраме. Разговараћемо о различитим опцијама са примерима детаљно. Приликом прослеђивања више од једне ЦСВ датотеке, важно је проследити имена датотека са екстензијом на листи која је одвојена оператором зарезом. Ако читате само једну ЦСВ датотеку, нема потребе да наводите име датотеке на листи.

Синтакса:







Једна датотека - спарк_апп.реад.цсв(‘филе.цсв’, Опције …)

Више датотека – спарк_апп.реад.цсв([‘филе1.цсв’,’филе2.цсв’,…],оптионс…)



Такође је могуће одвојити опције и називе датотека.



Један фајл – спарк_апп.реад.оптионс(оптионс…).цсв(‘филе.цсв’)





Више датотека – спарк_апп.реад.оптионс(оптионс…).цсв([‘филе1.цсв’,’филе2.цсв’,…])

Инсталирајте библиотеку ПиСпарк пре имплементације следећих примера.



пип инсталл писпарк

Након успешне инсталације, можете видети излаз на следећи начин:

Сценарио 1: Читање заглавља ЦСВ датотеке

Хајде да направимо ЦСВ датотеку под називом „персон_скилл.цсв“ са 5 записа који је приказан у наставку и учитамо је у ПиСпарк ДатаФраме:

Параметар заглавља се користи за одређивање имена колона у ПиСпарк ДатаФраме-у. Потребно је Боолеан вредност. Ако је „Тачно“, стварна имена колона која постоје у ЦСВ датотеци су наведена у ДатаФраме-у. У супротном, ц0, ц1, ц2… су наведени и стварна имена колона ће бити ред. Најбоље је практиковати да параметар заглавља поставите на тачно.

Пример 1: Заглавље = Тачно

импорт писпарк

из писпарк.скл импорт СпаркСессион

линукхинт_спарк_апп = СпаркСессион.буилдер.аппНаме( 'Линук савет' ).гетОрЦреате()

# Учитајте цсв под називом - персон_скилл.цсв у вештине са ознакама колона са заглављем

вештине = линукхинт_спарк_апп.реад.цсв( 'персон_скилл.цсв' , заглавље =Тачно)

# Прикажите оквир података

скиллс.схов()

Излаз:

Објашњење:

Можемо видети да је ПиСпарк ДатаФраме креиран из ЦСВ датотеке са наведеним колонама и редовима.

Користите следећу команду да проверите колоне:

вештине.колоне

Пример 2: Заглавље = Нетачно

импорт писпарк

из писпарк.скл импорт СпаркСессион

линукхинт_спарк_апп = СпаркСессион.буилдер.аппНаме( 'Линук савет' ).гетОрЦреате()

# Учитајте цсв под називом - персон_скилл.цсв у вештине са ознакама колона без заглавља

вештине = линукхинт_спарк_апп.реад.цсв( 'персон_скилл.цсв' , заглавље =Нетачно)

# Прикажите оквир података

скиллс.схов()

Излаз:

Објашњење:

Можемо видети да је ПиСпарк ДатаФраме креиран из ЦСВ датотеке без постојећих колона.

Такође, постојеће колоне се чувају као редови у ПиСпарк ДатаФраме-у.

вештине.колоне

Коришћење Реад.оптионс.цсв()

Сада читамо ЦСВ датотеку користећи реад.оптионс.цсв() метод. Овде морамо да проследимо опције као што су граничник, заглавље итд у опцијама као аргументе и име датотеке у цсв(). Проследимо параметар заглавља тако што ћемо га поставити на „Труе“.

Сценарио 1:

импорт писпарк

из писпарк.скл импорт СпаркСессион

линукхинт_спарк_апп = СпаркСессион.буилдер.аппНаме( 'Линук савет' ).гетОрЦреате()

# Коришћење реад.оптионс.цсв()

вештине = линукхинт_спарк_апп.реад. Опције ( заглавље =Тачно).цсв( 'персон_скилл.цсв' )

# Прикажите оквир података

скиллс.схов()

Излаз:

Сценарио 2: Читање граничника ЦСВ датотеке

Параметар делимитер узима знак који се користи за раздвајање сваког поља. Подразумевано узима зарез (,). Хајде да користимо исту ЦСВ датотеку која се користи у првом сценарију и проследимо зарез (‘,’) као граничник.

импорт писпарк

из писпарк.скл импорт СпаркСессион

линукхинт_спарк_апп = СпаркСессион.буилдер.аппНаме( 'Линук савет' ).гетОрЦреате()

# Коришћење реад.оптионс.цсв() са граничником заједно са заглављем

вештине = линукхинт_спарк_апп.реад. Опције ( заглавље =Тачно, граничник= ',' ).цсв( 'персон_скилл.цсв' )

# Прикажите оквир података

скиллс.схов()

Излаз:

Читање више датотека

До сада смо читали једну ЦСВ датотеку. Хајде да видимо како да прочитамо више од једне ЦСВ датотеке. У овом сценарију, редови у више датотека се додају у један ПиСпарк ДатаФраме. Само треба да проследимо имена датотека на листи унутар методе.

Пример:

Хајде да имамо следеће ЦСВ датотеке под називом „персон_скилл.цсв“ и „персон_скилл2.цсв“ са следећим подацима:


Прочитајте ове две ЦСВ датотеке и сачувајте их у једном ПиСпарк ДатаФраме-у.

импорт писпарк

из писпарк.скл импорт СпаркСессион

линукхинт_спарк_апп = СпаркСессион.буилдер.аппНаме( 'Линук савет' ).гетОрЦреате()

# Учитајте 2 цсв датотеке под називом - персон_скилл.цсв и персон_скилл2.цсв у вештине са ознакама колона са заглављем

вештине = линукхинт_спарк_апп.реад.цсв([ 'персон_скилл.цсв' , 'персон_скилл2.цсв' ],сеп= ',' , заглавље =Тачно)

скиллс.схов()

Излаз:

Објашњење:

Први ЦСВ садржи 6 записа, а други ЦСВ 3 записа. Можемо видети да се први ЦСВ прво учитава у ДатаФраме. Затим се учитава други ЦСВ. Коначно, ПиСпарк ДатаФраме садржи 9 записа.

Закључак

Читање ЦСВ-а у ПиСпарк ДатаФраме је прилично једноставно помоћу методе писпарк.скл.ДатаФрамеРеадер.цсв(). Може бити могуће проследити параметре заглавља и граничника овом методу како би се одредиле колоне и формат. ПиСпарк такође подржава читање више ЦСВ датотека истовремено са наведеним методама заједно са њиховим опцијама. У овом чланку смо видели примере разматрајући различите опције. Такође, видели смо два начина прослеђивања опција методи.