Метода филтера за грљење лица().

Metoda Filtera Za Grlene Lica



Хуггинг Фаце има неколико модела и скупова података за обраду природног језика (НЛП). Ови огромни скупови података садрже много информација које помажу у прецизној обуци модела. Међутим, понекад нам није потребан цео скуп података јер нам је потребан само мали део да бисмо задовољили наше тренутне потребе. Ако желимо да користимо исти скуп података као и обично са свим информацијама, обука модела и оптимизација одузимају много времена што је губљење времена.

Дакле, потребна нам је нека врста методе или пакета који може извући релевантне информације из скупова података. Једноставним језиком, можемо рећи да нам је потребна додатна опција филтера за филтрирање скупова података према нашим захтевима.

Хуггинг Фаце пружа различите опције за филтрирање скупова података што помаже корисницима да креирају прилагођене скупове података који садрже само примере или информације које испуњавају одређене услове.







Селецт() Метод

Овај метод ради на листи индекса што значи да морамо дефинисати листу. Унутар те листе морамо поменути све вредности индекса тих редова које желимо да издвојимо. Али овај метод функционише само за мале скупове података, а не за велике скупове података, јер не можемо да видимо цео скуп података ако је у ГБ (гига бајтовима) или ТБ (тера бајтовима).



Пример :

нев_датасет = скуп података. изаберите ( [ 0 , Једанаест , двадесет један , Четири, пет , педесет , 55 ] )

принт ( само ( нев_датасет ) )

У овом примеру, користили смо метод „селецт“ да филтрирамо потребне информације из скупа података.



Филтер() Метод

Метод филтер() превазилази проблеме са процесом селецт() јер не постоји посебан услов. Метод филтер() враћа све редове који одговарају одређеној ситуацији или стању.





Пример: Чувамо овај Питхон програм са именом „тест.пи“.

из скупови података увоз лоад_датасет

# Корак 1: Учитајте скуп података
скуп података = лоад_датасет ( 'имдб' )

# Корак 2: Дефинишите функцију филтрирања
деф прилагођени_филтер ( пример ) :
'''
Прилагођена функција филтрирања за задржавање примера са позитивним
сентимент (ознака == 1).
'''

повратак пример [ 'етикета' ] == 1

# Корак 3: Примените филтер да бисте креирали нови филтрирани скуп података
филтеред_датасет = скуп података. филтер ( прилагођени_филтер )

# Корак 4: Проверите доступна имена колона у филтрираном скупу података
принт ( „Доступне колоне у филтрираном скупу података:“ ,
филтеред_датасет. имена_колона )

# Корак 5: Приступите информацијама из филтрираног скупа података
филтеред_екамплес = филтеред_датасет [ 'воз' ]
нум_филтеред_екамплес = само ( филтеред_екамплес )

# Корак 6: Одштампајте укупан број филтрираних примера
принт ( „Укупно филтрираних примера:“ , нум_филтеред_екамплес )

Излаз:



Објашњење:

Ред 1: Увозимо потребан пакет лоад_датасет из скупова података.

Ред 4: Учитавамо „имдб“ скуп података користећи лоад_датасет.

Редови 7 до 12: Дефинишемо прилагођену функцију филтрирања прилагођени_филтер да примери буду позитивни (ознака == 1). Ова функција враћа само оне редове чија је вредност ознаке 1.

Ред 15: Овај ред показује да скуп података има податке о прегледу филмова „имдб“. Сада примењујемо функцију филтера на ову базу података да бисмо одвојили позитивне критике од базе података која се даље чува у „филтеред_датасет“.

Редови 18 и 19: Сада проверавамо која имена колона су доступна у филтеред_датасету. Дакле, код „филтеред_датасет.цолумн_намес“ пружа детаље о нашим захтевима.

Редови 22 и 23: У овим редовима филтрирамо колону „воз“ у филтеред_датасет-у и штампамо укупан број (дужину) колоне воза.

Ред 26: У овом последњем реду штампамо резултат из реда број 23.

Филтер() са индексима

Метод филтер() се такође може користити са индексима као што се види у режиму селецт(). Али за то морамо да напоменемо да кључна реч „витх_индицес=труе“ мора бити наведена изван методе филтер() као што је приказано у следећем примеру:

одд_датасет = скуп података. филтер ( ламбда пример , идк: идк % 2 != 0 , витх_индицес = Истина )

принт ( само ( одд_датасет ) )

У овом примеру смо користили метод филтер() да филтрирамо потребне информације из скупа података, укључујући само оне редове који су непарни.

Комплетни детаљи сваког параметра методе филтер() могу се наћи овде линк .

Закључак

Библиотека скупова података Хуггинг Фаце пружа моћан и једноставан скуп алата за ефикасан рад са различитим скуповима података, посебно у контексту обраде природног језика (НЛП) и задатака машинског учења. Функција филтер() представљена у програму омогућава истраживачима и практичарима да издвоје релевантне подскупове података дефинисањем критеријума филтрирања које дефинише корисник. Користећи ову функционалност, корисници могу без напора да креирају нове скупове података који испуњавају специфичне услове као што је одржавање позитивног расположења у рецензијама филмова или издвајање специфичних текстуалних података.

Ова демонстрација корак по корак илуструје колико је лако учитати скуп података, применити прилагођене функције филтера и приступити филтрираним подацима. Поред тога, флексибилност параметара функције омогућава прилагођене операције филтрирања, укључујући подршку за вишеструку обраду великих скупова података. Са библиотеком скупова података Хуггинг Фаце, корисници могу да поједноставе своје податке.