Применљивост и употребљивост модела машинског учења се тестира на подацима. Поузданост тестова у великој мери зависи од квантитета и квалитета података на којима се ови модели примењују. Сам по себи је комплетан задатак креирање, добијање и чишћење одговарајуће великог скупа података за тестирање вашег “ Обрада природног језика (НЛП) ” Модел машинског учења.
Хуггинг Фаце нуди згодно решење за ово са својом изузетно великом библиотеком скупова података које можете изабрати и пронаћи онај који савршено одговара вашим захтевима. Овде ћемо вам показати како да пронађете идеалан скуп података и припремите га за адекватно тестирање вашег модела.
Како користити скупове података за грљење?
Показаћемо вам како да користите скупове података за грљење користећи пример „ ТиниСториес ” Скуп података из Хуггинг Фаце.
Пример
ТиниСториес Датасет има више од 2 милиона редова података у подели возова и има више од 2 хиљаде преузимања на платформи Хуггинг Фаце. Користићемо га у коду у Гоогле Цолаб-у датом у наставку:
! пип инсталирај трансформатори
! пип инсталирај скупови података
из скупова података импорт лоад_датасет
скуп података = скуп_података ( 'роненелдан/ТиниСториес' )
ТиниСториес_Стори = 3
екампле_стринг = скуп података [ 'воз' ] [ ТиниСториес_Стори ] [ 'текст' ]
принт ( стринг_примера )
У овом коду размотрите доле наведене кораке:
Корак 01 : Први корак је „ инсталација ” скупова података трансформатора.
Корак 02 : Затим увезите потребан скуп података, “ ТиниСториес ” у свој пројекат.
Корак 03 : Затим учитајте изабрани скуп података користећи „ лоад_датасет() ” функција.
Корак 04 : Сада наводимо број приче који желимо из ТиниСториес скупа података. Навели смо број 03 у нашем примеру кода.
Корак 05 : На крају, користићемо метод “принт()” да прикажемо излаз.
Излаз
Белешка: Код и излаз се такође могу видети директно у нашој Гоогле Цолаб .
Закључак
“ Скупови података Хуггинг Фаце ” чине невероватно ефикасним за кориснике да тестирају своје моделе машинског учења док директно увозе велике скупове података из своје онлајн библиотеке. Као резултат тога, примена НЛП алгоритама је постала лакша и бржа јер су програмери у могућности да тестирају своје пројекте у односу на скуп података који има и квалитет и квантитет.