Како користити токенизаторе у трансформаторима за грљење лица?

Kako Koristiti Tokenizatore U Transformatorima Za Grlene Lica



Обрада природног језика (НЛП) ради на сировом облику података. Модели машинског учења су обучени на сложеним подацима, али не могу да разумеју сирове податке. Овај необрађени облик података мора имати неку нумеричку вредност повезану са њим. Ова вредност одређује вредност и важност речи у подацима и на основу тога се врше прорачуни.

Овај чланак пружа водич корак по корак о коришћењу токенизатора у трансформаторима за грљење лица.

Шта је токенизер?

Токенизер је важан концепт НЛП-а, а његов главни циљ је да преведе сирови текст у бројеве. У ту сврху постоје различите технике и методологије. Међутим, вреди напоменути да свака техника служи одређеној сврси.
Како користити токенизаторе у трансформаторима за грљење лица?







Како користити токенизаторе у трансформаторима за грљење лица?

Библиотеку токенизера морате прво инсталирати пре него што је користите и увезете функције из ње. Након тога, обучите модел користећи АутоТокенизер, а затим обезбедите улаз за обављање токенизације.



Хуггинг Фаце уводи три главне категорије токенизације које су дате у наставку:



  • Токенизер заснован на речима
  • Токенизер заснован на знаковима
  • Токенизер заснован на подречи

Ево водича корак по корак за коришћење токенизатора у трансформаторима:





Корак 1: Инсталирајте Трансформерс
Да бисте инсталирали трансформаторе, користите команду пип у следећој команди:

! пип инсталирај трансформатори



Корак 2: Увезите класе
Од трансформатора, увоз цевовод , и АутоМоделФорСекуенцеЦлассифицатион библиотека да изврши класификацију:

из цевовода увоза трансформатора, АутоМоделФорСекуенцеЦлассифицатион

Корак 3: Увезите модел
АутоМоделФорСекуенцеЦлассифицатион ” је метод који припада Ауто-Класи за токенизацију. Тхе фром_претраинед() метода се користи за враћање исправне класе модела на основу типа модела.

Овде смо навели назив модела у „ Назив модела ' променљива:

Назив модела = 'дистилберт-басе-унцасед-финетунед-сст-2-енглисх'
пре_траинингмодел =AutoModelForSequenceClassification.from_pretrained ( Назив модела )

Корак 4: Увезите АутоТокенизер
Наведите следећу команду за генерисање токена преношењем „ Назив модела ” као аргумент:

из трансформатора импорт АутоТокенизер

генерисани токен =АутоТокенизер.фром_претраинед ( Назив модела )

Корак 5: Генеришите токен
Сада ћемо генерисати токене на реченици “Волим добру храну” коришћењем „ генерисани токен ' променљива:

речи =генератетокен ( “Волим добру храну” )
принт ( речи )

Излаз је дат на следећи начин:

Код горе наведеног Гоогле Цо је овде дато.

Закључак

Да бисте користили токенизаторе у Хуггинг Фаце-у, инсталирајте библиотеку помоћу команде пип, обучите модел помоћу АутоТокенизер-а, а затим обезбедите улаз за обављање токенизације. Користећи токенизацију, доделите тежине речима на основу којих су поређане како бисте задржали значење реченице. Овај резултат такође одређује њихову вредност за анализу. Овај чланак је детаљан водич о томе како да користите токенизере у трансформаторима за грљење лица.