Како анализирати текстуалне податке у Р: Основе манипулације стринговима

Kako Analizirati Tekstualne Podatke U R Osnove Manipulacije Stringovima



Стрингови су други најпопуларнији тип података у Р програмирању, а манипулација стринговима је кључни задатак у Р. Операција манипулације стринговима у Р се састоји од више функција за коришћење и измену текстуалних података, укључујући измену и рашчлањивање стрингова. У овом чланку ћемо заронити у неколико функција које нам помажу у манипулацији стринговима. Ове функције су уграђене у Р и користе се у различите сврхе за обављање задатака стрингова.

Пример 1: Добијте позицију узорка из стринга користећи Греп() функцију у Р

Да бисте издвојили позицију наведеног узорка из стринга, користи се функција греп() од Р.

греп('и+', ц('поправи', 'сплит', 'кукуруз н', 'боја'), перл=ТРУЕ, валуе=ФАЛСЕ)

Овде користимо функцију греп() где је шаблон „+и“ специфициран као аргумент који треба да се упари унутар вектора низова. Постављамо векторе знакова који садрже четири низа. Након тога постављамо „перл“ аргумент са ТРУЕ вредношћу која указује да Р користи библиотеку регуларних израза компатибилну са перл-ом, а параметар „валуе“ је специфициран са „ФАЛСЕ“ вредношћу која се користи за преузимање индекса елемената у вектору који одговара узорку.







Положај узорка „+и“ из сваког низа векторских знакова је приказан у следећем излазу:





Пример 2: Упарите образац помоћу функције Грегекпр() у Р

Затим преузимамо позицију индекса заједно са дужином одређеног стринга у Р помоћу функције грегекпр().





цхар_вец <- ц('ПРОГРАММИНГЛАНГУАГЕ','РСЦРИПТ')
грегекпр('ГРАММ', цхар_вец, усеБитес = ТРУЕ)

Овде постављамо променљиву „цхар_вецт“ где су стрингови опремљени различитим знаковима. Након тога, дефинишемо функцију грегеекпр() која узима да се узорак стрингова „ГРАММ“ упарује са стринговима који су ускладиштени у „цхар_вец“. Затим постављамо параметар усеБитес са вредношћу „ТРУЕ“. Овај параметар указује на то да подударање треба да се постигне бајт по бајт, а не знак по знак.

Следећи излаз који се преузима из функције грегекпр() представља индексе и дужину оба векторска низа:



Пример 3: Пребројите укупан број знакова у низу помоћу функције Нцхар() у Р

Метода нцхар() коју имплементирамо у наставку такође нам омогућава да одредимо колико знакова има у низу:

Рес <- нцхар('Изброј сваки знак')
штампа (Рез)

Овде позивамо методу нцхар() која је постављена унутар променљиве „Рес“. Метода нцхар() има дугачак низ знакова који се броји методом нцхар() и обезбеђује број бројача знакова у наведеном низу. Затим, променљиву „Рес“ прослеђујемо методи принт() да бисмо видели резултате методе нцхар().

Резултат се добија у следећем излазу који показује да наведени стринг садржи 20 знакова:

Пример 4: Издвојите подниз из стринга помоћу функције подстринг() у Р

Користимо метод субстринг() са аргументима „старт“ и „стоп“ да издвојимо одређени подниз из стринга.

стр <- субстринг('ЈУТРО', 2, 4)
принт(стр)

Овде имамо променљиву „стр“ где се позива метод субстринг(). Метода субстринг() узима стринг „ЈУТРО“ као први аргумент и вредност „2“ као други аргумент који указује да други карактер из стринга треба да буде издвојен, а вредност аргумента „4“ указује да треба издвојити четврти знак. Метод субстринг() извлачи знакове из стринга између наведене позиције.

Следећи излаз приказује извучени подниз који се налази између друге и четврте позиције у низу:

Пример 5: Спојите стринг помоћу функције Пасте() у Р

Функција пасте() у Р се такође користи за манипулацију стринговима која спаја наведене стрингове одвајањем граничника.

мсг1 <- 'Садржај'
мсг2 <- 'Писање'

налепи(мсг1, мсг2)

Овде наводимо стрингове за променљиве „мсг1“ и „мсг2“, респективно. Затим користимо метод пасте() за Р да повежемо пружени низ у један стринг. Метода пасте() узима променљиву стрингс као аргумент и враћа један стринг са подразумеваним размаком између низова.

Након извршења методе пасте(), излаз представља један стринг са размаком у њему.

Пример 6: Измените стринг користећи функцију Субстринг() у Р

Штавише, такође можемо да ажурирамо стринг додавањем подниза или било ког знака у стринг помоћу функције субстринг() користећи следећу скрипту:

стр1 <- 'Хероји'
подстринг(стр1, 5, 6) <- 'иц'

цат('    Измењени стринг:', стр1)

Постављамо стринг „Хероес“ унутар променљиве „стр1“. Затим примењујемо метод субстринг() где је „стр1“ наведено заједно са вредностима индекса „старт“ и „стоп“ подниза. Методу субстринг() се додељује подниз „из“ који се поставља на позицију која је наведена унутар функције за дати стринг. Након тога користимо функцију цат() од Р која представља ажурирану вредност стринга.

Излаз који приказује стринг се ажурира новим помоћу методе субстринг ():

Пример 7: Форматирајте стринг помоћу функције Формат() у Р

Међутим, операција манипулације стринговима у Р такође укључује форматирање стринга у складу са тим. За ово користимо функцију формат() где се стринг може поравнати и подесити ширину одређеног низа.

плацемент1 <- формат('Програми', ширина = 10, јустифи = 'л')
плацемент2 <- формат('Програми', ширина = 10, јустифи = 'р')
плацемент3 <- формат('Програми', ширина = 10, јустифи = 'ц')

принт(плацемент1)
принт(плацемент2)
принт(плацемент3)

Овде постављамо променљиву „плацемент1“ која је обезбеђена методом формат(). Проследимо стринг „програми“ који треба да буде форматиран методи формат(). Ширина је подешена, а поравнање стринга је постављено улево помоћу аргумента „јустифи“. Слично томе, креирамо још две променљиве, „плацемент2“ и „плацемент2“, и примењујемо метод формат() да форматирамо дати стринг у складу са тим.

Излаз приказује три стила форматирања за исти стринг на следећој слици, укључујући лево, десно и централно поравнање:

Пример 8: Трансформишите стринг у мала и велика слова у Р

Поред тога, такође можемо да трансформишемо стринг малим и великим словима користећи функције толовер() и тоуппер() на следећи начин:

с1 <- 'ДОБАР ХРАН ДОБАР ЖИВОТ'
резултат1 <- мањи(с1)

штампа (резултат1)

с2 <- 'Р програмски језик у '
резултат2 <- врх(с2)

штампа (резултат2)

Овде пружамо стринг који садржи велика и мала слова. Након тога, стринг се чува у променљивој „с1“. Затим позивамо методу толовер() и прослеђујемо стринг „с1“ унутар њега да трансформишемо све знакове унутар стринга малим словима. Затим штампамо резултате методе толовер() која се чува у променљивој „ресулт1“. Затим постављамо још један стринг у променљивој „с2“ која садржи све знакове малим словима. Примењујемо метод тоуппер() на овај стринг „с2“ да трансформишемо постојећи стринг у велика слова.

Излаз приказује оба низа у наведеном случају на следећој слици:

Закључак

Научили смо различите начине управљања и анализе стрингова који се називају манипулација стринговима. Извукли смо позицију карактера из стринга, спојили различите стрингове и трансформисали стринг у наведена велика и мала слова. Такође, форматирали смо стринг, модификовали стринг и разне друге операције се изводе овде да би се манипулисало стрингом.