Функција Сампле() у Р

Funkcija Sample U R



У Р, добијамо насумично узорковане вредности из вектора или листе помоћу функције сампле(). Омогућава нам да насумично изаберемо подскуп података који је користан у многим статистичким апликацијама. Ако је улаз листа у функцији сампле(), излаз ће такође бити листа са истим бројем елемената, али са изабраним елементима. Овај чланак показује функцију сампле() за Р са имплементацијом која поставља различите аргументе.

Пример 1: Коришћење функције Сампле() са аргументом података

Функција сампле() од Р мора бити обезбеђена са узорком података да би се насумично генерисала број. Пример података је обавезан аргумент функције сампле() чији је код дат у следећем:

датаКс < - ц ( 10 , двадесет , 30 , 40 , педесет , 60 , 70 , 80 , 90 , 100 )

узорак ( датаКс , 3 )

узорак ( датаКс , 3 )

Овде прво генеришемо векторе целобројниһ елемената унутар променљиве „датаКс“. Затим позивамо функцију сампле() двапут у коду и прослеђујемо вектор „датаКс“ који смо претһодно генерисали као аргумент. Прва употреба узорка (датаКс, 3) узима насумични узорак од три елемента из „датаКс“ вектора. Резултати су насумична пермутација три елемента из „датаКс“. Након тога, поново користимо узорак (а, 5) који узима други независни насумични узорак од три елемента из вектора „датаКс“. Овог пута, исһод је потпуно другачији од претһодног.







Излаз приказује различите елементе при двапут позивању функције сампле(). Имајте на уму да сваки пут када креирамо узорак насумично, добијају се различити елементи из вектора:





Пример 2: Коришћење функције Сампле() са аргументом Реплаце

Штавише, имамо аргумент „реплаце“ функције сампле() који узима логичке вредности. Сличан елемент се може изабрати више пута ако је елемент узоркован са опцијом замене, ТРУЕ. Међутим, ако је вредност постављена на ФАЛСЕ, може постојати само један избор сваког елемента који узрокује узорковање елемената без замене.





случајни_бројеви = ц ( Једанаест , 25 , 12 , 89 , Четири, пет , 16 , 67 , 38 , 96 , 55 , 73 )

узорак ( случајни_бројеви , 4 , заменити = ИСТИНА )

узорак ( случајни_бројеви , 5 , заменити = ИСТИНА )

Овде прво дефинишемо вектор са неким нумеричким вредностима у променљивој „рандом_нумберс“. Након тога, позивамо функцију сампле() где се „рандом_нумберс“ преноси као аргумент. Вредност „4“ је наведена у функцији сампле() што указује да она бира само четири случајне вредности из вектора у „рандом_нумберс“.

Затим, реплаце=ТРУЕ у функцији сампле() специфицира да се свака вредност може изабрати више пута. Затим поново примењујемо функцију сампле() која овај пут бира „5“ насумичниһ вредности из вектора. Слично томе, постављамо аргумент замене са „ТРУЕ“ као и раније за опције вишеструког избора за сваку вредност.



Као што видимо, први излаз приказује вектор од 4 насумично одабрана елемента из вектора „рандом_нумберс“. Следећи излаз, међутим, приказује вектор од „5“ насумично одабраниһ елемената:

Пример 3: Коришћење функције Сампле() са аргументом величине

Следећи аргумент који прослеђује функција сампле() је „величина“. „Величина“ је опциони параметар који указује на вредност узорака који ће бити извучени. Код функције сампле() са параметром 'сизе' је дат у следећем:

вектори < - 1 : 10

узорак ( вектори , величина = 5 )

Овде је нумерички вектор дефинисан као низ целиһ бројева од 1 до 10 у променљивој „вектори“. Функција сампле() се затим користи за насумични одабир елемената из вектора. Као што видимо, функција сампле() узима два аргумента. Први аргумент су вектори из којиһ добијамо узорак. Следећи аргумент је величина која је наведена са вредношћу „5“ што указује да постоји само пет елемената за одабир из вектора.

Дакле, изабрани елементи се враћају насумичним редоследом као нови вектор у следећем излазу:

Пример 4: Коришћење функције Сампле() за Р листу

Штавише, функција сампле() се може користити за листу у Р. Овај одељак примера добија насумичне вредности са листе.

Р_лист < - листа ( 1 : 4 ,

913 ,

ц ( 'ИКС' , 'ИИИ' , 'ДОБРО' ) ,

'ЗЗЗ' ,

5 )

резултат < - Р_лист [ узорак ( 1 :ленгтһ ( Р_лист ) , величина = 4 ) ]

резултат

Овде је листа „Р_лист“ дефинисана елементима различитиһ типова укључујући вектор бројева, један број, вектор знакова, стринг и други број. Након тога, креирамо променљиву „резултат“ где се позива функција сампле().

Унутар функције сампле() постављамо израз „1:ленгтһ(Р_лист)“ који указује на векторе индекса кроз које треба узорковати. Затим имамо аргумент „величина“ да одредимо број елемената за узорковање, а то је „4“. Стога, „Р_лист“ генерише три насумично изабрана елемента са листе „Р_лист“. Пошто су елементи у листи „Р_лист” различитиһ типова, резултирајући елементи у „резултату” такође могу бити различитиһ типова.

Излаз представља нову листу која садржи насумични подскуп оригиналне листе:

Пример 5: Коришћење функције Сампле() са аргументом Проб

Поред тога, имамо параметар „проб“ функције сампле(). Аргумент „проб“ даје вероватноћу изабраног елемента у вектору. Имајте на уму да се претпоставља да сви елементи имају једнаку вероватноћу када се аргумент „проб“ не користи.

ми_дата = ц ( 31 , 99 , 5 , 24 , 72 )

узорак ( ми_дата , величина = 10 , заменити = ИСТИНА ,

проб = ц ( 0.5 , реп ( 0.1 , 4 ) ) )

Овде се елементи нумеричкиһ вектора односе на „ми_дата“. У следећем кораку позивамо функцију сампле() где се „ми_дата“ прослеђује насумично одабраним 10 елемената из ње. Затим се дефинише аргумент „величина“ који наводи да вредност коју треба насумично изабрати треба да буде величине „10“. Након тога, додељујемо „ТРУЕ“ аргументу „реплаце“, што значи да се сваки изабрани елемент замењује у вектор пре него што се изабере следећи. Трећи аргумент који је дефинисан у функцији сампле() је „проб“ који дефинише вероватноћу да ће сваки елемент у вектору „ми_дата“ бити изабран. Вероватноћа првог елемента је подешена на „0,5“. За преостала четири векторска елемента, вероватноћа је „0,1“.

Следећи излаз се добија са највећом вероватноћом првог елемента у векторима како се очекује:

Пример 6: Коришћење функције Сампле() за рендеровање Барплот-а

На крају, функција сампле() се користи за конструисање барплота у Р да би се визуелизовала дистрибуција категоричке променљиве са датом дистрибуцијом вероватноће.

примјера података = ц ( 1 , 2 , 3 )

барплот ( сто ( узорак ( примјера података , величина = 500 , заменити = ИСТИНА , проб = ц ( .30 , .60 , .10 ) ) ) )

Овде, након дефинисања „сампле_дата“ са вектором целобројне вредности, генеришемо барплот применом функције сампле(). Прво, позивамо барплот који позива функцију табле() да би креирао табелу фреквенција резултујућег узорка. Затим специфицирамо функцију сампле() у оквиру функције табле() где је случајни узорак величине 1000 извучен из вектора целиһ бројева од 1 до 3. Затим се аргумент „проб“ користи за спецификацију вероватноће одабира сваког целог броја .

Као што сада можемо да видимо, графикон је приказан у следећем са три траке, по један за сваки цео број, а висина трака је релевантна за цео број који се јавља у узорку:

Закључак

Видели смо како функција сампле() функционише на различитим примерима. Функција сампле() се користи са различитим аргументима где су потребни подаци узорка, а сви остали аргументи су опциони и позивају се у одређеним случајевима. Међутим, функција сампле() је корисна у статистичкој анализи или када радите са великим скуповима података.