एक वर्गीकरण पेड़ के निर्माण से उत्पादन समझने में सहायता चाहिए

वोट
0

मैं पैकेज 'पेड़' कहा जाता है का उपयोग कर निर्णय वृक्ष बनाने का अभ्यास कर रहा हूँ।

#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree

इस से उत्पादन होता है:

node), split, n, deviance, yval, (yprob)
      * denotes terminal node

1) root 800 1073.00 CH ( 0.60625 0.39375 )  
   2) LoyalCH < 0.508643 353  415.10 MM ( 0.27479 0.72521 )  
     4) LoyalCH < 0.277977 161  112.80 MM ( 0.11180 0.88820 )  
       8) LoyalCH < 0.035047 55    0.00 MM ( 0.00000 1.00000 ) *
       9) LoyalCH > 0.035047 106   96.58 MM ( 0.16981 0.83019 ) *
     5) LoyalCH > 0.277977 192  260.10 MM ( 0.41146 0.58854 )  
      10) PriceDiff < 0.195 84   84.62 MM ( 0.20238 0.79762 )  
        20) SpecialCH < 0.5 67   49.01 MM ( 0.11940 0.88060 ) *
        21) SpecialCH > 0.5 17   23.51 CH ( 0.52941 0.47059 ) *
      11) PriceDiff > 0.195 108  147.30 CH ( 0.57407 0.42593 ) *
   3) LoyalCH > 0.508643 447  348.80 CH ( 0.86801 0.13199 )  
     6) LoyalCH < 0.764572 189  214.20 CH ( 0.74603 0.25397 )  
      12) PriceDiff < -0.165 33   43.26 MM ( 0.36364 0.63636 ) *
      13) PriceDiff > -0.165 156  143.70 CH ( 0.82692 0.17308 )  
        26) PriceDiff < 0.265 86   99.88 CH ( 0.73256 0.26744 ) *
        27) PriceDiff > 0.265 70   30.66 CH ( 0.94286 0.05714 ) *
     7) LoyalCH > 0.764572 258   90.94 CH ( 0.95736 0.04264 ) *

मैं समझता हूँ कि पेड़ पर तारांकित पंक्तियों टर्मिनल नोड्स रहे हैं। मैं अन्य सामान का पालन करने के लिए संघर्ष कर रहा हूँ। एक उदाहरण के रूप पंक्ति 7 का उपयोग करना, मुझे पता है कि 'LoyalCH> .७,६४,५७२' है, जहां निर्णय वृक्ष विभाजन और टर्मिनल नोड के लिए शाखाओं, और सीएच टर्मिनल नोड जहां ग्राहकों से अधिक 76.4572% सीएच के प्रति वफादार रहे हैं के गुणात्मक मूल्य (है डेटा ISLR पैकेज पहले से लोड, सीएच एक रस ब्रांड) है। मैं 258 संभालने कर रहा हूँ डेटा बिंदुओं कि टर्मिनल नोड में हवा की संख्या माना जाता है। मुझे पता है कि 90.94 मॉडल के लिए फिट की अच्छाई का वर्णन माना जाता है, लेकिन मैं एक छोटे से विचलन की अवधारणा के बारे में भ्रमित कर रहा हूँ। विचलन बुरा के एक उच्च मूल्य है? क्या 90.94 से संकेत मिलता है कि यह एक कमजोर फिट है? कोष्ठक में संख्या का सवाल है, मुझे यह समझाया गया है कि ०.९५७३६ इस शाखा सीएच चुनने में प्रत्येक डेटा बिंदु की संभावना है?

20/03/2020 को 00:06
का स्रोत उपयोगकर्ता
अन्य भाषाओं में...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more