pytorch में सामान्य वितरण के लिए समझौता log_prob

वोट
1

मैं वर्तमान में openAi जिम वातावरण जिसमें एक सतत कार्रवाई की जगह है से पेंडुलम-V0 हल करने के लिए कोशिश कर रहा हूँ। नतीजतन, मैं अपने कार्यों के नमूने के लिए एक सामान्य वितरण का उपयोग करने की जरूरत है। क्या मुझे समझ नहीं आता log_prob के आयाम जब यह उपयोग कर रहा है:

यहाँ

मैं आकार (2,2) के एक टेन्सर आकार 2 (प्रत्येक कार्यों के लिए एक log_prob) लेकिन यह उत्पादन का एक टेन्सर उम्मीद थी।

हालांकि, जब असतत पर्यावरण के लिए एक स्पष्ट वितरण का उपयोग कर log_prob की उम्मीद आकार की है। क्यों एक अलग आकार के सामान्य वितरण के लिए log_prob है?

19/03/2020 को 21:23
का स्रोत उपयोगकर्ता
अन्य भाषाओं में...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more