[ { "episode_id": 0, "timestamp": "2025-09-22T16:18:24.027941", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 거절", "reward": 0.7358985001204814, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 135.8883052263702, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 거절", "reward": 0.7861334009215178, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 127.20487373107215, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "약한 수락", "reward": 0.6305285853598203, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 118.94781892751169, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.6740021559509319, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 111.27560844992324, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 가격 제안", "reward": 0.7318358321615553, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 102.48200033944701, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "약한 거절", "reward": 0.570634635379974, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 96.3839146626223, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "강한 가격 제안", "reward": 1.0595279975097056, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 90.23375501159687, "terminated": true } ], "total_reward": 5.188561107403986, "num_steps": 7 }, { "episode_id": 1, "timestamp": "2025-09-22T16:18:24.029744", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "강한 거절", "reward": 0.7390394774903258, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 135.31076897216093, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 거절", "reward": 0.801125516069835, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 124.82438518570777, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "약한 가격 제안", "reward": 0.8266746792259854, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 120.96656945345163, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "약한 거절", "reward": 0.6539156600559058, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 114.69368999908635, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "강한 수락", "reward": 0.7009856035857323, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 106.9922115609145, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "중간 거절", "reward": 0.729344462994045, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 102.83206880342405, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "강한 가격 제안", "reward": 0.567252902669142, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 96.95851663553233, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "중간 수락", "reward": 1.0434788040265859, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 92.67390785793958, "terminated": true } ], "total_reward": 6.061817106117557, "num_steps": 8 }, { "episode_id": 2, "timestamp": "2025-09-22T16:18:24.029881", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "강한 거절", "reward": 0.7269372327267993, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 137.56345871141042, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 거절", "reward": 0.756597194679587, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 132.17072532544773, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "강한 거절", "reward": 0.7775685813646708, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 128.6060193230739, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.812286351695623, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 123.10929488259042, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.6493055986284829, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 115.50801372792905, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "강한 가격 제안", "reward": 0.690788532528077, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 108.57157649320362, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 거절", "reward": 0.7100689199148662, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 105.62354990694725, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "약한 가격 제안", "reward": 0.5557374640257946, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 98.9675945212993, "terminated": false }, { "step": 8, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "중간 가격 제안", "reward": 1.0412902763036351, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 93.01691944576609, "terminated": true } ], "total_reward": 6.720580151867536, "num_steps": 9 }, { "episode_id": 3, "timestamp": "2025-09-22T16:18:24.030028", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 거절", "reward": 0.7252551783902629, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 137.88250395116734, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 거절", "reward": 0.7477667619419455, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 133.7315391503905, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 가격 제안", "reward": 0.77003855118024, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 129.86362805697163, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 수락", "reward": 0.8243137799776058, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 121.31302718573589, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "중간 거절", "reward": 0.6353442495723813, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 118.04624036572108, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "강한 가격 제안", "reward": 0.6678033474242119, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 112.30851161390989, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 거절", "reward": 0.6816974190216999, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 110.01948651592679, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "약한 가격 제안", "reward": 0.7100061980929508, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 105.63288067265765, "terminated": false }, { "step": 8, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "중간 가격 제안", "reward": 0.7442817697542694, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 100.7682883657917, "terminated": false }, { "step": 9, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "강한 수락", "reward": 1.0374549618334905, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 93.62419857403351, "terminated": true } ], "total_reward": 7.5439622171890575, "num_steps": 10 }, { "episode_id": 4, "timestamp": "2025-09-22T16:18:24.030189", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 수락", "reward": 0.7146333204199368, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 139.93190233732378, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 가격 제안", "reward": 0.7297921670526436, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 137.02531284195942, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 거절", "reward": 0.75510873299296, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 132.43125874553, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 가격 제안", "reward": 0.8102459947081206, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 123.41930802882099, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "강한 가격 제안", "reward": 0.8317345976484769, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 120.23066045674327, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "강한 거절", "reward": 0.6560086328440509, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 114.32776375951947, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "약한 거절", "reward": 0.674953538395559, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 111.1187596383056, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 가격 제안", "reward": 0.7302460660076945, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 102.70510652666732, "terminated": false }, { "step": 8, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "약한 가격 제안", "reward": 0.5720230516832283, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 96.14997129601272, "terminated": false }, { "step": 9, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "약한 거절", "reward": 1.0506427970382055, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 91.5685666609294, "terminated": true } ], "total_reward": 7.525388898790876, "num_steps": 10 }, { "episode_id": 5, "timestamp": "2025-09-22T16:18:24.030352", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "중간 거절", "reward": 0.7305613483955329, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 136.88104389812182, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 가격 제안", "reward": 0.7567871209193779, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 132.1375552460719, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 가격 제안", "reward": 0.78862199555197, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 126.80346295693705, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "강한 거절", "reward": 0.6358337173218354, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 117.95536782148626, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "약한 수락", "reward": 0.6888695836656975, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 108.8740187959828, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.718338032660941, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 104.4076696345554, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "약한 거절", "reward": 0.7340748841478206, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 102.16941298443504, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "약한 가격 제안", "reward": 0.5570155928801377, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 98.74050332345952, "terminated": false }, { "step": 8, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "중간 가격 제안", "reward": 1.044383090477607, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 92.53291501917664, "terminated": true } ], "total_reward": 6.65448536602092, "num_steps": 9 }, { "episode_id": 6, "timestamp": "2025-09-22T16:18:24.030490", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "강한 수락", "reward": 0.72750892291292, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 137.4553587598672, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 수락", "reward": 0.782524180941611, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 127.79157812052534, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.8283112545472572, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 120.72756400570525, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "중간 거절", "reward": 0.6730035701665233, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 111.44071640131496, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.7083731926007367, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 105.87639507452755, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "강한 거절", "reward": 0.5571921272965241, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 98.70921950541188, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "중간 거절", "reward": 0.578004004688776, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 95.15505005819907, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "약한 거절", "reward": 1.059787946167413, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 90.19528894541341, "terminated": true } ], "total_reward": 5.9147051993217605, "num_steps": 8 }, { "episode_id": 7, "timestamp": "2025-09-22T16:18:24.030613", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "강한 거절", "reward": 0.7476969492228983, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 133.74402570979152, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 수락", "reward": 0.7826844090569465, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 127.76541712449546, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "약한 수락", "reward": 0.6339560237546636, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 118.30473595913722, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.6700352339433415, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 111.93441210338206, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "약한 수락", "reward": 0.7174069347685657, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 104.54317677343735, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "강한 거절", "reward": 0.5640770884044879, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 97.5044034416811, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "중간 수락", "reward": 1.0558066698679451, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 90.78803970908572, "terminated": true } ], "total_reward": 5.171663309018848, "num_steps": 7 }, { "episode_id": 8, "timestamp": "2025-09-22T16:18:24.030719", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "강한 수락", "reward": 0.7465479684274815, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 133.94986555336644, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 거절", "reward": 0.7880565018752345, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 126.89445460070839, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "강한 수락", "reward": 0.6264636918952473, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 119.71962776182876, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "약한 가격 제안", "reward": 0.6548001047926377, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 114.53877213985942, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "약한 가격 제안", "reward": 0.681939343451541, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 109.98045606284857, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 수락", "reward": 0.7000434976249617, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 107.13619975680452, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "약한 거절", "reward": 0.7290266498774218, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 102.87689759024647, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "약한 수락", "reward": 0.5537943325131409, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 99.31484807799998, "terminated": false }, { "step": 8, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "약한 가격 제안", "reward": 1.0514864005028703, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 91.44013888596228, "terminated": true } ], "total_reward": 6.532158490960537, "num_steps": 9 }, { "episode_id": 9, "timestamp": "2025-09-22T16:18:24.030862", "steps": [ { "step": 0, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 거절", "reward": 0.7179479516097199, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 139.2858629595485, "terminated": false }, { "step": 1, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "약한 수락", "reward": 0.7357380633672626, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "current_price": 135.91793734624605, "terminated": false }, { "step": 2, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))", "action": "강한 거절", "reward": 0.7985485009052322, "next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "current_price": 125.22720897558546, "terminated": false }, { "step": 3, "state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))", "action": "약한 수락", "reward": 0.634178662402988, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 118.26320317340058, "terminated": false }, { "step": 4, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "중간 거절", "reward": 0.66713537132276, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "current_price": 112.4209616577428, "terminated": false }, { "step": 5, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))", "action": "약한 가격 제안", "reward": 0.6959274570546614, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 107.76985336577854, "terminated": false }, { "step": 6, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "중간 수락", "reward": 0.7252535975319768, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 103.4121033735282, "terminated": false }, { "step": 7, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "중간 거절", "reward": 0.7424496531354222, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "current_price": 101.01695068920729, "terminated": false }, { "step": 8, "state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))", "action": "강한 수락", "reward": 0.5587233113829603, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 98.43870638556888, "terminated": false }, { "step": 9, "state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "action": "중간 가격 제안", "reward": 1.0321906190591832, "next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))", "current_price": 94.47077675157269, "terminated": true } ], "total_reward": 7.308093187772166, "num_steps": 10 } ]