feat: 데이터 관리 및 설정 개선
- configs/actions.json: 행동 정의 파일 추가 - configs/offline_env_config.yaml: 환경 설정 파일 개선 - saved_models/: Q-table JSON 형식 추가 - logs/: 데이터 수집 로그 기능 추가main
parent
1bf179bbaa
commit
e85490e0ab
|
|
@ -0,0 +1,67 @@
|
||||||
|
{
|
||||||
|
"actions": [
|
||||||
|
{
|
||||||
|
"id": 0,
|
||||||
|
"name": "STRONG_ACCEPT",
|
||||||
|
"description": "강한 수락",
|
||||||
|
"category": "accept",
|
||||||
|
"strength": "strong"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 1,
|
||||||
|
"name": "MEDIUM_ACCEPT",
|
||||||
|
"description": "중간 수락",
|
||||||
|
"category": "accept",
|
||||||
|
"strength": "medium"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 2,
|
||||||
|
"name": "WEAK_ACCEPT",
|
||||||
|
"description": "약한 수락",
|
||||||
|
"category": "accept",
|
||||||
|
"strength": "weak"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 3,
|
||||||
|
"name": "STRONG_REJECT",
|
||||||
|
"description": "강한 거절",
|
||||||
|
"category": "reject",
|
||||||
|
"strength": "strong"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 4,
|
||||||
|
"name": "MEDIUM_REJECT",
|
||||||
|
"description": "중간 거절",
|
||||||
|
"category": "reject",
|
||||||
|
"strength": "medium"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 5,
|
||||||
|
"name": "WEAK_REJECT",
|
||||||
|
"description": "약한 거절",
|
||||||
|
"category": "reject",
|
||||||
|
"strength": "weak"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 6,
|
||||||
|
"name": "STRONG_PROPOSE",
|
||||||
|
"description": "강한 가격 제안",
|
||||||
|
"category": "propose",
|
||||||
|
"strength": "strong"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 7,
|
||||||
|
"name": "MEDIUM_PROPOSE",
|
||||||
|
"description": "중간 가격 제안",
|
||||||
|
"category": "propose",
|
||||||
|
"strength": "medium"
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"id": 8,
|
||||||
|
"name": "WEAK_PROPOSE",
|
||||||
|
"description": "약한 가격 제안",
|
||||||
|
"category": "propose",
|
||||||
|
"strength": "weak"
|
||||||
|
}
|
||||||
|
]
|
||||||
|
}
|
||||||
|
|
@ -1,7 +1,12 @@
|
||||||
|
env:
|
||||||
|
scenario: 0
|
||||||
|
target_price: 100
|
||||||
|
threshold_price: 120
|
||||||
|
|
||||||
dataset_params:
|
dataset_params:
|
||||||
path: datasets/collected_data.h5
|
path: datasets/collected_data.h5
|
||||||
batch_size: 64
|
batch_size: 64
|
||||||
|
|
||||||
agent_params:
|
agent:
|
||||||
learning_rate: 0.001
|
learning_rate: 0.001
|
||||||
discount_factor: 0.99
|
discount_factor: 0.99
|
||||||
|
|
|
||||||
Binary file not shown.
|
|
@ -0,0 +1,865 @@
|
||||||
|
[
|
||||||
|
{
|
||||||
|
"episode_id": 0,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.027941",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.7358985001204814,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 135.8883052263702,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.7861334009215178,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 127.20487373107215,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.6305285853598203,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 118.94781892751169,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.6740021559509319,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 111.27560844992324,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 0.7318358321615553,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 102.48200033944701,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.570634635379974,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 96.3839146626223,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "강한 가격 제안",
|
||||||
|
"reward": 1.0595279975097056,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 90.23375501159687,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 5.188561107403986,
|
||||||
|
"num_steps": 7
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 1,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.029744",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.7390394774903258,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 135.31076897216093,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.801125516069835,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 124.82438518570777,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.8266746792259854,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 120.96656945345163,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.6539156600559058,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 114.69368999908635,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "강한 수락",
|
||||||
|
"reward": 0.7009856035857323,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 106.9922115609145,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.729344462994045,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 102.83206880342405,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "강한 가격 제안",
|
||||||
|
"reward": 0.567252902669142,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 96.95851663553233,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 1.0434788040265859,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 92.67390785793958,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 6.061817106117557,
|
||||||
|
"num_steps": 8
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 2,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.029881",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.7269372327267993,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 137.56345871141042,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.756597194679587,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 132.17072532544773,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.7775685813646708,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 128.6060193230739,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.812286351695623,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 123.10929488259042,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.6493055986284829,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 115.50801372792905,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "강한 가격 제안",
|
||||||
|
"reward": 0.690788532528077,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 108.57157649320362,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.7100689199148662,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 105.62354990694725,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.5557374640257946,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 98.9675945212993,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 8,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 1.0412902763036351,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 93.01691944576609,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 6.720580151867536,
|
||||||
|
"num_steps": 9
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 3,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.030028",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.7252551783902629,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 137.88250395116734,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.7477667619419455,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 133.7315391503905,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 0.77003855118024,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 129.86362805697163,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.8243137799776058,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 121.31302718573589,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.6353442495723813,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 118.04624036572108,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "강한 가격 제안",
|
||||||
|
"reward": 0.6678033474242119,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 112.30851161390989,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.6816974190216999,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 110.01948651592679,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.7100061980929508,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 105.63288067265765,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 8,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 0.7442817697542694,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 100.7682883657917,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 9,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "강한 수락",
|
||||||
|
"reward": 1.0374549618334905,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 93.62419857403351,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 7.5439622171890575,
|
||||||
|
"num_steps": 10
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 4,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.030189",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.7146333204199368,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 139.93190233732378,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.7297921670526436,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 137.02531284195942,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.75510873299296,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 132.43125874553,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 0.8102459947081206,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 123.41930802882099,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "강한 가격 제안",
|
||||||
|
"reward": 0.8317345976484769,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 120.23066045674327,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.6560086328440509,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 114.32776375951947,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.674953538395559,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 111.1187596383056,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 0.7302460660076945,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 102.70510652666732,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 8,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.5720230516832283,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 96.14997129601272,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 9,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 1.0506427970382055,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 91.5685666609294,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 7.525388898790876,
|
||||||
|
"num_steps": 10
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 5,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.030352",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.7305613483955329,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 136.88104389812182,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.7567871209193779,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 132.1375552460719,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.78862199555197,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 126.80346295693705,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.6358337173218354,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 117.95536782148626,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.6888695836656975,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 108.8740187959828,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.718338032660941,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 104.4076696345554,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.7340748841478206,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 102.16941298443504,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.5570155928801377,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 98.74050332345952,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 8,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 1.044383090477607,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 92.53291501917664,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 6.65448536602092,
|
||||||
|
"num_steps": 9
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 6,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.030490",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "강한 수락",
|
||||||
|
"reward": 0.72750892291292,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 137.4553587598672,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.782524180941611,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 127.79157812052534,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.8283112545472572,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 120.72756400570525,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.6730035701665233,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 111.44071640131496,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.7083731926007367,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 105.87639507452755,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.5571921272965241,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 98.70921950541188,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.578004004688776,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 95.15505005819907,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 1.059787946167413,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 90.19528894541341,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 5.9147051993217605,
|
||||||
|
"num_steps": 8
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 7,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.030613",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.7476969492228983,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 133.74402570979152,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.7826844090569465,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 127.76541712449546,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.6339560237546636,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 118.30473595913722,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.6700352339433415,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 111.93441210338206,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.7174069347685657,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 104.54317677343735,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.5640770884044879,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 97.5044034416811,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 1.0558066698679451,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 90.78803970908572,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 5.171663309018848,
|
||||||
|
"num_steps": 7
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 8,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.030719",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "강한 수락",
|
||||||
|
"reward": 0.7465479684274815,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 133.94986555336644,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.7880565018752345,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 126.89445460070839,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "강한 수락",
|
||||||
|
"reward": 0.6264636918952473,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 119.71962776182876,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.6548001047926377,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 114.53877213985942,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.681939343451541,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 109.98045606284857,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.7000434976249617,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 107.13619975680452,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.7290266498774218,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 102.87689759024647,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.5537943325131409,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 99.31484807799998,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 8,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 1.0514864005028703,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 91.44013888596228,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 6.532158490960537,
|
||||||
|
"num_steps": 9
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"episode_id": 9,
|
||||||
|
"timestamp": "2025-09-22T16:18:24.030862",
|
||||||
|
"steps": [
|
||||||
|
{
|
||||||
|
"step": 0,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 거절",
|
||||||
|
"reward": 0.7179479516097199,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 139.2858629595485,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 1,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.7357380633672626,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"current_price": 135.91793734624605,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 2,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=낮음 (<10%))",
|
||||||
|
"action": "강한 거절",
|
||||||
|
"reward": 0.7985485009052322,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 125.22720897558546,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 3,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=임계가격 초과, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 수락",
|
||||||
|
"reward": 0.634178662402988,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 118.26320317340058,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 4,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.66713537132276,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"current_price": 112.4209616577428,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 5,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=중간 (10-25%))",
|
||||||
|
"action": "약한 가격 제안",
|
||||||
|
"reward": 0.6959274570546614,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 107.76985336577854,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 6,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 수락",
|
||||||
|
"reward": 0.7252535975319768,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 103.4121033735282,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 7,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 거절",
|
||||||
|
"reward": 0.7424496531354222,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 101.01695068920729,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 8,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격~임계가격, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "강한 수락",
|
||||||
|
"reward": 0.5587233113829603,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 98.43870638556888,
|
||||||
|
"terminated": false
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"step": 9,
|
||||||
|
"state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"action": "중간 가격 제안",
|
||||||
|
"reward": 1.0321906190591832,
|
||||||
|
"next_state": "State(scenario=높은 구매 의지, price_zone=목표가격 이하, acceptance_rate=높음 (>25%))",
|
||||||
|
"current_price": 94.47077675157269,
|
||||||
|
"terminated": true
|
||||||
|
}
|
||||||
|
],
|
||||||
|
"total_reward": 7.308093187772166,
|
||||||
|
"num_steps": 10
|
||||||
|
}
|
||||||
|
]
|
||||||
Binary file not shown.
File diff suppressed because it is too large
Load Diff
Binary file not shown.
Loading…
Reference in New Issue