H       þ’H	}³s$h ÙAbrain.Event:2R.
,tensorboard.summary.writer.event_file_writerÂ8„#"       x=ý	"†Ï8h ÙA*

objective/kl    íÈ´ø'       »á±F	™†Ï8h ÙA*

objective/kl_coefÍÌL>-Lè'       »á±F	¹†Ï8h ÙA*

objective/entropy4<…BTÕ/       m]P	Î†Ï8h ÙA*"
 
ppo/mean_non_score_reward    ~m%       ê¼6ó	ã†Ï8h ÙA*

ppo/mean_scores42ä>3/ÈI$       B+€M	õ†Ï8h ÙA*

ppo/std_scoreskÚ>c¤×û-       <AŠû	‡Ï8h ÙA* 

tokens/queries_len_mean  ;C$Ë…,       ô®ÌE	‡Ï8h ÙA*

tokens/queries_len_std    ,«ú_/       m]P	.‡Ï8h ÙA*"
 
tokens/responses_len_mean   Ay	¼.       ÅËWú	B‡Ï8h ÙA*!

tokens/responses_len_std    ½ì%       ê¼6ó	T‡Ï8h ÙA*

ppo/loss/policy7ï,>ôp $       B+€M	‡ˆÏ8h ÙA*

ppo/loss/valueÑ(¹@¨ÀÚU$       B+€M	Õ‰Ï8h ÙA*

ppo/loss/totalt\??¾+’)(       ÿpJ	•ŠÏ8h ÙA*

ppo/policy/entropy4ÊÄ@¹W)       7ÿ_ 	O‹Ï8h ÙA*

ppo/policy/approxklÖ7A‚:Óˆ)       7ÿ_ 	ö‹Ï8h ÙA*

ppo/policy/policykl–kU@Ïúç#)       7ÿ_ 	ŒÏ8h ÙA*

ppo/policy/clipfracÍÌã>aÕ÷¾0       •õÐ_	IÏ8h ÙA*#
!
ppo/policy/advantages_mean™™‹3N­©ž&       sOã 	úÏ8h ÙA*

ppo/returns/meanã3»?á«¿%       ê¼6ó	©ŽÏ8h ÙA*

ppo/returns/var ±Ä>ÓyjB#       °ŸwC	TÏ8h ÙA*

ppo/val/vpred¨?‡ôï#       °ŸwC	õÏ8h ÙA*

ppo/val/errorñYAþÞú3&       sOã 	—Ï8h ÙA*

ppo/val/clipfracff¤>ngÐ"       x=ý	9‘Ï8h ÙA*

ppo/val/mean%N@:Ôö"!       {ìö	ß‘Ï8h ÙA*

ppo/val/varî‡c@€‰,+       †ÃK	‡’Ï8h ÙA*

ppo/val/var_explainedÝ¹ÁCTP'       »á±F	Q“Ï8h ÙA*

ppo/learning_rateÀÏ¸:Í+       †ÃK	”Ï8h ÙA*

time/ppo/forward_passP‡„>Â¢ÇÊ.       ÅËWú	„•Ï8h ÙA*!

time/ppo/compute_rewards ò£;(:Kd1       ƒƒé	f–Ï8h ÙA*$
"
time/ppo/compute_advantages jƒ;5Š5Ü,       ô®ÌE	R˜Ï8h ÙA*

time/ppo/optimize_stepŠsµ?*”¸)       7ÿ_ 	Ê˜Ï8h ÙA*

time/ppo/calc_stats°»s>–…J1$       B+€M	òšÏ8h ÙA*

time/ppo/totalÞ6ö?÷Ö%       ê¼6ó	‘›Ï8h ÙA*

env/reward_mean42ä>èV…$       B+€M	uÏ8h ÙA*

env/reward_stdkÚ>îœv"       x=ý	¿¢ih ÙA*

objective/kl¢ÐRBºƒP'       »á±F	*‚¢ih ÙA*

objective/kl_coef?«L>Â5‰'       »á±F	F‚¢ih ÙA*

objective/entropyÜT Cn`eà/       m]P	Z‚¢ih ÙA*"
 
ppo/mean_non_score_rewardx1	¿üé×Î%       ê¼6ó	n‚¢ih ÙA*

ppo/mean_scores*fÛ?íÖld$       B+€M	~‚¢ih ÙA*

ppo/std_scores{ß?+òe-       <AŠû	‚¢ih ÙA* 

tokens/queries_len_mean  
C¹¾¿,       ô®ÌE	¢‚¢ih ÙA*

tokens/queries_len_std    úÉ_è/       m]P	µ‚¢ih ÙA*"
 
tokens/responses_len_mean @AÂX.       ÅËWú	Ç‚¢ih ÙA*!

tokens/responses_len_stdÎæø?4"[V%       ê¼6ó	Ù‚¢ih ÙA*

ppo/loss/policy~…•¼Ûàã$       B+€M	…¢ih ÙA*

ppo/loss/valueE;A»y%§$       B+€M	E‡¢ih ÙA*

ppo/loss/totalDLU?wòîñ(       ÿpJ	p‡¢ih ÙA*

ppo/policy/entropye0Î@|jç)       7ÿ_ 	ƒ‰¢ih ÙA*

ppo/policy/approxklä1h>›—{Ý)       7ÿ_ 	¬‰¢ih ÙA*

ppo/policy/policykl39º=%Èù)       7ÿ_ 	Ä‰¢ih ÙA*

ppo/policy/clipfrac²ê>N@0       •õÐ_	Ø‰¢ih ÙA*#
!
ppo/policy/advantages_mean®aÐ±Ý±yô&       sOã 	î‰¢ih ÙA*

ppo/returns/meant&
Àaýâ%       ê¼6ó	 Š¢ih ÙA*

ppo/returns/var`û@dY°=#       °ŸwC	Š¢ih ÙA*

ppo/val/vpredª¾\¿—Dí#       °ŸwC	!Š¢ih ÙA*

ppo/val/errorJ4'A÷?P&       sOã 	Š¢ih ÙA*

ppo/val/clipfracÝ=?‹ŠÓö"       x=ý	ÛŠ¢ih ÙA*

ppo/val/mean›3I?Ë°éR!       {ìö	=‹¢ih ÙA*

ppo/val/varÄ,;ƒ­Î¹+       †ÃK	—‹¢ih ÙA*

ppo/val/var_explained ©¾¡Ìu±'       »á±F	î‹¢ih ÙA*

ppo/learning_rateÀÏ¸:¹^ŸÏ+       †ÃK	DŒ¢ih ÙA*

time/ppo/forward_pass cN>vj„+.       ÅËWú	Œ¢ih ÙA*!

time/ppo/compute_rewards Èß:®gïâ1       ƒƒé	øŒ¢ih ÙA*$
"
time/ppo/compute_advantages |M;Ìu•Ë,       ô®ÌE	N¢ih ÙA*

time/ppo/optimize_step¦9‰?÷ÉEd)       7ÿ_ 	¤¢ih ÙA*

time/ppo/calc_statspîA>yøw$       B+€M	ø¢ih ÙA*

time/ppo/total(å»?<µ=%       ê¼6ó	MŽ¢ih ÙA*

env/reward_mean*fÛ?(*$       B+€M	¡Ž¢ih ÙA*

env/reward_std{ß?Ç@_"       x=ý	Ž“•h ÙA*

objective/klùDUBÍX!'       »á±F	”•h ÙA*

objective/kl_coefÇÌL>R›÷ó'       »á±F	&”•h ÙA*

objective/entropyLaC”ED/       m]P	=”•h ÙA*"
 
ppo/mean_non_score_reward®E¿1•Zå%       ê¼6ó	O”•h ÙA*

ppo/mean_scores	É©?Ž(-$       B+€M	c”•h ÙA*

ppo/std_scores\Nò?¨¿ÑP-       <AŠû	v”•h ÙA* 

tokens/queries_len_mean  äB­ÐòÆ,       ô®ÌE	ˆ”•h ÙA*

tokens/queries_len_std    n{6/       m]P	”•h ÙA*"
 
tokens/responses_len_mean €™AµNö¢.       ÅËWú	°”•h ÙA*!

tokens/responses_len_stdÞ¬b@öÒ`Ë%       ê¼6ó	Ã”•h ÙA*

ppo/loss/policyu
T½*¢ï$       B+€M	®••h ÙA*

ppo/loss/valueÄ©×@.N¿
$       B+€M	º–•h ÙA*

ppo/loss/total)G?w¼›(       ÿpJ	_—•h ÙA*

ppo/policy/entropy3î@©]c)       7ÿ_ 	Ò—•h ÙA*

ppo/policy/approxklÝ9+> ¸V)       7ÿ_ 	9˜•h ÙA*

ppo/policy/policykl¶K">V$Ye)       7ÿ_ 	˜•h ÙA*

ppo/policy/clipfrac(ð>üõâá0       •õÐ_	ÿ˜•h ÙA*#
!
ppo/policy/advantages_meanaI¸3eÀ¾=&       sOã 	`™•h ÙA*

ppo/returns/meanèè_ÀIˆÖz%       ê¼6ó	¿™•h ÙA*

ppo/returns/var¨|A`e±8#       °ŸwC	š•h ÙA*

ppo/val/vpredýÈ¿óË”6#       °ŸwC	sš•h ÙA*

ppo/val/errorº×FA:ü)Ÿ&       sOã 	Êš•h ÙA*

ppo/val/clipfrac2,	?(ñõ;"       x=ý	$›•h ÙA*

ppo/val/mean|š¿XKÆÚ!       {ìö	›•h ÙA*

ppo/val/var¤˜:©SÊ +       †ÃK	Ü›•h ÙA*

ppo/val/var_explainedðÞÙ¾žÅ¤R'       »á±F	8œ•h ÙA*

ppo/learning_rateÀÏ¸:E)=œ+       †ÃK	‘œ•h ÙA*

time/ppo/forward_pass°Û0>ÑíP.       ÅËWú	îœ•h ÙA*!

time/ppo/compute_rewards ØÛ:'$¡1       ƒƒé	E•h ÙA*$
"
time/ppo/compute_advantages X.;Ÿ:­),       ô®ÌE	œ•h ÙA*

time/ppo/optimize_stepHÀi?Ž^þ)       7ÿ_ 	ñ•h ÙA*

time/ppo/calc_stats‡$>µÒq$       B+€M	Fž•h ÙA*

time/ppo/total  ?ø)‡%       ê¼6ó	œž•h ÙA*

env/reward_mean	É©?Jc~Ÿ$       B+€M	óž•h ÙA*

env/reward_std\Nò?4Ìs"       x=ý	cg¥h ÙA*

objective/klÊw`Bç›¼'       »á±F	Øg¥h ÙA*

objective/kl_coefUîL>×„Œx'       »á±F	øg¥h ÙA*

objective/entropyúT
C½^ï/       m]P	h¥h ÙA*"
 
ppo/mean_non_score_rewardL˜¿åñû‹%       ê¼6ó	#h¥h ÙA*

ppo/mean_scores·æ\?à—^Â$       B+€M	7h¥h ÙA*

ppo/std_scores¡šË?kä‚R-       <AŠû	Jh¥h ÙA* 

tokens/queries_len_mean  4C³W“µ,       ô®ÌE	\h¥h ÙA*

tokens/queries_len_std    ¾ªé./       m]P	nh¥h ÙA*"
 
tokens/responses_len_mean À™A0Yo‰.       ÅËWú	€h¥h ÙA*!

tokens/responses_len_std€S_@Ò´%       ê¼6ó	“h¥h ÙA*

ppo/loss/policy#’½RÈ$       B+€M	…k¥h ÙA*

ppo/loss/valueÀòí@Š…¼N$       B+€M	¿k¥h ÙA*

ppo/loss/totalZ,?¹þ“5(       ÿpJ	ßk¥h ÙA*

ppo/policy/entropy cà@…<pG)       7ÿ_ 	øk¥h ÙA*

ppo/policy/approxkl:Å=Ö¬¼)       7ÿ_ 	l¥h ÙA*

ppo/policy/policykl¡L=,RJ»)       7ÿ_ 	l¥h ÙA*

ppo/policy/clipfrac}â>H0Âé0       •õÐ_	m¥h ÙA*#
!
ppo/policy/advantages_meanˆß²£rßÞ&       sOã 	m¥h ÙA*

ppo/returns/meanBI‚À Æç%       ê¼6ó	åm¥h ÙA*

ppo/returns/var„Ak ­#       °ŸwC	On¥h ÙA*

ppo/val/vpredí ÀÀ¤öi#       °ŸwC	±n¥h ÙA*

ppo/val/error5àWA(îÞ&       sOã 	o¥h ÙA*

ppo/val/clipfracQ?Êðéš"       x=ý	wo¥h ÙA*

ppo/val/mean’¾Ï¿¸Yæ†!       {ìö	Þo¥h ÙA*

ppo/val/var¹’:pKá+       †ÃK	Bp¥h ÙA*

ppo/val/var_explainedDaÛ¾'˜UÔ'       »á±F	©p¥h ÙA*

ppo/learning_rateÀÏ¸:ï¦a+       †ÃK	q¥h ÙA*

time/ppo/forward_passx{‚>A‚ï:.       ÅËWú	tq¥h ÙA*!

time/ppo/compute_rewards ˆØ:c£å1       ƒƒé	Ûq¥h ÙA*$
"
time/ppo/compute_advantages ‚;=Yl,       ô®ÌE	;r¥h ÙA*

time/ppo/optimize_stepD¯?_^ôâ)       7ÿ_ 	r¥h ÙA*

time/ppo/calc_stats°±€>óî$       B+€M	þr¥h ÙA*

time/ppo/totalìÉð?#¶ø%       ê¼6ó	js¥h ÙA*

env/reward_mean·æ\?¯(Qa$       B+€M	És¥h ÙA*

env/reward_std¡šË?Œ½"       x=ý	Oú°°h ÙA*

objective/klwuXBë¿w '       »á±F	Ëú°°h ÙA*

objective/kl_coeféM>¿	ñ;'       »á±F	ðú°°h ÙA*

objective/entropy5àBóz˜š/       m]P	û°°h ÙA*"
 
ppo/mean_non_score_rewardÑ'¿kl\%       ê¼6ó	û°°h ÙA*

ppo/mean_scoresÕM?pÈ"e$       B+€M	)û°°h ÙA*

ppo/std_scoresè £?î:¹þ-       <AŠû	<û°°h ÙA* 

tokens/queries_len_mean  4C»1Ð,       ô®ÌE	Nû°°h ÙA*

tokens/queries_len_std    ®–[‚/       m]P	`û°°h ÙA*"
 
tokens/responses_len_mean @„Aik‰.       ÅËWú	qû°°h ÙA*!

tokens/responses_len_stdœ`¥@ëqÊ?%       ê¼6ó	‚û°°h ÙA*

ppo/loss/policy`×Ž½ÿ§Ù:$       B+€M	kü°°h ÙA*

ppo/loss/value|=é@Þ°‘$       B+€M	zý°°h ÙA*

ppo/loss/totalª¼(?ûí!Ü(       ÿpJ	üý°°h ÙA*

ppo/policy/entropysAË@Œ0¦)       7ÿ_ 	fþ°°h ÙA*

ppo/policy/approxklj&!>ø~¥ó)       7ÿ_ 	Çþ°°h ÙA*

ppo/policy/policyklxó=6½ç~)       7ÿ_ 	Kÿ°°h ÙA*

ppo/policy/clipfracÌÉï>ýcð0       •õÐ_	­ÿ°°h ÙA*#
!
ppo/policy/advantages_mean´Û±ëvÖ&       sOã 	
 ±°h ÙA*

ppo/returns/meanÌbÀÙ½º¡%       ê¼6ó	f ±°h ÙA*

ppo/returns/var¤À$Az_¥ï#       °ŸwC	Ã ±°h ÙA*

ppo/val/vpred.7*À#­±#       °ŸwC	±°h ÙA*

ppo/val/error+dVAË¢Ç[&       sOã 	p±°h ÙA*

ppo/val/clipfracÏ?~|ç€"       x=ý	Å±°h ÙA*

ppo/val/meanÆeÀ±+M0!       {ìö	!±°h ÙA*

ppo/val/var4°„;Lu[t+       †ÃK	}±°h ÙA*

ppo/val/var_explainedCš¾°‡P'       »á±F	Õ±°h ÙA*

ppo/learning_rateÀÏ¸:Âîž+       †ÃK	-±°h ÙA*

time/ppo/forward_pass8Ø>ÄS.       ÅËWú	Œ±°h ÙA*!

time/ppo/compute_rewards hß:¯÷f\1       ƒƒé	æ±°h ÙA*$
"
time/ppo/compute_advantages $;ƒÓ	»,       ô®ÌE	=±°h ÙA*

time/ppo/optimize_stepªæ°?£R¸`)       7ÿ_ 	•±°h ÙA*

time/ppo/calc_stats év>âÄlù$       B+€M	í±°h ÙA*

time/ppo/totalJõð?iBwJ%       ê¼6ó	E±°h ÙA*

env/reward_meanÕM?Û‰~$       B+€M	š±°h ÙA*

env/reward_stdè £?:jx‹"       x=ý	8¸r¸h ÙA*

objective/kltœ¡A}÷|”'       »á±F	¡¸r¸h ÙA*

objective/kl_coef‚1M>·Q‡²'       »á±F	¼¸r¸h ÙA*

objective/entropy5Š¿Awù/       m]P	Ï¸r¸h ÙA*"
 
ppo/mean_non_score_reward}’n¿2´‘%       ê¼6ó	â¸r¸h ÙA*

ppo/mean_scores\W? ›%$       B+€M	ó¸r¸h ÙA*

ppo/std_scores×ƒ\?ìg°-       <AŠû	¹r¸h ÙA* 

tokens/queries_len_mean  4Cu%™ß,       ô®ÌE	¹r¸h ÙA*

tokens/queries_len_std    ë/àŠ/       m]P	)¹r¸h ÙA*"
 
tokens/responses_len_mean  ‹@2ÀÛª.       ÅËWú	:¹r¸h ÙA*!

tokens/responses_len_stdpÜ¨@c#}R%       ê¼6ó	K¹r¸h ÙA*

ppo/loss/policyýµP=>plñ$       B+€M	˜»r¸h ÙA*

ppo/loss/valueW=g@;sá±$       B+€M	ž½r¸h ÙA*

ppo/loss/total Ó>(­«õ(       ÿpJ	Ì½r¸h ÙA*

ppo/policy/entropyÐÞÐ?IrâÂ)       7ÿ_ 	å½r¸h ÙA*

ppo/policy/approxkl} >A[3)       7ÿ_ 	÷½r¸h ÙA*

ppo/policy/policykl[@G@ØJ…Ï)       7ÿ_ 	i¾r¸h ÙA*

ppo/policy/clipfracÙÞõ>F,50       •õÐ_	*Àr¸h ÙA*#
!
ppo/policy/advantages_mean¨½ë¯û\¹"&       sOã 	YÀr¸h ÙA*

ppo/returns/meanì!NÀ÷—N%       ê¼6ó	rÀr¸h ÙA*

ppo/returns/varŸdê@õ]* #       °ŸwC	ƒÀr¸h ÙA*

ppo/val/vpredþõAÀêk:Ø#       °ŸwC	”Àr¸h ÙA*

ppo/val/error‡Næ@Ø‡'£&       sOã 	¥Àr¸h ÙA*

ppo/val/clipfracØÝ=<$~›"       x=ý	¶Àr¸h ÙA*

ppo/val/mean4j;ÀÊ]!       {ìö	Ár¸h ÙA*

ppo/val/var¢‰ë<GXÉ+       †ÃK	oÁr¸h ÙA*

ppo/val/var_explainedÀÐŽ<(dg'       »á±F	ÆÁr¸h ÙA*

ppo/learning_rateÀÏ¸:k Å¨+       †ÃK	Âr¸h ÙA*

time/ppo/forward_passà‚>	\!.       ÅËWú	~Âr¸h ÙA*!

time/ppo/compute_rewards Ô:Jcº¦1       ƒƒé	ÕÂr¸h ÙA*$
"
time/ppo/compute_advantages y;)»,       ô®ÌE	*Ãr¸h ÙA*

time/ppo/optimize_step–í¬?†s€·)       7ÿ_ 	Ãr¸h ÙA*

time/ppo/calc_stats`{t>>-Ò!$       B+€M	ÖÃr¸h ÙA*

time/ppo/totalvÑì?ää§%       ê¼6ó	+Är¸h ÙA*

env/reward_mean\W?“Xé$       B+€M	ƒÄr¸h ÙA*

env/reward_std×ƒ\?î’"       x=ý	w$»h ÙA*

objective/klãx A¾µÙÔ'       »á±F	Œw$»h ÙA*

objective/kl_coef SM>r6FØ'       »á±F	²w$»h ÙA*

objective/entropyˆÿ®7ýQ%F/       m]P	Çw$»h ÙA*"
 
ppo/mean_non_score_rewardé´ ÀWI"³%       ê¼6ó	Ûw$»h ÙA*

ppo/mean_scoresGb3?ÈdC$       B+€M	íw$»h ÙA*

ppo/std_scores(]D=&‡k-       <AŠû	þw$»h ÙA* 

tokens/queries_len_mean  4CÕê,       ô®ÌE	x$»h ÙA*

tokens/queries_len_std    *¶KI/       m]P	!x$»h ÙA*"
 
tokens/responses_len_mean  €?ðƒ.       ÅËWú	3x$»h ÙA*!

tokens/responses_len_std    …²Ì¢%       ê¼6ó	Fx$»h ÙA*

ppo/loss/policy  ò´‡‘˜$       B+€M	3y$»h ÙA*

ppo/loss/value‡á—?c79$       B+€M	?z$»h ÙA*

ppo/loss/total5ó=@€nN(       ÿpJ	Øz$»h ÙA*

ppo/policy/entropykb¨>ž›¿T)       7ÿ_ 	N{$»h ÙA*

ppo/policy/approxklÊöÆ:¶‡þú)       7ÿ_ 	´{$»h ÙA*

ppo/policy/policykl„=‹TH=)       7ÿ_ 	|$»h ÙA*

ppo/policy/clipfrac    Ò&k£0       •õÐ_	„|$»h ÙA*#
!
ppo/policy/advantages_mean  ø4òqSñ&       sOã 	ä|$»h ÙA*

ppo/returns/mean®¸§¿qË(%       ê¼6ó	C}$»h ÙA*

ppo/returns/varÂž;/Ê8#       °ŸwC	¶}$»h ÙA*

ppo/val/vpred½©¿ôK…#       °ŸwC	~$»h ÙA*

ppo/val/errorZ9Œ?~îåÉ&       sOã 	h~$»h ÙA*

ppo/val/clipfrac  @?Ã!¶"       x=ý	Á~$»h ÙA*

ppo/val/mean·Ù?À.(›2!       {ìö	$»h ÙA*

ppo/val/var    ÅÛhû+       †ÃK	x$»h ÙA*

ppo/val/var_explained‘ÔíÃºZÊb'       »á±F	Ô$»h ÙA*

ppo/learning_rateÀÏ¸:€î3+       †ÃK	-€$»h ÙA*

time/ppo/forward_passÐãm>zïò.       ÅËWú	‰€$»h ÙA*!

time/ppo/compute_rewards ø×:ž 1       ƒƒé	á€$»h ÙA*$
"
time/ppo/compute_advantages _;‹ö,       ô®ÌE	7$»h ÙA*

time/ppo/optimize_step8¤›?-}ÿÄ)       7ÿ_ 	$»h ÙA*

time/ppo/calc_stats ¨\>´Ž3ó$       B+€M	ã$»h ÙA*

time/ppo/total¦Õ?åaNò%       ê¼6ó	;‚$»h ÙA*

env/reward_meanGb3?–;2x$       B+€M	‘‚$»h ÙA*

env/reward_std(]D=9|ô"       x=ý	œ{Áh ÙA*

objective/kl5=/Ajïú'       »á±F	sœ{Áh ÙA*

objective/kl_coefÄtM>âuFk'       »á±F	™œ{Áh ÙA*

objective/entropy®¯@©ÈF/       m]P	°œ{Áh ÙA*"
 
ppo/mean_non_score_rewardC…»¿~§F%       ê¼6ó	Ãœ{Áh ÙA*

ppo/mean_scoresQ¹V?Ù|Å$       B+€M	Õœ{Áh ÙA*

ppo/std_scoresƒÉ??éãœ-       <AŠû	æœ{Áh ÙA* 

tokens/queries_len_mean  4CÈî²à,       ô®ÌE	öœ{Áh ÙA*

tokens/queries_len_std    f‘Å-/       m]P		{Áh ÙA*"
 
tokens/responses_len_mean  À?Ö.       ÅËWú	{Áh ÙA*!

tokens/responses_len_std{C?¡Ât%       ê¼6ó	,{Áh ÙA*

ppo/loss/policyÜuJ<}¹$       B+€M	]Ÿ{Áh ÙA*

ppo/loss/valueÅjŽ?¦ã³$       B+€M	ç¢{Áh ÙA*

ppo/loss/totalÄ,ý=C)îÃ(       ÿpJ	£{Áh ÙA*

ppo/policy/entropy6„?ñºÖÊ)       7ÿ_ 	,£{Áh ÙA*

ppo/policy/approxkl¶±•@}Íj«)       7ÿ_ 	>£{Áh ÙA*

ppo/policy/policyklð=¤?U^®
)       7ÿ_ 	P£{Áh ÙA*

ppo/policy/clipfracªªŠ>CYû÷0       •õÐ_	d£{Áh ÙA*#
!
ppo/policy/advantages_meanUUe3%YxT&       sOã 	z£{Áh ÙA*

ppo/returns/meanHfœ¿ÜÓ¯’%       ê¼6ó	Œ£{Áh ÙA*

ppo/returns/var°Ì”?hPê#       °ŸwC	£{Áh ÙA*

ppo/val/vpredY)¨¾Ã6ˆ #       °ŸwC	°£{Áh ÙA*

ppo/val/errorÊý?NYhò&       sOã 	ü¥{Áh ÙA*

ppo/val/clipfracªªâ>g)¼§"       x=ý	&¦{Áh ÙA*

ppo/val/mean’œ½•£ÿ!       {ìö	<¦{Áh ÙA*

ppo/val/varäŒË:ïSAc+       †ÃK	N¦{Áh ÙA*

ppo/val/var_explainedÐ 4¿ÖÝÊ«'       »á±F	_¦{Áh ÙA*

ppo/learning_rateÀÏ¸:øý‚+       †ÃK	p¦{Áh ÙA*

time/ppo/forward_pass0r><šå.       ÅËWú	¦{Áh ÙA*!

time/ppo/compute_rewards øÕ:GX‚™1       ƒƒé	’¦{Áh ÙA*$
"
time/ppo/compute_advantages ˆj;ÜNš,       ô®ÌE	¥¦{Áh ÙA*

time/ppo/optimize_stepâ* ?ßžr<)       7ÿ_ 	µ¦{Áh ÙA*

time/ppo/calc_statsðg>ˆt%h$       B+€M	§{Áh ÙA*

time/ppo/totaldüÛ?6U%       ê¼6ó	n§{Áh ÙA*

env/reward_meanQ¹V?*Æ¦$       B+€M	È§{Áh ÙA*

env/reward_stdƒÉ??è9@"       x=ý	
=Äh ÙA	*

objective/kl«r A˜‡=)'       »á±F	Û=Äh ÙA	*

objective/kl_coefm–M>v}„'       »á±F	÷=Äh ÙA	*

objective/entropy6ÌÉ:A¾!/       m]P	>Äh ÙA	*"
 
ppo/mean_non_score_rewardÚ ÀŠR2 %       ê¼6ó	>Äh ÙA	*

ppo/mean_scoresÓ1?öND¤$       B+€M	/>Äh ÙA	*

ppo/std_scores<%=èÞ¶-       <AŠû	@>Äh ÙA	* 

tokens/queries_len_mean  4Cçï´U,       ô®ÌE	R>Äh ÙA	*

tokens/queries_len_std    ¶òDŸ/       m]P	h>Äh ÙA	*"
 
tokens/responses_len_mean  €?j³»E.       ÅËWú	y>Äh ÙA	*!

tokens/responses_len_std    ›¬ô%       ê¼6ó	Œ>Äh ÙA	*

ppo/loss/policyúAÆ<n™Ó!$       B+€M	CAÄh ÙA	*

ppo/loss/value˜îÂ=Ã]ùR$       B+€M	ËCÄh ÙA	*

ppo/loss/total‚
=©Uj(       ÿpJ	üCÄh ÙA	*

ppo/policy/entropyØˆ>úZ¨)       7ÿ_ 	tFÄh ÙA	*

ppo/policy/approxklþ¤‡>Ü¼”a)       7ÿ_ 	¡FÄh ÙA	*

ppo/policy/policyklíóË>á!N)       7ÿ_ 	¹FÄh ÙA	*

ppo/policy/clipfrac  x>±6
‹0       •õÐ_	#IÄh ÙA	*#
!
ppo/policy/advantages_mean  ¾µš¯¸
&       sOã 	QIÄh ÙA	*

ppo/returns/mean¬Ê¨¿8jà%       ê¼6ó	ÜKÄh ÙA	*

ppo/returns/var¤›:o¥[)#       °ŸwC	LÄh ÙA	*

ppo/val/vpred¼aŸ¿k„˜#       °ŸwC	!LÄh ÙA	*

ppo/val/error®Œ>`Ñh&       sOã 	LÄh ÙA	*

ppo/val/clipfrac  ü>ÒØé["       x=ý	*OÄh ÙA	*

ppo/val/mean•Ô@¿EO!       {ìö	UOÄh ÙA	*

ppo/val/var    ïdÕ+       †ÃK	oOÄh ÙA	*

ppo/val/var_explainedŸwèÂv’²ƒ'       »á±F	‚OÄh ÙA	*

ppo/learning_rateÀÏ¸:J$J+       †ÃK	–OÄh ÙA	*

time/ppo/forward_pass@nl>ýÕ“;.       ÅËWú	¨OÄh ÙA	*!

time/ppo/compute_rewards ÐË:Äžd®1       ƒƒé	ºOÄh ÙA	*$
"
time/ppo/compute_advantages ¬c;Ø2þ›,       ô®ÌE	ÎOÄh ÙA	*

time/ppo/optimize_stepºo?;‚”’)       7ÿ_ 	àOÄh ÙA	*

time/ppo/calc_statsPp^>yC€ª$       B+€M	òOÄh ÙA	*

time/ppo/total¼r×?AÒpr%       ê¼6ó	[PÄh ÙA	*

env/reward_meanÓ1?ÿÆ¸Š$       B+€M	ÇPÄh ÙA	*

env/reward_std<%=i‡ïo"       x=ý	Û ±Æh ÙA
*

objective/kl®k A¬‘.Ô'       »á±F	G¡±Æh ÙA
*

objective/kl_coef¸M>fR˜['       »á±F	d¡±Æh ÙA
*

objective/entropyŽ¯T;Ö¡»/       m]P	z¡±Æh ÙA
*"
 
ppo/mean_non_score_reward™é ÀÇ¯™%       ê¼6ó	¡±Æh ÙA
*

ppo/mean_scoresÓ1?üü$       B+€M	¢¡±Æh ÙA
*

ppo/std_scores<%=Uró-       <AŠû	´¡±Æh ÙA
* 

tokens/queries_len_mean  4CâÓ,       ô®ÌE	Ç¡±Æh ÙA
*

tokens/queries_len_std    oFÓ¹/       m]P	Ù¡±Æh ÙA
*"
 
tokens/responses_len_mean  €?q±!.       ÅËWú	ê¡±Æh ÙA
*!

tokens/responses_len_std    ³×ü%       ê¼6ó	û¡±Æh ÙA
*

ppo/loss/policy  Ô3KX$       B+€M	(¤±Æh ÙA
*

ppo/loss/value•*ß<ø{z$       B+€M	 ¨±Æh ÙA
*

ppo/loss/totalŠ2;ÝNbß(       ÿpJ	N¨±Æh ÙA
*

ppo/policy/entropy üÕ;ÂÐ‡)       7ÿ_ 	f¨±Æh ÙA
*

ppo/policy/approxklÃÀ6V·Da)       7ÿ_ 	y¨±Æh ÙA
*

ppo/policy/policykl.Ô»ˆãEÎ)       7ÿ_ 	Œ¨±Æh ÙA
*

ppo/policy/clipfrac    åãZ 0       •õÐ_	 ¨±Æh ÙA
*#
!
ppo/policy/advantages_mean  Ð³_vÁ&       sOã 	·¨±Æh ÙA
*

ppo/returns/meanªé¨¿
%       ê¼6ó	Ê¨±Æh ÙA
*

ppo/returns/var¤›:½öÖ#       °ŸwC	Û¨±Æh ÙA
*

ppo/val/vpredÄ–¿¬½˜#       °ŸwC	ì¨±Æh ÙA
*

ppo/val/errora ^=”þøè&       sOã 	b©±Æh ÙA
*

ppo/val/clipfrac  €<˜Û m"       x=ý	«±Æh ÙA
*

ppo/val/mean¹¿<Åð!       {ìö	·«±Æh ÙA
*

ppo/val/var    öžJ?+       †ÃK	Î«±Æh ÙA
*

ppo/val/var_explainedå3ÂV€mú'       »á±F	â«±Æh ÙA
*

ppo/learning_rateÀÏ¸:$Æ+       †ÃK	õ«±Æh ÙA
*

time/ppo/forward_passpn>´èt¥.       ÅËWú	¬±Æh ÙA
*!

time/ppo/compute_rewards PÛ:iTW¯1       ƒƒé	¬±Æh ÙA
*$
"
time/ppo/compute_advantages Œh;ÂMÑk,       ô®ÌE	(¬±Æh ÙA
*

time/ppo/optimize_step°F ?*`>¡)       7ÿ_ 	9¬±Æh ÙA
*

time/ppo/calc_stats0|Z>ë:Îû$       B+€M	¡¬±Æh ÙA
*

time/ppo/totalšÚ?›òdè%       ê¼6ó	Š®±Æh ÙA
*

env/reward_meanÓ1?û‡î”$       B+€M	´®±Æh ÙA
*

env/reward_std<%=*,LX"       x=ý	ø<FÉh ÙA*

objective/klöx AôÄ)É'       »á±F	m=FÉh ÙA*

objective/kl_coefÑÙM>-7'       »á±F	•=FÉh ÙA*

objective/entropyìÿG6EYr/       m]P	¬=FÉh ÙA*"
 
ppo/mean_non_score_rewardg	ÀM
%       ê¼6ó	Â=FÉh ÙA*

ppo/mean_scoresÓ1?Í%H^$       B+€M	Ó=FÉh ÙA*

ppo/std_scores<%=”B½-       <AŠû	æ=FÉh ÙA* 

tokens/queries_len_mean  4Cq¯ð,       ô®ÌE	ø=FÉh ÙA*

tokens/queries_len_std    NsË/       m]P	
>FÉh ÙA*"
 
tokens/responses_len_mean  €?µn3L.       ÅËWú	>FÉh ÙA*!

tokens/responses_len_std    l‹†Þ%       ê¼6ó	,>FÉh ÙA*

ppo/loss/policy  «´ÑØ¹f$       B+€M	?FÉh ÙA*

ppo/loss/value':ª<ŒuP$       B+€M	$@FÉh ÙA*

ppo/loss/total-);Š“ÂÅ(       ÿpJ	°@FÉh ÙA*

ppo/policy/entropy €ð7Íéã)       7ÿ_ 	(AFÉh ÙA*

ppo/policy/approxklá ,§çøŸ)       7ÿ_ 	”AFÉh ÙA*

ppo/policy/policyklåÿ×µMS©)       7ÿ_ 	BFÉh ÙA*

ppo/policy/clipfrac    P–0       •õÐ_	dBFÉh ÙA*#
!
ppo/policy/advantages_mean  ¬4àÛo&       sOã 	ÄBFÉh ÙA*

ppo/returns/meanF)©¿ºÆá%       ê¼6ó	&CFÉh ÙA*

ppo/returns/var¤›:É˜#       °ŸwC	…CFÉh ÙA*

ppo/val/vpredØa—¿"Ÿßq#       °ŸwC	äCFÉh ÙA*

ppo/val/erroróR=¹×u:&       sOã 	?DFÉh ÙA*

ppo/val/clipfrac  ø>;Ÿ³J"       x=ý	žDFÉh ÙA*

ppo/val/meanÜ!‚¿¶þ€!       {ìö	ûDFÉh ÙA*

ppo/val/var    <ndy+       †ÃK	YEFÉh ÙA*

ppo/val/var_explainedˆÕõÁFëRë'       »á±F	ÚEFÉh ÙA*

ppo/learning_rateÀÏ¸:épÊ+       †ÃK	;FFÉh ÙA*

time/ppo/forward_passP‰o>wâ.       ÅËWú	›FFÉh ÙA*!

time/ppo/compute_rewards ¸Ð:¨Õ-.1       ƒƒé	÷FFÉh ÙA*$
"
time/ppo/compute_advantages ¬a;wúõ,       ô®ÌE	QGFÉh ÙA*

time/ppo/optimize_step4 ?%v-Õ)       7ÿ_ 	©GFÉh ÙA*

time/ppo/calc_statsÐÇZ>ÆÓX|$       B+€M	HFÉh ÙA*

time/ppo/total¶×?#_Ø%       ê¼6ó	_HFÉh ÙA*

env/reward_meanÓ1?ŠÅé$       B+€M	»HFÉh ÙA*

env/reward_std<%=|G(´"       x=ý	}àËh ÙA*

objective/klùx A¹!™'       »á±F	êàËh ÙA*

objective/kl_coef‹ûM>Ð(bp'       »á±F		àËh ÙA*

objective/entropyÿÿÿ3N¦L!/       m]P		àËh ÙA*"
 
ppo/mean_non_score_rewardÀ‘Äó'%       ê¼6ó	4	àËh ÙA*

ppo/mean_scoresÓ1?Â”ÿ$       B+€M	H	àËh ÙA*

ppo/std_scores<%=’¤-       <AŠû	Y	àËh ÙA* 

tokens/queries_len_mean  4CÚïw@,       ô®ÌE	l	àËh ÙA*

tokens/queries_len_std    €í/       m]P	~	àËh ÙA*"
 
tokens/responses_len_mean  €?œ£Œ.       ÅËWú		àËh ÙA*!

tokens/responses_len_std    ¨’%       ê¼6ó	¢	àËh ÙA*

ppo/loss/policy  Ð3?6•¦$       B+€M	ÙàËh ÙA*

ppo/loss/valueëù<éMþm$       B+€M	nàËh ÙA*

ppo/loss/totalRÆü:1»·(       ÿpJ	›àËh ÙA*

ppo/policy/entropy  ”6y¤ˆ¾)       7ÿ_ 	´àËh ÙA*

ppo/policy/approxklþÿÿ&z>ÇÓ)       7ÿ_ 	qàËh ÙA*

ppo/policy/policyklÿÿÿ².R}\)       7ÿ_ 	àËh ÙA*

ppo/policy/clipfrac    ‡9ž50       •õÐ_	¸àËh ÙA*#
!
ppo/policy/advantages_mean  Ð³ð°ñò&       sOã 	ÐàËh ÙA*

ppo/returns/mean’S©¿¸)üh%       ê¼6ó	åàËh ÙA*

ppo/returns/var¤›:•å‚¬#       °ŸwC	øàËh ÙA*

ppo/val/vpredŠËÁ¿ Þ;õ#       °ŸwC		àËh ÙA*

ppo/val/errorëù=š!©H&       sOã 	àËh ÙA*

ppo/val/clipfrac    6È*"       x=ý	-àËh ÙA*

ppo/val/meanep¼¿ÆÛØÇ!       {ìö	>àËh ÙA*

ppo/val/var    /êd+       †ÃK	àËh ÙA*

ppo/val/var_explainedb×ûÁ|‹xÆ'       »á±F	¸àËh ÙA*

ppo/learning_rateÀÏ¸:HÍæ+       †ÃK	-àËh ÙA*

time/ppo/forward_pass fw>j¡<.       ÅËWú	XàËh ÙA*!

time/ppo/compute_rewards Ñ:Þ‚áô1       ƒƒé	oàËh ÙA*$
"
time/ppo/compute_advantages œy;YÝËÿ,       ô®ÌE	àËh ÙA*

time/ppo/optimize_stephM¡?olp†)       7ÿ_ 	}àËh ÙA*

time/ppo/calc_stats0`>=Þ¥$       B+€M	ÛàËh ÙA*

time/ppo/totalnîÜ?ÓÅºH%       ê¼6ó	4àËh ÙA*

env/reward_meanÓ1?â`$       B+€M	‡àËh ÙA*

env/reward_std<%=ªgk"       x=ý	ÔuÎh ÙA*

objective/klùx AÁ~ž/'       »á±F	÷ÔuÎh ÙA*

objective/kl_coefJN> ‚¯m'       »á±F	ÕuÎh ÙA*

objective/entropy    Åæ€/       m]P	*ÕuÎh ÙA*"
 
ppo/mean_non_score_reward´3À6:j%       ê¼6ó	=ÕuÎh ÙA*

ppo/mean_scoresÓ1?Ü ¾$       B+€M	PÕuÎh ÙA*

ppo/std_scores<%=Äád‡-       <AŠû	cÕuÎh ÙA* 

tokens/queries_len_mean  4C¯Ýb`,       ô®ÌE	uÕuÎh ÙA*

tokens/queries_len_std    yÃ¶/       m]P	ˆÕuÎh ÙA*"
 
tokens/responses_len_mean  €?a}ÛK.       ÅËWú	šÕuÎh ÙA*!

tokens/responses_len_std    ¸8%       ê¼6ó	¬ÕuÎh ÙA*

ppo/loss/policy  Ð3l§f©$       B+€M	â×uÎh ÙA*

ppo/loss/valueÕ»;¿eù$       B+€M	<ÚuÎh ÙA*

ppo/loss/total÷·:JZÆ
(       ÿpJ	hÚuÎh ÙA*

ppo/policy/entropy  Ø5O7‰‹)       7ÿ_ 	½ÜuÎh ÙA*

ppo/policy/approxkl    ét»)       7ÿ_ 	èÜuÎh ÙA*

ppo/policy/policykl    ð?*)       7ÿ_ 	ÿÜuÎh ÙA*

ppo/policy/clipfrac    £½nƒ0       •õÐ_	ßuÎh ÙA*#
!
ppo/policy/advantages_mean  Ð³}ó&       sOã 	;ßuÎh ÙA*

ppo/returns/meanà}©¿w½þ%       ê¼6ó	•áuÎh ÙA*

ppo/returns/var¤›:€}Ã•#       °ŸwC	ÁáuÎh ÙA*

ppo/val/vpredÍY¤¿¶m#       °ŸwC	ØáuÎh ÙA*

ppo/val/error	o:<õìì&       sOã 	8äuÎh ÙA*

ppo/val/clipfrac   <Õù«À"       x=ý	däuÎh ÙA*

ppo/val/meanYµ¿Î·#F!       {ìö	}äuÎh ÙA*

ppo/val/var    ÍñZ+       †ÃK	ƒæuÎh ÙA*

ppo/val/var_explainedS	ÁD=µ'       »á±F	­æuÎh ÙA*

ppo/learning_rateÀÏ¸:¶¬+       †ÃK	ÅæuÎh ÙA*

time/ppo/forward_pass`ùl>UÁ@W.       ÅËWú	ÙæuÎh ÙA*!

time/ppo/compute_rewards 0í:®²­â1       ƒƒé	ëæuÎh ÙA*$
"
time/ppo/compute_advantages Dn;çäû6,       ô®ÌE	ýæuÎh ÙA*

time/ppo/optimize_steplŸ?Xb_ª)       7ÿ_ 	çuÎh ÙA*

time/ppo/calc_statsÐàZ>{ãë$       B+€M	"çuÎh ÙA*

time/ppo/total¤ÊØ?Îïî %       ê¼6ó	šçuÎh ÙA*

env/reward_meanÓ1?"}÷È$       B+€M	åçuÎh ÙA*

env/reward_std<%="	øô"       x=ý	2ˆÑh ÙA*

objective/klùx AÃÜ§'       »á±F	±ˆÑh ÙA*

objective/kl_coef?N>‡S5'       »á±F	ÙˆÑh ÙA*

objective/entropy    Âú/       m]P	ïˆÑh ÙA*"
 
ppo/mean_non_score_rewardàHÀ*+z%       ê¼6ó	‰Ñh ÙA*

ppo/mean_scoresÓ1?Š÷£´$       B+€M	‰Ñh ÙA*

ppo/std_scores<%=S#ä-       <AŠû	)‰Ñh ÙA* 

tokens/queries_len_mean  4C¿h"·,       ô®ÌE	;‰Ñh ÙA*

tokens/queries_len_std    aŽc/       m]P	N‰Ñh ÙA*"
 
tokens/responses_len_mean  €?Ï¬tž.       ÅËWú	_‰Ñh ÙA*!

tokens/responses_len_std    œìç©%       ê¼6ó	r‰Ñh ÙA*

ppo/loss/policy  Ð3›Ó§Ð$       B+€M	eŠÑh ÙA*

ppo/loss/valueçÑç;£k=$       B+€M	–‹Ñh ÙA*

ppo/loss/total:{9:}	¨j(       ÿpJ	,ŒÑh ÙA*

ppo/policy/entropy  @5N×9)       7ÿ_ 	£ŒÑh ÙA*

ppo/policy/approxkl    ¡ëÇ)       7ÿ_ 	Ñh ÙA*

ppo/policy/policykl    J–&r)       7ÿ_ 	wÑh ÙA*

ppo/policy/clipfrac    ÍìyÄ0       •õÐ_	áÑh ÙA*#
!
ppo/policy/advantages_mean  Ð³zÚ^–&       sOã 	HŽÑh ÙA*

ppo/returns/mean8¨©¿•Ç÷‡%       ê¼6ó	©ŽÑh ÙA*

ppo/returns/var¤›:¨¯Ú¦#       °ŸwC	Ñh ÙA*

ppo/val/vpred‘Ï¿^Ž¼$#       °ŸwC	cÑh ÙA*

ppo/val/errorçÑg<Žhe+&       sOã 	»Ñh ÙA*

ppo/val/clipfrac    0¸3é"       x=ý	Ñh ÙA*

ppo/val/meanq,”¿ù1?W!       {ìö	rÑh ÙA*

ppo/val/var    Tv÷–+       †ÃK	ÖÑh ÙA*

ppo/val/var_explainedr¦.Á¬3¡'       »á±F	6‘Ñh ÙA*

ppo/learning_rateÀÏ¸:vcúœ+       †ÃK	“‘Ñh ÙA*

time/ppo/forward_pass°Um>¼Úãú.       ÅËWú	õ‘Ñh ÙA*!

time/ppo/compute_rewards °Ð:"ïèä1       ƒƒé	S’Ñh ÙA*$
"
time/ppo/compute_advantages c;ùQ
,       ô®ÌE	°’Ñh ÙA*

time/ppo/optimize_stepè:ž?Cç×)       7ÿ_ 	“Ñh ÙA*

time/ppo/calc_statsÀýe>!¼×$       B+€M	d“Ñh ÙA*

time/ppo/total†MÙ?ñÜÀ%       ê¼6ó	½“Ñh ÙA*

env/reward_meanÓ1?	­U^$       B+€M	”Ñh ÙA*

env/reward_std<%=kÅ«{"       x=ý	p?­Óh ÙA*

objective/klùx A-Y'       »á±F	Ú?­Óh ÙA*

objective/kl_coefÚ`N>áÐa‡'       »á±F	÷?­Óh ÙA*

objective/entropy    ùÇ;/       m]P	@­Óh ÙA*"
 
ppo/mean_non_score_reward^Às3‘%       ê¼6ó	@­Óh ÙA*

ppo/mean_scoresÓ1?Ætg>$       B+€M	-@­Óh ÙA*

ppo/std_scores<%=Çç‰(-       <AŠû	>@­Óh ÙA* 

tokens/queries_len_mean  4C«m³‹,       ô®ÌE	P@­Óh ÙA*

tokens/queries_len_std    «Ùï¨/       m]P	b@­Óh ÙA*"
 
tokens/responses_len_mean  €?þg.       ÅËWú	t@­Óh ÙA*!

tokens/responses_len_std    q›•%       ê¼6ó	‡@­Óh ÙA*

ppo/loss/policy  Ð37Æàà$       B+€M	C­Óh ÙA*

ppo/loss/value3Ç;þ×:$       B+€M	¬E­Óh ÙA*

ppo/loss/total”b:ŸÓÐ¼(       ÿpJ	ÚE­Óh ÙA*

ppo/policy/entropy  05©Æ=ä)       7ÿ_ 	óE­Óh ÙA*

ppo/policy/approxkl    ¯Ó6)       7ÿ_ 	H­Óh ÙA*

ppo/policy/policykl    ™sr&)       7ÿ_ 	¼H­Óh ÙA*

ppo/policy/clipfrac    šò·0       •õÐ_	ÚH­Óh ÙA*#
!
ppo/policy/advantages_mean  Ð³!ïS¤&       sOã 	ïH­Óh ÙA*

ppo/returns/mean”Ò©¿?}¤%       ê¼6ó	óK­Óh ÙA*

ppo/returns/var¤›:šë²ý#       °ŸwC	L­Óh ÙA*

ppo/val/vpred6·¿=E,½#       °ŸwC	6L­Óh ÙA*

ppo/val/error3G<F¸ƒE&       sOã 	IL­Óh ÙA*

ppo/val/clipfrac    ¦+À"       x=ý	[L­Óh ÙA*

ppo/val/meanÅ?³¿vB|!       {ìö	nL­Óh ÙA*

ppo/val/var    @–Î0+       †ÃK	€L­Óh ÙA*

ppo/val/var_explained°ÒÁ¤-o\'       »á±F	óM­Óh ÙA*

ppo/learning_rateÀÏ¸:·1ò+       †ÃK	zN­Óh ÙA*

time/ppo/forward_pass`¡k> €É.       ÅËWú	àN­Óh ÙA*!

time/ppo/compute_rewards Ó:¡Œ²1       ƒƒé	:O­Óh ÙA*$
"
time/ppo/compute_advantages $k;’®â,       ô®ÌE	“O­Óh ÙA*

time/ppo/optimize_step¬÷¡?t/ä)       7ÿ_ 	ëO­Óh ÙA*

time/ppo/calc_statsÐ´_>Qqt$       B+€M	\P­Óh ÙA*

time/ppo/totalHÜ?SÀµ_%       ê¼6ó	·P­Óh ÙA*

env/reward_meanÓ1?âg¢ì$       B+€M	Q­Óh ÙA*

env/reward_std<%=ªƒ™ã"       x=ý	œ<AÖh ÙA*

objective/klùx AgÏ'       »á±F	=AÖh ÙA*

objective/kl_coefª‚N>Ts¢´'       »á±F	6=AÖh ÙA*

objective/entropy    õÞÜõ/       m]P	N=AÖh ÙA*"
 
ppo/mean_non_score_reward@sÀ¯¢q…%       ê¼6ó	b=AÖh ÙA*

ppo/mean_scoresÓ1?À~$       B+€M	x=AÖh ÙA*

ppo/std_scores<%=kSë-       <AŠû	‹=AÖh ÙA* 

tokens/queries_len_mean  4CSPø,       ô®ÌE	ž=AÖh ÙA*

tokens/queries_len_std    •˜2/       m]P	²=AÖh ÙA*"
 
tokens/responses_len_mean  €?áq..       ÅËWú	Ç=AÖh ÙA*!

tokens/responses_len_std    ^Ý›¹%       ê¼6ó	Ú=AÖh ÙA*

ppo/loss/policy   ²îu0$       B+€M	º>AÖh ÙA*

ppo/loss/value‚H;ô$       B+€M	º?AÖh ÙA*

ppo/loss/totaljØ~9 q(       ÿpJ	/@AÖh ÙA*

ppo/policy/entropy   5Š#ám)       7ÿ_ 	š@AÖh ÙA*

ppo/policy/approxkl    Gw&)       7ÿ_ 	ý@AÖh ÙA*

ppo/policy/policykl    ¦¹½š)       7ÿ_ 	aAAÖh ÙA*

ppo/policy/clipfrac    lXÓ0       •õÐ_	ÆAAÖh ÙA*#
!
ppo/policy/advantages_mean   2GêŸÍ&       sOã 	/BAÖh ÙA*

ppo/returns/meanøü©¿`å%       ê¼6ó	”BAÖh ÙA*

ppo/returns/var¤›:…>µ6#       °ŸwC	õBAÖh ÙA*

ppo/val/vpred¨ö¥¿.¨v‹#       °ŸwC	QCAÖh ÙA*

ppo/val/error‚HŸ;ëª”‚&       sOã 	¬CAÖh ÙA*

ppo/val/clipfrac    H@ÙC"       x=ý	DAÖh ÙA*

ppo/val/mean®Ã¯¿÷#Ô-!       {ìö	_DAÖh ÙA*

ppo/val/var    q!+       †ÃK	¾DAÖh ÙA*

ppo/val/var_explained¸ýEÀ½žD'       »á±F	EAÖh ÙA*

ppo/learning_rateÀÏ¸:äŠŸ­+       †ÃK	vEAÖh ÙA*

time/ppo/forward_passðZk>Ã:@.       ÅËWú	×EAÖh ÙA*!

time/ppo/compute_rewards °Ð:ã11       ƒƒé	4FAÖh ÙA*$
"
time/ppo/compute_advantages $l;ZvT˜,       ô®ÌE	ŽFAÖh ÙA*

time/ppo/optimize_stepÀx›?Ô};)       7ÿ_ 	GAÖh ÙA*

time/ppo/calc_statsð\>î$       B+€M	SHAÖh ÙA*

time/ppo/totalxÕ?c¨‚4%       ê¼6ó	KAÖh ÙA*

env/reward_meanÓ1?Æ¸/?$       B+€M	EKAÖh ÙA*

env/reward_std<%=¾ÝFŠ"       x=ý	YGÚØh ÙA*

objective/klùx A×°òç'       »á±F	ÎGÚØh ÙA*

objective/kl_coef€¤N>î%h'       »á±F	ñGÚØh ÙA*

objective/entropy    DÍtÔ/       m]P	HÚØh ÙA*"
 
ppo/mean_non_score_rewardvˆÀªûZ%       ê¼6ó	HÚØh ÙA*

ppo/mean_scoresÓ1?5{²Ç$       B+€M	,HÚØh ÙA*

ppo/std_scores<%=csˆÅ-       <AŠû	>HÚØh ÙA* 

tokens/queries_len_mean  4CÃ€,       ô®ÌE	OHÚØh ÙA*

tokens/queries_len_std    ó’¦/       m]P	aHÚØh ÙA*"
 
tokens/responses_len_mean  €?lGT.       ÅËWú	tHÚØh ÙA*!

tokens/responses_len_std    å)%       ê¼6ó	†HÚØh ÙA*

ppo/loss/policy  Ð3è%’Ì$       B+€M	qIÚØh ÙA*

ppo/loss/valueê*;"7ãæ$       B+€M	wJÚØh ÙA*

ppo/loss/totalÜ‘c9Î(       ÿpJ	KÚØh ÙA*

ppo/policy/entropy   5äò¹)       7ÿ_ 	€KÚØh ÙA*

ppo/policy/approxkl    zw@)       7ÿ_ 	ïKÚØh ÙA*

ppo/policy/policykl    ¨à)       7ÿ_ 	YLÚØh ÙA*

ppo/policy/clipfrac    „US0       •õÐ_	ÁLÚØh ÙA*#
!
ppo/policy/advantages_mean  Ð³Ús)&       sOã 	…MÚØh ÙA*

ppo/returns/meand'ª¿:~Á™%       ê¼6ó	ëMÚØh ÙA*

ppo/returns/var¤›:>6[ì#       °ŸwC	NNÚØh ÙA*

ppo/val/vpredÕ¥¿¯«E#       °ŸwC	°NÚØh ÙA*

ppo/val/errorê*Ž;¡'m&       sOã 	OÚØh ÙA*

ppo/val/clipfrac    (= Î"       x=ý	mOÚØh ÙA*

ppo/val/mean†©ž¿ãb!       {ìö	ÎOÚØh ÙA*

ppo/val/var    1§0¹+       †ÃK	-PÚØh ÙA*

ppo/val/var_explainedÑÖ)À#îœ°'       »á±F	ˆPÚØh ÙA*

ppo/learning_rateÀÏ¸:ÌÜ+       †ÃK	åPÚØh ÙA*

time/ppo/forward_pass€Dl>Iù—.       ÅËWú	FQÚØh ÙA*!

time/ppo/compute_rewards ÀÙ:#õ°1       ƒƒé	¤QÚØh ÙA*$
"
time/ppo/compute_advantages ôx;‡Z,       ô®ÌE	 RÚØh ÙA*

time/ppo/optimize_step ·¡?ðèÎê)       7ÿ_ 	[RÚØh ÙA*

time/ppo/calc_statsð<f>Èl,¥$       B+€M	½RÚØh ÙA*

time/ppo/total†½Ü?Ä÷,%       ê¼6ó	SÚØh ÙA*

env/reward_meanÓ1?@‹w$       B+€M	tSÚØh ÙA*

env/reward_std<%=(g`"       x=ý	\ÔuÛh ÙA*

objective/klùx Aò™'       »á±F	ãÔuÛh ÙA*

objective/kl_coef[ÆN>Á3«ë'       »á±F	ÕuÛh ÙA*

objective/entropy    â²Ñ/       m]P	ÕuÛh ÙA*"
 
ppo/mean_non_score_reward¯ÀÕIv%       ê¼6ó	2ÕuÛh ÙA*

ppo/mean_scoresÓ1?–„Þ$       B+€M	EÕuÛh ÙA*

ppo/std_scores<%=DD-       <AŠû	XÕuÛh ÙA* 

tokens/queries_len_mean  4CwÆËC,       ô®ÌE	lÕuÛh ÙA*

tokens/queries_len_std    ®r”/       m]P	ÕuÛh ÙA*"
 
tokens/responses_len_mean  €?vE›.       ÅËWú	“ÕuÛh ÙA*!

tokens/responses_len_std    ôÝ¸Ö%       ê¼6ó	¦ÕuÛh ÙA*

ppo/loss/policy   ²¢â$       B+€M	‡ÖuÛh ÙA*

ppo/loss/value’Ú;G	$       B+€M	…×uÛh ÙA*

ppo/loss/total¶[i9Žö´Ô(       ÿpJ	ý×uÛh ÙA*

ppo/policy/entropy   5U)       7ÿ_ 	kØuÛh ÙA*

ppo/policy/approxkl    "_M÷)       7ÿ_ 	ÍØuÛh ÙA*

ppo/policy/policykl    Þðä)       7ÿ_ 	,ÙuÛh ÙA*

ppo/policy/clipfrac    †;ˆ½0       •õÐ_	ŠÙuÛh ÙA*#
!
ppo/policy/advantages_mean   2¢vÂõ&       sOã 	íÙuÛh ÙA*

ppo/returns/meanÖQª¿$ô¯%       ê¼6ó	JÚuÛh ÙA*

ppo/returns/var¤›:”®SK#       °ŸwC	£ÚuÛh ÙA*

ppo/val/vpredÜp±¿ÉÓ#       °ŸwC	ùÚuÛh ÙA*

ppo/val/error’Ú‘;U¦Ü &       sOã 	PÛuÛh ÙA*

ppo/val/clipfrac    -˜†"       x=ý	£ÛuÛh ÙA*

ppo/val/meangý±¿6[Ú!       {ìö	ùÛuÛh ÙA*

ppo/val/var    …»Œ+       †ÃK	RÜuÛh ÙA*

ppo/val/var_explainedôæ/ÀÔìÕ*'       »á±F	©ÜuÛh ÙA*

ppo/learning_rateÀÏ¸:cz+       †ÃK	 ÝuÛh ÙA*

time/ppo/forward_passTl>F%`ù.       ÅËWú	[ÝuÛh ÙA*!

time/ppo/compute_rewards 8Ô:s×É@1       ƒƒé	±ÝuÛh ÙA*$
"
time/ppo/compute_advantages øc;§oé³,       ô®ÌE	ÞuÛh ÙA*

time/ppo/optimize_step¨Íœ?†4Q)       7ÿ_ 	^ÞuÛh ÙA*

time/ppo/calc_statsP\>H¯7X$       B+€M	³ÞuÛh ÙA*

time/ppo/totalÌ„Ö?]7;‘%       ê¼6ó	ßuÛh ÙA*

env/reward_meanÓ1?ÚIÊƒ$       B+€M	[ßuÛh ÙA*

env/reward_std<%=tßæ"       x=ý	¤Þh ÙA*

objective/klùx A¢#ÖR'       »á±F	Þh ÙA*

objective/kl_coef<èN>jnåa'       »á±F	4Þh ÙA*

objective/entropy    Æ’f/       m]P	JÞh ÙA*"
 
ppo/mean_non_score_rewardì²Àé%       ê¼6ó	^Þh ÙA*

ppo/mean_scoresÓ1?sÁÚ$       B+€M	pÞh ÙA*

ppo/std_scores<%=Ì5û<-       <AŠû	‚Þh ÙA* 

tokens/queries_len_mean  4Cî¼,       ô®ÌE	“Þh ÙA*

tokens/queries_len_std    °'ù/       m]P	¥Þh ÙA*"
 
tokens/responses_len_mean  €?.%¹¦.       ÅËWú	¶Þh ÙA*!

tokens/responses_len_std    ˆ‹ ]%       ê¼6ó	ÉÞh ÙA*

ppo/loss/policy   ²GÎž$       B+€M	ÇÞh ÙA*

ppo/loss/value,~´:q¨½¬$       B+€M	»Þh ÙA*

ppo/loss/totalðb9ÈLƒ½(       ÿpJ	'Þh ÙA*

ppo/policy/entropy   5§<4ƒ)       7ÿ_ 	´Þh ÙA*

ppo/policy/approxkl    ²h‡¤)       7ÿ_ 	Þh ÙA*

ppo/policy/policykl    Š¢A)       7ÿ_ 	oÞh ÙA*

ppo/policy/clipfrac    Ü—°0       •õÐ_	ÒÞh ÙA*#
!
ppo/policy/advantages_mean   2h®¹Á&       sOã 	-Þh ÙA*

ppo/returns/meanP|ª¿à<¬%       ê¼6ó	ŒÞh ÙA*

ppo/returns/var¤›:2Ä=i#       °ŸwC	óÞh ÙA*

ppo/val/vpred0ü¥¿Õ@6`#       °ŸwC	CÞh ÙA*

ppo/val/error,~4;Êãñ&       sOã 	Þh ÙA*

ppo/val/clipfrac    ‰U"       x=ý	òÞh ÙA*

ppo/val/meanTö©¿t}ß!       {ìö	HÞh ÙA*

ppo/val/var    Ú®l+       †ÃK	¤Þh ÙA*

ppo/val/var_explained€à¨¿JN¿ä'       »á±F	ûÞh ÙA*

ppo/learning_rateÀÏ¸:Ù¢ƒv+       †ÃK	ZÞh ÙA*

time/ppo/forward_pass`¤l>ˆ?&E.       ÅËWú	³Þh ÙA*!

time/ppo/compute_rewards  Ó:±4=1       ƒƒé	 Þh ÙA*$
"
time/ppo/compute_advantages Èh;Õ±~,       ô®ÌE	p Þh ÙA*

time/ppo/optimize_stepÚý ?s)       7ÿ_ 	Ç Þh ÙA*

time/ppo/calc_stats0Ÿe>]$$       B+€M	S!Þh ÙA*

time/ppo/totalòÛ?õ Q‡%       ê¼6ó	e!Þh ÙA*

env/reward_meanÓ1?=ð@$       B+€M	»!Þh ÙA*

env/reward_std<%=p÷>J"       x=ý	€­šàh ÙA*

objective/klùx A«	'       »á±F	ë­šàh ÙA*

objective/kl_coef"
O>¥Ú%\'       »á±F	®šàh ÙA*

objective/entropy    Ìs½÷/       m]P	®šàh ÙA*"
 
ppo/mean_non_score_reward+ÈÀ„ž3W%       ê¼6ó	2®šàh ÙA*

ppo/mean_scoresÓ1?Ê0¬¬$       B+€M	C®šàh ÙA*

ppo/std_scores<%=ñ¿ý-       <AŠû	U®šàh ÙA* 

tokens/queries_len_mean  4CYj&",       ô®ÌE	g®šàh ÙA*

tokens/queries_len_std    §Ý;“/       m]P	x®šàh ÙA*"
 
tokens/responses_len_mean  €?øó½.       ÅËWú	Š®šàh ÙA*!

tokens/responses_len_std    ½ÚR;%       ê¼6ó	›®šàh ÙA*

ppo/loss/policy   ²CÌ$       B+€M	ü°šàh ÙA*

ppo/loss/value¤u: áÒÚ$       B+€M	ž³šàh ÙA*

ppo/loss/totalêÄ88+Ã(       ÿpJ	Ì³šàh ÙA*

ppo/policy/entropy   5{>º)       7ÿ_ 	ä³šàh ÙA*

ppo/policy/approxkl    %}=Ø)       7ÿ_ 	¨¶šàh ÙA*

ppo/policy/policykl    &oÎÉ)       7ÿ_ 	Ó¶šàh ÙA*

ppo/policy/clipfrac    iÔŠü0       •õÐ_	í¶šàh ÙA*#
!
ppo/policy/advantages_mean   2™X»&       sOã 	N¹šàh ÙA*

ppo/returns/meanÎ¦ª¿!í<m%       ê¼6ó	x¹šàh ÙA*

ppo/returns/var¤›:êÖÅ#       °ŸwC	—¹šàh ÙA*

ppo/val/vpredáª¿~½&k#       °ŸwC	Û»šàh ÙA*

ppo/val/error¤õ:[UÊñ&       sOã 	¼šàh ÙA*

ppo/val/clipfrac    Ó~¡ù"       x=ý	¼šàh ÙA*

ppo/val/meanª¦¿Žü!       {ìö	s¾šàh ÙA*

ppo/val/var    X'r8+       †ÃK	ž¾šàh ÙA*

ppo/val/var_explained¿1Ôd'       »á±F	¶¾šàh ÙA*

ppo/learning_rateÀÏ¸:î©|`+       †ÃK	4¿šàh ÙA*

time/ppo/forward_pass Tk>DEDØ.       ÅËWú	¡¿šàh ÙA*!

time/ppo/compute_rewards ØÚ:D®÷91       ƒƒé	ò¿šàh ÙA*$
"
time/ppo/compute_advantages ¼†;§Œ³,       ô®ÌE	CÀšàh ÙA*

time/ppo/optimize_stepR'›?H‡™ö)       7ÿ_ 	•Àšàh ÙA*

time/ppo/calc_statsp[>2˜I$       B+€M	êÀšàh ÙA*

time/ppo/total´µÔ?zÄ—Ä%       ê¼6ó	=Ášàh ÙA*

env/reward_meanÓ1?v¼T$       B+€M	Ášàh ÙA*

env/reward_std<%=qE%ç"       x=ý	ÎÃ$ãh ÙA*

objective/klùx AæYíL'       »á±F	BÄ$ãh ÙA*

objective/kl_coef,O>u'²'       »á±F	gÄ$ãh ÙA*

objective/entropy    ÇÆ»/       m]P	~Ä$ãh ÙA*"
 
ppo/mean_non_score_rewardoÝÀ±oR÷%       ê¼6ó	’Ä$ãh ÙA*

ppo/mean_scoresÓ1?Ø¨-$       B+€M	§Ä$ãh ÙA*

ppo/std_scores<%=à¥AC-       <AŠû	¸Ä$ãh ÙA* 

tokens/queries_len_mean  4C5zÙ‡,       ô®ÌE	ÉÄ$ãh ÙA*

tokens/queries_len_std    ¤š&/       m]P	ÚÄ$ãh ÙA*"
 
tokens/responses_len_mean  €?|ÂIð.       ÅËWú	êÄ$ãh ÙA*!

tokens/responses_len_std    &ÓRµ%       ê¼6ó	üÄ$ãh ÙA*

ppo/loss/policy   ²\ù-í$       B+€M	äÅ$ãh ÙA*

ppo/loss/valuev:.ê?Y$       B+€M	åÆ$ãh ÙA*

ppo/loss/totalL×Ä8þ(¦Œ(       ÿpJ	gÇ$ãh ÙA*

ppo/policy/entropy   5gÚ¥)       7ÿ_ 	ØÇ$ãh ÙA*

ppo/policy/approxkl    ¥4º)       7ÿ_ 	@È$ãh ÙA*

ppo/policy/policykl    L›q%)       7ÿ_ 	¢È$ãh ÙA*

ppo/policy/clipfrac    PKð0       •õÐ_	É$ãh ÙA*#
!
ppo/policy/advantages_mean   2Œº?´&       sOã 	cÉ$ãh ÙA*

ppo/returns/meanVÑª¿„Ò>–%       ê¼6ó	ÃÉ$ãh ÙA*

ppo/returns/var¤›:F®ò‡#       °ŸwC	Ê$ãh ÙA*

ppo/val/vpredZ­¿Æïâ]#       °ŸwC	uÊ$ãh ÙA*

ppo/val/errorö:­dˆJ&       sOã 	ÊÊ$ãh ÙA*

ppo/val/clipfrac    ÚÛôš"       x=ý	 Ë$ãh ÙA*

ppo/val/meanËç¯¿^@!       {ìö	zË$ãh ÙA*

ppo/val/var    §ð+       †ÃK	ÖË$ãh ÙA*

ppo/val/var_explainedˆ½¿7í€'       »á±F	/Ì$ãh ÙA*

ppo/learning_rateÀÏ¸:Z+       †ÃK	‡Ì$ãh ÙA*

time/ppo/forward_passð7m>þdu.       ÅËWú	äÌ$ãh ÙA*!

time/ppo/compute_rewards ÀÊ:a¨aÙ1       ƒƒé	?Í$ãh ÙA*$
"
time/ppo/compute_advantages  c;O.L@,       ô®ÌE	•Í$ãh ÙA*

time/ppo/optimize_stepî-?0¨I)       7ÿ_ 	ëÍ$ãh ÙA*

time/ppo/calc_stats€`Z>g~Mã$       B+€M	BÎ$ãh ÙA*

time/ppo/totalšÇÖ?Ú´%       ê¼6ó	šÎ$ãh ÙA*

env/reward_meanÓ1?)¶
$       B+€M	óÎ$ãh ÙA*

env/reward_std<%=ü0U"       x=ý	©6Øåh ÙA*

objective/klùx AØ?à'       »á±F	&7Øåh ÙA*

objective/kl_coefÿMO>­]Ó'       »á±F	I7Øåh ÙA*

objective/entropy     (/       m]P	_7Øåh ÙA*"
 
ppo/mean_non_score_reward¶òÀ8„t%       ê¼6ó	q7Øåh ÙA*

ppo/mean_scoresGb3?¼¢2ø$       B+€M	ƒ7Øåh ÙA*

ppo/std_scores(]D=e”gº-       <AŠû	•7Øåh ÙA* 

tokens/queries_len_mean  4C:?|d,       ô®ÌE	§7Øåh ÙA*

tokens/queries_len_std    svÑ/       m]P	¹7Øåh ÙA*"
 
tokens/responses_len_mean  €?ÆØž.       ÅËWú	Ì7Øåh ÙA*!

tokens/responses_len_std    [Ž™%       ê¼6ó	à7Øåh ÙA*

ppo/loss/policy  €2!ÝÓ¡$       B+€M	Ó8Øåh ÙA*

ppo/loss/value'L³:Vbþ$       B+€M	Ú9Øåh ÙA*

ppo/loss/total t9ð‚l(       ÿpJ	d:Øåh ÙA*

ppo/policy/entropy   5Tþµ)       7ÿ_ 	×:Øåh ÙA*

ppo/policy/approxkl    H|ÚÙ)       7ÿ_ 	@;Øåh ÙA*

ppo/policy/policykl    ó>)       7ÿ_ 	ž;Øåh ÙA*

ppo/policy/clipfrac    ÎÊ×0       •õÐ_	<Øåh ÙA*#
!
ppo/policy/advantages_mean  €²Õ"sO&       sOã 	l<Øåh ÙA*

ppo/returns/meanH4ª¿7ÇôY%       ê¼6ó	Î<Øåh ÙA*

ppo/returns/varÂž;tÎf#       °ŸwC	0=Øåh ÙA*

ppo/val/vpred‘`§¿	&­Ô#       °ŸwC	Š=Øåh ÙA*

ppo/val/error'L3;}ùÇ&       sOã 	ã=Øåh ÙA*

ppo/val/clipfrac    q"       x=ý	>>Øåh ÙA*

ppo/val/mean÷¨¿‹Ü9!       {ìö	˜>Øåh ÙA*

ppo/val/var    5Ç;+       †ÃK	ó>Øåh ÙA*

ppo/val/var_explainedèöB¾ÞõÑL'       »á±F	N?Øåh ÙA*

ppo/learning_rateÀÏ¸:õä!†+       †ÃK	¨?Øåh ÙA*

time/ppo/forward_passÐj>ët.       ÅËWú	@Øåh ÙA*!

time/ppo/compute_rewards ðÓ:.Äd1       ƒƒé	c@Øåh ÙA*$
"
time/ppo/compute_advantages Àl;ÝŽù,       ô®ÌE	½@Øåh ÙA*

time/ppo/optimize_step4Iž?ŸŽ¿Q)       7ÿ_ 	AØåh ÙA*

time/ppo/calc_statsàpY>Ð¤$       B+€M	kAØåh ÙA*

time/ppo/totalÄg×?Ð"‰´%       ê¼6ó	ÅAØåh ÙA*

env/reward_meanGb3?8x"$       B+€M	BØåh ÙA*

env/reward_std(]D=Aã•"       x=ý	F}kèh ÙA*

objective/klùx AÍŒHX'       »á±F	­}kèh ÙA*

objective/kl_coeföoO>‡¸½'       »á±F	È}kèh ÙA*

objective/entropy    Ðã¿7/       m]P	Û}kèh ÙA*"
 
ppo/mean_non_score_reward À:òÑã%       ê¼6ó	ì}kèh ÙA*

ppo/mean_scoresÓ1?é‡Qø$       B+€M	ý}kèh ÙA*

ppo/std_scores<%=iÿÊ-       <AŠû	~kèh ÙA* 

tokens/queries_len_mean  4C€—¹p,       ô®ÌE	!~kèh ÙA*

tokens/queries_len_std    2€«“/       m]P	3~kèh ÙA*"
 
tokens/responses_len_mean  €?jÆ¯&.       ÅËWú	D~kèh ÙA*!

tokens/responses_len_std    64[û%       ê¼6ó	V~kèh ÙA*

ppo/loss/policy   ²"
=$       B+€M	Ó€kèh ÙA*

ppo/loss/valueÁ8:Ö›ê¤$       B+€M	Šƒkèh ÙA*

ppo/loss/total¢É“8¾ iŸ(       ÿpJ	µƒkèh ÙA*

ppo/policy/entropy   5vÅ")       7ÿ_ 	Ìƒkèh ÙA*

ppo/policy/approxkl    ÁêË)       7ÿ_ 	S„kèh ÙA*

ppo/policy/policykl    c^ßì)       7ÿ_ 	ÿˆkèh ÙA*

ppo/policy/clipfrac    –Ê2Ð0       •õÐ_	,‰kèh ÙA*#
!
ppo/policy/advantages_mean   2&Âœ=&       sOã 	I‰kèh ÙA*

ppo/returns/meanx&«¿ÍÎ#.%       ê¼6ó	\‰kèh ÙA*

ppo/returns/var¤›:œx¶Ë#       °ŸwC	o‰kèh ÙA*

ppo/val/vpredŒ3¬¿ò?Ï#       °ŸwC	ekèh ÙA*

ppo/val/errorÁ¸:>’ýû&       sOã 	kèh ÙA*

ppo/val/clipfrac    ‚Øºm"       x=ý	§kèh ÙA*

ppo/val/mean‹’©¿þÈpÛ!       {ìö	¸kèh ÙA*

ppo/val/var    Ð/"U+       †ÃK	Êkèh ÙA*

ppo/val/var_explained‹?¾ï{ãr'       »á±F	Ûkèh ÙA*

ppo/learning_rateÀÏ¸:lüØB+       †ÃK	íkèh ÙA*

time/ppo/forward_passðap>›PÚ .       ÅËWú	þkèh ÙA*!

time/ppo/compute_rewards ˜Ô:ýÒôÈ1       ƒƒé	Žkèh ÙA*$
"
time/ppo/compute_advantages œd;ÉÔÙ,       ô®ÌE	 Žkèh ÙA*

time/ppo/optimize_stepj8?€¦¤b)       7ÿ_ 	¹Žkèh ÙA*

time/ppo/calc_statsð“\>Ã“A¹$       B+€M	®kèh ÙA*

time/ppo/totalà€×?{ÐŸc%       ê¼6ó	%‘kèh ÙA*

env/reward_meanÓ1?N?	$       B+€M	‘kèh ÙA*

env/reward_std<%=0m {"       x=ý	Û!ÿêh ÙA*

objective/klùx A“aÚ“'       »á±F	H"ÿêh ÙA*

objective/kl_coefó‘O>óß'       »á±F	d"ÿêh ÙA*

objective/entropy    ÃªN™/       m]P	w"ÿêh ÙA*"
 
ppo/mean_non_score_rewardNÀkåx%       ê¼6ó	"ÿêh ÙA*

ppo/mean_scoresÓ1?-ð¸u$       B+€M	¡"ÿêh ÙA*

ppo/std_scores<%=Õâ„B-       <AŠû	¶"ÿêh ÙA* 

tokens/queries_len_mean  4C{ïë,       ô®ÌE	Ë"ÿêh ÙA*

tokens/queries_len_std    >‘û—/       m]P	à"ÿêh ÙA*"
 
tokens/responses_len_mean  €?Œ¦¤.       ÅËWú	õ"ÿêh ÙA*!

tokens/responses_len_std    Ñl˜ê%       ê¼6ó	#ÿêh ÙA*

ppo/loss/policy   ²£kÖ6$       B+€M	¯$ÿêh ÙA*

ppo/loss/value©Å,:æ„´›$       B+€M	 )ÿêh ÙA*

ppo/loss/total»3Š8P×Êó(       ÿpJ	,)ÿêh ÙA*

ppo/policy/entropy   5‰‘\:)       7ÿ_ 	D)ÿêh ÙA*

ppo/policy/approxkl    g¸IÓ)       7ÿ_ 	X)ÿêh ÙA*

ppo/policy/policykl    E5ño)       7ÿ_ 	i)ÿêh ÙA*

ppo/policy/clipfrac    •bä0       •õÐ_	~)ÿêh ÙA*#
!
ppo/policy/advantages_mean   2ËÜç&       sOã 	”)ÿêh ÙA*

ppo/returns/meanQ«¿-£ÀÃ%       ê¼6ó	§)ÿêh ÙA*

ppo/returns/var¤›:.±´#       °ŸwC	º)ÿêh ÙA*

ppo/val/vpredX¬¿÷í‰•#       °ŸwC	Ê)ÿêh ÙA*

ppo/val/error©Å¬:‘í)&       sOã 	,ÿêh ÙA*

ppo/val/clipfrac    k|i"       x=ý	6,ÿêh ÙA*

ppo/val/meanÞï­¿‹Úóõ!       {ìö	M,ÿêh ÙA*

ppo/val/var    W”ž+       †ÃK	 .ÿêh ÙA*

ppo/val/var_explainedlá½ÌHYz'       »á±F	É.ÿêh ÙA*

ppo/learning_rateÀÏ¸:›ç‰9+       †ÃK	á.ÿêh ÙA*

time/ppo/forward_pass4m>«.       ÅËWú	k0ÿêh ÙA*!

time/ppo/compute_rewards ¨Ó:sš/·1       ƒƒé	 2ÿêh ÙA*$
"
time/ppo/compute_advantages Pg;…ÇÙ?,       ô®ÌE	É2ÿêh ÙA*

time/ppo/optimize_step?ãŠ¥)       7ÿ_ 	á2ÿêh ÙA*

time/ppo/calc_stats`l\>ˆïW$       B+€M	ó2ÿêh ÙA*

time/ppo/totall×?ß:&%       ê¼6ó	3ÿêh ÙA*

env/reward_meanÓ1?C¼ÒÖ$       B+€M	3ÿêh ÙA*

env/reward_std<%=m9„"       x=ý	¿§íh ÙA*

objective/klùx AHÒ9'       »á±F	¿§íh ÙA*

objective/kl_coefõ³O>ÛV“'       »á±F	´¿§íh ÙA*

objective/entropy    Õ}½/       m]P	Ê¿§íh ÙA*"
 
ppo/mean_non_score_reward 2Àj(¥‹%       ê¼6ó	Ý¿§íh ÙA*

ppo/mean_scoresGb3?h‰$       B+€M	ï¿§íh ÙA*

ppo/std_scores(]D=æ\-       <AŠû	À§íh ÙA* 

tokens/queries_len_mean  4Cy	7,       ô®ÌE	À§íh ÙA*

tokens/queries_len_std    âá/       m]P	#À§íh ÙA*"
 
tokens/responses_len_mean  €?3™H¬.       ÅËWú	3À§íh ÙA*!

tokens/responses_len_std    gpL<%       ê¼6ó	DÀ§íh ÙA*

ppo/loss/policy  €2„	*4$       B+€M	'Á§íh ÙA*

ppo/loss/value¼™:§ªÇH$       B+€M	+Â§íh ÙA*

ppo/loss/total’çô8Úup(       ÿpJ	¯Â§íh ÙA*

ppo/policy/entropy   5üãAÎ)       7ÿ_ 	"Ã§íh ÙA*

ppo/policy/approxkl    Â$F)       7ÿ_ 	‰Ã§íh ÙA*

ppo/policy/policykl    tÑB)       7ÿ_ 	ëÃ§íh ÙA*

ppo/policy/clipfrac    FÅ*0       •õÐ_	NÄ§íh ÙA*#
!
ppo/policy/advantages_mean  €²ë–t&       sOã 	°Ä§íh ÙA*

ppo/returns/mean´ª¿Ý'ßL%       ê¼6ó	Å§íh ÙA*

ppo/returns/varÂž;rÞR#       °ŸwC	pÅ§íh ÙA*

ppo/val/vpredþs©¿~±‹p#       °ŸwC	ËÅ§íh ÙA*

ppo/val/error¼;ø0SÍ&       sOã 	%Æ§íh ÙA*

ppo/val/clipfrac    ÿhs"       x=ý	„Æ§íh ÙA*

ppo/val/meanX/©¿'+!       {ìö	&Ç§íh ÙA*

ppo/val/var    …ý5+       †ÃK	‚Ç§íh ÙA*

ppo/val/var_explained îƒ¼)ó{º'       »á±F	ßÇ§íh ÙA*

ppo/learning_rateÀÏ¸:E.ao+       †ÃK	:È§íh ÙA*

time/ppo/forward_passàIv>‘ï².       ÅËWú	˜È§íh ÙA*!

time/ppo/compute_rewards  ;D 1       ƒƒé	÷È§íh ÙA*$
"
time/ppo/compute_advantages b;[¹^&,       ô®ÌE	PÉ§íh ÙA*

time/ppo/optimize_stepV¤?8Oú)       7ÿ_ 	©É§íh ÙA*

time/ppo/calc_stats `[>©y‘’$       B+€M	Ê§íh ÙA*

time/ppo/total”ß?·Žuq%       ê¼6ó	gÊ§íh ÙA*

env/reward_meanGb3?1'å$       B+€M	Ë§íh ÙA*

env/reward_std(]D=P`Â"       x=ý	ÐGðh ÙA*

objective/klùx AñälD'       »á±F	xÐGðh ÙA*

objective/kl_coefýÕO>`†—È'       »á±F	œÐGðh ÙA*

objective/entropy    T_í/       m]P	³ÐGðh ÙA*"
 
ppo/mean_non_score_rewardõGÀ÷d\%       ê¼6ó	ÆÐGðh ÙA*

ppo/mean_scoresÓ1?ôUR	$       B+€M	ÙÐGðh ÙA*

ppo/std_scores<%=üï¯g-       <AŠû	êÐGðh ÙA* 

tokens/queries_len_mean  4C…ë\Í,       ô®ÌE	ûÐGðh ÙA*

tokens/queries_len_std    Ì¿~/       m]P	ÑGðh ÙA*"
 
tokens/responses_len_mean  €?Ž<€L.       ÅËWú	ÑGðh ÙA*!

tokens/responses_len_std    j)øZ%       ê¼6ó	,ÑGðh ÙA*

ppo/loss/policy   ²2ž¸X$       B+€M	ÒGðh ÙA*

ppo/loss/value2í:Ö'Þ}$       B+€M	ÓGðh ÙA*

ppo/loss/totalP@~8ß-§A(       ÿpJ	‘ÓGðh ÙA*

ppo/policy/entropy   5‰8©W)       7ÿ_ 	3ÔGðh ÙA*

ppo/policy/approxkl    ¸æC¿)       7ÿ_ 	”ÔGðh ÙA*

ppo/policy/policykl    Â²)       7ÿ_ 	ñÔGðh ÙA*

ppo/policy/clipfrac    Çâ'ˆ0       •õÐ_	LÕGðh ÙA*#
!
ppo/policy/advantages_mean   2ŠÌí&       sOã 	­ÕGðh ÙA*

ppo/returns/meanb¦«¿ö»ä%       ê¼6ó	ÖGðh ÙA*

ppo/returns/var¤›:uÆ?#       °ŸwC	gÖGðh ÙA*

ppo/val/vpred¡M¬¿uwÎ#       °ŸwC	ÂÖGðh ÙA*

ppo/val/error2íž:ÑÆ¿)&       sOã 	×Gðh ÙA*

ppo/val/clipfrac    Tã!Ö"       x=ý	p×Gðh ÙA*

ppo/val/meanv «¿8I&!       {ìö	Å×Gðh ÙA*

ppo/val/var    B·ð÷+       †ÃK	 ØGðh ÙA*

ppo/val/var_explainedÀð¬¼/ï«'       »á±F	wØGðh ÙA*

ppo/learning_rateÀÏ¸:«žU±+       †ÃK	ÍØGðh ÙA*

time/ppo/forward_pass`Ál>k-éÀ.       ÅËWú	)ÙGðh ÙA*!

time/ppo/compute_rewards  Ô:Ìè·1       ƒƒé	€ÙGðh ÙA*$
"
time/ppo/compute_advantages àb;œÉÏ,       ô®ÌE	ÕÙGðh ÙA*

time/ppo/optimize_stepH?^Ô•ä)       7ÿ_ 	*ÚGðh ÙA*

time/ppo/calc_stats@#\>Q1§$       B+€M	|ÚGðh ÙA*

time/ppo/total¬ÍÖ?¸á®è%       ê¼6ó	ÑÚGðh ÙA*

env/reward_meanÓ1?Fî·x$       B+€M	#ÛGðh ÙA*

env/reward_std<%=x©PÝ"       x=ý	²×äòh ÙA*

objective/klùx A·Åý'       »á±F	#Øäòh ÙA*

objective/kl_coef
øO>uHÀ'       »á±F	AØäòh ÙA*

objective/entropy    „åÛB/       m]P	XØäòh ÙA*"
 
ppo/mean_non_score_rewardM]Àç’™†%       ê¼6ó	mØäòh ÙA*

ppo/mean_scoresÓ1?3<–U$       B+€M	‚Øäòh ÙA*

ppo/std_scores<%=
­ó-       <AŠû	”Øäòh ÙA* 

tokens/queries_len_mean  4CràQ,       ô®ÌE	¤Øäòh ÙA*

tokens/queries_len_std    ¸Qe/       m]P	¶Øäòh ÙA*"
 
tokens/responses_len_mean  €?â†é.       ÅËWú	ÈØäòh ÙA*!

tokens/responses_len_std    %¨|%       ê¼6ó	ÙØäòh ÙA*

ppo/loss/policy   ²«I%$       B+€M	 Ûäòh ÙA*

ppo/loss/valueáš:Üfqƒ$       B+€M	•Ýäòh ÙA*

ppo/loss/total6Vw8uTö(       ÿpJ	ÃÝäòh ÙA*

ppo/policy/entropy   5ò„)       7ÿ_ 	ÛÝäòh ÙA*

ppo/policy/approxkl    ¯ªþ)       7ÿ_ 	îÝäòh ÙA*

ppo/policy/policykl    fu)       7ÿ_ 	 Þäòh ÙA*

ppo/policy/clipfrac    ÉjyÉ0       •õÐ_	Þäòh ÙA*#
!
ppo/policy/advantages_mean   2	é×Ò&       sOã 	'Þäòh ÙA*

ppo/returns/meanÑ«¿»†>Ü%       ê¼6ó	œÞäòh ÙA*

ppo/returns/var¤›:laè#       °ŸwC	Wàäòh ÙA*

ppo/val/vpred6ã«¿½ùX•#       °ŸwC	„àäòh ÙA*

ppo/val/errorášš:R-/!&       sOã 	›àäòh ÙA*

ppo/val/clipfrac    ÞÝî"       x=ý	±àäòh ÙA*

ppo/val/meanÈÑ¬¿'[S›!       {ìö	Ãàäòh ÙA*

ppo/val/var    ±‹¯†+       †ÃK	Õàäòh ÙA*

ppo/val/var_explained Ú;µ2#ó'       »á±F	æàäòh ÙA*

ppo/learning_rateÀÏ¸:§âŠC+       †ÃK	Gáäòh ÙA*

time/ppo/forward_pass`Þn>j±o.       ÅËWú	¡áäòh ÙA*!

time/ppo/compute_rewards  Õ:‰–è1       ƒƒé	úáäòh ÙA*$
"
time/ppo/compute_advantages i;JÄ,       ô®ÌE	Pâäòh ÙA*

time/ppo/optimize_stepúÙŸ?ó1ìu)       7ÿ_ 	¨âäòh ÙA*

time/ppo/calc_statspÂZ>çþýT$       B+€M	üâäòh ÙA*

time/ppo/total‚ºÙ?çpLò%       ê¼6ó	Rãäòh ÙA*

env/reward_meanÓ1?Æâ¯|$       B+€M	¥ãäòh ÙA*

env/reward_std<%=ò¤c"       x=ý	¨ƒõh ÙA*

objective/klùx AÜ’ÊË'       »á±F	õ¨ƒõh ÙA*

objective/kl_coefP>`ai'       »á±F	©ƒõh ÙA*

objective/entropy    'Š·Ó/       m]P	,©ƒõh ÙA*"
 
ppo/mean_non_score_reward©rÀåÑ%       ê¼6ó	@©ƒõh ÙA*

ppo/mean_scoresÓ1?FNlQ$       B+€M	R©ƒõh ÙA*

ppo/std_scores<%=_íªè-       <AŠû	e©ƒõh ÙA* 

tokens/queries_len_mean  4Cöàr,       ô®ÌE	v©ƒõh ÙA*

tokens/queries_len_std    ’WË/       m]P	‡©ƒõh ÙA*"
 
tokens/responses_len_mean  €?Ÿ‡„.       ÅËWú	š©ƒõh ÙA*!

tokens/responses_len_std    ¥#Ì\%       ê¼6ó	­©ƒõh ÙA*

ppo/loss/policy   ²C¹¿¸$       B+€M	Ñ«ƒõh ÙA*

ppo/loss/valueõ„:6ˆK$       B+€M	!®ƒõh ÙA*

ppo/loss/total¼Ìx8ß™Ñò(       ÿpJ	M®ƒõh ÙA*

ppo/policy/entropy   5Ì¸!÷)       7ÿ_ 	ö±ƒõh ÙA*

ppo/policy/approxkl    üAã1)       7ÿ_ 	#²ƒõh ÙA*

ppo/policy/policykl    ÔcÚ¸)       7ÿ_ 	<²ƒõh ÙA*

ppo/policy/clipfrac    Ôh€ò0       •õÐ_	R²ƒõh ÙA*#
!
ppo/policy/advantages_mean   2•JÈç&       sOã 	h²ƒõh ÙA*

ppo/returns/meanÊû«¿™f"%       ê¼6ó	}²ƒõh ÙA*

ppo/returns/var¤›:ÇÛ#       °ŸwC	Ž²ƒõh ÙA*

ppo/val/vpredØr«¿¥®	#       °ŸwC	Ÿ²ƒõh ÙA*

ppo/val/errorõ„›:ª Þj&       sOã 	°²ƒõh ÙA*

ppo/val/clipfrac    ¸&="       x=ý	µƒõh ÙA*

ppo/val/meanÒª¿°b£š!       {ìö	8µƒõh ÙA*

ppo/val/var    ò÷Þ+       †ÃK	Pµƒõh ÙA*

ppo/val/var_explained ”L:ÌNÂ.'       »á±F	°·ƒõh ÙA*

ppo/learning_rateÀÏ¸:Ún,+       †ÃK	Ú·ƒõh ÙA*

time/ppo/forward_pass iu>(þp¾.       ÅËWú	ò·ƒõh ÙA*!

time/ppo/compute_rewards HÓ:”j1       ƒƒé	q¹ƒõh ÙA*$
"
time/ppo/compute_advantages ˜m;c/Zì,       ô®ÌE	ß¹ƒõh ÙA*

time/ppo/optimize_stepz¹ž?XKº‰)       7ÿ_ 	;ºƒõh ÙA*

time/ppo/calc_statspZ>ÓLo$       B+€M	“ºƒõh ÙA*

time/ppo/totalÒVÙ?|þZ%       ê¼6ó	èºƒõh ÙA*

env/reward_meanÓ1?ŽæÓ4$       B+€M	8»ƒõh ÙA*

env/reward_std<%=ùÙÞ"       x=ý	¬1øh ÙA*

objective/klùx Aê>h'       »á±F	&2øh ÙA*

objective/kl_coef5<P>ÚÀy'       »á±F	H2øh ÙA*

objective/entropy    äûÍ•/       m]P	^2øh ÙA*"
 
ppo/mean_non_score_rewardˆÀÑ[d%       ê¼6ó	p2øh ÙA*

ppo/mean_scoresÓ1?M—p$       B+€M	‚2øh ÙA*

ppo/std_scores<%=J˜Î-       <AŠû	•2øh ÙA* 

tokens/queries_len_mean  4CkívÓ,       ô®ÌE	¥2øh ÙA*

tokens/queries_len_std    MäjQ/       m]P	·2øh ÙA*"
 
tokens/responses_len_mean  €?Ø.       ÅËWú	È2øh ÙA*!

tokens/responses_len_std    ¹14%       ê¼6ó	Ù2øh ÙA*

ppo/loss/policy   ²±<P$       B+€M	¿3øh ÙA*

ppo/loss/valueýè:ÅŠiÈ$       B+€M	Ô4øh ÙA*

ppo/loss/total”9v8? Km(       ÿpJ	Z5øh ÙA*

ppo/policy/entropy   5u¢v)       7ÿ_ 	Å5øh ÙA*

ppo/policy/approxkl    líÌh)       7ÿ_ 	"6øh ÙA*

ppo/policy/policykl    §^)       7ÿ_ 	6øh ÙA*

ppo/policy/clipfrac    ¨MèÁ0       •õÐ_	á6øh ÙA*#
!
ppo/policy/advantages_mean   2:ô&       sOã 	=7øh ÙA*

ppo/returns/meanˆ&¬¿&¨X’%       ê¼6ó	›7øh ÙA*

ppo/returns/var¤›:ÀÖéW#       °ŸwC	ö7øh ÙA*

ppo/val/vpred$Á¬¿½¨Â:#       °ŸwC	M8øh ÙA*

ppo/val/errorýè™:gGlC&       sOã 	¤8øh ÙA*

ppo/val/clipfrac    ò9ãk"       x=ý	ù8øh ÙA*

ppo/val/meanÓº¬¿±"ðv!       {ìö	P9øh ÙA*

ppo/val/var    +fÒ´+       †ÃK	ª9øh ÙA*

ppo/val/var_explained@06<?»ã9'       »á±F	:øh ÙA*

ppo/learning_rateÀÏ¸:Îþƒ+       †ÃK	_:øh ÙA*

time/ppo/forward_pass0w>‚Ð’º.       ÅËWú	º:øh ÙA*!

time/ppo/compute_rewards Ð:¦¼X1       ƒƒé	;øh ÙA*$
"
time/ppo/compute_advantages Äa;*!ëˆ,       ô®ÌE	n;øh ÙA*

time/ppo/optimize_step6Ö£?ÎJüs)       7ÿ_ 	È;øh ÙA*

time/ppo/calc_statsP×^>„ß]$       B+€M	<øh ÙA*

time/ppo/totalŽ8ß?2É_%       ê¼6ó	|<øh ÙA*

env/reward_meanÓ1?é}ä$       B+€M	Ó<øh ÙA*

env/reward_std<%=shÐð"       x=ý	«aÍúh ÙA*

objective/klùx A3Ïl'       »á±F	(bÍúh ÙA*

objective/kl_coefS^P>B[·'       »á±F	ObÍúh ÙA*

objective/entropy    óoIë/       m]P	fbÍúh ÙA*"
 
ppo/mean_non_score_rewardkÀç·ù|%       ê¼6ó	zbÍúh ÙA*

ppo/mean_scoresGb3?>)®r$       B+€M	bÍúh ÙA*

ppo/std_scores(]D=	ŸÓÎ-       <AŠû	 bÍúh ÙA* 

tokens/queries_len_mean  4C®Ö0$,       ô®ÌE	³bÍúh ÙA*

tokens/queries_len_std    ¿ô/       m]P	ÉbÍúh ÙA*"
 
tokens/responses_len_mean  €?¼Ü.       ÅËWú	ßbÍúh ÙA*!

tokens/responses_len_std    è•ï%       ê¼6ó	òbÍúh ÙA*

ppo/loss/policy  €2—9¬¼$       B+€M	äcÍúh ÙA*

ppo/loss/valueæ3“:Ù"Ù•$       B+€M	ìdÍúh ÙA*

ppo/loss/total<Žë8´í)ô(       ÿpJ	weÍúh ÙA*

ppo/policy/entropy   5KÖô)       7ÿ_ 	äeÍúh ÙA*

ppo/policy/approxkl    ˜ëVÛ)       7ÿ_ 	GfÍúh ÙA*

ppo/policy/policykl    9äÔN)       7ÿ_ 	¦fÍúh ÙA*

ppo/policy/clipfrac    ÙMj0       •õÐ_	gÍúh ÙA*#
!
ppo/policy/advantages_mean  €²…€oe&       sOã 	lgÍúh ÙA*

ppo/returns/mean²‰«¿Ž&ˆ-%       ê¼6ó	ÎgÍúh ÙA*

ppo/returns/varÂž;§¦Š#       °ŸwC	GhÍúh ÙA*

ppo/val/vpredeM«¿M—(#       °ŸwC	£hÍúh ÙA*

ppo/val/erroræ3;Îhüô&       sOã 	ýhÍúh ÙA*

ppo/val/clipfrac    üEde"       x=ý	XiÍúh ÙA*

ppo/val/mean¬¿ÿ›B1!       {ìö	³iÍúh ÙA*

ppo/val/var    Z}2+       †ÃK	jÍúh ÙA*

ppo/val/var_explained@Þ¹<ö‰Ö'       »á±F	pjÍúh ÙA*

ppo/learning_rateÀÏ¸:•ys+       †ÃK	ÍjÍúh ÙA*

time/ppo/forward_pass ˆk>”ŒŸô.       ÅËWú	*kÍúh ÙA*!

time/ppo/compute_rewards àÚ:EŒLŸ1       ƒƒé	ƒkÍúh ÙA*$
"
time/ppo/compute_advantages „h;Jn³\,       ô®ÌE	ÜkÍúh ÙA*

time/ppo/optimize_step¬›?Æ@²I)       7ÿ_ 	3lÍúh ÙA*

time/ppo/calc_statsàd>œY@$       B+€M	‰lÍúh ÙA*

time/ppo/totalÄÕ?éSZ%       ê¼6ó	àlÍúh ÙA*

env/reward_meanGb3?½$p$       B+€M	7mÍúh ÙA*

env/reward_std(]D=9ÎÀ"       x=ý	\®fýh ÙA*

objective/klùx A¦Öß'       »á±F	Ò®fýh ÙA*

objective/kl_coefw€P>µƒXs'       »á±F	÷®fýh ÙA*

objective/entropy    šÖÑ¯/       m]P	¯fýh ÙA*"
 
ppo/mean_non_score_rewardÑ²Àå€0ý%       ê¼6ó	 ¯fýh ÙA*

ppo/mean_scoresÓ1? Í.¢$       B+€M	3¯fýh ÙA*

ppo/std_scores<%=…_-       <AŠû	G¯fýh ÙA* 

tokens/queries_len_mean  4Cœðup,       ô®ÌE	X¯fýh ÙA*

tokens/queries_len_std    @‡tk/       m]P	i¯fýh ÙA*"
 
tokens/responses_len_mean  €?•’³.       ÅËWú	}¯fýh ÙA*!

tokens/responses_len_std    ­ ·%       ê¼6ó	’¯fýh ÙA*

ppo/loss/policy   ²o§Ž´$       B+€M	x°fýh ÙA*

ppo/loss/valueª :ÏHßp$       B+€M	±fýh ÙA*

ppo/loss/total»€8½¸€(       ÿpJ	²fýh ÙA*

ppo/policy/entropy   5ÖàRn)       7ÿ_ 	Ž²fýh ÙA*

ppo/policy/approxkl    óAÔ)       7ÿ_ 	ù²fýh ÙA*

ppo/policy/policykl    œTá|)       7ÿ_ 	Z³fýh ÙA*

ppo/policy/clipfrac    ÿ@¼0       •õÐ_	º³fýh ÙA*#
!
ppo/policy/advantages_mean   2wß}&       sOã 	´fýh ÙA*

ppo/returns/mean|¬¿*–·%       ê¼6ó	w´fýh ÙA*

ppo/returns/var¤›:äD÷#       °ŸwC	Ö´fýh ÙA*

ppo/val/vpredÀ¬¿gÕ ¿#       °ŸwC	0µfýh ÙA*

ppo/val/errorª :óH¬&       sOã 	ˆµfýh ÙA*

ppo/val/clipfrac    8nò\"       x=ý	Þµfýh ÙA*

ppo/val/mean¬Íª¿´ÆÙ8!       {ìö	7¶fýh ÙA*

ppo/val/var    ûÐ+       †ÃK	–¶fýh ÙA*

ppo/val/var_explained |é¼±Lp'       »á±F	ñ¶fýh ÙA*

ppo/learning_rateÀÏ¸:Ã¥+       †ÃK	J·fýh ÙA*

time/ppo/forward_passôk>zw§æ.       ÅËWú	¥·fýh ÙA*!

time/ppo/compute_rewards t;°¸,¹1       ƒƒé	ü·fýh ÙA*$
"
time/ppo/compute_advantages Üe;¯ôqu,       ô®ÌE	½¸fýh ÙA*

time/ppo/optimize_step<Êž?Î•lE)       7ÿ_ 	¹fýh ÙA*

time/ppo/calc_stats€>Z>;Øy$       B+€M	i¹fýh ÙA*

time/ppo/total,IØ?tqà§%       ê¼6ó	¿¹fýh ÙA*

env/reward_meanÓ1?½šQ{$       B+€M	ºfýh ÙA*

env/reward_std<%=2³(¯"       x=ý	úûôÿh ÙA *

objective/klùx AÃV9;'       »á±F	tüôÿh ÙA *

objective/kl_coef ¢P>NqH‹'       »á±F	šüôÿh ÙA *

objective/entropy    ‚ƒ8¢/       m]P	³üôÿh ÙA *"
 
ppo/mean_non_score_reward;ÈÀžÏs9%       ê¼6ó	Çüôÿh ÙA *

ppo/mean_scoresÓ1?*«™$       B+€M	Ùüôÿh ÙA *

ppo/std_scores<%=l•¾Ï-       <AŠû	íüôÿh ÙA * 

tokens/queries_len_mean  4C€/_^,       ô®ÌE	þüôÿh ÙA *

tokens/queries_len_std    Uê$œ/       m]P	ýôÿh ÙA *"
 
tokens/responses_len_mean  €?­XS».       ÅËWú	!ýôÿh ÙA *!

tokens/responses_len_std    iÖ%       ê¼6ó	4ýôÿh ÙA *

ppo/loss/policy   ²ã¼²é$       B+€M	%þôÿh ÙA *

ppo/loss/valueú_:7ßÍ$       B+€M	#ÿôÿh ÙA *

ppo/loss/totalÄÄ{8>õ×k(       ÿpJ	§ÿôÿh ÙA *

ppo/policy/entropy   5`bú)       7ÿ_ 	 õÿh ÙA *

ppo/policy/approxkl    G¯5)       7ÿ_ 	~ õÿh ÙA *

ppo/policy/policykl    „=31)       7ÿ_ 	à õÿh ÙA *

ppo/policy/clipfrac    ª·¶ž0       •õÐ_	Cõÿh ÙA *#
!
ppo/policy/advantages_mean   2Zu &       sOã 	®õÿh ÙA *

ppo/returns/meanî¦¬¿;]2%       ê¼6ó	õÿh ÙA *

ppo/returns/var¤›:Ô:p #       °ŸwC	rõÿh ÙA *

ppo/val/vpredHg­¿WN(%#       °ŸwC	Îõÿh ÙA *

ppo/val/errorú_:ƒõí&       sOã 	(õÿh ÙA *

ppo/val/clipfrac    ¹»‰Ý"       x=ý	™õÿh ÙA *

ppo/val/mean›à­¿@‰Ø!       {ìö	õõÿh ÙA *

ppo/val/var    hßŽ'+       †ÃK	Rõÿh ÙA *

ppo/val/var_explained ‹6¼‚ÍÏ'       »á±F	¯õÿh ÙA *

ppo/learning_rateÀÏ¸:ŽbÞÏ+       †ÃK	õÿh ÙA *

time/ppo/forward_passP«i>ã ‰.       ÅËWú	nõÿh ÙA *!

time/ppo/compute_rewards ˜Õ:B«&1       ƒƒé	Ëõÿh ÙA *$
"
time/ppo/compute_advantages Ôh;3Œx,       ô®ÌE	&õÿh ÙA *

time/ppo/optimize_stepjäž?pzÛ")       7ÿ_ 	õÿh ÙA *

time/ppo/calc_stats ôf>vM*$       B+€M	Õõÿh ÙA *

time/ppo/total„¤Ù?™eK%       ê¼6ó	,õÿh ÙA *

env/reward_meanÓ1?‘ÕŒ$       B+€M	ƒõÿh ÙA *

env/reward_std<%=ó2ßÄ"       x=ý	Ã-i ÙA!*

objective/klùx Aø(@ '       »á±F	 .i ÙA!*

objective/kl_coefÏÄP>Äß'       »á±F	;.i ÙA!*

objective/entropy    Ô(?y/       m]P	O.i ÙA!*"
 
ppo/mean_non_score_reward©ÝÀ›Ûâ%       ê¼6ó	a.i ÙA!*

ppo/mean_scoresÓ1?!e»Õ$       B+€M	r.i ÙA!*

ppo/std_scores<%=Ì×µê-       <AŠû	‚.i ÙA!* 

tokens/queries_len_mean  4C¹×¢,       ô®ÌE	’.i ÙA!*

tokens/queries_len_std    tš¯L/       m]P	¥.i ÙA!*"
 
tokens/responses_len_mean  €?½Ý*.       ÅËWú	¶.i ÙA!*!

tokens/responses_len_std    Bb‡%       ê¼6ó	Ç.i ÙA!*

ppo/loss/policy   ²åÉbå$       B+€M	t1i ÙA!*

ppo/loss/valueê::R/£È$       B+€M	K4i ÙA!*

ppo/loss/totalÞïy8ý¯“V(       ÿpJ	4i ÙA!*

ppo/policy/entropy   5~Zê)       7ÿ_ 	—4i ÙA!*

ppo/policy/approxkl    D/B’)       7ÿ_ 	5i ÙA!*

ppo/policy/policykl    'Ú)       7ÿ_ 	7i ÙA!*

ppo/policy/clipfrac    Îb0       •õÐ_	C7i ÙA!*#
!
ppo/policy/advantages_mean   2DÔ
&       sOã 	`7i ÙA!*

ppo/returns/meanÊÑ¬¿÷CFm%       ê¼6ó	s7i ÙA!*

ppo/returns/var¤›:úra#       °ŸwC	…7i ÙA!*

ppo/val/vpred

¬¿µm„#       °ŸwC	–7i ÙA!*

ppo/val/errorê:œ:”Ñ]&       sOã 	§7i ÙA!*

ppo/val/clipfrac    Cˆ\C"       x=ý	¸7i ÙA!*

ppo/val/meanNû«¿él—!       {ìö	:i ÙA!*

ppo/val/var    $v¤Ê+       †ÃK	C:i ÙA!*

ppo/val/var_explained $x»~ÞD¼'       »á±F	Y:i ÙA!*

ppo/learning_rateÀÏ¸:öøç^+       †ÃK	™<i ÙA!*

time/ppo/forward_pass€Dm>Ðâq.       ÅËWú	Æ<i ÙA!*!

time/ppo/compute_rewards ˆÎ:Òu1       ƒƒé	Þ<i ÙA!*$
"
time/ppo/compute_advantages ha;HùUè,       ô®ÌE	ï<i ÙA!*

time/ppo/optimize_stepdÊ›?0³É )       7ÿ_ 	d>i ÙA!*

time/ppo/calc_statspÂY>óU1ç$       B+€M	+@i ÙA!*

time/ppo/totalÚQÕ?f2ô(%       ê¼6ó	U@i ÙA!*

env/reward_meanÓ1?ê†J$       B+€M	j@i ÙA!*

env/reward_std<%=Ø"       x=ý	›&8i ÙA"*

objective/klùx A+“ÑÇ'       »á±F	'8i ÙA"*

objective/kl_coefçP>Ýµž'       »á±F	B'8i ÙA"*

objective/entropy    —	›,/       m]P	X'8i ÙA"*"
 
ppo/mean_non_score_rewardóÀs¡êä%       ê¼6ó	j'8i ÙA"*

ppo/mean_scoresÓ1?®ú*U$       B+€M	{'8i ÙA"*

ppo/std_scores<%=bfø-       <AŠû	'8i ÙA"* 

tokens/queries_len_mean  4C –R ,       ô®ÌE	ž'8i ÙA"*

tokens/queries_len_std    ÞVKZ/       m]P	±'8i ÙA"*"
 
tokens/responses_len_mean  €?._.       ÅËWú	Ã'8i ÙA"*!

tokens/responses_len_std    ×|B%       ê¼6ó	Õ'8i ÙA"*

ppo/loss/policy   ²¾Š5F$       B+€M	Â(8i ÙA"*

ppo/loss/valueé:Ÿèé$       B+€M	½)8i ÙA"*

ppo/loss/totalÂ9v8¢à·Â(       ÿpJ	<*8i ÙA"*

ppo/policy/entropy   5Ñû!Ï)       7ÿ_ 	©*8i ÙA"*

ppo/policy/approxkl    Ûdsø)       7ÿ_ 	+8i ÙA"*

ppo/policy/policykl    Ývþ)       7ÿ_ 	p+8i ÙA"*

ppo/policy/clipfrac    ÝÀ60       •õÐ_	Ó+8i ÙA"*#
!
ppo/policy/advantages_mean   2]SV½&       sOã 	:,8i ÙA"*

ppo/returns/meanªü¬¿*&W¶%       ê¼6ó	œ,8i ÙA"*

ppo/returns/var¤›:fžµ#       °ŸwC	û,8i ÙA"*

ppo/val/vpredtŒ­¿<ã6´#       °ŸwC	V-8i ÙA"*

ppo/val/erroré™:Ò)C$&       sOã 	²-8i ÙA"*

ppo/val/clipfrac    ª‚Ðl"       x=ý	.8i ÙA"*

ppo/val/mean­¿¼_!       {ìö	i.8i ÙA"*

ppo/val/var    ·R]°+       †ÃK	È.8i ÙA"*

ppo/val/var_explainedÀ$6<×Æ*e'       »á±F	C/8i ÙA"*

ppo/learning_rateÀÏ¸:I«ù+       †ÃK	¡/8i ÙA"*

time/ppo/forward_pass@‹l>î‰u.       ÅËWú	08i ÙA"*!

time/ppo/compute_rewards @Ò:¶M1       ƒƒé	`08i ÙA"*$
"
time/ppo/compute_advantages th;?=8F,       ô®ÌE	»08i ÙA"*

time/ppo/optimize_stepÈ ?Ùt4†)       7ÿ_ 	18i ÙA"*

time/ppo/calc_stats 	\>®Û¼f$       B+€M	m18i ÙA"*

time/ppo/total¢ÂÙ?èÖž%       ê¼6ó	Ç18i ÙA"*

env/reward_meanÓ1?#Z\$       B+€M	28i ÙA"*

env/reward_std<%=K;{"       x=ý	ÀÿÉi ÙA#*

objective/klùx A¾k’'       »á±F	, Êi ÙA#*

objective/kl_coef=	Q>ø¬¹'       »á±F	G Êi ÙA#*

objective/entropy    i½®«/       m]P	^ Êi ÙA#*"
 
ppo/mean_non_score_rewardŽÀÓ%       ê¼6ó	r Êi ÙA#*

ppo/mean_scoresÓ1?ŠA@$       B+€M	† Êi ÙA#*

ppo/std_scores<%=˜bb-       <AŠû	™ Êi ÙA#* 

tokens/queries_len_mean  4C¶ã›},       ô®ÌE	¬ Êi ÙA#*

tokens/queries_len_std    $?tó/       m]P	½ Êi ÙA#*"
 
tokens/responses_len_mean  €?“æ)E.       ÅËWú	Ð Êi ÙA#*!

tokens/responses_len_std    ãbé»%       ê¼6ó	â Êi ÙA#*

ppo/loss/policy   ²{_%À$       B+€M	ÞÊi ÙA#*

ppo/loss/value</:âS´§$       B+€M	íÊi ÙA#*

ppo/loss/totalÆvs8Vuµ(       ÿpJ	Êi ÙA#*

ppo/policy/entropy   5"']á)       7ÿ_ 	0Êi ÙA#*

ppo/policy/approxkl    •#Zp)       7ÿ_ 	BÊi ÙA#*

ppo/policy/policykl    c:®5)       7ÿ_ 	SÊi ÙA#*

ppo/policy/clipfrac    ÁÐt0       •õÐ_	ÉÊi ÙA#*#
!
ppo/policy/advantages_mean   2jËQ&       sOã 	'Êi ÙA#*

ppo/returns/mean”'­¿’{^¾%       ê¼6ó	ƒÊi ÙA#*

ppo/returns/var¤›:“%<Â#       °ŸwC	½Êi ÙA#*

ppo/val/vpredH×¬¿¼¦ó#       °ŸwC	Êi ÙA#*

ppo/val/error</˜:U§wS&       sOã 	0Êi ÙA#*

ppo/val/clipfrac    áY"       x=ý	EÊi ÙA#*

ppo/val/meanæH­¿{‚Í	!       {ìö	VÊi ÙA#*

ppo/val/var    Î­ˆ+       †ÃK	hÊi ÙA#*

ppo/val/var_explained`ëµ<‘!Ž'       »á±F	zÊi ÙA#*

ppo/learning_rateÀÏ¸:M_?Ž+       †ÃK	ŒÊi ÙA#*

time/ppo/forward_pass°=z>uµûw.       ÅËWú	Êi ÙA#*!

time/ppo/compute_rewards Õ:ôpä±1       ƒƒé	®Êi ÙA#*$
"
time/ppo/compute_advantages èp; $‚,       ô®ÌE	FÊi ÙA#*

time/ppo/optimize_step¸e¢?¦a>)       7ÿ_ 	ÚÊi ÙA#*

time/ppo/calc_statsÀ3a>îÀgù$       B+€M	DÊi ÙA#*

time/ppo/total„Þ?}CÄA%       ê¼6ó	¨Êi ÙA#*

env/reward_meanÓ1?ò÷]¹$       B+€M	Êi ÙA#*

env/reward_std<%=o¡Ù "       x=ý	Ûii
i ÙA$*

objective/klùx A·Ç'       »á±F	€ji
i ÙA$*

objective/kl_coef}+Q>ŒàP_'       »á±F	£ji
i ÙA$*

objective/entropy    ãDYû/       m]P	»ji
i ÙA$*"
 
ppo/mean_non_score_rewardÀAÐ)I%       ê¼6ó	Óji
i ÙA$*

ppo/mean_scoresÓ1?Î£MŸ$       B+€M	çji
i ÙA$*

ppo/std_scores<%=P5ë&-       <AŠû	ûji
i ÙA$* 

tokens/queries_len_mean  4Cž Og,       ô®ÌE	ki
i ÙA$*

tokens/queries_len_std    Pœ(É/       m]P	%ki
i ÙA$*"
 
tokens/responses_len_mean  €?ý‘fÃ.       ÅËWú	8ki
i ÙA$*!

tokens/responses_len_std    ¯n—%       ê¼6ó	Jki
i ÙA$*

ppo/loss/policy   ²¸ÜN$       B+€M	„li
i ÙA$*

ppo/loss/value:µ]É$       B+€M	imi
i ÙA$*

ppo/loss/total´Qs80Ù(       ÿpJ	ioi
i ÙA$*

ppo/policy/entropy   5ÚóÉ»)       7ÿ_ 	ãoi
i ÙA$*

ppo/policy/approxkl    8 Tf)       7ÿ_ 	Üqi
i ÙA$*

ppo/policy/policykl    –]<)       7ÿ_ 	Ori
i ÙA$*

ppo/policy/clipfrac    ÖnmA0       •õÐ_	Iti
i ÙA$*#
!
ppo/policy/advantages_mean   2 ÛÒ×&       sOã 	Æti
i ÙA$*

ppo/returns/mean„R­¿k³9Þ%       ê¼6ó	+ui
i ÙA$*

ppo/returns/var¤›:•.ï9#       °ŸwC	‰ui
i ÙA$*

ppo/val/vpred‰`­¿ñ¢#       °ŸwC	äui
i ÙA$*

ppo/val/error˜:Iq‰&       sOã 	>vi
i ÙA$*

ppo/val/clipfrac    ¢Æy"       x=ý	—vi
i ÙA$*

ppo/val/meanuÏ¬¿šx!       {ìö	ñvi
i ÙA$*

ppo/val/var    l|z+       †ÃK	Lwi
i ÙA$*

ppo/val/var_explained ¯º<çše‰'       »á±F	¤wi
i ÙA$*

ppo/learning_rateÀÏ¸:ðØñ+       †ÃK	þwi
i ÙA$*

time/ppo/forward_passàqu>h8¸ .       ÅËWú	`xi
i ÙA$*!

time/ppo/compute_rewards õ:þ o1       ƒƒé	Êxi
i ÙA$*$
"
time/ppo/compute_advantages l;4Æ|N,       ô®ÌE	$yi
i ÙA$*

time/ppo/optimize_step&ú¡?jê )       7ÿ_ 	~yi
i ÙA$*

time/ppo/calc_statsà×b>Ê¾‚ý$       B+€M	Òyi
i ÙA$*

time/ppo/total6¹Ý?ßE%       ê¼6ó	,zi
i ÙA$*

env/reward_meanÓ1?HrZ$       B+€M	…zi
i ÙA$*

env/reward_std<%=•"       x=ý	iDi ÙA%*

objective/klùx Ad	ÔÌ'       »á±F	ÝDi ÙA%*

objective/kl_coefÂMQ>¤vBq'       »á±F	Ei ÙA%*

objective/entropy    Ý„q/       m]P	Ei ÙA%*"
 
ppo/mean_non_score_reward3ÀÜ !Æ%       ê¼6ó	0Ei ÙA%*

ppo/mean_scoresÓ1?À‡$       B+€M	BEi ÙA%*

ppo/std_scores<%=æÖi-       <AŠû	UEi ÙA%* 

tokens/queries_len_mean  4C"ä ¶,       ô®ÌE	iEi ÙA%*

tokens/queries_len_std    üÿê/       m]P	|Ei ÙA%*"
 
tokens/responses_len_mean  €?°Ïü­.       ÅËWú	Ei ÙA%*!

tokens/responses_len_std    ‰©.%       ê¼6ó	¢Ei ÙA%*

ppo/loss/policy   ²£œç,$       B+€M	ŽFi ÙA%*

ppo/loss/valueo?:í¢Â$       B+€M	†Gi ÙA%*

ppo/loss/total÷q8Û%•(       ÿpJ	Hi ÙA%*

ppo/policy/entropy   5»Ÿè)       7ÿ_ 	qHi ÙA%*

ppo/policy/approxkl    Š•Ã)       7ÿ_ 	ÖHi ÙA%*

ppo/policy/policykl    ÏApÐ)       7ÿ_ 	7Ii ÙA%*

ppo/policy/clipfrac    7ëç0       •õÐ_	˜Ii ÙA%*#
!
ppo/policy/advantages_mean   2æíÀ&       sOã 	ùIi ÙA%*

ppo/returns/meanz}­¿Vêeî%       ê¼6ó	YJi ÙA%*

ppo/returns/var¤›:eÁ
é#       °ŸwC	ºJi ÙA%*

ppo/val/vpred°”­¿V¢Ú#       °ŸwC	Ki ÙA%*

ppo/val/erroro?—:>™¡÷&       sOã 	lKi ÙA%*

ppo/val/clipfrac    ‡è2J"       x=ý	ÃKi ÙA%*

ppo/val/meanaÝ­¿á>%	!       {ìö	!Li ÙA%*

ppo/val/var    ”ÔÄ¥+       †ÃK	€Li ÙA%*

ppo/val/var_explained 9ç<þ[Gƒ'       »á±F	ÛLi ÙA%*

ppo/learning_rateÀÏ¸:5£IÏ+       †ÃK	5Mi ÙA%*

time/ppo/forward_passð•t>,"pF.       ÅËWú	‘Mi ÙA%*!

time/ppo/compute_rewards ˜Õ:ÌÆ1       ƒƒé	êMi ÙA%*$
"
time/ppo/compute_advantages Lk;$’´,       ô®ÌE	BNi ÙA%*

time/ppo/optimize_step„ùŸ?fäy)       7ÿ_ 	œNi ÙA%*

time/ppo/calc_stats`Q_>p$ÏH$       B+€M	óNi ÙA%*

time/ppo/totalÚ#Û?–it%       ê¼6ó	KOi ÙA%*

env/reward_meanÓ1?Á¤èü$       B+€M	¢Oi ÙA%*

env/reward_std<%=iímŠ"       x=ý	Ïç¥i ÙA&*

objective/klùx AûPz€'       »á±F	<è¥i ÙA&*

objective/kl_coefpQ>êaR!'       »á±F	Zè¥i ÙA&*

objective/entropy    Î½Á­/       m]P	pè¥i ÙA&*"
 
ppo/mean_non_score_reward IÀˆR‡Ý%       ê¼6ó	…è¥i ÙA&*

ppo/mean_scoresÓ1?‹öÛ$       B+€M	™è¥i ÙA&*

ppo/std_scores<%=‘>ÆI-       <AŠû	«è¥i ÙA&* 

tokens/queries_len_mean  4CÝ¢Q,       ô®ÌE	½è¥i ÙA&*

tokens/queries_len_std    {™r/       m]P	Ðè¥i ÙA&*"
 
tokens/responses_len_mean  €?ü†ç~.       ÅËWú	åè¥i ÙA&*!

tokens/responses_len_std    Øoz%       ê¼6ó	÷è¥i ÙA&*

ppo/loss/policy   ²—ÑýÕ$       B+€M	ë¥i ÙA&*

ppo/loss/valueä“:ûîmî$       B+€M	åî¥i ÙA&*

ppo/loss/total;~r8TäP(       ÿpJ	ï¥i ÙA&*

ppo/policy/entropy   5WÙ)       7ÿ_ 	*ï¥i ÙA&*

ppo/policy/approxkl    éDó)       7ÿ_ 	=ï¥i ÙA&*

ppo/policy/policykl    PéH£)       7ÿ_ 	Pï¥i ÙA&*

ppo/policy/clipfrac    @Ê&n0       •õÐ_	dï¥i ÙA&*#
!
ppo/policy/advantages_mean   2.&       sOã 	|ï¥i ÙA&*

ppo/returns/meanx¨­¿ûìÀŸ%       ê¼6ó	ï¥i ÙA&*

ppo/returns/var¤›:¡“«#       °ŸwC	 ï¥i ÙA&*

ppo/val/vpredw­¿²ñÄ.#       °ŸwC	±ï¥i ÙA&*

ppo/val/errorä“—:È&œd&       sOã 	 ð¥i ÙA&*

ppo/val/clipfrac    Gµ¯¯"       x=ý	åñ¥i ÙA&*

ppo/val/mean.­¿É/|a!       {ìö	ò¥i ÙA&*

ppo/val/var    ®¾‚+       †ÃK	%ò¥i ÙA&*

ppo/val/var_explainedÀÛÕ<öâì3'       »á±F	8ò¥i ÙA&*

ppo/learning_rateÀÏ¸: ·+       †ÃK	Iò¥i ÙA&*

time/ppo/forward_pass€àm>©þ.       ÅËWú	Zò¥i ÙA&*!

time/ppo/compute_rewards ØÙ:Ác|ç1       ƒƒé	kò¥i ÙA&*$
"
time/ppo/compute_advantages `j;{kk°,       ô®ÌE	Áò¥i ÙA&*

time/ppo/optimize_stepPYž?:Ûbm)       7ÿ_ 	ó¥i ÙA&*

time/ppo/calc_stats šY>'s×$       B+€M	pó¥i ÙA&*

time/ppo/total¸ö×?Ô{“ë%       ê¼6ó	 ô¥i ÙA&*

env/reward_meanÓ1?nkU$       B+€M	zô¥i ÙA&*

env/reward_std<%=–o7"       x=ý	cÝLi ÙA'*

objective/klùx AkrCê'       »á±F	ÓÝLi ÙA'*

objective/kl_coef^’Q>.CZÇ'       »á±F	ñÝLi ÙA'*

objective/entropy    3 §£/       m]P	ÞLi ÙA'*"
 
ppo/mean_non_score_rewardƒ^ÀÌk-:%       ê¼6ó	ÞLi ÙA'*

ppo/mean_scoresÓ1?	·Ú…$       B+€M	-ÞLi ÙA'*

ppo/std_scores<%=ÔŸÊ-       <AŠû	@ÞLi ÙA'* 

tokens/queries_len_mean  4C¿M›,       ô®ÌE	RÞLi ÙA'*

tokens/queries_len_std    ûV&/       m]P	dÞLi ÙA'*"
 
tokens/responses_len_mean  €?Æ¼ZB.       ÅËWú	vÞLi ÙA'*!

tokens/responses_len_std    ßU8%       ê¼6ó	‰ÞLi ÙA'*

ppo/loss/policy   ²´ZUl$       B+€M	ÉàLi ÙA'*

ppo/loss/value:èø$       B+€M	 åLi ÙA'*

ppo/loss/totalO»q8’üý(       ÿpJ	ÍåLi ÙA'*

ppo/policy/entropy   5G§*†)       7ÿ_ 	èåLi ÙA'*

ppo/policy/approxkl    ´“†š)       7ÿ_ 	üåLi ÙA'*

ppo/policy/policykl    Å¶ÙÝ)       7ÿ_ 	æLi ÙA'*

ppo/policy/clipfrac    óŠ !0       •õÐ_	"æLi ÙA'*#
!
ppo/policy/advantages_mean   2ù‰Ò¤&       sOã 	6æLi ÙA'*

ppo/returns/mean~Ó­¿Y¯Û%       ê¼6ó	HæLi ÙA'*

ppo/returns/var¤›:—Ðº<#       °ŸwC	YæLi ÙA'*

ppo/val/vpred~®¿Ñ¿#       °ŸwC	kæLi ÙA'*

ppo/val/error—:yÒa&       sOã 	ƒèLi ÙA'*

ppo/val/clipfrac    ”(ÔŽ"       x=ý	¯èLi ÙA'*

ppo/val/meanÜ®¿QÆ@e!       {ìö	AìLi ÙA'*

ppo/val/var    ž1Ðn+       †ÃK	mìLi ÙA'*

ppo/val/var_explainedàçî<8>O'       »á±F	„ìLi ÙA'*

ppo/learning_rateÀÏ¸:á¾–+       †ÃK	™ìLi ÙA'*

time/ppo/forward_passÀen>ð>?á.       ÅËWú	¬ìLi ÙA'*!

time/ppo/compute_rewards ˜Ï:pD¼E1       ƒƒé	¾ìLi ÙA'*$
"
time/ppo/compute_advantages ìi;àïì,       ô®ÌE	ÑìLi ÙA'*

time/ppo/optimize_stepª
›?5T)       7ÿ_ 	ãìLi ÙA'*

time/ppo/calc_stats°qf>ÏoŠà$       B+€M	õìLi ÙA'*

time/ppo/totalâPÖ?lÇD'%       ê¼6ó	íLi ÙA'*

env/reward_meanÓ1?„šý$       B+€M	eïLi ÙA'*

env/reward_std<%=0¢gé"       x=ý	Wlçi ÙA(*

objective/klùx A’ê1Ä'       »á±F	Âlçi ÙA(*

objective/kl_coef´´Q>æ/ˆ'       »á±F	Þlçi ÙA(*

objective/entropy    X]*ª/       m]P	òlçi ÙA(*"
 
ppo/mean_non_score_reward	tÀ7sNÈ%       ê¼6ó	mçi ÙA(*

ppo/mean_scoresÓ1?¨=gú$       B+€M	mçi ÙA(*

ppo/std_scores<%=?K™G-       <AŠû	'mçi ÙA(* 

tokens/queries_len_mean  4C?¡þ,       ô®ÌE	8mçi ÙA(*

tokens/queries_len_std    žC/       m]P	Imçi ÙA(*"
 
tokens/responses_len_mean  €?ØQ†°.       ÅËWú	\mçi ÙA(*!

tokens/responses_len_std    DÀíâ%       ê¼6ó	nmçi ÙA(*

ppo/loss/policy   ²	Øî$       B+€M	 oçi ÙA(*

ppo/loss/valueÐ:–ßÌ
$       B+€M	pçi ÙA(*

ppo/loss/totalLÁq8Ù9·(       ÿpJ	|pçi ÙA(*

ppo/policy/entropy   5E¥†Ð)       7ÿ_ 	Þpçi ÙA(*

ppo/policy/approxkl    œÃòw)       7ÿ_ 	2qçi ÙA(*

ppo/policy/policykl    ÄQI£)       7ÿ_ 	†qçi ÙA(*

ppo/policy/clipfrac    ”Ú£Ú0       •õÐ_	æqçi ÙA(*#
!
ppo/policy/advantages_mean   2U?Áj&       sOã 	7rçi ÙA(*

ppo/returns/meanŠþ­¿Ç±i %       ê¼6ó	rçi ÙA(*

ppo/returns/var¤›:£#<#       °ŸwC	årçi ÙA(*

ppo/val/vpredÏ­¿$Q€#       °ŸwC	Csçi ÙA(*

ppo/val/errorÐ—:¶¤´;&       sOã 	sçi ÙA(*

ppo/val/clipfrac    šàÿ]"       x=ý	ásçi ÙA(*

ppo/val/meanÃ­¿C&;ò!       {ìö	5tçi ÙA(*

ppo/val/var    N0D+       †ÃK	‰tçi ÙA(*

ppo/val/var_explainedÀ"î<çý—'       »á±F	Ûtçi ÙA(*

ppo/learning_rateÀÏ¸:`%Wk+       †ÃK	/uçi ÙA(*

time/ppo/forward_passît>äÉíÒ.       ÅËWú	ˆuçi ÙA(*!

time/ppo/compute_rewards ×:Ó½µ1       ƒƒé	ßuçi ÙA(*$
"
time/ppo/compute_advantages {;ÁO,       ô®ÌE	Cvçi ÙA(*

time/ppo/optimize_stepôD¢?ÌAóN)       7ÿ_ 	˜vçi ÙA(*

time/ppo/calc_stats€n_>×ÿ@2$       B+€M	çvçi ÙA(*

time/ppo/total@†Ý?œÏM‡%       ê¼6ó	:wçi ÙA(*

env/reward_meanÓ1?y0ý$       B+€M	wçi ÙA(*

env/reward_std<%=³†™"       x=ý	a„i ÙA)*

objective/klùx Aï8'       »á±F	Ë„i ÙA)*

objective/kl_coef×Q>\ò”ï'       »á±F	ç„i ÙA)*

objective/entropy    z¥{Û/       m]P	û„i ÙA)*"
 
ppo/mean_non_score_reward’‰À³†¼Û%       ê¼6ó	„i ÙA)*

ppo/mean_scoresÓ1?BãÃ‰$       B+€M	„i ÙA)*

ppo/std_scores<%=new-       <AŠû	0„i ÙA)* 

tokens/queries_len_mean  4Cò&{ð,       ô®ÌE	A„i ÙA)*

tokens/queries_len_std    îç•¨/       m]P	T„i ÙA)*"
 
tokens/responses_len_mean  €?+lÅ-.       ÅËWú	e„i ÙA)*!

tokens/responses_len_std    óå]Ý%       ê¼6ó	v„i ÙA)*

ppo/loss/policy   ²M]$       B+€M	ª„i ÙA)*

ppo/loss/value|ü:¯Û$       B+€M	m„i ÙA)*

ppo/loss/totalú‹q8Vzg#(       ÿpJ	—„i ÙA)*

ppo/policy/entropy   5ÐOa$)       7ÿ_ 	®„i ÙA)*

ppo/policy/approxkl    Yq¾ô)       7ÿ_ 	Â„i ÙA)*

ppo/policy/policykl    ƒD“&)       7ÿ_ 	Ó„i ÙA)*

ppo/policy/clipfrac    ¡!ùg0       •õÐ_	ç„i ÙA)*#
!
ppo/policy/advantages_mean   27[°¿&       sOã 	û„i ÙA)*

ppo/returns/meanœ)®¿¡èlè%       ê¼6ó	„i ÙA)*

ppo/returns/var¤›:ÛÈf##       °ŸwC	„i ÙA)*

ppo/val/vpredôH®¿ß¦®#       °ŸwC	0„i ÙA)*

ppo/val/error|ü–:ÊþA‘&       sOã 	Í „i ÙA)*

ppo/val/clipfrac    àe«"       x=ý	û „i ÙA)*

ppo/val/meanV®¿pH‰0!       {ìö	!„i ÙA)*

ppo/val/var    ¤w%+       †ÃK	V"„i ÙA)*

ppo/val/var_explainedàüô<ÑoÓ'       »á±F	á"„i ÙA)*

ppo/learning_rateÀÏ¸:™+O+       †ÃK	‡$„i ÙA)*

time/ppo/forward_pass`Nw>áê.       ÅËWú	ô$„i ÙA)*!

time/ppo/compute_rewards ØÕ:žú1       ƒƒé	N%„i ÙA)*$
"
time/ppo/compute_advantages <i;Qe‰Ñ,       ô®ÌE	¤%„i ÙA)*

time/ppo/optimize_stepvA¡?«ï¸)       7ÿ_ 	ø%„i ÙA)*

time/ppo/calc_statsÐ/Z>Öá$       B+€M	K&„i ÙA)*

time/ppo/totalºÜ?"“*E%       ê¼6ó	¢&„i ÙA)*

env/reward_meanÓ1? °g$       B+€M	õ&„i ÙA)*

env/reward_std<%=õ{Ò"       x=ý	ô
9i ÙA**

objective/klùx AƒZC#'       »á±F	o9i ÙA**

objective/kl_coefqùQ>5u³H'       »á±F	”9i ÙA**

objective/entropy    ®x&/       m]P	©9i ÙA**"
 
ppo/mean_non_score_reward ŸÀ  ÿ%       ê¼6ó	¾9i ÙA**

ppo/mean_scoresGb3?ð<¢‹$       B+€M	Ï9i ÙA**

ppo/std_scores(]D=W±L¥-       <AŠû	à9i ÙA** 

tokens/queries_len_mean  4C™ÿN[,       ô®ÌE	ó9i ÙA**

tokens/queries_len_std    |žsÝ/       m]P	9i ÙA**"
 
tokens/responses_len_mean  €?Yª‘.       ÅËWú	9i ÙA**!

tokens/responses_len_std    £˜¥Œ%       ê¼6ó	)9i ÙA**

ppo/loss/policy  €2w¥W$       B+€M	9i ÙA**

ppo/loss/value
ä’:r™ë¿$       B+€M	9i ÙA**

ppo/loss/totalwë8¿,ú_(       ÿpJ	9i ÙA**

ppo/policy/entropy   5ba)       7ÿ_ 	 9i ÙA**

ppo/policy/approxkl    wQ«Â)       7ÿ_ 	d9i ÙA**

ppo/policy/policykl    >Hk)       7ÿ_ 	Ä9i ÙA**

ppo/policy/clipfrac    ùÎ ¢0       •õÐ_	,9i ÙA**#
!
ppo/policy/advantages_mean  €²¡ËS{&       sOã 	˜9i ÙA**

ppo/returns/mean­¿{®‰ë%       ê¼6ó	ý9i ÙA**

ppo/returns/varÂž;|5Àj#       °ŸwC	b9i ÙA**

ppo/val/vpredãž­¿³ß Å#       °ŸwC	À9i ÙA**

ppo/val/error
ä;¼Ïë &       sOã 	9i ÙA**

ppo/val/clipfrac    *m1Š"       x=ý	y9i ÙA**

ppo/val/meanñE®¿É©¹4!       {ìö	Ö9i ÙA**

ppo/val/var    .4Xa+       †ÃK	89i ÙA**

ppo/val/var_explainedÀÕÊ<önÎ“'       »á±F	˜9i ÙA**

ppo/learning_rateÀÏ¸:b·…w+       †ÃK	ø9i ÙA**

time/ppo/forward_pass`?w>‰Œ”Ý.       ÅËWú	\9i ÙA**!

time/ppo/compute_rewards ¨Ð:ðÆ<1       ƒƒé	»9i ÙA**$
"
time/ppo/compute_advantages ¦‚;F'/U,       ô®ÌE	9i ÙA**

time/ppo/optimize_stepÀÓŸ?vK)       7ÿ_ 	v9i ÙA**

time/ppo/calc_statsp|a>Q_…½$       B+€M	Ô9i ÙA**

time/ppo/totalz¤Û?ßÎ*%       ê¼6ó	09i ÙA**

env/reward_meanGb3?Ì¹?¦$       B+€M	‹9i ÙA**

env/reward_std(]D=Äî„Ã"       x=ý	)ÌÈi ÙA+*

objective/klùx A´Hù'       »á±F	œÌÈi ÙA+*

objective/kl_coefØR>¬7ú'       »á±F	ÆÌÈi ÙA+*

objective/entropy    ÷É#j/       m]P	ÛÌÈi ÙA+*"
 
ppo/mean_non_score_reward°´ÀÄÉïJ%       ê¼6ó	ïÌÈi ÙA+*

ppo/mean_scoresÓ1?eY²$       B+€M	ÍÈi ÙA+*

ppo/std_scores<%=ðvÃ¢-       <AŠû	ÍÈi ÙA+* 

tokens/queries_len_mean  4CÃŠo>,       ô®ÌE	$ÍÈi ÙA+*

tokens/queries_len_std    ÌÈµ†/       m]P	6ÍÈi ÙA+*"
 
tokens/responses_len_mean  €?  „.       ÅËWú	GÍÈi ÙA+*!

tokens/responses_len_std    Tÿ=%       ê¼6ó	XÍÈi ÙA+*

ppo/loss/policy   ²o‰,$       B+€M	BÎÈi ÙA+*

ppo/loss/value|y:åKí$       B+€M	?ÏÈi ÙA+*

ppo/loss/totalÆ 8 ˆ:·(       ÿpJ	¿ÏÈi ÙA+*

ppo/policy/entropy   5Éù)       7ÿ_ 	'ÐÈi ÙA+*

ppo/policy/approxkl    {aÊ‹)       7ÿ_ 	ˆÐÈi ÙA+*

ppo/policy/policykl    ”FÈ})       7ÿ_ 	çÐÈi ÙA+*

ppo/policy/clipfrac    LñîK0       •õÐ_	EÑÈi ÙA+*#
!
ppo/policy/advantages_mean   2užp&       sOã 	¢ÑÈi ÙA+*

ppo/returns/meanØ®¿„>X%       ê¼6ó	 ÒÈi ÙA+*

ppo/returns/var¤›:§||ð#       °ŸwC	YÒÈi ÙA+*

ppo/val/vpredR®¿çã@e#       °ŸwC	°ÒÈi ÙA+*

ppo/val/error|yŸ:™ß’Ó&       sOã 	ÓÈi ÙA+*

ppo/val/clipfrac    *>^¼"       x=ý	YÓÈi ÙA+*

ppo/val/meanç¬¿ãÇþ!       {ìö	®ÓÈi ÙA+*

ppo/val/var    -°p‚+       †ÃK		ÔÈi ÙA+*

ppo/val/var_explainedÀÈÉ¼@ð'       »á±F	`ÔÈi ÙA+*

ppo/learning_rateÀÏ¸:TG#+       †ÃK	¸ÔÈi ÙA+*

time/ppo/forward_pass€il>£¯¾y.       ÅËWú	ÕÈi ÙA+*!

time/ppo/compute_rewards €Ì:ÏÄ 1       ƒƒé	hÕÈi ÙA+*$
"
time/ppo/compute_advantages €b;Á>>ê,       ô®ÌE	½ÕÈi ÙA+*

time/ppo/optimize_stepÜÈ›?ÉÓ$9)       7ÿ_ 	ÖÈi ÙA+*

time/ppo/calc_statsÐd^>Ä™bO$       B+€M	fÖÈi ÙA+*

time/ppo/totalzÉÕ?ô¼i%       ê¼6ó	¹ÖÈi ÙA+*

env/reward_meanÓ1? ¸ìs$       B+€M	
×Èi ÙA+*

env/reward_std<%=*¾?"       x=ý	0ÙWi ÙA,*

objective/klùx AAÏè'       »á±F	¡ÙWi ÙA,*

objective/kl_coefD>R>„8'       »á±F	ÀÙWi ÙA,*

objective/entropy    .y/       m]P	ÕÙWi ÙA,*"
 
ppo/mean_non_score_rewardDÊÀÛ‹ý%       ê¼6ó	ëÙWi ÙA,*

ppo/mean_scoresÓ1?kÊj¾$       B+€M	ÿÙWi ÙA,*

ppo/std_scores<%=<;&Œ-       <AŠû	ÚWi ÙA,* 

tokens/queries_len_mean  4Cäàà¯,       ô®ÌE	(ÚWi ÙA,*

tokens/queries_len_std    2nl/       m]P	<ÚWi ÙA,*"
 
tokens/responses_len_mean  €?Gáœ.       ÅËWú	MÚWi ÙA,*!

tokens/responses_len_std    ¿óÄ€%       ê¼6ó	`ÚWi ÙA,*

ppo/loss/policy   ²+¦¿$       B+€M	—ÛWi ÙA,*

ppo/loss/value Å:£t1$       B+€M	˜ÝWi ÙA,*

ppo/loss/total44y8ÆjÄ5(       ÿpJ	ÇÝWi ÙA,*

ppo/policy/entropy   5ý=Å”)       7ÿ_ 	¾ßWi ÙA,*

ppo/policy/approxkl    º»q)       7ÿ_ 	éßWi ÙA,*

ppo/policy/policykl    ¤i½‹)       7ÿ_ 	àWi ÙA,*

ppo/policy/clipfrac    ¥k’0       •õÐ_	àWi ÙA,*#
!
ppo/policy/advantages_mean   2Éñ¥&       sOã 	âWi ÙA,*

ppo/returns/mean «®¿6gÊ¶%       ê¼6ó	9âWi ÙA,*

ppo/returns/var¤›:Ï2h#       °ŸwC	OâWi ÙA,*

ppo/val/vpred3¯¿ö²;#       °ŸwC	bâWi ÙA,*

ppo/val/error Å›:›p©Ë&       sOã 	îâWi ÙA,*

ppo/val/clipfrac    Þ¯
"       x=ý	—ãWi ÙA,*

ppo/val/meanƒÐ¯¿¥¬!       {ìö	óåWi ÙA,*

ppo/val/var    µ§´!+       †ÃK	£æWi ÙA,*

ppo/val/var_explained è\º!Âz'       »á±F	içWi ÙA,*

ppo/learning_rateÀÏ¸:ÒT¯”+       †ÃK	èWi ÙA,*

time/ppo/forward_pass€Èp>Qº›.       ÅËWú	ÍèWi ÙA,*!

time/ppo/compute_rewards hÞ:	lÈµ1       ƒƒé	véWi ÙA,*$
"
time/ppo/compute_advantages |j;§á¬,       ô®ÌE	êWi ÙA,*

time/ppo/optimize_step’ÕŸ?jD.l)       7ÿ_ 	¿êWi ÙA,*

time/ppo/calc_statsPµ`>…55$       B+€M	YëWi ÙA,*

time/ppo/totalŠ´Ú?ªm%       ê¼6ó	òëWi ÙA,*

env/reward_meanÓ1?‰¢”$       B+€M	†ìWi ÙA,*

env/reward_std<%=lˆD"       x=ý	žoï!i ÙA-*

objective/klùx Ad¢nw'       »á±F		pï!i ÙA-*

objective/kl_coef¶`R>)»·{'       »á±F	‰pï!i ÙA-*

objective/entropy    –Aa/       m]P	Ÿpï!i ÙA-*"
 
ppo/mean_non_score_rewardÜßÀ_ð„e%       ê¼6ó	µpï!i ÙA-*

ppo/mean_scoresÓ1?;©#9$       B+€M	Épï!i ÙA-*

ppo/std_scores<%=TË-       <AŠû	Üpï!i ÙA-* 

tokens/queries_len_mean  4CIŸ*A,       ô®ÌE	ïpï!i ÙA-*

tokens/queries_len_std    µoVs/       m]P	qï!i ÙA-*"
 
tokens/responses_len_mean  €?æ¶h.       ÅËWú	qï!i ÙA-*!

tokens/responses_len_std    Ñq%       ê¼6ó	%qï!i ÙA-*

ppo/loss/policy   ²×’}Ý$       B+€M	îtï!i ÙA-*

ppo/loss/value8:¡£:$       B+€M	uï!i ÙA-*

ppo/loss/total¢Qx8‘ÀÔ`(       ÿpJ	4uï!i ÙA-*

ppo/policy/entropy   5ÿ˜s)       7ÿ_ 	S{ï!i ÙA-*

ppo/policy/approxkl    ý†+)       7ÿ_ 	~{ï!i ÙA-*

ppo/policy/policykl    ïMº¥)       7ÿ_ 	•{ï!i ÙA-*

ppo/policy/clipfrac     ×¡‘0       •õÐ_	¬{ï!i ÙA-*#
!
ppo/policy/advantages_mean   22W¹&       sOã 	¿{ï!i ÙA-*

ppo/returns/mean0Ö®¿Êƒ'$%       ê¼6ó	Ó{ï!i ÙA-*

ppo/returns/var¤›:Ç.:#       °ŸwC	å{ï!i ÙA-*

ppo/val/vpred¶A®¿N†NÒ#       °ŸwC	÷{ï!i ÙA-*

ppo/val/error8›:]8Ø©&       sOã 		|ï!i ÙA-*

ppo/val/clipfrac    ’©4"       x=ý	|ï!i ÙA-*

ppo/val/mean¸Ö­¿°wè!       {ìö	~ï!i ÙA-*

ppo/val/var    fw{0+       †ÃK	¹~ï!i ÙA-*

ppo/val/var_explained ±1;@r[›'       »á±F	xï!i ÙA-*

ppo/learning_rateÀÏ¸:eU+       †ÃK	€ï!i ÙA-*

time/ppo/forward_pass°îl>¶”uî.       ÅËWú	Á€ï!i ÙA-*!

time/ppo/compute_rewards ˜×:ôÁaì1       ƒƒé	_ï!i ÙA-*$
"
time/ppo/compute_advantages 8h;èÔo,       ô®ÌE	øï!i ÙA-*

time/ppo/optimize_stepæ¢?µÅ)       7ÿ_ 	‘‚ï!i ÙA-*

time/ppo/calc_statsÀ[>ÃÕ¡$       B+€M	(ƒï!i ÙA-*

time/ppo/totalP×?bŠÚ%       ê¼6ó	Âƒï!i ÙA-*

env/reward_meanÓ1?ñSÉE$       B+€M	X„ï!i ÙA-*

env/reward_std<%=Gªª"       x=ý	Û7Š$i ÙA.*

objective/klùx AšOic'       »á±F	]8Š$i ÙA.*

objective/kl_coef.ƒR>oä¶g'       »á±F	‚8Š$i ÙA.*

objective/entropy    oH'/       m]P	–8Š$i ÙA.*"
 
ppo/mean_non_score_rewardwõÀ¾ûzf%       ê¼6ó	ª8Š$i ÙA.*

ppo/mean_scoresÓ1?½Œ¥$       B+€M	¼8Š$i ÙA.*

ppo/std_scores<%=ûÛ¸u-       <AŠû	Í8Š$i ÙA.* 

tokens/queries_len_mean  4C)8Kâ,       ô®ÌE	ß8Š$i ÙA.*

tokens/queries_len_std    ø¯/       m]P	ò8Š$i ÙA.*"
 
tokens/responses_len_mean  €?‘JÜ.       ÅËWú	9Š$i ÙA.*!

tokens/responses_len_std    þ&«%       ê¼6ó	9Š$i ÙA.*

ppo/loss/policy   ²0]…$       B+€M	:Š$i ÙA.*

ppo/loss/value88:^Më$       B+€M	;Š$i ÙA.*

ppo/loss/totalÁu8§êÇÛ(       ÿpJ	‹;Š$i ÙA.*

ppo/policy/entropy   5F+×3)       7ÿ_ 	ý;Š$i ÙA.*

ppo/policy/approxkl    ˜–B6)       7ÿ_ 	›@Š$i ÙA.*

ppo/policy/policykl    `þ¾•)       7ÿ_ 	ô@Š$i ÙA.*

ppo/policy/clipfrac    9˜#0       •õÐ_	4AŠ$i ÙA.*#
!
ppo/policy/advantages_mean   2‡¯öü&       sOã 	rAŠ$i ÙA.*

ppo/returns/meanf¯¿^ÕÝ%       ê¼6ó	¨AŠ$i ÙA.*

ppo/returns/var¤›:À=##       °ŸwC	EŠ$i ÙA.*

ppo/val/vpredl…¯¿ê\Ý«#       °ŸwC	NEŠ$i ÙA.*

ppo/val/error88™:Qž.Q&       sOã 	ŠEŠ$i ÙA.*

ppo/val/clipfrac    ’þ	†"       x=ý	ÀEŠ$i ÙA.*

ppo/val/meanOƒ¯¿Ç)éb!       {ìö	¹IŠ$i ÙA.*

ppo/val/var     E¿+       †ÃK	JŠ$i ÙA.*

ppo/val/var_explained€à~<7f7'       »á±F	CJŠ$i ÙA.*

ppo/learning_rateÀÏ¸:(huP+       †ÃK	yJŠ$i ÙA.*

time/ppo/forward_passp–y>—ˆcË.       ÅËWú	¬JŠ$i ÙA.*!

time/ppo/compute_rewards ðÕ:9ay1       ƒƒé	[LŠ$i ÙA.*$
"
time/ppo/compute_advantages Ài;f†;ã,       ô®ÌE	mNŠ$i ÙA.*

time/ppo/optimize_stepŠ¯ ?OÖÉ)       7ÿ_ 	hPŠ$i ÙA.*

time/ppo/calc_statsp_>…L‚$       B+€M	IRŠ$i ÙA.*

time/ppo/total8}Ü?å–%       ê¼6ó	=SŠ$i ÙA.*

env/reward_meanÓ1?R8…$       B+€M	TŠ$i ÙA.*

env/reward_std<%=CNË"       x=ý	´‹!'i ÙA/*

objective/klùx AÜÒÛ'       »á±F	&Œ!'i ÙA/*

objective/kl_coef¬¥R>šf­g'       »á±F	DŒ!'i ÙA/*

objective/entropy    
~>/       m]P	ZŒ!'i ÙA/*"
 
ppo/mean_non_score_rewardÀ7û€·%       ê¼6ó	pŒ!'i ÙA/*

ppo/mean_scoresÓ1?ƒ|*$       B+€M	‚Œ!'i ÙA/*

ppo/std_scores<%=,µhz-       <AŠû	”Œ!'i ÙA/* 

tokens/queries_len_mean  4CTJuç,       ô®ÌE	¦Œ!'i ÙA/*

tokens/queries_len_std    •4àö/       m]P	ºŒ!'i ÙA/*"
 
tokens/responses_len_mean  €?ÐË†M.       ÅËWú	ÌŒ!'i ÙA/*!

tokens/responses_len_std    <­§ %       ê¼6ó	àŒ!'i ÙA/*

ppo/loss/policy   ²’¶	ª$       B+€M	U!'i ÙA/*

ppo/loss/value„š:‰é$       B+€M	è‘!'i ÙA/*

ppo/loss/totalm"t848—(       ÿpJ	”!'i ÙA/*

ppo/policy/entropy   5úÇ*)       7ÿ_ 	]–!'i ÙA/*

ppo/policy/approxkl    ‚ó4…)       7ÿ_ 	?˜!'i ÙA/*

ppo/policy/policykl    ª(áz)       7ÿ_ 	k˜!'i ÙA/*

ppo/policy/clipfrac    ¢ùàü0       •õÐ_	„˜!'i ÙA/*#
!
ppo/policy/advantages_mean   2šB“R&       sOã 	Äš!'i ÙA/*

ppo/returns/mean¤,¯¿jß¾á%       ê¼6ó	ñš!'i ÙA/*

ppo/returns/var¤›:…BM#       °ŸwC		›!'i ÙA/*

ppo/val/vpredMº®¿·ã¤k#       °ŸwC	›!'i ÙA/*

ppo/val/error„š˜:[<?&       sOã 	Ã›!'i ÙA/*

ppo/val/clipfrac    " 5¶"       x=ý	]œ!'i ÙA/*

ppo/val/mean†¿®¿¥6öµ!       {ìö	øœ!'i ÙA/*

ppo/val/var    !M7ò+       †ÃK	–!'i ÙA/*

ppo/val/var_explainedÀÜŸ<p	3¡'       »á±F	1ž!'i ÙA/*

ppo/learning_rateÀÏ¸:¥èX¡+       †ÃK	Ëž!'i ÙA/*

time/ppo/forward_pass`œm>ùU†.       ÅËWú	hŸ!'i ÙA/*!

time/ppo/compute_rewards ˜Ë:‹11       ƒƒé	 !'i ÙA/*$
"
time/ppo/compute_advantages  e;7…ª„,       ô®ÌE	™ !'i ÙA/*

time/ppo/optimize_step>‹›?£¢£)       7ÿ_ 	2¡!'i ÙA/*

time/ppo/calc_stats°ò\>¨Íè$       B+€M	Æ¡!'i ÙA/*

time/ppo/total…Õ?æŒ.C%       ê¼6ó	_¢!'i ÙA/*

env/reward_meanÓ1?{Ð$       B+€M	ô¢!'i ÙA/*

env/reward_std<%=­\ø"       x=ý	sSÁ)i ÙA0*

objective/klùx A|<m°'       »á±F	áSÁ)i ÙA0*

objective/kl_coef/ÈR>KWI	'       »á±F	TÁ)i ÙA0*

objective/entropy    ž'|/       m]P	TÁ)i ÙA0*"
 
ppo/mean_non_score_reward¸ Àï¤þ%       ê¼6ó	+TÁ)i ÙA0*

ppo/mean_scoresÓ1?úòë¼$       B+€M	<TÁ)i ÙA0*

ppo/std_scores<%=zÌ -       <AŠû	NTÁ)i ÙA0* 

tokens/queries_len_mean  4CÔkmU,       ô®ÌE	`TÁ)i ÙA0*

tokens/queries_len_std    “žI•/       m]P	sTÁ)i ÙA0*"
 
tokens/responses_len_mean  €?À%¢.       ÅËWú	…TÁ)i ÙA0*!

tokens/responses_len_std    ›ú4%       ê¼6ó	—TÁ)i ÙA0*

ppo/loss/policy   ²‘~5$       B+€M	ÒUÁ)i ÙA0*

ppo/loss/value^ä:“ôbÞ$       B+€M	ýVÁ)i ÙA0*

ppo/loss/totalýþr8?Ï*”(       ÿpJ	±WÁ)i ÙA0*

ppo/policy/entropy   5Òn)       7ÿ_ 	]XÁ)i ÙA0*

ppo/policy/approxkl    5UT)       7ÿ_ 	üXÁ)i ÙA0*

ppo/policy/policykl    øÞ=)       7ÿ_ 	˜YÁ)i ÙA0*

ppo/policy/clipfrac    wýíè0       •õÐ_	8ZÁ)i ÙA0*#
!
ppo/policy/advantages_mean   2!aiI&       sOã 	ÞZÁ)i ÙA0*

ppo/returns/meanèW¯¿âýO?%       ê¼6ó	ƒ[Á)i ÙA0*

ppo/returns/var¤›:å×Ë#       °ŸwC	#\Á)i ÙA0*

ppo/val/vpredä¬¯¿y#       °ŸwC	»\Á)i ÙA0*

ppo/val/error^ä—:´ù€k&       sOã 	T]Á)i ÙA0*

ppo/val/clipfrac    ½–³"       x=ý	í]Á)i ÙA0*

ppo/val/meanÒd¯¿€4œ‹!       {ìö	‰^Á)i ÙA0*

ppo/val/var    ò+       †ÃK	%_Á)i ÙA0*

ppo/val/var_explained PÅ<‡Âdv'       »á±F	Á_Á)i ÙA0*

ppo/learning_rateÀÏ¸:ƒÓý´+       †ÃK	_`Á)i ÙA0*

time/ppo/forward_pass@Ìx>8‡Yi.       ÅËWú	aÁ)i ÙA0*!

time/ppo/compute_rewards ˆ×:ÞGb1       ƒƒé	 aÁ)i ÙA0*$
"
time/ppo/compute_advantages Xo;ò¾¹þ,       ô®ÌE	9bÁ)i ÙA0*

time/ppo/optimize_stepnW¢?E)œ¯)       7ÿ_ 	ÐbÁ)i ÙA0*

time/ppo/calc_stats@Çk>‘•<ù$       B+€M	ecÁ)i ÙA0*

time/ppo/totalšß?6 ‰%       ê¼6ó	ýcÁ)i ÙA0*

env/reward_meanÓ1?ŠC¬$       B+€M	”dÁ)i ÙA0*

env/reward_std<%=•rš"       x=ý	¸Zg,i ÙA1*

objective/klùx A=£Tf'       »á±F	([g,i ÙA1*

objective/kl_coef¸êR>èkùõ'       »á±F	E[g,i ÙA1*

objective/entropy    R¹ï/       m]P	[[g,i ÙA1*"
 
ppo/mean_non_score_reward^6À~@C‘%       ê¼6ó	m[g,i ÙA1*

ppo/mean_scoresGb3?2®vJ$       B+€M	€[g,i ÙA1*

ppo/std_scores(]D=ÃUwk-       <AŠû	’[g,i ÙA1* 

tokens/queries_len_mean  4Coã–,       ô®ÌE	£[g,i ÙA1*

tokens/queries_len_std    3G+‚/       m]P	¶[g,i ÙA1*"
 
tokens/responses_len_mean  €?0’­s.       ÅËWú	È[g,i ÙA1*!

tokens/responses_len_std    žö3®%       ê¼6ó	Ú[g,i ÙA1*

ppo/loss/policy  €24Ô_$       B+€M	°_g,i ÙA1*

ppo/loss/valueSA“: rÙ$       B+€M	ß_g,i ÙA1*

ppo/loss/total¹£ë8MÏòA(       ÿpJ	ù_g,i ÙA1*

ppo/policy/entropy   5yÀp)       7ÿ_ 	Tdg,i ÙA1*

ppo/policy/approxkl    ˆüM)       7ÿ_ 	dg,i ÙA1*

ppo/policy/policykl    w[Í×)       7ÿ_ 	šdg,i ÙA1*

ppo/policy/clipfrac    Îr!–0       •õÐ_	°dg,i ÙA1*#
!
ppo/policy/advantages_mean  €²ûc)¤&       sOã 	Ådg,i ÙA1*

ppo/returns/mean˜»®¿úO{f%       ê¼6ó	Ødg,i ÙA1*

ppo/returns/varÂž;j²´Á#       °ŸwC	dgg,i ÙA1*

ppo/val/vpredYš®¿Y@#       °ŸwC	‘gg,i ÙA1*

ppo/val/errorSA;A®çÄ&       sOã 	jg,i ÙA1*

ppo/val/clipfrac    «Dû"       x=ý	Ijg,i ÙA1*

ppo/val/mean¿j¯¿Màß›!       {ìö	kg,i ÙA1*

ppo/val/var    Cê +       †ÃK	®kg,i ÙA1*

ppo/val/var_explained ·<kŒÍ}'       »á±F	Olg,i ÙA1*

ppo/learning_rateÀÏ¸:B¨®i+       †ÃK	îlg,i ÙA1*

time/ppo/forward_pass Gt>FóNj.       ÅËWú	’mg,i ÙA1*!

time/ppo/compute_rewards °Õ:Ž‘Ð1       ƒƒé	-ng,i ÙA1*$
"
time/ppo/compute_advantages n;Îü,       ô®ÌE	Æng,i ÙA1*

time/ppo/optimize_stepP ¢?“ Lc)       7ÿ_ 	_og,i ÙA1*

time/ppo/calc_statsàób>i—Þ$       B+€M	÷og,i ÙA1*

time/ppo/total†6Þ?™(D¦%       ê¼6ó	’pg,i ÙA1*

env/reward_meanGb3?7ä¥Ù$       B+€M	'qg,i ÙA1*

env/reward_std(]D=fsì"       x=ý	õ‹/i ÙA2*

objective/klùx Aü«W'       »á±F	–Œ/i ÙA2*

objective/kl_coefFS>•´bõ'       »á±F	·Œ/i ÙA2*

objective/entropy    êýÎu/       m]P	ÎŒ/i ÙA2*"
 
ppo/mean_non_score_rewardLÀ¾%       ê¼6ó	ãŒ/i ÙA2*

ppo/mean_scoresÓ1?	Fî\$       B+€M	öŒ/i ÙA2*

ppo/std_scores<%=òEÆ©-       <AŠû	/i ÙA2* 

tokens/queries_len_mean  4CçuI,       ô®ÌE	/i ÙA2*

tokens/queries_len_std    õô_ª/       m]P	+/i ÙA2*"
 
tokens/responses_len_mean  €?«e©ä.       ÅËWú	;/i ÙA2*!

tokens/responses_len_std    c$~o%       ê¼6ó	L/i ÙA2*

ppo/loss/policy   ²JØi$       B+€M	/i ÙA2*

ppo/loss/valueù” :Klò'$       B+€M	t’/i ÙA2*

ppo/loss/total.s€8ÇâÐe(       ÿpJ	¢’/i ÙA2*

ppo/policy/entropy   5á0¯)       7ÿ_ 	‚”/i ÙA2*

ppo/policy/approxkl    ö†)       7ÿ_ 	¯”/i ÙA2*

ppo/policy/policykl    ídº“)       7ÿ_ 	Æ”/i ÙA2*

ppo/policy/clipfrac    D”²G0       •õÐ_	—/i ÙA2*#
!
ppo/policy/advantages_mean   2iIÒ&       sOã 	:—/i ÙA2*

ppo/returns/mean†®¯¿¹Gÿv%       ê¼6ó	R—/i ÙA2*

ppo/returns/var¤›:T™é#       °ŸwC	e—/i ÙA2*

ppo/val/vpredŸ‡¯¿•# ¾#       °ŸwC	5™/i ÙA2*

ppo/val/errorù” :nºÈ&       sOã 	a™/i ÙA2*

ppo/val/clipfrac    Bi2"       x=ý	w™/i ÙA2*

ppo/val/mean»®¿iÒ!       {ìö	š/i ÙA2*

ppo/val/var    t*+       †ÃK	¥š/i ÙA2*

ppo/val/var_explained 	½TÅwŒ'       »á±F	C›/i ÙA2*

ppo/learning_rateÀÏ¸:özu‚+       †ÃK	Û›/i ÙA2*

time/ppo/forward_pass@i>RôÅ.       ÅËWú	zœ/i ÙA2*!

time/ppo/compute_rewards ØÌ:SŠüM1       ƒƒé	/i ÙA2*$
"
time/ppo/compute_advantages 8j;ÑÓ´½,       ô®ÌE	¦/i ÙA2*

time/ppo/optimize_step@+? å¢y)       7ÿ_ 	9ž/i ÙA2*

time/ppo/calc_statsl>G0l$       B+€M	Ìž/i ÙA2*

time/ppo/totalðyØ?¥,ÿM%       ê¼6ó	Ÿ/i ÙA2*

env/reward_meanÓ1?órÎz$       B+€M	 /i ÙA2*

env/reward_std<%=Ä“®"       x=ý	¤ß«1i ÙA3*

objective/klùx Ap}'       »á±F	à«1i ÙA3*

objective/kl_coefÛ/S>?ž'       »á±F	7à«1i ÙA3*

objective/entropy    ¹(¨¾/       m]P	Mà«1i ÙA3*"
 
ppo/mean_non_score_rewardµaÀ58]%       ê¼6ó	`à«1i ÙA3*

ppo/mean_scoresÓ1?¢På‚$       B+€M	uà«1i ÙA3*

ppo/std_scores<%=œv›·-       <AŠû	ˆà«1i ÙA3* 

tokens/queries_len_mean  4CÇ¤ì±,       ô®ÌE	™à«1i ÙA3*

tokens/queries_len_std    ·Gs/       m]P	«à«1i ÙA3*"
 
tokens/responses_len_mean  €?hÆÖ‰.       ÅËWú	¾à«1i ÙA3*!

tokens/responses_len_std    ÕN÷ú%       ê¼6ó	Ïà«1i ÙA3*

ppo/loss/policy   ²ÜzaS$       B+€M	è«1i ÙA3*

ppo/loss/value&:JËúâ$       B+€M	3è«1i ÙA3*

ppo/loss/total<˜y8à­÷P(       ÿpJ	Jè«1i ÙA3*

ppo/policy/entropy   5 &ÁË)       7ÿ_ 	_è«1i ÙA3*

ppo/policy/approxkl    Iç`é)       7ÿ_ 	rè«1i ÙA3*

ppo/policy/policykl     xqo)       7ÿ_ 	„è«1i ÙA3*

ppo/policy/clipfrac    +X‹Ý0       •õÐ_	™è«1i ÙA3*#
!
ppo/policy/advantages_mean   2ò‘
C&       sOã 	¬è«1i ÙA3*

ppo/returns/meanâÙ¯¿È·[%       ê¼6ó	¿è«1i ÙA3*

ppo/returns/var¤›:Kq9#       °ŸwC	Ðè«1i ÙA3*

ppo/val/vpredf"°¿fu¦†#       °ŸwC	oé«1i ÙA3*

ppo/val/error&œ:86s@&       sOã 	°ë«1i ÙA3*

ppo/val/clipfrac    ë‡—Ö"       x=ý	Þë«1i ÙA3*

ppo/val/mean3±¿Q>ò˜!       {ìö	ùë«1i ÙA3*

ppo/val/var    +H*s+       †ÃK	ì«1i ÙA3*

ppo/val/var_explained »ËôÕ'       »á±F	ºì«1i ÙA3*

ppo/learning_rateÀÏ¸:¾®{½+       †ÃK	Zí«1i ÙA3*

time/ppo/forward_pass@z>Ú\^â.       ÅËWú	î«1i ÙA3*!

time/ppo/compute_rewards @Ù::{I¨1       ƒƒé	¡î«1i ÙA3*$
"
time/ppo/compute_advantages hm;€¾¡,       ô®ÌE	7ï«1i ÙA3*

time/ppo/optimize_step`/¥?òPë)       7ÿ_ 	Ëï«1i ÙA3*

time/ppo/calc_stats@µb>‚ÀËw$       B+€M	cð«1i ÙA3*

time/ppo/total}á?¡_~%       ê¼6ó	&ñ«1i ÙA3*

env/reward_meanÓ1?;Oæ&$       B+€M	Øñ«1i ÙA3*

env/reward_std<%=<xe´"       x=ý	M¨H4i ÙA4*

objective/klùx AÁ12%'       »á±F	½¨H4i ÙA4*

objective/kl_coeftRS>·¥ð'       »á±F	Ù¨H4i ÙA4*

objective/entropy    ìÕ%‘/       m]P	ï¨H4i ÙA4*"
 
ppo/mean_non_score_rewardewÀQUS%       ê¼6ó	©H4i ÙA4*

ppo/mean_scoresÓ1?¯w@$       B+€M	©H4i ÙA4*

ppo/std_scores<%=OÍ°-       <AŠû	#©H4i ÙA4* 

tokens/queries_len_mean  4C<¸ù~,       ô®ÌE	7©H4i ÙA4*

tokens/queries_len_std    Èí…/       m]P	I©H4i ÙA4*"
 
tokens/responses_len_mean  €?¡á'^.       ÅËWú	Z©H4i ÙA4*!

tokens/responses_len_std    ûkõ%       ê¼6ó	k©H4i ÙA4*

ppo/loss/policy   ² f$$       B+€M	9¯H4i ÙA4*

ppo/loss/valueL§:ýSW¯$       B+€M	g¯H4i ÙA4*

ppo/loss/total¬y8Îwéc(       ÿpJ	~¯H4i ÙA4*

ppo/policy/entropy   5w­ø0)       7ÿ_ 	”¯H4i ÙA4*

ppo/policy/approxkl    fëL)       7ÿ_ 	§¯H4i ÙA4*

ppo/policy/policykl    äŒK)       7ÿ_ 	º¯H4i ÙA4*

ppo/policy/clipfrac    ¬Æìê0       •õÐ_	Ï¯H4i ÙA4*#
!
ppo/policy/advantages_mean   2$ì1»&       sOã 	ç¯H4i ÙA4*

ppo/returns/meanB°¿—•%       ê¼6ó	û¯H4i ÙA4*

ppo/returns/var¤›:çuG#       °ŸwC	³H4i ÙA4*

ppo/val/vpredý§¯¿Ã®#       °ŸwC	8³H4i ÙA4*

ppo/val/errorL§›:ôÛú™&       sOã 	N³H4i ÙA4*

ppo/val/clipfrac    Ãž "       x=ý	b³H4i ÙA4*

ppo/val/meanØ®¿“Ù›!       {ìö	t³H4i ÙA4*

ppo/val/var    Up»ž+       †ÃK	…³H4i ÙA4*

ppo/val/var_explained Àª¸¥h°'       »á±F	 ´H4i ÙA4*

ppo/learning_rateÀÏ¸:^g+       †ÃK	»´H4i ÙA4*

time/ppo/forward_pass Îo>ñ*A.       ÅËWú	`µH4i ÙA4*!

time/ppo/compute_rewards ØÖ:ÁØ?1       ƒƒé	øµH4i ÙA4*$
"
time/ppo/compute_advantages n;¯#Ö,       ô®ÌE	¶H4i ÙA4*

time/ppo/optimize_step"ÌŸ?G¯Ms)       7ÿ_ 	&·H4i ÙA4*

time/ppo/calc_stats.]>\’¤é$       B+€M	»·H4i ÙA4*

time/ppo/totalàÚ?˜»ù%       ê¼6ó	R¸H4i ÙA4*

env/reward_meanÓ1?ZDMµ$       B+€M	å¸H4i ÙA4*

env/reward_std<%=öá5"       x=ý	F“ë6i ÙA5*

objective/klùx A©Ð,Y'       »á±F	¶“ë6i ÙA5*

objective/kl_coefuS>„½'       »á±F	Ó“ë6i ÙA5*

objective/entropy    ïŠùô/       m]P	ê“ë6i ÙA5*"
 
ppo/mean_non_score_rewardÀ7”Å%       ê¼6ó	þ“ë6i ÙA5*

ppo/mean_scoresÓ1?‹OM$       B+€M	”ë6i ÙA5*

ppo/std_scores<%=!“è-       <AŠû	'”ë6i ÙA5* 

tokens/queries_len_mean  4CÕA
’,       ô®ÌE	:”ë6i ÙA5*

tokens/queries_len_std    Ô´hd/       m]P	O”ë6i ÙA5*"
 
tokens/responses_len_mean  €?x|BÖ.       ÅËWú	a”ë6i ÙA5*!

tokens/responses_len_std    ÿ”º%       ê¼6ó	u”ë6i ÙA5*

ppo/loss/policy   ²ùÖ$       B+€M	˜ë6i ÙA5*

ppo/loss/valueû&:¿ðË$       B+€M	=˜ë6i ÙA5*

ppo/loss/total,u8Û¸Þð(       ÿpJ	Y˜ë6i ÙA5*

ppo/policy/entropy   5|§ßw)       7ÿ_ 	n˜ë6i ÙA5*

ppo/policy/approxkl    òt_Î)       7ÿ_ 	‚˜ë6i ÙA5*

ppo/policy/policykl    ¦`Ÿ)       7ÿ_ 	”˜ë6i ÙA5*

ppo/policy/clipfrac    uT0       •õÐ_	¨˜ë6i ÙA5*#
!
ppo/policy/advantages_mean   2?/ÔY&       sOã 	¼˜ë6i ÙA5*

ppo/returns/meanª0°¿xÈ¯%       ê¼6ó	Í˜ë6i ÙA5*

ppo/returns/var¤›:œ}ïè#       °ŸwC	ôšë6i ÙA5*

ppo/val/vpred°¿m…#       °ŸwC	$›ë6i ÙA5*

ppo/val/errorû&™:&qcA&       sOã 	>›ë6i ÙA5*

ppo/val/clipfrac    kÆ˜"       x=ý	Q›ë6i ÙA5*

ppo/val/meanzö°¿Ì.Ø!       {ìö	c›ë6i ÙA5*

ppo/val/var    ÑAwj+       †ÃK	u›ë6i ÙA5*

ppo/val/var_explained û‚<QŸâÉ'       »á±F	ˆ›ë6i ÙA5*

ppo/learning_rateÀÏ¸:=fw2+       †ÃK	š›ë6i ÙA5*

time/ppo/forward_passpóu>‹`vJ.       ÅËWú	- ë6i ÙA5*!

time/ppo/compute_rewards ¨$;t]¡1       ƒƒé	\ ë6i ÙA5*$
"
time/ppo/compute_advantages k;ØÌ¯,       ô®ÌE	u ë6i ÙA5*

time/ppo/optimize_steph. ?óã)       7ÿ_ 	‰ ë6i ÙA5*

time/ppo/calc_stats°»^>¹Š!$       B+€M	› ë6i ÙA5*

time/ppo/total¬ŽÛ?.7FŽ%       ê¼6ó	J¡ë6i ÙA5*

env/reward_meanÓ1?€Èñ$       B+€M	ç¡ë6i ÙA5*

env/reward_std<%=/WÌ"       x=ý	Ôfý;i ÙA6*

objective/klDABqX'       »á±F	?gý;i ÙA6*

objective/kl_coef¹—S>Ž·'       »á±F	]gý;i ÙA6*

objective/entropy    ïcC!/       m]P	sgý;i ÙA6*"
 
ppo/mean_non_score_rewardõyç¿µg»p%       ê¼6ó	†gý;i ÙA6*

ppo/mean_scores®ž>µê¼$       B+€M	˜gý;i ÙA6*

ppo/std_scores¤Êl<%’¤-       <AŠû	ªgý;i ÙA6* 

tokens/queries_len_mean  äBN´Áº,       ô®ÌE	Ãgý;i ÙA6*

tokens/queries_len_std    !;]a/       m]P	)hý;i ÙA6*"
 
tokens/responses_len_mean  €?†ëg´.       ÅËWú	;hý;i ÙA6*!

tokens/responses_len_std    ˆ¤c„%       ê¼6ó	Lhý;i ÙA6*

ppo/loss/policy  Š4ÚK Ù$       B+€M	Ñký;i ÙA6*

ppo/loss/valueÂ+=;q.Ö_$       B+€M	þký;i ÙA6*

ppo/loss/total¶x—9ã³ëç(       ÿpJ	½lý;i ÙA6*

ppo/policy/entropy  055Èv)       7ÿ_ 	emý;i ÙA6*

ppo/policy/approxkl    %´^)       7ÿ_ 	ÿmý;i ÙA6*

ppo/policy/policykl    ¸Y	)       7ÿ_ 	—ný;i ÙA6*

ppo/policy/clipfrac    õˆ Â0       •õÐ_	Soý;i ÙA6*#
!
ppo/policy/advantages_mean  Š´"’þ&       sOã 	`qý;i ÙA6*

ppo/returns/meanŠò¿¿Ät#Ð%       ê¼6ó	rý;i ÙA6*

ppo/returns/var&[9¶Þ³ð#       °ŸwC	Çrý;i ÙA6*

ppo/val/vpred«r¾¿…ß#       °ŸwC	csý;i ÙA6*

ppo/val/errorÂ+½;mEØÝ&       sOã 	üsý;i ÙA6*

ppo/val/clipfrac    k~©"       x=ý	tý;i ÙA6*

ppo/val/mean.
²¿Gq€û!       {ìö	&uý;i ÙA6*

ppo/val/var    ÎK¶+       †ÃK	Áuý;i ÙA6*

ppo/val/var_explainediÕÁé&M'       »á±F	Yvý;i ÙA6*

ppo/learning_rateÀÏ¸:ox¼++       †ÃK	ñvý;i ÙA6*

time/ppo/forward_pass@/>Ÿ¼Ÿ.       ÅËWú	Žwý;i ÙA6*!

time/ppo/compute_rewards Å:6ße1       ƒƒé	$xý;i ÙA6*$
"
time/ppo/compute_advantages |;ý\‡•,       ô®ÌE	¹xý;i ÙA6*

time/ppo/optimize_stepÈ/J?T½T¡)       7ÿ_ 	Lyý;i ÙA6*

time/ppo/calc_stats°S
>d]Ô÷$       B+€M	Þyý;i ÙA6*

time/ppo/totalÅ‰?Stz~%       ê¼6ó	wzý;i ÙA6*

env/reward_mean®ž>ïEŽÇ$       B+€M	
{ý;i ÙA6*

env/reward_std¤Êl<Æbiæ"       x=ý	 é>i ÙA7*

objective/klDAÉG•;'       »á±F	ø é>i ÙA7*

objective/kl_coefdºS>Ìgi'       »á±F	é>i ÙA7*

objective/entropy    7eí/       m]P	.é>i ÙA7*"
 
ppo/mean_non_score_rewardâŸç¿b“û‰%       ê¼6ó	Cé>i ÙA7*

ppo/mean_scores®ž>Gò$       B+€M	Vé>i ÙA7*

ppo/std_scores¤Êl<€izÀ-       <AŠû	hé>i ÙA7* 

tokens/queries_len_mean  äB¬ÖrS,       ô®ÌE	{é>i ÙA7*

tokens/queries_len_std    I—_‹/       m]P	Žé>i ÙA7*"
 
tokens/responses_len_mean  €?`Š)º.       ÅËWú	 é>i ÙA7*!

tokens/responses_len_std    ¦5vG%       ê¼6ó	²é>i ÙA7*

ppo/loss/policy  @²”FØÞ$       B+€M	é>i ÙA7*

ppo/loss/valuefï:&Ô$       B+€M	3é>i ÙA7*

ppo/loss/total6?9´À*u(       ÿpJ	cé>i ÙA7*

ppo/policy/entropy  @5pÖh¤)       7ÿ_ 	{é>i ÙA7*

ppo/policy/approxkl    eNtf)       7ÿ_ 	é>i ÙA7*

ppo/policy/policykl    Ì¥Å\)       7ÿ_ 	é>i ÙA7*

ppo/policy/clipfrac    ÂY–0       •õÐ_	¾é>i ÙA7*#
!
ppo/policy/advantages_mean  @2¶Æ®’&       sOã 	×é>i ÙA7*

ppo/returns/meanvÀ¿ïÈA %       ê¼6ó	ìé>i ÙA7*

ppo/returns/varN[9Ô±#       °ŸwC	ÿé>i ÙA7*

ppo/val/vpredÑÅÁ¿÷`^#       °ŸwC	¶é>i ÙA7*

ppo/val/errorfo;ô	\‘&       sOã 	Xé>i ÙA7*

ppo/val/clipfrac    ¹>"       x=ý	é>i ÙA7*

ppo/val/mean~;Ë¿*Dì!       {ìö	Ãé>i ÙA7*

ppo/val/var    "2$~+       †ÃK	aé>i ÙA7*

ppo/val/var_explainedÐ°ƒÁÚ\ '       »á±F	üé>i ÙA7*

ppo/learning_rateÀÏ¸:ÜñiÔ+       †ÃK	šé>i ÙA7*

time/ppo/forward_pass°°>­–ï9.       ÅËWú	=é>i ÙA7*!

time/ppo/compute_rewards ä:àÜ²ä1       ƒƒé	Ùé>i ÙA7*$
"
time/ppo/compute_advantages );bÒ˜W,       ô®ÌE	sé>i ÙA7*

time/ppo/optimize_step\S? hö)       7ÿ_ 		é>i ÙA7*

time/ppo/calc_stats [>z•Ü¸$       B+€M	¡é>i ÙA7*

time/ppo/totalÂ_?py|J%       ê¼6ó	<é>i ÙA7*

env/reward_mean®ž>Ï™$       B+€M	Óé>i ÙA7*

env/reward_std¤Êl<Âá¯"       x=ý	sGÕAi ÙA8*

objective/klDAžÙ'       »á±F	áGÕAi ÙA8*

objective/kl_coefÝS>Í™à'       »á±F	üGÕAi ÙA8*

objective/entropy    ^jT/       m]P	HÕAi ÙA8*"
 
ppo/mean_non_score_rewardÕÅç¿ãç|ƒ%       ê¼6ó	 HÕAi ÙA8*

ppo/mean_scores®ž>”h£Å$       B+€M	1HÕAi ÙA8*

ppo/std_scores¤Êl<q‰ÎL-       <AŠû	BHÕAi ÙA8* 

tokens/queries_len_mean  äBr¡oá,       ô®ÌE	RHÕAi ÙA8*

tokens/queries_len_std    
M/       m]P	cHÕAi ÙA8*"
 
tokens/responses_len_mean  €?.±Â÷.       ÅËWú	tHÕAi ÙA8*!

tokens/responses_len_std    òcoH%       ê¼6ó	…HÕAi ÙA8*

ppo/loss/policy  Š4N5t$       B+€M	/JÕAi ÙA8*

ppo/loss/value\È¥:€<^$       B+€M	LKÕAi ÙA8*

ppo/loss/totalJå9ÃóQ+(       ÿpJ	LÕAi ÙA8*

ppo/policy/entropy  @5ÎÍŸ)       7ÿ_ 	ÇLÕAi ÙA8*

ppo/policy/approxkl    ¶ çI)       7ÿ_ 	eMÕAi ÙA8*

ppo/policy/policykl    ß¾Ñ¾)       7ÿ_ 	þMÕAi ÙA8*

ppo/policy/clipfrac    hîf~0       •õÐ_	ŸNÕAi ÙA8*#
!
ppo/policy/advantages_mean  Š´±{ì&       sOã 	DOÕAi ÙA8*

ppo/returns/meanj>À¿Å¬ö.%       ê¼6ó	éOÕAi ÙA8*

ppo/returns/var%[9õr´#       °ŸwC	†PÕAi ÙA8*

ppo/val/vpred¦J¾¿ŠšžE#       °ŸwC	 QÕAi ÙA8*

ppo/val/error\È%;¾3p“&       sOã 	ºQÕAi ÙA8*

ppo/val/clipfrac    `ÆÂÃ"       x=ý	SRÕAi ÙA8*

ppo/val/meanÓ÷¶¿„!       {ìö	îRÕAi ÙA8*

ppo/val/var    ­u¼y+       †ÃK	SÕAi ÙA8*

ppo/val/var_explained6Å1ÁPÿÞ'       »á±F	éVÕAi ÙA8*

ppo/learning_rateÀÏ¸:fëXX+       †ÃK	WÕAi ÙA8*

time/ppo/forward_pass€<>ðD‚ç.       ÅËWú	.WÕAi ÙA8*!

time/ppo/compute_rewards €Æ:¯H¥x1       ƒƒé	BWÕAi ÙA8*$
"
time/ppo/compute_advantages L;-nØ,       ô®ÌE	TWÕAi ÙA8*

time/ppo/optimize_step´EQ?bv&Þ)       7ÿ_ 	eWÕAi ÙA8*

time/ppo/calc_stats±>p é$       B+€M	xWÕAi ÙA8*

time/ppo/totalh^Ž?Ëñ‹Â%       ê¼6ó	‰WÕAi ÙA8*

env/reward_mean®ž>P†­ø$       B+€M	ðWÕAi ÙA8*

env/reward_std¤Êl<Q>i"       x=ý	1NÇDi ÙA9*

objective/klDA³ÊAâ'       »á±F	¨NÇDi ÙA9*

objective/kl_coefËÿS>ˆØS"'       »á±F	ÌNÇDi ÙA9*

objective/entropy    Cèz\/       m]P	åNÇDi ÙA9*"
 
ppo/mean_non_score_rewardÏëç¿püü%       ê¼6ó	øNÇDi ÙA9*

ppo/mean_scores®ž>Ó¼·Ê$       B+€M	OÇDi ÙA9*

ppo/std_scores¤Êl<d.-       <AŠû	OÇDi ÙA9* 

tokens/queries_len_mean  äBâ°ô,       ô®ÌE	.OÇDi ÙA9*

tokens/queries_len_std    ÖSš/       m]P	@OÇDi ÙA9*"
 
tokens/responses_len_mean  €?OÓ .       ÅËWú	QOÇDi ÙA9*!

tokens/responses_len_std    dþN…%       ê¼6ó	dOÇDi ÙA9*

ppo/loss/policy  €1‚XG~$       B+€M	PPÇDi ÙA9*

ppo/loss/value@ö]:”p$       B+€M	LQÇDi ÙA9*

ppo/loss/totalÍ“±8?†½ï(       ÿpJ	ÐQÇDi ÙA9*

ppo/policy/entropy  X5‚ò„«)       7ÿ_ 	™cÇDi ÙA9*

ppo/policy/approxkl    é«å)       7ÿ_ 	›dÇDi ÙA9*

ppo/policy/policykl    ók7)       7ÿ_ 	eÇDi ÙA9*

ppo/policy/clipfrac    ™0       •õÐ_	keÇDi ÙA9*#
!
ppo/policy/advantages_mean  €±Òý3 &       sOã 	ÒeÇDi ÙA9*

ppo/returns/meanddÀ¿~Dç%       ê¼6ó	4fÇDi ÙA9*

ppo/returns/var&[9…­y#       °ŸwC	•fÇDi ÙA9*

ppo/val/vpred¨ˆÂ¿~Ê¬å#       °ŸwC	ófÇDi ÙA9*

ppo/val/error@öÝ:˜F¤&       sOã 	MgÇDi ÙA9*

ppo/val/clipfrac    aoZÕ"       x=ý	¨gÇDi ÙA9*

ppo/val/mean}ÔÇ¿Í  !       {ìö	hÇDi ÙA9*

ppo/val/var    øY+       †ÃK	bhÇDi ÙA9*

ppo/val/var_explainedoãÀHûÔ'       »á±F	ÁhÇDi ÙA9*

ppo/learning_rateÀÏ¸:Þ°öÈ+       †ÃK	=iÇDi ÙA9*

time/ppo/forward_pass,>Ü›\.       ÅËWú	œiÇDi ÙA9*!

time/ppo/compute_rewards Ô!;(…TU1       ƒƒé	öiÇDi ÙA9*$
"
time/ppo/compute_advantages T;§6,,       ô®ÌE	OjÇDi ÙA9*

time/ppo/optimize_stepX X?kôØ)       7ÿ_ 	§jÇDi ÙA9*

time/ppo/calc_statsà+>ÇÁÿ’$       B+€M	 kÇDi ÙA9*

time/ppo/totalðJ’?)¡ÑY%       ê¼6ó	YkÇDi ÙA9*

env/reward_mean®ž>úË2Ÿ$       B+€M	±kÇDi ÙA9*

env/reward_std¤Êl<å†)”"       x=ý	ƒÊ°Gi ÙA:*

objective/klDAQX¼"'       »á±F	èÊ°Gi ÙA:*

objective/kl_coef†"T>'¹nn'       »á±F	Ë°Gi ÙA:*

objective/entropy    >t–/       m]P	Ë°Gi ÙA:*"
 
ppo/mean_non_score_rewardÍè¿‘ø½%       ê¼6ó	(Ë°Gi ÙA:*

ppo/mean_scores®ž>+/êj$       B+€M	9Ë°Gi ÙA:*

ppo/std_scores¤Êl<w1ºb-       <AŠû	LË°Gi ÙA:* 

tokens/queries_len_mean  äB&£y,       ô®ÌE	]Ë°Gi ÙA:*

tokens/queries_len_std    Ø¼d^/       m]P	pË°Gi ÙA:*"
 
tokens/responses_len_mean  €?©*ù¢.       ÅËWú	€Ë°Gi ÙA:*!

tokens/responses_len_std    wFŸ%       ê¼6ó	“Ë°Gi ÙA:*

ppo/loss/policy  €1•1ws$       B+€M	Î°Gi ÙA:*

ppo/loss/valuez#:½mË$       B+€M	¸Ð°Gi ÙA:*

ppo/loss/totalsÊ‚8>¼/g(       ÿpJ	ãÐ°Gi ÙA:*

ppo/policy/entropy  `5tŸ‰Ô)       7ÿ_ 	pÑ°Gi ÙA:*

ppo/policy/approxkl    ±Ëäé)       7ÿ_ 	ÙÑ°Gi ÙA:*

ppo/policy/policykl    O.Õõ)       7ÿ_ 	¼Ó°Gi ÙA:*

ppo/policy/clipfrac    $ð³E0       •õÐ_	èÓ°Gi ÙA:*#
!
ppo/policy/advantages_mean  €±;Ÿî3&       sOã 	Ô°Gi ÙA:*

ppo/returns/meanbŠÀ¿Ú²-õ%       ê¼6ó	Ô°Gi ÙA:*

ppo/returns/var&[9ë¦#       °ŸwC	*Ô°Gi ÙA:*

ppo/val/vpredžU¾¿&®ù#       °ŸwC	=Ô°Gi ÙA:*

ppo/val/errorz£:SB&       sOã 	NÔ°Gi ÙA:*

ppo/val/clipfrac    qTÞ×"       x=ý	^Ô°Gi ÙA:*

ppo/val/meansgº¿Mþ›!       {ìö	ÂÔ°Gi ÙA:*

ppo/val/var    0b:Ÿ+       †ÃK	Õ°Gi ÙA:*

ppo/val/var_explainedÖŸÀaéÄé'       »á±F	lÕ°Gi ÙA:*

ppo/learning_rateÀÏ¸:R—m¿+       †ÃK	¿Õ°Gi ÙA:*

time/ppo/forward_pass>ay¦Ó.       ÅËWú	Ö°Gi ÙA:*!

time/ppo/compute_rewards ðÑ:§õó1       ƒƒé	oÖ°Gi ÙA:*$
"
time/ppo/compute_advantages p;È™=,       ô®ÌE	ÂÖ°Gi ÙA:*

time/ppo/optimize_step,MG?f@Û)       7ÿ_ 	×°Gi ÙA:*

time/ppo/calc_statsPô	>þ$B¤$       B+€M	a×°Gi ÙA:*

time/ppo/totalNˆ?„å)7%       ê¼6ó	µ×°Gi ÙA:*

env/reward_mean®ž>?A/y$       B+€M	Ø°Gi ÙA:*

env/reward_std¤Êl<ó–ÎÇ"       x=ý	¼’¡Ji ÙA;*

objective/klDA³d¤'       »á±F	(“¡Ji ÙA;*

objective/kl_coefHET>ëVÍj'       »á±F	C“¡Ji ÙA;*

objective/entropy    ÿm©u/       m]P	W“¡Ji ÙA;*"
 
ppo/mean_non_score_rewardÓ7è¿ì5ôN%       ê¼6ó	j“¡Ji ÙA;*

ppo/mean_scores®ž>aÚ÷.$       B+€M	{“¡Ji ÙA;*

ppo/std_scores¤Êl<¢î]Œ-       <AŠû	‘“¡Ji ÙA;* 

tokens/queries_len_mean  äBãQ~Ç,       ô®ÌE	¥“¡Ji ÙA;*

tokens/queries_len_std    #T"/       m]P	·“¡Ji ÙA;*"
 
tokens/responses_len_mean  €?PÐ½.       ÅËWú	È“¡Ji ÙA;*!

tokens/responses_len_std    ¥ºZm%       ê¼6ó	Ù“¡Ji ÙA;*

ppo/loss/policy    º“ÕD$       B+€M	ä•¡Ji ÙA;*

ppo/loss/valuexßâ9º›ü¼$       B+€M	$˜¡Ji ÙA;*

ppo/loss/total”58ÓŒ%÷(       ÿpJ	T˜¡Ji ÙA;*

ppo/policy/entropy  `5(Ð«t)       7ÿ_ 	Xš¡Ji ÙA;*

ppo/policy/approxkl    Ÿƒõ
)       7ÿ_ 	‡š¡Ji ÙA;*

ppo/policy/policykl    è×v)       7ÿ_ 	†œ¡Ji ÙA;*

ppo/policy/clipfrac    Ü®
Q0       •õÐ_	¶œ¡Ji ÙA;*#
!
ppo/policy/advantages_mean    ³ýS&       sOã 	ïž¡Ji ÙA;*

ppo/returns/meanh°À¿‹·­%       ê¼6ó	Ÿ¡Ji ÙA;*

ppo/returns/var&[9ÁÂC÷#       °ŸwC	2Ÿ¡Ji ÙA;*

ppo/val/vpred©ÍÂ¿áÙÂ#       °ŸwC	ŽŸ¡Ji ÙA;*

ppo/val/errorxßb:?Õý&       sOã 	äŸ¡Ji ÙA;*

ppo/val/clipfrac    BÞG"       x=ý	q ¡Ji ÙA;*

ppo/val/meanÞcÅ¿–BÐ!       {ìö	ƒ ¡Ji ÙA;*

ppo/val/var    4Ó@+       †ÃK	Ý ¡Ji ÙA;*

ppo/val/var_explainedŠ,IÀm£7¨'       »á±F	3¡¡Ji ÙA;*

ppo/learning_rateÀÏ¸:Tã8å+       †ÃK	Š¡¡Ji ÙA;*

time/ppo/forward_pass¾>¦.£.       ÅËWú	à¡¡Ji ÙA;*!

time/ppo/compute_rewards ÈÅ:êÚ€¿1       ƒƒé	8¢¡Ji ÙA;*$
"
time/ppo/compute_advantages ä;6ÃM,       ô®ÌE	 ¢¡Ji ÙA;*

time/ppo/optimize_stepP”G?Ö ˜ã)       7ÿ_ 	ñ¢¡Ji ÙA;*

time/ppo/calc_stats0€
>æ¶±A$       B+€M	A£¡Ji ÙA;*

time/ppo/total2nˆ?ß—ËC%       ê¼6ó	”£¡Ji ÙA;*

env/reward_mean®ž>(9ä1$       B+€M	ë£¡Ji ÙA;*

env/reward_std¤Êl<™îŸt"       x=ý	‡¸‚Mi ÙA<*

objective/klDA‘
&'       »á±F	ð¸‚Mi ÙA<*

objective/kl_coefhT>·²z'       »á±F	¹‚Mi ÙA<*

objective/entropy    Ò-Â‰/       m]P	#¹‚Mi ÙA<*"
 
ppo/mean_non_score_rewardß]è¿!n|%       ê¼6ó	5¹‚Mi ÙA<*

ppo/mean_scores®ž>ž'Øì$       B+€M	F¹‚Mi ÙA<*

ppo/std_scores¤Êl<Rëô-       <AŠû	X¹‚Mi ÙA<* 

tokens/queries_len_mean  äBd5è,       ô®ÌE	k¹‚Mi ÙA<*

tokens/queries_len_std    «Yf./       m]P	|¹‚Mi ÙA<*"
 
tokens/responses_len_mean  €?±1›.       ÅËWú	¹‚Mi ÙA<*!

tokens/responses_len_std    iÕÚ‘%       ê¼6ó	 ¹‚Mi ÙA<*

ppo/loss/policy  €1h~;W$       B+€M	Ò»‚Mi ÙA<*

ppo/loss/valueL¸¯9¸*¨$       B+€M	ì½‚Mi ÙA<*

ppo/loss/totalp—8Ð7—å(       ÿpJ	¾‚Mi ÙA<*

ppo/policy/entropy  `5Ø¯åB)       7ÿ_ 	2¾‚Mi ÙA<*

ppo/policy/approxkl    jvPl)       7ÿ_ 	H¾‚Mi ÙA<*

ppo/policy/policykl    OOL)       7ÿ_ 	[¾‚Mi ÙA<*

ppo/policy/clipfrac    ¥ögô0       •õÐ_	q¾‚Mi ÙA<*#
!
ppo/policy/advantages_mean  €±³)´Ï&       sOã 	‡¾‚Mi ÙA<*

ppo/returns/meantÖÀ¿9@€­%       ê¼6ó	ÿ¾‚Mi ÙA<*

ppo/returns/var&[9a–•#       °ŸwC	\¿‚Mi ÙA<*

ppo/val/vpredVß¾¿´F¾#       °ŸwC	³¿‚Mi ÙA<*

ppo/val/errorL¸/:»m&       sOã 	À‚Mi ÙA<*

ppo/val/clipfrac    Ü
"       x=ý	dÀ‚Mi ÙA<*

ppo/val/mean;½¿tnB!       {ìö	»À‚Mi ÙA<*

ppo/val/var    îK€+       †ÃK	Á‚Mi ÙA<*

ppo/val/var_explainedžbÀt—›9'       »á±F	nÁ‚Mi ÙA<*

ppo/learning_rateÀÏ¸:Ö."K+       †ÃK	ÇÁ‚Mi ÙA<*

time/ppo/forward_pass ö>7ä6<.       ÅËWú	"Â‚Mi ÙA<*!

time/ppo/compute_rewards °Å:DRå<1       ƒƒé	}Â‚Mi ÙA<*$
"
time/ppo/compute_advantages |;ÍtXö,       ô®ÌE	ÒÂ‚Mi ÙA<*

time/ppo/optimize_step PG?EžÖ)       7ÿ_ 	'Ã‚Mi ÙA<*

time/ppo/calc_statsð^>ô2p³$       B+€M	}Ã‚Mi ÙA<*

time/ppo/totalÔpˆ?_”S¦%       ê¼6ó	ÙÃ‚Mi ÙA<*

env/reward_mean®ž>Ì[ò$       B+€M	6Ä‚Mi ÙA<*

env/reward_std¤Êl<i«ÇÃ"       x=ý	6Ø}Pi ÙA=*

objective/klDAb¯ ó'       »á±F	°Ø}Pi ÙA=*

objective/kl_coefÜŠT>æêz'       »á±F	ÓØ}Pi ÙA=*

objective/entropy    R+bø/       m]P	èØ}Pi ÙA=*"
 
ppo/mean_non_score_rewardñƒè¿Nù)Ö%       ê¼6ó	ûØ}Pi ÙA=*

ppo/mean_scoresÎÎœ>¼‚ÄÔ$       B+€M	Ù}Pi ÙA=*

ppo/std_scoresÕ¶¤<ç„õŽ-       <AŠû	Ù}Pi ÙA=* 

tokens/queries_len_mean  äBy,       ô®ÌE	/Ù}Pi ÙA=*

tokens/queries_len_std    • ‹/       m]P	AÙ}Pi ÙA=*"
 
tokens/responses_len_mean  €?¾ñ<Ê.       ÅËWú	RÙ}Pi ÙA=*!

tokens/responses_len_std    àµäŒ%       ê¼6ó	cÙ}Pi ÙA=*

ppo/loss/policy  €²ew‘$       B+€M	GÚ}Pi ÙA=*

ppo/loss/valueí¨9ºÉü$       B+€M	BÛ}Pi ÙA=*

ppo/loss/total8HÕ°!(       ÿpJ	ÀÛ}Pi ÙA=*

ppo/policy/entropy  x5ÛÕ°)       7ÿ_ 	BÜ}Pi ÙA=*

ppo/policy/approxkl    
Í;)       7ÿ_ 	µÜ}Pi ÙA=*

ppo/policy/policykl    ëîc)       7ÿ_ 	'Ý}Pi ÙA=*

ppo/policy/clipfrac    ¸ D0       •õÐ_	Ý}Pi ÙA=*#
!
ppo/policy/advantages_mean  €2K[w†&       sOã 	ôÝ}Pi ÙA=*

ppo/returns/mean>PÁ¿oI6Ê%       ê¼6ó	ZÞ}Pi ÙA=*

ppo/returns/varnõÓ9Ìx‰#       °ŸwC	¸Þ}Pi ÙA=*

ppo/val/vpred¦Ã¿åk­#       °ŸwC	ß}Pi ÙA=*

ppo/val/errorí(:ô»ÕA&       sOã 	qß}Pi ÙA=*

ppo/val/clipfrac    

Ç"       x=ý	Êß}Pi ÙA=*

ppo/val/meanw¶Ã¿ZCAr!       {ìö	%à}Pi ÙA=*

ppo/val/var    8Nì§+       †ÃK	†à}Pi ÙA=*

ppo/val/var_explainedJ¿¸Sã]'       »á±F	åà}Pi ÙA=*

ppo/learning_rateÀÏ¸:ÌVmy+       †ÃK	Cá}Pi ÙA=*

time/ppo/forward_passÐL>H!œ@.       ÅËWú	¡á}Pi ÙA=*!

time/ppo/compute_rewards  É:6Ë1       ƒƒé	þá}Pi ÙA=*$
"
time/ppo/compute_advantages x;79Ý8,       ô®ÌE	Wâ}Pi ÙA=*

time/ppo/optimize_steptiI?ÒÉ ô)       7ÿ_ 	°â}Pi ÙA=*

time/ppo/calc_stats`J>O	]$       B+€M		ã}Pi ÙA=*

time/ppo/total¾æ‰?<–¯c%       ê¼6ó	‚ã}Pi ÙA=*

env/reward_meanÎÎœ>×ây$       B+€M	Ùã}Pi ÙA=*

env/reward_stdÕ¶¤<°Ðk"       x=ý	ûnSi ÙA>*

objective/klDAEÂ´”'       »á±F	wûnSi ÙA>*

objective/kl_coef¯­T>àÖ!'       »á±F	”ûnSi ÙA>*

objective/entropy    Ò‚·~/       m]P	©ûnSi ÙA>*"
 
ppo/mean_non_score_reward
ªè¿[¬‹%       ê¼6ó	¼ûnSi ÙA>*

ppo/mean_scores®ž>û/=±$       B+€M	ÍûnSi ÙA>*

ppo/std_scores¤Êl<¬®-       <AŠû	ÞûnSi ÙA>* 

tokens/queries_len_mean  äBuî’,       ô®ÌE	îûnSi ÙA>*

tokens/queries_len_std    n;6,/       m]P	ÿûnSi ÙA>*"
 
tokens/responses_len_mean  €?ÿhÙÑ.       ÅËWú	ünSi ÙA>*!

tokens/responses_len_std    ¶„%       ê¼6ó	$ünSi ÙA>*

ppo/loss/policy  €²L¸ªú$       B+€M	JþnSi ÙA>*

ppo/loss/valueÈ:9ku&$       B+€M	oSi ÙA>*

ppo/loss/total •7”_Ÿí(       ÿpJ	+oSi ÙA>*

ppo/policy/entropy  €5&Œ‡-)       7ÿ_ 	CoSi ÙA>*

ppo/policy/approxkl    ’,Y)       7ÿ_ 	UoSi ÙA>*

ppo/policy/policykl    +IO¦)       7ÿ_ 	foSi ÙA>*

ppo/policy/clipfrac    ¤­µØ0       •õÐ_	zoSi ÙA>*#
!
ppo/policy/advantages_mean  €2±Ú¥&       sOã 	oSi ÙA>*

ppo/returns/meanž"Á¿I3uƒ%       ê¼6ó	¦oSi ÙA>*

ppo/returns/varN[9Ýr~b#       °ŸwC	¶oSi ÙA>*

ppo/val/vpred]·¿¿‹'=#       °ŸwC	ÆoSi ÙA>*

ppo/val/errorÈº9ç×ëÆ&       sOã 	ïoSi ÙA>*

ppo/val/clipfrac    ŠDG1"       x=ý	}oSi ÙA>*

ppo/val/meanä¿¿O‹	!       {ìö	oSi ÙA>*

ppo/val/var    YhØ+       †ÃK	„oSi ÙA>*

ppo/val/var_explainedJü3¿é½®'       »á±F		oSi ÙA>*

ppo/learning_rateÀÏ¸:²Óå+       †ÃK	‰	oSi ÙA>*

time/ppo/forward_pass@8>:ÚK„.       ÅËWú	
oSi ÙA>*!

time/ppo/compute_rewards @Þ:›Ñü	1       ƒƒé	U
oSi ÙA>*$
"
time/ppo/compute_advantages Ì,;I"n,       ô®ÌE	©
oSi ÙA>*

time/ppo/optimize_steppI?jÂÅ)       7ÿ_ 	ù
oSi ÙA>*

time/ppo/calc_statsp>ÂÊ‘˜$       B+€M	IoSi ÙA>*

time/ppo/totalFR‰?^¬k%       ê¼6ó	šoSi ÙA>*

env/reward_mean®ž>‘)ö
$       B+€M	êoSi ÙA>*

env/reward_std¤Êl<8šð)"       x=ý	ïÉZVi ÙA?*

objective/klDA¥@ùs'       »á±F	fÊZVi ÙA?*

objective/kl_coef‡ÐT>ß#‚®'       »á±F	‰ÊZVi ÙA?*

objective/entropy    }ã/       m]P	œÊZVi ÙA?*"
 
ppo/mean_non_score_reward(Ðè¿C1•'%       ê¼6ó	­ÊZVi ÙA?*

ppo/mean_scores®ž>RQÔC$       B+€M	¾ÊZVi ÙA?*

ppo/std_scores¤Êl<’Iü?-       <AŠû	ÏÊZVi ÙA?* 

tokens/queries_len_mean  äBš“g,       ô®ÌE	ßÊZVi ÙA?*

tokens/queries_len_std    ®Zõ·/       m]P	ðÊZVi ÙA?*"
 
tokens/responses_len_mean  €?OööÇ.       ÅËWú	ÿÊZVi ÙA?*!

tokens/responses_len_std    íž©%       ê¼6ó	ËZVi ÙA?*

ppo/loss/policy   ²\e$       B+€M	èËZVi ÙA?*

ppo/loss/value?†9žæ$       B+€M	ÛÌZVi ÙA?*

ppo/loss/totalÌ¶x7ÁÑ“v(       ÿpJ	XÍZVi ÙA?*

ppo/policy/entropy  €5b•¤Z)       7ÿ_ 	¾ÍZVi ÙA?*

ppo/policy/approxkl    â×`)       7ÿ_ 	ÎZVi ÙA?*

ppo/policy/policykl    šÑðX)       7ÿ_ 	rÎZVi ÙA?*

ppo/policy/clipfrac    ;4½ý0       •õÐ_	ÍÎZVi ÙA?*#
!
ppo/policy/advantages_mean   2{v&       sOã 	&ÏZVi ÙA?*

ppo/returns/mean¼HÁ¿KÞú%       ê¼6ó	~ÏZVi ÙA?*

ppo/returns/varN[9­Cö#       °ŸwC	×ÏZVi ÙA?*

ppo/val/vprednpÂ¿°@†X#       °ŸwC	,ÐZVi ÙA?*

ppo/val/error?†›9œ?)&       sOã 	ÐZVi ÙA?*

ppo/val/clipfrac    Ë—K˜"       x=ý	ÖÐZVi ÙA?*

ppo/val/meanK;Â¿.-§!       {ìö	+ÑZVi ÙA?*

ppo/val/var    ‚Ig+       †ÃK	…ÑZVi ÙA?*

ppo/val/var_explained|×¾èñEö'       »á±F	ÜÑZVi ÙA?*

ppo/learning_rateÀÏ¸:Ýà¸+       †ÃK	3ÒZVi ÙA?*

time/ppo/forward_pass É>Ç÷¶.       ÅËWú	‰ÒZVi ÙA?*!

time/ppo/compute_rewards XÆ::	H1       ƒƒé	ÞÒZVi ÙA?*$
"
time/ppo/compute_advantages Ü;qñv,       ô®ÌE	5ÓZVi ÙA?*

time/ppo/optimize_stepÜÌH?#Ò)       7ÿ_ 	ŠÓZVi ÙA?*

time/ppo/calc_statsàï
>.‚õ]$       B+€M	ÞÓZVi ÙA?*

time/ppo/total^»ˆ?ù«tR%       ê¼6ó	3ÔZVi ÙA?*

env/reward_mean®ž>×F!!$       B+€M	…ÔZVi ÙA?*

env/reward_std¤Êl<w«4"       x=ý	5(AYi ÙA@*

objective/klDAÆjÀ)'       »á±F	¤(AYi ÙA@*

objective/kl_coefeóT>}4|£'       »á±F	Á(AYi ÙA@*

objective/entropy    „ól/       m]P	Ø(AYi ÙA@*"
 
ppo/mean_non_score_rewardMöè¿ÑÀ%       ê¼6ó	è(AYi ÙA@*

ppo/mean_scores®ž>'³…2$       B+€M	û(AYi ÙA@*

ppo/std_scores¤Êl<ÎÓÑ-       <AŠû	)AYi ÙA@* 

tokens/queries_len_mean  äBãiI,       ô®ÌE	)AYi ÙA@*

tokens/queries_len_std    ÕE­/       m]P	/)AYi ÙA@*"
 
tokens/responses_len_mean  €?÷ Î¶.       ÅËWú	?)AYi ÙA@*!

tokens/responses_len_std    ­8¶ü%       ê¼6ó	P)AYi ÙA@*

ppo/loss/policy  €1_âß$       B+€M	z+AYi ÙA@*

ppo/loss/valueˆ©9*vH2$       B+€M	.AYi ÙA@*

ppo/loss/total§…_7ŠÜˆ(       ÿpJ	3.AYi ÙA@*

ppo/policy/entropy  €5Ô¾)       7ÿ_ 	J.AYi ÙA@*

ppo/policy/approxkl    @ï))       7ÿ_ 	2AYi ÙA@*

ppo/policy/policykl    éœÐÑ)       7ÿ_ 	92AYi ÙA@*

ppo/policy/clipfrac    Ó_¯0       •õÐ_	S2AYi ÙA@*#
!
ppo/policy/advantages_mean  €±·ñ&       sOã 	i2AYi ÙA@*

ppo/returns/meanânÁ¿I{ƒç%       ê¼6ó	|2AYi ÙA@*

ppo/returns/var&[9 ›ã¨#       °ŸwC	2AYi ÙA@*

ppo/val/vpredi{À¿>ß’”#       °ŸwC	ž2AYi ÙA@*

ppo/val/errorˆ©‹9‚Ð8|&       sOã 	¯2AYi ÙA@*

ppo/val/clipfrac    d°Ðì"       x=ý	¿2AYi ÙA@*

ppo/val/meanè¨À¿neÐ¾!       {ìö	Ð2AYi ÙA@*

ppo/val/var    8œS+       †ÃK	F4AYi ÙA@*

ppo/val/var_explained öŒ¾»­ª'       »á±F	Ý4AYi ÙA@*

ppo/learning_rateÀÏ¸:ý;%Ê+       †ÃK	=5AYi ÙA@*

time/ppo/forward_passÝ> í .       ÅËWú	š5AYi ÙA@*!

time/ppo/compute_rewards  ¾:k`Ì1       ƒƒé	ö5AYi ÙA@*$
"
time/ppo/compute_advantages h;ËwGF,       ô®ÌE	G6AYi ÙA@*

time/ppo/optimize_step˜G?ˆê¡4)       7ÿ_ 	š6AYi ÙA@*

time/ppo/calc_statsÐÇ	>RŸgÞ$       B+€M	ë6AYi ÙA@*

time/ppo/total¢Þ‡?êú&%       ê¼6ó	O7AYi ÙA@*

env/reward_mean®ž>§3½"$       B+€M	™7AYi ÙA@*

env/reward_std¤Êl<Zõ…—"       x=ý	0\i ÙAA*

objective/klDAüê <'       »á±F	z0\i ÙAA*

objective/kl_coefIU>B¥ã'       »á±F	 0\i ÙAA*

objective/entropy    XÓ:D/       m]P	µ0\i ÙAA*"
 
ppo/mean_non_score_rewardxé¿Ž_U
%       ê¼6ó	È0\i ÙAA*

ppo/mean_scoresÎÎœ>ô8ò$       B+€M	Ù0\i ÙAA*

ppo/std_scoresÕ¶¤<éÌ-       <AŠû	ê0\i ÙAA* 

tokens/queries_len_mean  äBš‹,       ô®ÌE	ý0\i ÙAA*

tokens/queries_len_std    “ÊSg/       m]P	0\i ÙAA*"
 
tokens/responses_len_mean  €?Ö\‘.       ÅËWú	0\i ÙAA*!

tokens/responses_len_std    ¼²M%       ê¼6ó	00\i ÙAA*

ppo/loss/policy  €²Hôó($       B+€M	0\i ÙAA*

ppo/loss/valueb c90ì=$       B+€M	#0\i ÙAA*

ppo/loss/total‚“µ7wÄ›(       ÿpJ	®0\i ÙAA*

ppo/policy/entropy  €5¨ÊÞB)       7ÿ_ 	#0\i ÙAA*

ppo/policy/approxkl    ¨tµž)       7ÿ_ 	Š0\i ÙAA*

ppo/policy/policykl    V„Š)       7ÿ_ 	é0\i ÙAA*

ppo/policy/clipfrac    äK.Þ0       •õÐ_	I0\i ÙAA*#
!
ppo/policy/advantages_mean  €2÷›5&       sOã 	©0\i ÙAA*

ppo/returns/meanÄèÁ¿²c8q%       ê¼6ó	0\i ÙAA*

ppo/returns/var–õÓ9/]{¦#       °ŸwC	`0\i ÙAA*

ppo/val/vpred Â¿çÅí#       °ŸwC	¸0\i ÙAA*

ppo/val/errorb ã9_`Òí&       sOã 	0\i ÙAA*

ppo/val/clipfrac    <êõš"       x=ý	e0\i ÙAA*

ppo/val/meanôÁ¿máš!       {ìö	¾0\i ÙAA*

ppo/val/var    Wˆ+       †ÃK	0\i ÙAA*

ppo/val/var_explained€Œ’½k®·w'       »á±F	s0\i ÙAA*

ppo/learning_rateÀÏ¸:´ÎÖv+       †ÃK	Í0\i ÙAA*

time/ppo/forward_passÀ¢>‡ŠÔ.       ÅËWú	*0\i ÙAA*!

time/ppo/compute_rewards ØË: X1       ƒƒé	„0\i ÙAA*$
"
time/ppo/compute_advantages À;àMn,       ô®ÌE	ß0\i ÙAA*

time/ppo/optimize_step¼H? U)       7ÿ_ 	9 0\i ÙAA*

time/ppo/calc_statsp²
>	Wz$       B+€M	 0\i ÙAA*

time/ppo/total“ˆ?‚V +%       ê¼6ó	é 0\i ÙAA*

env/reward_meanÎÎœ>ó›Ì"$       B+€M	?!0\i ÙAA*

env/reward_stdÕ¶¤<T,¬Ð"       x=ý	¨b_i ÙAB*

objective/klDAeV´«'       »á±F	c_i ÙAB*

objective/kl_coef39U>›ñ'       »á±F	>c_i ÙAB*

objective/entropy    Þ¬	†/       m]P	Sc_i ÙAB*"
 
ppo/mean_non_score_rewardªBé¿‘M9|%       ê¼6ó	hc_i ÙAB*

ppo/mean_scoresÎÎœ>šÌ8“$       B+€M	zc_i ÙAB*

ppo/std_scoresÕ¶¤<À‚0ð-       <AŠû	c_i ÙAB* 

tokens/queries_len_mean  äBTY],       ô®ÌE	Ÿc_i ÙAB*

tokens/queries_len_std    	û<x/       m]P	²c_i ÙAB*"
 
tokens/responses_len_mean  €?ã6d>.       ÅËWú	Äc_i ÙAB*!

tokens/responses_len_std    Ã4­Ý%       ê¼6ó	Øc_i ÙAB*

ppo/loss/policy  €2ý*)F$       B+€M	Äd_i ÙAB*

ppo/loss/valueüŽZ9]¨G$       B+€M	Ée_i ÙAB*

ppo/loss/totalÊø®7[hÆ=(       ÿpJ	Sf_i ÙAB*

ppo/policy/entropy  €5x$„!)       7ÿ_ 	Çf_i ÙAB*

ppo/policy/approxkl    °×6 )       7ÿ_ 	/g_i ÙAB*

ppo/policy/policykl    q‹çY)       7ÿ_ 	g_i ÙAB*

ppo/policy/clipfrac    õéÄ0       •õÐ_	ñg_i ÙAB*#
!
ppo/policy/advantages_mean  €²…ä·~&       sOã 	Sh_i ÙAB*

ppo/returns/meanöÂ¿C“5%       ê¼6ó	´h_i ÙAB*

ppo/returns/var–õÓ9 µQ#       °ŸwC	i_i ÙAB*

ppo/val/vpredà|Á¿Ÿ¢ÑÖ#       °ŸwC	fi_i ÙAB*

ppo/val/errorüŽÚ9F?Ï.&       sOã 	½i_i ÙAB*

ppo/val/clipfrac    %B¥"       x=ý	j_i ÙAB*

ppo/val/mean,öÁ¿½ëné!       {ìö	ij_i ÙAB*

ppo/val/var    CÔàÑ+       †ÃK	Âj_i ÙAB*

ppo/val/var_explained€ÿ¼dÊ5'       »á±F	k_i ÙAB*

ppo/learning_rateÀÏ¸:¡3+       †ÃK	tk_i ÙAB*

time/ppo/forward_passàp><!:ö.       ÅËWú	Ôk_i ÙAB*!

time/ppo/compute_rewards €Ç:³ÝY1       ƒƒé	,l_i ÙAB*$
"
time/ppo/compute_advantages Ð;
V7,       ô®ÌE	‡l_i ÙAB*

time/ppo/optimize_step$ƒH?"þ‡Æ)       7ÿ_ 	Ül_i ÙAB*

time/ppo/calc_stats@
>‘c"$       B+€M	0m_i ÙAB*

time/ppo/total®ˆ?CóW’%       ê¼6ó	„m_i ÙAB*

env/reward_meanÎÎœ>Åðß¼$       B+€M	×m_i ÙAB*

env/reward_stdÕ¶¤<`æT"       x=ý	Ñöai ÙAC*

objective/klDA¢ü*^'       »á±F	Nöai ÙAC*

objective/kl_coef"\U>]¼l'       »á±F	vöai ÙAC*

objective/entropy    ïøù/       m]P	öai ÙAC*"
 
ppo/mean_non_score_rewardâhé¿ÐÖd%       ê¼6ó	£öai ÙAC*

ppo/mean_scores®ž>ãòö$       B+€M	µöai ÙAC*

ppo/std_scores¤Êl<°I}è-       <AŠû	Èöai ÙAC* 

tokens/queries_len_mean  äB"¨çÙ,       ô®ÌE	Ùöai ÙAC*

tokens/queries_len_std    K‘/       m]P	íöai ÙAC*"
 
tokens/responses_len_mean  €?\ÁƒÊ.       ÅËWú	þöai ÙAC*!

tokens/responses_len_std    \Õ¸%       ê¼6ó	öai ÙAC*

ppo/loss/policy   ²ì¹$       B+€M	ýöai ÙAC*

ppo/loss/value(ä8Vbûå$       B+€M	öai ÙAC*

ppo/loss/totalS‡67¼¦·(       ÿpJ	 öai ÙAC*

ppo/policy/entropy  €566ü)       7ÿ_ 	 öai ÙAC*

ppo/policy/approxkl    T/))       7ÿ_ 	v öai ÙAC*

ppo/policy/policykl    ÜÄ2)       7ÿ_ 	Õ öai ÙAC*

ppo/policy/clipfrac    z]×0       •õÐ_	:!öai ÙAC*#
!
ppo/policy/advantages_mean   2´ãàñ&       sOã 	¡!öai ÙAC*

ppo/returns/meanváÁ¿U`€0%       ê¼6ó	"öai ÙAC*

ppo/returns/varN[9í­®è#       °ŸwC	e"öai ÙAC*

ppo/val/vpred¶XÂ¿Þv¦#       °ŸwC	Ç"öai ÙAC*

ppo/val/error(d9»è8e&       sOã 	##öai ÙAC*

ppo/val/clipfrac    ®
å"       x=ý	#öai ÙAC*

ppo/val/meanÂ¿Eç³!       {ìö	à#öai ÙAC*

ppo/val/var    ¹¦œ8+       †ÃK	D$öai ÙAC*

ppo/val/var_explained@)2½uÙ¸á'       »á±F	§$öai ÙAC*

ppo/learning_rateÀÏ¸:ÿsvÃ+       †ÃK	%öai ÙAC*

time/ppo/forward_pass€Í>‰áé.       ÅËWú	g%öai ÙAC*!

time/ppo/compute_rewards õ:÷MsG1       ƒƒé	Æ%öai ÙAC*$
"
time/ppo/compute_advantages Œ;íÇ¤—,       ô®ÌE	!&öai ÙAC*

time/ppo/optimize_stepœ¨L?i€ïÉ)       7ÿ_ 	&öai ÙAC*

time/ppo/calc_stats>Îl=$       B+€M	Ú&öai ÙAC*

time/ppo/total`8‹?°d +%       ê¼6ó	5'öai ÙAC*

env/reward_mean®ž>&Ì"$       B+€M	'öai ÙAC*

env/reward_std¤Êl<”	^{"       x=ý	ê›ñdi ÙAD*

objective/klDA=ŽuÁ'       »á±F	fœñdi ÙAD*

objective/kl_coefU>MŸ4='       »á±F	‹œñdi ÙAD*

objective/entropy    ÷4¶/       m]P	 œñdi ÙAD*"
 
ppo/mean_non_score_reward é¿N
Z¥%       ê¼6ó	´œñdi ÙAD*

ppo/mean_scores®ž>Ødmu$       B+€M	Èœñdi ÙAD*

ppo/std_scores¤Êl<r¼§-       <AŠû	Üœñdi ÙAD* 

tokens/queries_len_mean  äB  ”6,       ô®ÌE	òœñdi ÙAD*

tokens/queries_len_std    Ý™&./       m]P	ñdi ÙAD*"
 
tokens/responses_len_mean  €?Vev.       ÅËWú	ñdi ÙAD*!

tokens/responses_len_std    .Ðæ)%       ê¼6ó	.ñdi ÙAD*

ppo/loss/policy   ²¤.d$       B+€M	žñdi ÙAD*

ppo/loss/value3Eß87â¸l$       B+€M	.Ÿñdi ÙAD*

ppo/loss/totalÂ}27Ö>*(       ÿpJ	¼Ÿñdi ÙAD*

ppo/policy/entropy  €5ÒdUú)       7ÿ_ 	, ñdi ÙAD*

ppo/policy/approxkl    ßÅå)       7ÿ_ 	 ñdi ÙAD*

ppo/policy/policykl    ººFs)       7ÿ_ 	ì ñdi ÙAD*

ppo/policy/clipfrac    hoì¥0       •õÐ_	O¡ñdi ÙAD*#
!
ppo/policy/advantages_mean   2G0©¥&       sOã 	´¡ñdi ÙAD*

ppo/returns/mean´Â¿)É¸·%       ê¼6ó	¢ñdi ÙAD*

ppo/returns/varN[9âÈˆ±#       °ŸwC	z¢ñdi ÙAD*

ppo/val/vpred×¤Á¿Í¾‡T#       °ŸwC	Ö¢ñdi ÙAD*

ppo/val/error3E_9«ÉÌ™&       sOã 	0£ñdi ÙAD*

ppo/val/clipfrac    n¤6'"       x=ý	‹£ñdi ÙAD*

ppo/val/meanžÁÁ¿aèõ[!       {ìö	ä£ñdi ÙAD*

ppo/val/var    F-´¾+       †ÃK	D¤ñdi ÙAD*

ppo/val/var_explained@Ìž¼“µ'       »á±F	£¤ñdi ÙAD*

ppo/learning_rateÀÏ¸:f:+9+       †ÃK	¥ñdi ÙAD*

time/ppo/forward_pass¦>LÙ.       ÅËWú	`¥ñdi ÙAD*!

time/ppo/compute_rewards @Ó:ÃZ¹s1       ƒƒé	º¥ñdi ÙAD*$
"
time/ppo/compute_advantages ;µFÈ},       ô®ÌE	¦ñdi ÙAD*

time/ppo/optimize_step R?Ï&2)       7ÿ_ 	r¦ñdi ÙAD*

time/ppo/calc_statsz>Qòµq$       B+€M	Ï¦ñdi ÙAD*

time/ppo/totald-?j”¹Ó%       ê¼6ó	)§ñdi ÙAD*

env/reward_mean®ž>)ç=Ù$       B+€M	€§ñdi ÙAD*

env/reward_std¤Êl<ìvkA"       x=ý	É°÷gi ÙAE*

objective/klDAˆ{wQ'       »á±F	3±÷gi ÙAE*

objective/kl_coef¢U>ˆÀÔ'       »á±F	R±÷gi ÙAE*

objective/entropy    ÚºÒn/       m]P	f±÷gi ÙAE*"
 
ppo/mean_non_score_rewarddµé¿…*¾ü%       ê¼6ó	z±÷gi ÙAE*

ppo/mean_scores®ž>ô¶]â$       B+€M	±÷gi ÙAE*

ppo/std_scores¤Êl<+÷Ã-       <AŠû	Ÿ±÷gi ÙAE* 

tokens/queries_len_mean  äBÕtX,       ô®ÌE	°±÷gi ÙAE*

tokens/queries_len_std    ðÉHB/       m]P	Ã±÷gi ÙAE*"
 
tokens/responses_len_mean  €?5VÚ.       ÅËWú	Ó±÷gi ÙAE*!

tokens/responses_len_std    Ôm¼%       ê¼6ó	ä±÷gi ÙAE*

ppo/loss/policy   ²ù$       B+€M	ó³÷gi ÙAE*

ppo/loss/value’gÛ8·BG"$       B+€M	™´÷gi ÙAE*

ppo/loss/totalf/7ºkVD(       ÿpJ	µ÷gi ÙAE*

ppo/policy/entropy  €5sÔõ)       7ÿ_ 	qµ÷gi ÙAE*

ppo/policy/approxkl    —Y)       7ÿ_ 	¶÷gi ÙAE*

ppo/policy/policykl    #3)       7ÿ_ 	"¶÷gi ÙAE*

ppo/policy/clipfrac    Œ¢Q–0       •õÐ_	y¶÷gi ÙAE*#
!
ppo/policy/advantages_mean   2÷à Ñ&       sOã 	Ï¶÷gi ÙAE*

ppo/returns/meanø-Â¿Bf¦%       ê¼6ó	(·÷gi ÙAE*

ppo/returns/varN[9o`¯#       °ŸwC	ƒ·÷gi ÙAE*

ppo/val/vpred8zÂ¿IøÈ‚#       °ŸwC	Û·÷gi ÙAE*

ppo/val/error’g[9&ð&       sOã 	+¸÷gi ÙAE*

ppo/val/clipfrac    /¯~ç"       x=ý	|¸÷gi ÙAE*

ppo/val/mean;Â¿ Ü\ö!       {ìö	Ð¸÷gi ÙAE*

ppo/val/var    Ç¿:ó+       †ÃK	*¹÷gi ÙAE*

ppo/val/var_explained `ãº…ßR'       »á±F	~¹÷gi ÙAE*

ppo/learning_rateÀÏ¸:êöÙÉ+       †ÃK	Ó¹÷gi ÙAE*

time/ppo/forward_passÐÿ>=ó¨.       ÅËWú	*º÷gi ÙAE*!

time/ppo/compute_rewards  Ù:¤xAh1       ƒƒé	€º÷gi ÙAE*$
"
time/ppo/compute_advantages ô0;wi³,       ô®ÌE	Öº÷gi ÙAE*

time/ppo/optimize_stepèÖS?šÿ¦ )       7ÿ_ 	)»÷gi ÙAE*

time/ppo/calc_statsÐi>5&eÅ$       B+€M	|»÷gi ÙAE*

time/ppo/totalîI?@Ö¨‡%       ê¼6ó	Í»÷gi ÙAE*

env/reward_mean®ž>6B$       B+€M	¼÷gi ÙAE*

env/reward_std¤Êl<Zd3/"       x=ý	Züìji ÙAF*

objective/klDAvgËÖ'       »á±F	Ëüìji ÙAF*

objective/kl_coefÅU>¸Œ'       »á±F	éüìji ÙAF*

objective/entropy     rÈ/       m]P	ÿüìji ÙAF*"
 
ppo/mean_non_score_reward®Ûé¿ú#†Þ%       ê¼6ó	ýìji ÙAF*

ppo/mean_scores®ž>côæ$       B+€M	*ýìji ÙAF*

ppo/std_scores¤Êl<OÅñV-       <AŠû	?ýìji ÙAF* 

tokens/queries_len_mean  äBäÃF¸,       ô®ÌE	Sýìji ÙAF*

tokens/queries_len_std    rãy/       m]P	gýìji ÙAF*"
 
tokens/responses_len_mean  €?·K.       ÅËWú	}ýìji ÙAF*!

tokens/responses_len_std    Pó™%       ê¼6ó	ýìji ÙAF*

ppo/loss/policy  @²ž¾\¶$       B+€M	 íji ÙAF*

ppo/loss/valueéØ8<¾ß$       B+€M	cíji ÙAF*

ppo/loss/totalJW-7£<\è(       ÿpJ	’íji ÙAF*

ppo/policy/entropy  €5×OO
)       7ÿ_ 	¬íji ÙAF*

ppo/policy/approxkl    s?'£)       7ÿ_ 	¿íji ÙAF*

ppo/policy/policykl    sír)       7ÿ_ 	Óíji ÙAF*

ppo/policy/clipfrac    ã‚)Ñ0       •õÐ_	çíji ÙAF*#
!
ppo/policy/advantages_mean  @2á¯†“&       sOã 	ÿíji ÙAF*

ppo/returns/meanBTÂ¿ù›äÐ%       ê¼6ó	ñíji ÙAF*

ppo/returns/varN[9‡,ëb#       °ŸwC	íji ÙAF*

ppo/val/vpredèÂ¿3 _1#       °ŸwC	4íji ÙAF*

ppo/val/erroréX9Šü!%&       sOã 	Fíji ÙAF*

ppo/val/clipfrac    /ôm%"       x=ý	Wíji ÙAF*

ppo/val/meanÛ&Â¿“R½ð!       {ìö	híji ÙAF*

ppo/val/var    ø&:š+       †ÃK	yíji ÙAF*

ppo/val/var_explainedÀ#<ÝVý6'       »á±F	Œíji ÙAF*

ppo/learning_rateÀÏ¸:râ	å+       †ÃK	íji ÙAF*

time/ppo/forward_passó>ðÞªC.       ÅËWú	¯íji ÙAF*!

time/ppo/compute_rewards `Õ:ÇÄ˜1       ƒƒé	Ÿíji ÙAF*$
"
time/ppo/compute_advantages ,(;Pé4Â,       ô®ÌE	Ëíji ÙAF*

time/ppo/optimize_step´ÏS?+ë$Ð)       7ÿ_ 	ãíji ÙAF*

time/ppo/calc_statsp®>;Yrl$       B+€M	öíji ÙAF*

time/ppo/total¨?ãÓø®%       ê¼6ó	íji ÙAF*

env/reward_mean®ž>Ó&x´$       B+€M	íji ÙAF*

env/reward_std¤Êl<Â.€,"       x=ý	yàmi ÙAG*

objective/klDA­önd'       »á±F	‰àmi ÙAG*

objective/kl_coefèU>üŽq'       »á±F	Äàmi ÙAG*

objective/entropy    
(Þ/       m]P	îàmi ÙAG*"
 
ppo/mean_non_score_rewardÿê¿tÜïË%       ê¼6ó	àmi ÙAG*

ppo/mean_scores®ž>õó!$       B+€M	:àmi ÙAG*

ppo/std_scores¤Êl<§KÝ|-       <AŠû	]àmi ÙAG* 

tokens/queries_len_mean  äB¨‰	,       ô®ÌE	àmi ÙAG*

tokens/queries_len_std    SÀº/       m]P	¢àmi ÙAG*"
 
tokens/responses_len_mean  €?J?*^.       ÅËWú	Åàmi ÙAG*!

tokens/responses_len_std    qa@¹%       ê¼6ó	Þàmi ÙAG*

ppo/loss/policy   2]6oP$       B+€M		àmi ÙAG*

ppo/loss/valuey×8yEB$       B+€M	Š
àmi ÙAG*

ppo/loss/totalÝ€,7lh…ý(       ÿpJ	î
àmi ÙAG*

ppo/policy/entropy  €5›ä()       7ÿ_ 	Xàmi ÙAG*

ppo/policy/approxkl    R%?-)       7ÿ_ 	Öàmi ÙAG*

ppo/policy/policykl    ˜Á)       7ÿ_ 	Eàmi ÙAG*

ppo/policy/clipfrac    HÀM0       •õÐ_	qàmi ÙAG*#
!
ppo/policy/advantages_mean   ²åÞÙ&       sOã 	 àmi ÙAG*

ppo/returns/mean”zÂ¿[JÚr%       ê¼6ó	àmi ÙAG*

ppo/returns/var%[9š	aI#       °ŸwC	óàmi ÙAG*

ppo/val/vpredc«Â¿úÜÜä#       °ŸwC	8àmi ÙAG*

ppo/val/erroryW9V¥Ý°&       sOã 	šàmi ÙAG*

ppo/val/clipfrac    ÖŠd0"       x=ý	‘àmi ÙAG*

ppo/val/meanœwÂ¿]µ·!       {ìö	_àmi ÙAG*

ppo/val/var    –¯Q+       †ÃK	àmi ÙAG*

ppo/val/var_explained Ñ„<œ0'       »á±F	Ñàmi ÙAG*

ppo/learning_rateÀÏ¸:ÈãT+       †ÃK	‡àmi ÙAG*

time/ppo/forward_pass0O>GRî.       ÅËWú	}àmi ÙAG*!

time/ppo/compute_rewards øØ:NšIw1       ƒƒé	Dàmi ÙAG*$
"
time/ppo/compute_advantages 8;¥¡#.,       ô®ÌE	øàmi ÙAG*

time/ppo/optimize_stepè¼R?ºzâ©)       7ÿ_ 	¢àmi ÙAG*

time/ppo/calc_stats ¬>1ßdH$       B+€M	Làmi ÙAG*

time/ppo/total”ã?	¾u¥%       ê¼6ó	Oàmi ÙAG*

env/reward_mean®ž>ç¯¼$       B+€M	"àmi ÙAG*

env/reward_std¤Êl<I¿eÐ"       x=ý	öèÖpi ÙAH*

objective/klDAHº'       »á±F	céÖpi ÙAH*

objective/kl_coef$V>ãÇ#k'       »á±F	éÖpi ÙAH*

objective/entropy    €V›/       m]P	™éÖpi ÙAH*"
 
ppo/mean_non_score_rewardV(ê¿§T…%       ê¼6ó	®éÖpi ÙAH*

ppo/mean_scores®ž>ôå|$       B+€M	ÀéÖpi ÙAH*

ppo/std_scores¤Êl< :’-       <AŠû	ÑéÖpi ÙAH* 

tokens/queries_len_mean  äBí˜–m,       ô®ÌE	äéÖpi ÙAH*

tokens/queries_len_std    gå™ø/       m]P	öéÖpi ÙAH*"
 
tokens/responses_len_mean  €?k¦‰‘.       ÅËWú	êÖpi ÙAH*!

tokens/responses_len_std    ¼ZÞb%       ê¼6ó	êÖpi ÙAH*

ppo/loss/policy   ²±+›$       B+€M	ëÖpi ÙAH*

ppo/loss/value¢KÖ8Œ<ªÎ$       B+€M	ìÖpi ÙAH*

ppo/loss/totalµO+7ËÙ¿(       ÿpJ	ìÖpi ÙAH*

ppo/policy/entropy  €5ŒÃ´o)       7ÿ_ 		íÖpi ÙAH*

ppo/policy/approxkl    æ6§‡)       7ÿ_ 	fíÖpi ÙAH*

ppo/policy/policykl    T?šB)       7ÿ_ 	ÂíÖpi ÙAH*

ppo/policy/clipfrac    *
m«0       •õÐ_	"îÖpi ÙAH*#
!
ppo/policy/advantages_mean   2òú{Ø&       sOã 	€îÖpi ÙAH*

ppo/returns/meanê Â¿ogd²%       ê¼6ó	ÛîÖpi ÙAH*

ppo/returns/varN[9 ç\F#       °ŸwC	3ïÖpi ÙAH*

ppo/val/vpredlvÂ¿Üëf¶#       °ŸwC	ÁïÖpi ÙAH*

ppo/val/error¢KV9®N¯&       sOã 	ÒïÖpi ÙAH*

ppo/val/clipfrac    õ¿Qè"       x=ý	(ðÖpi ÙAH*

ppo/val/means}Â¿½Y= !       {ìö	ðÖpi ÙAH*

ppo/val/var    úß ‚+       †ÃK	ØðÖpi ÙAH*

ppo/val/var_explainedÀá°<ñËª'       »á±F	2ñÖpi ÙAH*

ppo/learning_rateÀÏ¸:âÂ|¡+       †ÃK	ŠñÖpi ÙAH*

time/ppo/forward_passô>Š+¦.       ÅËWú	êñÖpi ÙAH*!

time/ppo/compute_rewards ×:¿±1       ƒƒé	@òÖpi ÙAH*$
"
time/ppo/compute_advantages à;8kB,       ô®ÌE	˜òÖpi ÙAH*

time/ppo/optimize_step€T?6À±+)       7ÿ_ 	ëòÖpi ÙAH*

time/ppo/calc_stats 1>{þâŽ$       B+€M	EóÖpi ÙAH*

time/ppo/total Ë?mÉ‹]%       ê¼6ó	˜óÖpi ÙAH*

env/reward_mean®ž>@ûÃ$       B+€M	ëóÖpi ÙAH*

env/reward_std¤Êl<¬î"       x=ý	»¼Ãsi ÙAI*

objective/klDAnöŸÂ'       »á±F	(½Ãsi ÙAI*

objective/kl_coef6.V>B»88'       »á±F	G½Ãsi ÙAI*

objective/entropy    Ù«Á/       m]P	]½Ãsi ÙAI*"
 
ppo/mean_non_score_reward³Nê¿ÛÁÁÉ%       ê¼6ó	p½Ãsi ÙAI*

ppo/mean_scores®ž>#FrŒ$       B+€M	‚½Ãsi ÙAI*

ppo/std_scores¤Êl<ŽZ>-       <AŠû	”½Ãsi ÙAI* 

tokens/queries_len_mean  äBzË0ž,       ô®ÌE	¦½Ãsi ÙAI*

tokens/queries_len_std    šÑ³è/       m]P	º½Ãsi ÙAI*"
 
tokens/responses_len_mean  €?‰=‹6.       ÅËWú	Ë½Ãsi ÙAI*!

tokens/responses_len_std    ¯h §%       ê¼6ó	Þ½Ãsi ÙAI*

ppo/loss/policy  €1°Æ¼$       B+€M	L¿Ãsi ÙAI*

ppo/loss/valueH¼Õ8dp‘$       B+€M	bÀÃsi ÙAI*

ppo/loss/total+7Óv¸(       ÿpJ	ûÀÃsi ÙAI*

ppo/policy/entropy  €5®ãyØ)       7ÿ_ 	ðÂÃsi ÙAI*

ppo/policy/approxkl    xxv)       7ÿ_ 	cÃÃsi ÙAI*

ppo/policy/policykl    z¥¦Á)       7ÿ_ 	ÅÃÃsi ÙAI*

ppo/policy/clipfrac    ,x±0       •õÐ_	#ÄÃsi ÙAI*#
!
ppo/policy/advantages_mean  €±—ƒ„Œ&       sOã 	ÄÃsi ÙAI*

ppo/returns/meanHÇÂ¿"Ày%       ê¼6ó	ÝÄÃsi ÙAI*

ppo/returns/var&[9Qå±K#       °ŸwC	CÅÃsi ÙAI*

ppo/val/vpred¼æÂ¿Á´#       °ŸwC	 ÅÃsi ÙAI*

ppo/val/errorH¼U9N»nP&       sOã 	ûÅÃsi ÙAI*

ppo/val/clipfrac    Zßt•"       x=ý	QÆÃsi ÙAI*

ppo/val/mean¾Â¿Ó( Æ!       {ìö	¸ÆÃsi ÙAI*

ppo/val/var    ¹óí+       †ÃK	ÇÃsi ÙAI*

ppo/val/var_explainedÀÍÅ<ˆ%Ð'       »á±F	šÇÃsi ÙAI*

ppo/learning_rateÀÏ¸:2†Í+       †ÃK	¬ÇÃsi ÙAI*

time/ppo/forward_pass Ý>“WÒÁ.       ÅËWú	ÈÃsi ÙAI*!

time/ppo/compute_rewards 0Ù:sŒb¯1       ƒƒé	\ÈÃsi ÙAI*$
"
time/ppo/compute_advantages Ä;j»Ø>,       ô®ÌE	µÈÃsi ÙAI*

time/ppo/optimize_stepPT?y|DÉ)       7ÿ_ 		ÉÃsi ÙAI*

time/ppo/calc_statsK>öºNÇ$       B+€M	_ÉÃsi ÙAI*

time/ppo/totalÌî?hgúÝ%       ê¼6ó	¼ÉÃsi ÙAI*

env/reward_mean®ž>òì«$       B+€M	ÊÃsi ÙAI*

env/reward_std¤Êl<{/a]"       x=ý	âûÇvi ÙAJ*

objective/klDAºÜ^Ž'       »á±F	QüÇvi ÙAJ*

objective/kl_coefMQV>FÄÞÉ'       »á±F	qüÇvi ÙAJ*

objective/entropy    ªü±/       m]P	ˆüÇvi ÙAJ*"
 
ppo/mean_non_score_rewarduê¿Š
¬?%       ê¼6ó	üÇvi ÙAJ*

ppo/mean_scores®ž>ê/n¿$       B+€M	±üÇvi ÙAJ*

ppo/std_scores¤Êl<¾Ú -       <AŠû	ÃüÇvi ÙAJ* 

tokens/queries_len_mean  äBâË,       ô®ÌE	ÕüÇvi ÙAJ*

tokens/queries_len_std    «â\©/       m]P	èüÇvi ÙAJ*"
 
tokens/responses_len_mean  €?ëø”.       ÅËWú	üüÇvi ÙAJ*!

tokens/responses_len_std    eý¦%       ê¼6ó	ýÇvi ÙAJ*

ppo/loss/policy   2Í‘$       B+€M	r Èvi ÙAJ*

ppo/loss/value{;Õ8@Øi$       B+€M	Ÿ Èvi ÙAJ*

ppo/loss/totalüµ*7÷Ùç2(       ÿpJ	· Èvi ÙAJ*

ppo/policy/entropy  €57w)       7ÿ_ 	Ë Èvi ÙAJ*

ppo/policy/approxkl    É™®ö)       7ÿ_ 	Þ Èvi ÙAJ*

ppo/policy/policykl    a¬_)       7ÿ_ 	ï Èvi ÙAJ*

ppo/policy/clipfrac    ß€Ô0       •õÐ_	Èvi ÙAJ*#
!
ppo/policy/advantages_mean   ²¿Dv¸&       sOã 	"Èvi ÙAJ*

ppo/returns/mean¬íÂ¿\P4”%       ê¼6ó	MÈvi ÙAJ*

ppo/returns/var%[9ù!#       °ŸwC	dÈvi ÙAJ*

ppo/val/vpredÑÂ¿=J†¿#       °ŸwC	vÈvi ÙAJ*

ppo/val/error{;U9Ò‰Û&       sOã 	ˆÈvi ÙAJ*

ppo/val/clipfrac    å„³Z"       x=ý	˜Èvi ÙAJ*

ppo/val/mean·ÍÂ¿UÛ³Ø!       {ìö	©Èvi ÙAJ*

ppo/val/var    áß`+       †ÃK	»Èvi ÙAJ*

ppo/val/var_explained ŸØ<XQ›¢'       »á±F	ÍÈvi ÙAJ*

ppo/learning_rateÀÏ¸:VðÆ+       †ÃK	4Èvi ÙAJ*

time/ppo/forward_passà˜>¤Û–.       ÅËWú	–Èvi ÙAJ*!

time/ppo/compute_rewards èÖ:ÝÃÃù1       ƒƒé	ñÈvi ÙAJ*$
"
time/ppo/compute_advantages  ;†Z,       ô®ÌE	HÈvi ÙAJ*

time/ppo/optimize_stepXNT?K¢ò)       7ÿ_ 	 Èvi ÙAJ*

time/ppo/calc_stats`—>”§6n$       B+€M	óÈvi ÙAJ*

time/ppo/total‚2‘?‘tg>%       ê¼6ó	HÈvi ÙAJ*

env/reward_mean®ž>®ÚÐ©$       B+€M	Èvi ÙAJ*

env/reward_std¤Êl<)[ìB"       x=ý	áÉyi ÙAK*

objective/klDArBÄ'       »á±F	ŒáÉyi ÙAK*

objective/kl_coefjtV>pˆ±Þ'       »á±F	­áÉyi ÙAK*

objective/entropy    ŸÉ±8/       m]P	ÄáÉyi ÙAK*"
 
ppo/mean_non_score_reward€›ê¿W+dn%       ê¼6ó	×áÉyi ÙAK*

ppo/mean_scores®ž>Ï ]$       B+€M	éáÉyi ÙAK*

ppo/std_scores¤Êl<!EÿZ-       <AŠû	üáÉyi ÙAK* 

tokens/queries_len_mean  äBK˜,       ô®ÌE	âÉyi ÙAK*

tokens/queries_len_std    ÏíÔ/       m]P	âÉyi ÙAK*"
 
tokens/responses_len_mean  €? ikÞ.       ÅËWú	1âÉyi ÙAK*!

tokens/responses_len_std    jtÀ%       ê¼6ó	CâÉyi ÙAK*

ppo/loss/policy  @²"n¤Q$       B+€M	:äÉyi ÙAK*

ppo/loss/value½òÔ8)rÍð$       B+€M	HèÉyi ÙAK*

ppo/loss/totalÊ+*7Æh(       ÿpJ	vèÉyi ÙAK*

ppo/policy/entropy  €5­á¡v)       7ÿ_ 	ŽèÉyi ÙAK*

ppo/policy/approxkl    ©Ã>?)       7ÿ_ 	¢èÉyi ÙAK*

ppo/policy/policykl    @ýaß)       7ÿ_ 	µèÉyi ÙAK*

ppo/policy/clipfrac    “Þþ0       •õÐ_	ÈèÉyi ÙAK*#
!
ppo/policy/advantages_mean  @2€†Í&       sOã 	ÚèÉyi ÙAK*

ppo/returns/meanÃ¿–cM®%       ê¼6ó	ìèÉyi ÙAK*

ppo/returns/varN[9¹¸Ô	#       °ŸwC	ýèÉyi ÙAK*

ppo/val/vpred`(Ã¿íZ#       °ŸwC	éÉyi ÙAK*

ppo/val/error½òT9<Es&       sOã 	¡éÉyi ÙAK*

ppo/val/clipfrac    #'""       x=ý	´éÉyi ÙAK*

ppo/val/mean Ã¿Ÿµ²1!       {ìö	êÉyi ÙAK*

ppo/val/var    7÷%+       †ÃK	bêÉyi ÙAK*

ppo/val/var_explained Eã<*Û«'       »á±F	µêÉyi ÙAK*

ppo/learning_rateÀÏ¸:%éå/+       †ÃK		ëÉyi ÙAK*

time/ppo/forward_pass Ù!>šR~.       ÅËWú	bëÉyi ÙAK*!

time/ppo/compute_rewards €Ø:£ü¸Í1       ƒƒé	¸ëÉyi ÙAK*$
"
time/ppo/compute_advantages <;ëÖ¹,       ô®ÌE	ìÉyi ÙAK*

time/ppo/optimize_stepðW?Œ¢)       7ÿ_ 	\ìÉyi ÙAK*

time/ppo/calc_stats0~>Gœv$       B+€M	¬ìÉyi ÙAK*

time/ppo/total‰“?ŒŠ%       ê¼6ó	íÉyi ÙAK*

env/reward_mean®ž>¹{C$       B+€M	RíÉyi ÙAK*

env/reward_std¤Êl<cÐIA"       x=ý	çÃ|i ÙAL*

objective/klDA{m9'       »á±F	TÃ|i ÙAL*

objective/kl_coef—V>æ/ÿ'       »á±F	rÃ|i ÙAL*

objective/entropy    šÊØ/       m]P	‰Ã|i ÙAL*"
 
ppo/mean_non_score_rewardñÁê¿X­Ã»%       ê¼6ó	œÃ|i ÙAL*

ppo/mean_scores®ž>F/b$       B+€M	®Ã|i ÙAL*

ppo/std_scores¤Êl<‹R(-       <AŠû	ÀÃ|i ÙAL* 

tokens/queries_len_mean  äB
Z¯j,       ô®ÌE	ÒÃ|i ÙAL*

tokens/queries_len_std    j¼/       m]P	äÃ|i ÙAL*"
 
tokens/responses_len_mean  €?‡<¼.       ÅËWú	÷Ã|i ÙAL*!

tokens/responses_len_std    FR?%       ê¼6ó		Ã|i ÙAL*

ppo/loss/policy    F- ÷$       B+€M	öÃ|i ÙAL*

ppo/loss/value|ÏÔ8Ä)Ô/$       B+€M	ÞÃ|i ÙAL*

ppo/loss/total–?*7œÝî»(       ÿpJ	M Ã|i ÙAL*

ppo/policy/entropy  €5~ƒÓi)       7ÿ_ 	¶ Ã|i ÙAL*

ppo/policy/approxkl    ¼Ý®€)       7ÿ_ 	!Ã|i ÙAL*

ppo/policy/policykl    ½:Ñ~)       7ÿ_ 	t!Ã|i ÙAL*

ppo/policy/clipfrac    ï©6È0       •õÐ_	Ô!Ã|i ÙAL*#
!
ppo/policy/advantages_mean    Ì·p8&       sOã 	9"Ã|i ÙAL*

ppo/returns/mean†:Ã¿N<¦w%       ê¼6ó	›"Ã|i ÙAL*

ppo/returns/var&[96Ä§U#       °ŸwC	÷"Ã|i ÙAL*

ppo/val/vpred
'Ã¿•#       °ŸwC	c#Ã|i ÙAL*

ppo/val/error|ÏT99Ét&       sOã 	Ç#Ã|i ÙAL*

ppo/val/clipfrac    ¡(Œ4"       x=ý	$Ã|i ÙAL*

ppo/val/mean¼Ã¿ yL!       {ìö	|$Ã|i ÙAL*

ppo/val/var    l£&+       †ÃK	Ñ$Ã|i ÙAL*

ppo/val/var_explained€fè<7Ê)W'       »á±F	-%Ã|i ÙAL*

ppo/learning_rateÀÏ¸:AGJ(+       †ÃK	‹%Ã|i ÙAL*

time/ppo/forward_pass°>õÀBe.       ÅËWú	õ%Ã|i ÙAL*!

time/ppo/compute_rewards à×:Ò½‹P1       ƒƒé	K&Ã|i ÙAL*$
"
time/ppo/compute_advantages  ;ló©,       ô®ÌE	¥&Ã|i ÙAL*

time/ppo/optimize_step [S?E`)       7ÿ_ 	'Ã|i ÙAL*

time/ppo/calc_stats€l>ôF}$       B+€M	”'Ã|i ÙAL*

time/ppo/totalœ"?ÊZ“%       ê¼6ó	§'Ã|i ÙAL*

env/reward_mean®ž><·É$       B+€M	ý'Ã|i ÙAL*

env/reward_std¤Êl< ƒ"       x=ý	•,Çi ÙAM*

objective/klDAöÓ§f'       »á±F	þ,Çi ÙAM*

objective/kl_coef¶ºV>qÿ¨Ö'       »á±F	 -Çi ÙAM*

objective/entropy    äùq/       m]P	7-Çi ÙAM*"
 
ppo/mean_non_score_rewardgèê¿ILhy%       ê¼6ó	L-Çi ÙAM*

ppo/mean_scores®ž>þJçö$       B+€M	`-Çi ÙAM*

ppo/std_scores¤Êl<.4ú-       <AŠû	s-Çi ÙAM* 

tokens/queries_len_mean  äBÛ|ñ¡,       ô®ÌE	…-Çi ÙAM*

tokens/queries_len_std    ±u//       m]P	™-Çi ÙAM*"
 
tokens/responses_len_mean  €?¦Q)5.       ÅËWú	«-Çi ÙAM*!

tokens/responses_len_std    SÜf%       ê¼6ó	½-Çi ÙAM*

ppo/loss/policy   2Ç)ƒ$       B+€M	 0Çi ÙAM*

ppo/loss/valueÂ•Ô8ÿÎ/$       B+€M	,0Çi ÙAM*

ppo/loss/totalh1*7‰U(       ÿpJ	¼0Çi ÙAM*

ppo/policy/entropy  €5`„8])       7ÿ_ 	&1Çi ÙAM*

ppo/policy/approxkl    ]¢ãþ)       7ÿ_ 	„1Çi ÙAM*

ppo/policy/policykl    x"9ˆ)       7ÿ_ 	Ù1Çi ÙAM*

ppo/policy/clipfrac    ÃFŸ0       •õÐ_	62Çi ÙAM*#
!
ppo/policy/advantages_mean   ²¤›&       sOã 	’2Çi ÙAM*

ppo/returns/meanü`Ã¿·¢ÍŽ%       ê¼6ó	è2Çi ÙAM*

ppo/returns/var%[9—*D2#       °ŸwC	C3Çi ÙAM*

ppo/val/vpredèmÃ¿”©ªÿ#       °ŸwC	™3Çi ÙAM*

ppo/val/errorÂ•T9^Ñ&       sOã 	ë3Çi ÙAM*

ppo/val/clipfrac    ë)"×"       x=ý	A4Çi ÙAM*

ppo/val/mean‚TÃ¿|ý Š!       {ìö	”4Çi ÙAM*

ppo/val/var    *~×+       †ÃK	ì4Çi ÙAM*

ppo/val/var_explained€Õð<¹½óÚ'       »á±F	@5Çi ÙAM*

ppo/learning_rateÀÏ¸:§û‘^+       †ÃK	™5Çi ÙAM*

time/ppo/forward_pass@¸%>ÈGŽ.       ÅËWú	ñ5Çi ÙAM*!

time/ppo/compute_rewards €Þ:{úþi1       ƒƒé	F6Çi ÙAM*$
"
time/ppo/compute_advantages @&;0†õ—,       ô®ÌE	›6Çi ÙAM*

time/ppo/optimize_stepQX?Y€mB)       7ÿ_ 	ð6Çi ÙAM*

time/ppo/calc_stats€è>þ0$       B+€M	E7Çi ÙAM*

time/ppo/totalòÉ“?‰ÃV%       ê¼6ó	œ7Çi ÙAM*

env/reward_mean®ž>œû$       B+€M	ì7Çi ÙAM*

env/reward_std¤Êl<’Ö"       x=ý	wpÀ‚i ÙAN*

objective/klDA}‰€'       »á±F	äpÀ‚i ÙAN*

objective/kl_coefäÝV>×Z‹ '       »á±F	qÀ‚i ÙAN*

objective/entropy    HÑå6/       m]P	qÀ‚i ÙAN*"
 
ppo/mean_non_score_rewardäë¿²ûnä%       ê¼6ó	-qÀ‚i ÙAN*

ppo/mean_scores®ž>%¤Z$       B+€M	@qÀ‚i ÙAN*

ppo/std_scores¤Êl<õ¬â-       <AŠû	WqÀ‚i ÙAN* 

tokens/queries_len_mean  äB%ÃÀª,       ô®ÌE	iqÀ‚i ÙAN*

tokens/queries_len_std    z5àû/       m]P	|qÀ‚i ÙAN*"
 
tokens/responses_len_mean  €?ÊèÓ¼.       ÅËWú	qÀ‚i ÙAN*!

tokens/responses_len_std    €pe%       ê¼6ó	¥qÀ‚i ÙAN*

ppo/loss/policy  €²{L$       B+€M	WvÀ‚i ÙAN*

ppo/loss/value¡¥Ô8õL$$       B+€M	†vÀ‚i ÙAN*

ppo/loss/totalÞ)7Ù(       ÿpJ	 vÀ‚i ÙAN*

ppo/policy/entropy  €5l›¸Ò)       7ÿ_ 	µvÀ‚i ÙAN*

ppo/policy/approxkl    ’pí)       7ÿ_ 	ÈvÀ‚i ÙAN*

ppo/policy/policykl    FoÉ)       7ÿ_ 	ÝvÀ‚i ÙAN*

ppo/policy/clipfrac    =©w›0       •õÐ_	ñvÀ‚i ÙAN*#
!
ppo/policy/advantages_mean  €2ÑíøÈ&       sOã 	
wÀ‚i ÙAN*

ppo/returns/meanx‡Ã¿¬dše%       ê¼6ó	wÀ‚i ÙAN*

ppo/returns/varN[9dbÂ9#       °ŸwC	.wÀ‚i ÙAN*

ppo/val/vpredzÃ¿Õæ¶š#       °ŸwC	ÉwÀ‚i ÙAN*

ppo/val/error¡¥T9Äª„	&       sOã 	ÛwÀ‚i ÙAN*

ppo/val/clipfrac    ¾tD×"       x=ý	4xÀ‚i ÙAN*

ppo/val/meanXiÃ¿ñ×x!       {ìö	¨xÀ‚i ÙAN*

ppo/val/var    ®²	+       †ÃK	yÀ‚i ÙAN*

ppo/val/var_explained ‰î<Z-'       »á±F	\yÀ‚i ÙAN*

ppo/learning_rateÀÏ¸:˜Å‡+       †ÃK	²yÀ‚i ÙAN*

time/ppo/forward_pass­>°úˆ.       ÅËWú	zÀ‚i ÙAN*!

time/ppo/compute_rewards 0Ð:aÉÎà1       ƒƒé	fzÀ‚i ÙAN*$
"
time/ppo/compute_advantages  ;«÷,       ô®ÌE	ºzÀ‚i ÙAN*

time/ppo/optimize_step´mT?èõyÍ)       7ÿ_ 	{À‚i ÙAN*

time/ppo/calc_stats>77€$       B+€M	e{À‚i ÙAN*

time/ppo/totalª‘?×Û·!%       ê¼6ó	¹{À‚i ÙAN*

env/reward_mean®ž>2É$       B+€M	|À‚i ÙAN*

env/reward_std¤Êl<ß!š"       x=ý	€ò½…i ÙAO*

objective/klDA—æÓ'       »á±F	òò½…i ÙAO*

objective/kl_coefW>ƒ£e,'       »á±F	ó½…i ÙAO*

objective/entropy    0¿/       m]P	%ó½…i ÙAO*"
 
ppo/mean_non_score_rewardg5ë¿àù"ž%       ê¼6ó	8ó½…i ÙAO*

ppo/mean_scores®ž>mpž-$       B+€M	Jó½…i ÙAO*

ppo/std_scores¤Êl<×ŠB-       <AŠû	[ó½…i ÙAO* 

tokens/queries_len_mean  äB8^˜ï,       ô®ÌE	mó½…i ÙAO*

tokens/queries_len_std    ¸ôo/       m]P	ó½…i ÙAO*"
 
tokens/responses_len_mean  €?12uk.       ÅËWú	’ó½…i ÙAO*!

tokens/responses_len_std    Òú£À%       ê¼6ó	¤ó½…i ÙAO*

ppo/loss/policy  €1!e0÷$       B+€M	Qø½…i ÙAO*

ppo/loss/valuetkÔ8@›%a$       B+€M	ø½…i ÙAO*

ppo/loss/totalÿ)7_{(       ÿpJ	—ø½…i ÙAO*

ppo/policy/entropy  €5ˆßôà)       7ÿ_ 	ªø½…i ÙAO*

ppo/policy/approxkl    ÝW)       7ÿ_ 	½ø½…i ÙAO*

ppo/policy/policykl    D´4Ô)       7ÿ_ 	Îø½…i ÙAO*

ppo/policy/clipfrac    8+ƒ0       •õÐ_	âø½…i ÙAO*#
!
ppo/policy/advantages_mean  €±õ
JA&       sOã 	ôø½…i ÙAO*

ppo/returns/meanü­Ã¿rhmô%       ê¼6ó	ù½…i ÙAO*

ppo/returns/var&[9×lQ#       °ŸwC	ù½…i ÙAO*

ppo/val/vpredÜµÃ¿B>®#       °ŸwC	›ù½…i ÙAO*

ppo/val/errortkT9'{¨ù&       sOã 	ú½…i ÙAO*

ppo/val/clipfrac    ¤c/ê"       x=ý	šú½…i ÙAO*

ppo/val/mean¢ Ã¿4ð!       {ìö	!û½…i ÙAO*

ppo/val/var    ûWç.+       †ÃK	Ÿû½…i ÙAO*

ppo/val/var_explainedà÷<pÅw!'       »á±F	ü½…i ÙAO*

ppo/learning_rateÀÏ¸:á·ò+       †ÃK	vü½…i ÙAO*

time/ppo/forward_passPn>(T,X.       ÅËWú	×ü½…i ÙAO*!

time/ppo/compute_rewards (Ø:ôjT1       ƒƒé	8ý½…i ÙAO*$
"
time/ppo/compute_advantages <;x¨º3,       ô®ÌE	Œý½…i ÙAO*

time/ppo/optimize_stepDÕS??]ùÌ)       7ÿ_ 	çý½…i ÙAO*

time/ppo/calc_stats W>Ý˜ÔÆ$       B+€M	_þ½…i ÙAO*

time/ppo/totalfÊ?l|%       ê¼6ó	¼þ½…i ÙAO*

env/reward_mean®ž>¹Ri$       B+€M	ÿ½…i ÙAO*

env/reward_std¤Êl<Â
§"       x=ý	±Àˆi ÙAP*

objective/klDAõÒ|'       »á±F	Àˆi ÙAP*

objective/kl_coefR$W>8@j'       »á±F	=Àˆi ÙAP*

objective/entropy    âIŽ/       m]P	TÀˆi ÙAP*"
 
ppo/mean_non_score_rewardð[ë¿ƒU?%       ê¼6ó	jÀˆi ÙAP*

ppo/mean_scores®ž>!ß$       B+€M	|Àˆi ÙAP*

ppo/std_scores¤Êl<—%û-       <AŠû	Àˆi ÙAP* 

tokens/queries_len_mean  äBòËñ,       ô®ÌE	¡Àˆi ÙAP*

tokens/queries_len_std    „"–¼/       m]P	³Àˆi ÙAP*"
 
tokens/responses_len_mean  €?*îÇ.       ÅËWú	ÄÀˆi ÙAP*!

tokens/responses_len_std    Ñ´]»%       ê¼6ó	ÕÀˆi ÙAP*

ppo/loss/policy  €²[„x$       B+€M	`Àˆi ÙAP*

ppo/loss/value ”Ô8Mâ3’$       B+€M	2 Àˆi ÙAP*

ppo/loss/totalÐ)7zäã](       ÿpJ	a Àˆi ÙAP*

ppo/policy/entropy  €585bÞ)       7ÿ_ 	| Àˆi ÙAP*

ppo/policy/approxkl    …×2)       7ÿ_ 	 Àˆi ÙAP*

ppo/policy/policykl    ½ëü¥)       7ÿ_ 	¢ Àˆi ÙAP*

ppo/policy/clipfrac    >Ö`0       •õÐ_	µ Àˆi ÙAP*#
!
ppo/policy/advantages_mean  €2"·4&       sOã 	Í Àˆi ÙAP*

ppo/returns/mean„ÔÃ¿þ¿ZÔ%       ê¼6ó	á Àˆi ÙAP*

ppo/returns/varN[9¶ 
†#       °ŸwC	ó Àˆi ÙAP*

ppo/val/vpredlËÃ¿p QÌ#       °ŸwC	>#Àˆi ÙAP*

ppo/val/error ”T9œåû
&       sOã 	k#Àˆi ÙAP*

ppo/val/clipfrac    HÇ›í"       x=ý	“%Àˆi ÙAP*

ppo/val/mean·Ã¿R.Š!       {ìö	¿%Àˆi ÙAP*

ppo/val/var    ©¯à~+       †ÃK	Ö%Àˆi ÙAP*

ppo/val/var_explained ñ<ôØç='       »á±F	è%Àˆi ÙAP*

ppo/learning_rateÀÏ¸:ËGn+       †ÃK	û%Àˆi ÙAP*

time/ppo/forward_passàš!>»W,%.       ÅËWú	&Àˆi ÙAP*!

time/ppo/compute_rewards ˆÖ:º•ò­1       ƒƒé	&Àˆi ÙAP*$
"
time/ppo/compute_advantages ¼;HÜå,       ô®ÌE	.&Àˆi ÙAP*

time/ppo/optimize_stepâW?¼]…)       7ÿ_ 	&Àˆi ÙAP*

time/ppo/calc_stats€>Å	}Ž$       B+€M	î&Àˆi ÙAP*

time/ppo/total¨L“?L—í%       ê¼6ó	K'Àˆi ÙAP*

env/reward_mean®ž>Ë¹íŽ$       B+€M	¥'Àˆi ÙAP*

env/reward_std¤Êl<HœüK"       x=ý	Á¿‹i ÙAQ*

objective/klDACVv('       »á±F	4¿‹i ÙAQ*

objective/kl_coef’GW>~³n'       »á±F	T¿‹i ÙAQ*

objective/entropy    C¯1÷/       m]P	j¿‹i ÙAQ*"
 
ppo/mean_non_score_reward€‚ë¿Æ›Óy%       ê¼6ó	€¿‹i ÙAQ*

ppo/mean_scores®ž>XA¨X$       B+€M	“¿‹i ÙAQ*

ppo/std_scores¤Êl<¼2Ìú-       <AŠû	¥¿‹i ÙAQ* 

tokens/queries_len_mean  äB;TÆb,       ô®ÌE	·¿‹i ÙAQ*

tokens/queries_len_std    d´/       m]P	Ê¿‹i ÙAQ*"
 
tokens/responses_len_mean  €?™,Mû.       ÅËWú	Ü¿‹i ÙAQ*!

tokens/responses_len_std    R‘3%       ê¼6ó	í¿‹i ÙAQ*

ppo/loss/policy  @²Éä+u$       B+€M	Ò¿‹i ÙAQ*

ppo/loss/valueúYÔ8FCF$       B+€M	Ø¿‹i ÙAQ*

ppo/loss/total•±)7íIþÅ(       ÿpJ	> ¿‹i ÙAQ*

ppo/policy/entropy  €5…‘g)       7ÿ_ 	± ¿‹i ÙAQ*

ppo/policy/approxkl    ò£)       7ÿ_ 	!¿‹i ÙAQ*

ppo/policy/policykl    =Åá )       7ÿ_ 	\!¿‹i ÙAQ*

ppo/policy/clipfrac    ¡w0       •õÐ_	¹!¿‹i ÙAQ*#
!
ppo/policy/advantages_mean  @2mo>&       sOã 	"¿‹i ÙAQ*

ppo/returns/meanûÃ¿@ö4”%       ê¼6ó	u"¿‹i ÙAQ*

ppo/returns/varN[9bþjÄ#       °ŸwC	Ñ"¿‹i ÙAQ*

ppo/val/vpreddÿÃ¿ÖB#       °ŸwC	*#¿‹i ÙAQ*

ppo/val/errorúYT9–¼¦g&       sOã 	˜#¿‹i ÙAQ*

ppo/val/clipfrac    bÊ"       x=ý	õ#¿‹i ÙAQ*

ppo/val/meanšìÃ¿`§æý!       {ìö	P$¿‹i ÙAQ*

ppo/val/var    ÚdX·+       †ÃK	«$¿‹i ÙAQ*

ppo/val/var_explained@—ù<jN'       »á±F	%¿‹i ÙAQ*

ppo/learning_rateÀÏ¸:çLµ+       †ÃK	`%¿‹i ÙAQ*

time/ppo/forward_pass š >
VCØ.       ÅËWú	À%¿‹i ÙAQ*!

time/ppo/compute_rewards (Ù:²2gÚ1       ƒƒé	&¿‹i ÙAQ*$
"
time/ppo/compute_advantages L;ª¿,       ô®ÌE	p&¿‹i ÙAQ*

time/ppo/optimize_step¤DX?’èE)       7ÿ_ 	È&¿‹i ÙAQ*

time/ppo/calc_statsC>e:)$       B+€M	W'¿‹i ÙAQ*

time/ppo/totalND“?ÇäEÞ%       ê¼6ó	j'¿‹i ÙAQ*

env/reward_mean®ž>A‡¬ $       B+€M	¿'¿‹i ÙAQ*

env/reward_std¤Êl<üF~Ç"       x=ý	RÀŽi ÙAR*

objective/klDAüeŸ '       »á±F	ÄÀŽi ÙAR*

objective/kl_coef×jW>ÎÞ»È'       »á±F	áÀŽi ÙAR*

objective/entropy    !¶Pµ/       m]P	÷ÀŽi ÙAR*"
 
ppo/mean_non_score_reward©ë¿6«Â%       ê¼6ó	ÀŽi ÙAR*

ppo/mean_scores®ž>öFl$       B+€M	 ÀŽi ÙAR*

ppo/std_scores¤Êl<Žig-       <AŠû	3ÀŽi ÙAR* 

tokens/queries_len_mean  äB­”.,       ô®ÌE	EÀŽi ÙAR*

tokens/queries_len_std    '$Ð/       m]P	WÀŽi ÙAR*"
 
tokens/responses_len_mean  €?8œ”.       ÅËWú	iÀŽi ÙAR*!

tokens/responses_len_std    (X@%       ê¼6ó	zÀŽi ÙAR*

ppo/loss/policy   2K¼FQ$       B+€M	µÀŽi ÙAR*

ppo/loss/value®‹Ô8•Î¡Ô$       B+€M	IÀŽi ÙAR*

ppo/loss/totalX)*7Vø0C(       ÿpJ	wÀŽi ÙAR*

ppo/policy/entropy  €5ÍÜ¹)       7ÿ_ 	·ÀŽi ÙAR*

ppo/policy/approxkl    _»l÷)       7ÿ_ 	äÀŽi ÙAR*

ppo/policy/policykl    ì})       7ÿ_ 	ûÀŽi ÙAR*

ppo/policy/clipfrac    ì€ÂV0       •õÐ_	 ÀŽi ÙAR*#
!
ppo/policy/advantages_mean   ²¨0
à&       sOã 	) ÀŽi ÙAR*

ppo/returns/meanª!Ä¿lRxb%       ê¼6ó	< ÀŽi ÙAR*

ppo/returns/var%[9°¡“K#       °ŸwC	N ÀŽi ÙAR*

ppo/val/vpredšÄ¿…JÞ#       °ŸwC	^ ÀŽi ÙAR*

ppo/val/error®‹T9ê¾X[&       sOã 	n ÀŽi ÙAR*

ppo/val/clipfrac    KÔz"       x=ý	 ÀŽi ÙAR*

ppo/val/meanKÄ¿!VuK!       {ìö	Ö ÀŽi ÙAR*

ppo/val/var    ¨ÿC…+       †ÃK	1!ÀŽi ÙAR*

ppo/val/var_explained`Nò<;ì~'       »á±F	‡!ÀŽi ÙAR*

ppo/learning_rateÀÏ¸:nÙJ§+       †ÃK	Þ!ÀŽi ÙAR*

time/ppo/forward_pass°!>§¾ò.       ÅËWú	="ÀŽi ÙAR*!

time/ppo/compute_rewards p×:Ÿ"˜l1       ƒƒé	•"ÀŽi ÙAR*$
"
time/ppo/compute_advantages $";),       ô®ÌE	#ÀŽi ÙAR*

time/ppo/optimize_stepÖS?'>ã[)       7ÿ_ 	[#ÀŽi ÙAR*

time/ppo/calc_stats Ò>Ö¤Ö$       B+€M	¬#ÀŽi ÙAR*

time/ppo/totalÊþ?jà|%       ê¼6ó	þ#ÀŽi ÙAR*

env/reward_mean®ž>ôcø)$       B+€M	P$ÀŽi ÙAR*

env/reward_std¤Êl<¬ËX"       x=ý	Q¶‘i ÙAS*

objective/klDAÐ¹¨š'       »á±F	¿¶‘i ÙAS*

objective/kl_coef#ŽW>,¯ '       »á±F	Ü¶‘i ÙAS*

objective/entropy     ð
ß/       m]P	ò¶‘i ÙAS*"
 
ppo/mean_non_score_reward³Ïë¿Ú/Éè%       ê¼6ó	¶‘i ÙAS*

ppo/mean_scores®ž>hþQû$       B+€M	¶‘i ÙAS*

ppo/std_scores¤Êl<†LÃi-       <AŠû	.¶‘i ÙAS* 

tokens/queries_len_mean  äB#û,       ô®ÌE	@¶‘i ÙAS*

tokens/queries_len_std    ýŒXê/       m]P	R¶‘i ÙAS*"
 
tokens/responses_len_mean  €?tCÔk.       ÅËWú	c¶‘i ÙAS*!

tokens/responses_len_std    œ#(–%       ê¼6ó	v¶‘i ÙAS*

ppo/loss/policy  €1dEHÁ$       B+€M	ñ¶‘i ÙAS*

ppo/loss/valueUÔ8ûgk$       B+€M	 ¶‘i ÙAS*

ppo/loss/total®í)7Í©H(       ÿpJ	G¶‘i ÙAS*

ppo/policy/entropy  €5ÚÄ®)       7ÿ_ 	v¶‘i ÙAS*

ppo/policy/approxkl    .,V#)       7ÿ_ 	Ž¶‘i ÙAS*

ppo/policy/policykl    myfû)       7ÿ_ 	¤¶‘i ÙAS*

ppo/policy/clipfrac    ÿy/Œ0       •õÐ_	¸¶‘i ÙAS*#
!
ppo/policy/advantages_mean  €±FH&       sOã 	Ê¶‘i ÙAS*

ppo/returns/meanHHÄ¿äN%       ê¼6ó	Ý¶‘i ÙAS*

ppo/returns/var&[9|ágA#       °ŸwC	ï¶‘i ÙAS*

ppo/val/vpredJÄ¿­µø¶#       °ŸwC	 ¶‘i ÙAS*

ppo/val/errorUT9àÁ&       sOã 	c¶‘i ÙAS*

ppo/val/clipfrac    ×‰O"       x=ý	¼¶‘i ÙAS*

ppo/val/mean^8Ä¿Z[½á!       {ìö	¶‘i ÙAS*

ppo/val/var    FÞ+       †ÃK	q¶‘i ÙAS*

ppo/val/var_explainedàGú<fèšî'       »á±F	Ê¶‘i ÙAS*

ppo/learning_rateÀÏ¸:ÍÐü+       †ÃK	%¶‘i ÙAS*

time/ppo/forward_passÐÁ><°¿.       ÅËWú	€¶‘i ÙAS*!

time/ppo/compute_rewards XÕ:ëŠÃ1       ƒƒé	Ù¶‘i ÙAS*$
"
time/ppo/compute_advantages €;pPøx,       ô®ÌE	2¶‘i ÙAS*

time/ppo/optimize_step´‡S?UµK÷)       7ÿ_ 	Œ¶‘i ÙAS*

time/ppo/calc_statsp«>ÿíx$       B+€M	â¶‘i ÙAS*

time/ppo/total?ù( %       ê¼6ó	:¶‘i ÙAS*

env/reward_mean®ž>ã06$       B+€M	¶‘i ÙAS*

env/reward_std¤Êl<Hý…"       x=ý	8Y«”i ÙAT*

objective/klDAåFü'       »á±F	¨Y«”i ÙAT*

objective/kl_coeft±W>êP'       »á±F	ÆY«”i ÙAT*

objective/entropy    Á¼Íb/       m]P	ÜY«”i ÙAT*"
 
ppo/mean_non_score_rewardUöë¿å0Bé%       ê¼6ó	òY«”i ÙAT*

ppo/mean_scores®ž>U€1$       B+€M	Z«”i ÙAT*

ppo/std_scores¤Êl<ˆGÎ«-       <AŠû	Z«”i ÙAT* 

tokens/queries_len_mean  äB–Ó¹,       ô®ÌE	,Z«”i ÙAT*

tokens/queries_len_std    wëI»/       m]P	?Z«”i ÙAT*"
 
tokens/responses_len_mean  €?¤ä.       ÅËWú	PZ«”i ÙAT*!

tokens/responses_len_std    œŠ
à%       ê¼6ó	bZ«”i ÙAT*

ppo/loss/policy    ®`	Á$       B+€M	·\«”i ÙAT*

ppo/loss/value…Ô8Ò26$       B+€M	J_«”i ÙAT*

ppo/loss/total	*7Üàe(       ÿpJ	x_«”i ÙAT*

ppo/policy/entropy  €5e~ºî)       7ÿ_ 	Þa«”i ÙAT*

ppo/policy/approxkl    é=à)       7ÿ_ 	b«”i ÙAT*

ppo/policy/policykl    Ð4‰)       7ÿ_ 	%b«”i ÙAT*

ppo/policy/clipfrac    êyÞg0       •õÐ_	ße«”i ÙAT*#
!
ppo/policy/advantages_mean    òäž&       sOã 	f«”i ÙAT*

ppo/returns/meanênÄ¿!èßà%       ê¼6ó	(f«”i ÙAT*

ppo/returns/var&[9°úò«#       °ŸwC	<f«”i ÙAT*

ppo/val/vpredýjÄ¿!¾s]#       °ŸwC	Nf«”i ÙAT*

ppo/val/error…T9±¦©&       sOã 	`f«”i ÙAT*

ppo/val/clipfrac    ð”Rò"       x=ý	qf«”i ÙAT*

ppo/val/meanÕSÄ¿š³Oì!       {ìö	f«”i ÙAT*

ppo/val/var    s	z+       †ÃK	”f«”i ÙAT*

ppo/val/var_explainedÀFó<p$\'       »á±F	¤f«”i ÙAT*

ppo/learning_rateÀÏ¸:¦°C+       †ÃK	!i«”i ÙAT*

time/ppo/forward_pass ž>uÁ].       ÅËWú	Mi«”i ÙAT*!

time/ppo/compute_rewards ¨Ö:=—©&1       ƒƒé	di«”i ÙAT*$
"
time/ppo/compute_advantages p;ª±ß,       ô®ÌE	ãi«”i ÙAT*

time/ppo/optimize_stepl³R?á<d³)       7ÿ_ 	Fj«”i ÙAT*

time/ppo/calc_stats@í>ÁR+q$       B+€M	Ÿj«”i ÙAT*

time/ppo/totalb³?xÃpl%       ê¼6ó	÷j«”i ÙAT*

env/reward_mean®ž>2]ýd$       B+€M	ok«”i ÙAT*

env/reward_std¤Êl< q¯ó"       x=ý	¨§«—i ÙAU*

objective/klDAþu˜ˆ'       »á±F	¨«—i ÙAU*

objective/kl_coefËÔW>	<p±'       »á±F	1¨«—i ÙAU*

objective/entropy    *I·„/       m]P	G¨«—i ÙAU*"
 
ppo/mean_non_score_rewardþì¿9A–%       ê¼6ó	Y¨«—i ÙAU*

ppo/mean_scoresÎÎœ>,Vdd$       B+€M	j¨«—i ÙAU*

ppo/std_scoresÕ¶¤<¢°.h-       <AŠû	}¨«—i ÙAU* 

tokens/queries_len_mean  äBiÓû,       ô®ÌE	Ž¨«—i ÙAU*

tokens/queries_len_std    <š	À/       m]P	 ¨«—i ÙAU*"
 
tokens/responses_len_mean  €?ïðr•.       ÅËWú	²¨«—i ÙAU*!

tokens/responses_len_std    ÕÒ†‹%       ê¼6ó	Ã¨«—i ÙAU*

ppo/loss/policy  €2FäðK$       B+€M	p««—i ÙAU*

ppo/loss/value®ñO9¼(‚$       B+€M	Ù­«—i ÙAU*

ppo/loss/totalòz¦7 öq(       ÿpJ	®«—i ÙAU*

ppo/policy/entropy  €5-ôŸè)       7ÿ_ 	 ®«—i ÙAU*

ppo/policy/approxkl    à"r)       7ÿ_ 	4®«—i ÙAU*

ppo/policy/policykl    cM¯)       7ÿ_ 	G®«—i ÙAU*

ppo/policy/clipfrac    Üþñ0       •õÐ_	\®«—i ÙAU*#
!
ppo/policy/advantages_mean  €²ä±Ó$&       sOã 	n®«—i ÙAU*

ppo/returns/meanJéÄ¿_²¬%       ê¼6ó	€®«—i ÙAU*

ppo/returns/var–õÓ9‚õÈ#       °ŸwC	æ°«—i ÙAU*

ppo/val/vpred1çÄ¿‹ð	#       °ŸwC	±«—i ÙAU*

ppo/val/error®ñÏ9„V¬Õ&       sOã 	+±«—i ÙAU*

ppo/val/clipfrac    ¯Ç>/"       x=ý	>±«—i ÙAU*

ppo/val/mean„Ä¿PÖkû!       {ìö	Q±«—i ÙAU*

ppo/val/var    £²ææ+       †ÃK	d±«—i ÙAU*

ppo/val/var_explained€/›<‹'›‚'       »á±F	v±«—i ÙAU*

ppo/learning_rateÀÏ¸:È‡%#+       †ÃK	‰±«—i ÙAU*

time/ppo/forward_passà™ >EJ]—.       ÅËWú	š±«—i ÙAU*!

time/ppo/compute_rewards ¸Ö:èHž1       ƒƒé	¬±«—i ÙAU*$
"
time/ppo/compute_advantages h;€?m3,       ô®ÌE	I²«—i ÙAU*

time/ppo/optimize_stepuV?í ()       7ÿ_ 	\²«—i ÙAU*

time/ppo/calc_stats">tKŠê$       B+€M	¸²«—i ÙAU*

time/ppo/totalš7’?ù±°^%       ê¼6ó	³«—i ÙAU*

env/reward_meanÎÎœ>‘‡0$       B+€M	l³«—i ÙAU*

env/reward_stdÕ¶¤<9(Õþ"       x=ý	­_«ši ÙAV*

objective/klDAK9h¿'       »á±F	`«ši ÙAV*

objective/kl_coef'øW>Áq‹›'       »á±F	3`«ši ÙAV*

objective/entropy    ëÈlý/       m]P	G`«ši ÙAV*"
 
ppo/mean_non_score_reward­Cì¿ØOˆ7%       ê¼6ó	Y`«ši ÙAV*

ppo/mean_scores®ž>~©ôì$       B+€M	i`«ši ÙAV*

ppo/std_scores¤Êl<2ÚÃ©-       <AŠû	|`«ši ÙAV* 

tokens/queries_len_mean  äBhÅà,       ô®ÌE	`«ši ÙAV*

tokens/queries_len_std    àsè/       m]P	Ÿ`«ši ÙAV*"
 
tokens/responses_len_mean  €?SÐ‹.       ÅËWú	±`«ši ÙAV*!

tokens/responses_len_std    ñ„l%       ê¼6ó	Â`«ši ÙAV*

ppo/loss/policy    úïºS$       B+€M	Åb«ši ÙAV*

ppo/loss/valueò:Ü8Íma$       B+€M	Áf«ši ÙAV*

ppo/loss/total(/07“SL¢(       ÿpJ	îf«ši ÙAV*

ppo/policy/entropy  €5“Ü)       7ÿ_ 	g«ši ÙAV*

ppo/policy/approxkl    J4J)       7ÿ_ 	g«ši ÙAV*

ppo/policy/policykl    ur6ñ)       7ÿ_ 	/g«ši ÙAV*

ppo/policy/clipfrac    ²R…d0       •õÐ_	Dg«ši ÙAV*#
!
ppo/policy/advantages_mean    Q™¼o&       sOã 	Zg«ši ÙAV*

ppo/returns/meanB¼Ä¿I$q %       ê¼6ó	lg«ši ÙAV*

ppo/returns/var&[9½&`h#       °ŸwC	}g«ši ÙAV*

ppo/val/vpredüµÄ¿FSªN#       °ŸwC	Ñi«ši ÙAV*

ppo/val/errorò:\9ZÌÎz&       sOã 	ûi«ši ÙAV*

ppo/val/clipfrac    ‰ŽÏ["       x=ý	j«ši ÙAV*

ppo/val/meanÒ4Å¿Pz®ˆ!       {ìö	Zl«ši ÙAV*

ppo/val/var    ¶O*+       †ÃK	†l«ši ÙAV*

ppo/val/var_explained w´»%À“'       »á±F	m«ši ÙAV*

ppo/learning_rateÀÏ¸:•ç¾+       †ÃK	fm«ši ÙAV*

time/ppo/forward_pass0ù!>R­,Ü.       ÅËWú	Åm«ši ÙAV*!

time/ppo/compute_rewards xÖ:¶B#1       ƒƒé	n«ši ÙAV*$
"
time/ppo/compute_advantages  ;èÐOI,       ô®ÌE	un«ši ÙAV*

time/ppo/optimize_step ´S?(YÆ¾)       7ÿ_ 	Ên«ši ÙAV*

time/ppo/calc_statsÐ‚>hwÜá$       B+€M	 o«ši ÙAV*

time/ppo/totalX‘?¶#BÔ%       ê¼6ó	xo«ši ÙAV*

env/reward_mean®ž>O²8$       B+€M	Ùo«ši ÙAV*

env/reward_std¤Êl<]pˆ„"       x=ý	Ê¡i ÙAW*

objective/klDA}!‰'       »á±F	>¡i ÙAW*

objective/kl_coefŠX>†‚²'       »á±F	]¡i ÙAW*

objective/entropy    9«Ð*/       m]P	u¡i ÙAW*"
 
ppo/mean_non_score_rewardcjì¿”x®%       ê¼6ó	‰¡i ÙAW*

ppo/mean_scores®ž>%H $       B+€M	 ¡i ÙAW*

ppo/std_scores¤Êl<Ú/-       <AŠû	³¡i ÙAW* 

tokens/queries_len_mean  äBE_«,       ô®ÌE	É¡i ÙAW*

tokens/queries_len_std    øÿ§/       m]P	Ü¡i ÙAW*"
 
tokens/responses_len_mean  €?K&á.       ÅËWú	î¡i ÙAW*!

tokens/responses_len_std    [qÈ%%       ê¼6ó	 ¡i ÙAW*

ppo/loss/policy  €1öêŒç$       B+€M	J¡i ÙAW*

ppo/loss/value`äÝ8³º{&$       B+€M	!¡i ÙAW*

ppo/loss/total€“17$/(       ÿpJ	N¡i ÙAW*

ppo/policy/entropy  €5~>?U)       7ÿ_ 	h¡i ÙAW*

ppo/policy/approxkl    qîF)       7ÿ_ 	|¡i ÙAW*

ppo/policy/policykl    €KR)       7ÿ_ 	¡i ÙAW*

ppo/policy/clipfrac    2´ƒÄ0       •õÐ_	£¡i ÙAW*#
!
ppo/policy/advantages_mean  €±ožQ&&       sOã 	µ¡i ÙAW*

ppo/returns/meanøâÄ¿'9u%       ê¼6ó	È¡i ÙAW*

ppo/returns/var&[9%þ#       °ŸwC	Ú¡i ÙAW*

ppo/val/vpredóÄ¿½'ô0#       °ŸwC	ê¡i ÙAW*

ppo/val/error`ä]9ÄÌý&       sOã 	„¡i ÙAW*

ppo/val/clipfrac    £T¡"       x=ý	±¡i ÙAW*

ppo/val/meanieÄ¿zºN!       {ìö	Ï¡i ÙAW*

ppo/val/var    ØÊ+       †ÃK	ã¡i ÙAW*

ppo/val/var_explained€‹V¼w@o'       »á±F	Š¡i ÙAW*

ppo/learning_rateÀÏ¸:têb+       †ÃK	¶¡i ÙAW*

time/ppo/forward_passP¿>YÇNT.       ÅËWú	Î¡i ÙAW*!

time/ppo/compute_rewards ¸ø:Ax81       ƒƒé	E¡i ÙAW*$
"
time/ppo/compute_advantages ¸;
j+Õ,       ô®ÌE	¢¡i ÙAW*

time/ppo/optimize_stepˆœQ?,$—„)       7ÿ_ 	ù¡i ÙAW*

time/ppo/calc_stats @>Ckx6$       B+€M	O¡i ÙAW*

time/ppo/totalxüŽ?è4é­%       ê¼6ó	£¡i ÙAW*

env/reward_mean®ž>ò¾$       B+€M	ü¡i ÙAW*

env/reward_std¤Êl<¡Ër‹"       x=ý	:{˜ i ÙAX*

objective/klDAG¦Už'       »á±F	º{˜ i ÙAX*

objective/kl_coefò>X>½\ëï'       »á±F	Ö{˜ i ÙAX*

objective/entropy    íÏT9/       m]P	ë{˜ i ÙAX*"
 
ppo/mean_non_score_reward‘ì¿œÄÛ×%       ê¼6ó	þ{˜ i ÙAX*

ppo/mean_scores®ž>_‚ž$       B+€M	|˜ i ÙAX*

ppo/std_scores¤Êl<$hp-       <AŠû	#|˜ i ÙAX* 

tokens/queries_len_mean  äBc¤,       ô®ÌE	5|˜ i ÙAX*

tokens/queries_len_std    ßæÆT/       m]P	G|˜ i ÙAX*"
 
tokens/responses_len_mean  €?Õ0 Ä.       ÅËWú	X|˜ i ÙAX*!

tokens/responses_len_std    ¼Þ¤%       ê¼6ó	k|˜ i ÙAX*

ppo/loss/policy    ¼ÚB$       B+€M	N}˜ i ÙAX*

ppo/loss/valueŠ×8$‚é&$       B+€M	`~˜ i ÙAX*

ppo/loss/totalÕ,7È>I”(       ÿpJ	Ç~˜ i ÙAX*

ppo/policy/entropy  €5v`#)       7ÿ_ 	(˜ i ÙAX*

ppo/policy/approxkl    d[ï&)       7ÿ_ 	˜ i ÙAX*

ppo/policy/policykl    ú½â2)       7ÿ_ 	×˜ i ÙAX*

ppo/policy/clipfrac    º‡“M0       •õÐ_	5€˜ i ÙAX*#
!
ppo/policy/advantages_mean    ¸Ôv´&       sOã 	“€˜ i ÙAX*

ppo/returns/mean´	Å¿ìîVG%       ê¼6ó	ï€˜ i ÙAX*

ppo/returns/var&[9ÁÆëY#       °ŸwC	G˜ i ÙAX*

ppo/val/vpred·îÄ¿™j×#       °ŸwC	œ˜ i ÙAX*

ppo/val/errorŠW9LÇ´&       sOã 	ð˜ i ÙAX*

ppo/val/clipfrac    j"       x=ý	F‚˜ i ÙAX*

ppo/val/mean·9Å¿!5ðÕ!       {ìö	ž‚˜ i ÙAX*

ppo/val/var    ž;^1+       †ÃK	0ƒ˜ i ÙAX*

ppo/val/var_explained€V’<©€[È'       »á±F	Cƒ˜ i ÙAX*

ppo/learning_rateÀÏ¸:²xÈ+       †ÃK	ƒ˜ i ÙAX*

time/ppo/forward_pass >e¦ .       ÅËWú	ûƒ˜ i ÙAX*!

time/ppo/compute_rewards `×:¯ë9h1       ƒƒé	R„˜ i ÙAX*$
"
time/ppo/compute_advantages T;;^W°Ç,       ô®ÌE	±„˜ i ÙAX*

time/ppo/optimize_stepÈ¥R?_·#L)       7ÿ_ 	 …˜ i ÙAX*

time/ppo/calc_stats° > J$       B+€M	W…˜ i ÙAX*

time/ppo/totalJ¾?êš™%       ê¼6ó	­…˜ i ÙAX*

env/reward_mean®ž>Dh¼$$       B+€M	 †˜ i ÙAX*

env/reward_std¤Êl<cª3Í"       x=ý	~K‘£i ÙAY*

objective/klDAÇOÎ¬'       »á±F	òK‘£i ÙAY*

objective/kl_coef`bX>Èç,'       »á±F	L‘£i ÙAY*

objective/entropy    ~P•/       m]P	'L‘£i ÙAY*"
 
ppo/mean_non_score_rewardá·ì¿ßæo%       ê¼6ó	8L‘£i ÙAY*

ppo/mean_scores®ž>þ|0+$       B+€M	JL‘£i ÙAY*

ppo/std_scores¤Êl<*»³ñ-       <AŠû	]L‘£i ÙAY* 

tokens/queries_len_mean  äBRòkv,       ô®ÌE	nL‘£i ÙAY*

tokens/queries_len_std    (º6/       m]P	‚L‘£i ÙAY*"
 
tokens/responses_len_mean  €?ÎPõ.       ÅËWú	–L‘£i ÙAY*!

tokens/responses_len_std    çø±â%       ê¼6ó	¨L‘£i ÙAY*

ppo/loss/policy  €1d¯\$       B+€M	O‘£i ÙAY*

ppo/loss/valueqØ8È%§'$       B+€M	NO‘£i ÙAY*

ppo/loss/total@7-7¾üþQ(       ÿpJ	gO‘£i ÙAY*

ppo/policy/entropy  €5÷äƒu)       7ÿ_ 	qS‘£i ÙAY*

ppo/policy/approxkl    \¥\¢)       7ÿ_ 	žS‘£i ÙAY*

ppo/policy/policykl    àl^)       7ÿ_ 	·S‘£i ÙAY*

ppo/policy/clipfrac    º/F<0       •õÐ_	ÎS‘£i ÙAY*#
!
ppo/policy/advantages_mean  €±De0&       sOã 	áS‘£i ÙAY*

ppo/returns/meanv0Å¿‰Š%       ê¼6ó	ôS‘£i ÙAY*

ppo/returns/var&[9ÄM5#       °ŸwC	T‘£i ÙAY*

ppo/val/vpredFLÅ¿##1#       °ŸwC	T‘£i ÙAY*

ppo/val/errorqX9ý=™&       sOã 	)T‘£i ÙAY*

ppo/val/clipfrac    ‰t,I"       x=ý	;T‘£i ÙAY*

ppo/val/mean¦ïÄ¿’Óæ!       {ìö	åT‘£i ÙAY*

ppo/val/var    d^âŠ+       †ÃK	)W‘£i ÙAY*

ppo/val/var_explained€,A<sû2'       »á±F	ŸW‘£i ÙAY*

ppo/learning_rateÀÏ¸:æ+û+       †ÃK	
X‘£i ÙAY*

time/ppo/forward_passU>öÏØ.       ÅËWú	uX‘£i ÙAY*!

time/ppo/compute_rewards d;ö.{È1       ƒƒé	ÓX‘£i ÙAY*$
"
time/ppo/compute_advantages p%;¹èº_,       ô®ÌE	+Y‘£i ÙAY*

time/ppo/optimize_stephAR?rZ¶ )       7ÿ_ 	~Y‘£i ÙAY*

time/ppo/calc_stats º>0R$       B+€M	ÐY‘£i ÙAY*

time/ppo/total®a?¾uƒª%       ê¼6ó	$Z‘£i ÙAY*

env/reward_mean®ž>â=y$       B+€M	|Z‘£i ÙAY*

env/reward_std¤Êl<À–^|"       x=ý	´Z„¦i ÙAZ*

objective/klDA¢­J5'       »á±F	&[„¦i ÙAZ*

objective/kl_coefÔ…X>#²[¶'       »á±F	F[„¦i ÙAZ*

objective/entropy    ÁÇå/       m]P	][„¦i ÙAZ*"
 
ppo/mean_non_score_rewardªÞì¿†lâ%       ê¼6ó	s[„¦i ÙAZ*

ppo/mean_scores®ž>%$.ì$       B+€M	‰[„¦i ÙAZ*

ppo/std_scores¤Êl<ÄžmÍ-       <AŠû	œ[„¦i ÙAZ* 

tokens/queries_len_mean  äB1fŽ,       ô®ÌE	®[„¦i ÙAZ*

tokens/queries_len_std    ­…¬â/       m]P	Á[„¦i ÙAZ*"
 
tokens/responses_len_mean  €?rÛcD.       ÅËWú	Ò[„¦i ÙAZ*!

tokens/responses_len_std    (¹×À%       ê¼6ó	ä[„¦i ÙAZ*

ppo/loss/policy  @²¤^ØS$       B+€M	¶_„¦i ÙAZ*

ppo/loss/valueX‚Õ8Ùr é$       B+€M	ã_„¦i ÙAZ*

ppo/loss/total­ž*7Ïþœâ(       ÿpJ	ý_„¦i ÙAZ*

ppo/policy/entropy  €5_÷)       7ÿ_ 	`„¦i ÙAZ*

ppo/policy/approxkl    bä©j)       7ÿ_ 	&`„¦i ÙAZ*

ppo/policy/policykl    v 'i)       7ÿ_ 	7`„¦i ÙAZ*

ppo/policy/clipfrac    ÔeE*0       •õÐ_	K`„¦i ÙAZ*#
!
ppo/policy/advantages_mean  @2•íÝÚ&       sOã 	d`„¦i ÙAZ*

ppo/returns/mean>WÅ¿ÿò
v%       ê¼6ó	v`„¦i ÙAZ*

ppo/returns/varN[9zZbî#       °ŸwC	†`„¦i ÙAZ*

ppo/val/vpredÕ7Å¿ö7òâ#       °ŸwC	¯b„¦i ÙAZ*

ppo/val/errorX‚U9ôLíe&       sOã 	Ûb„¦i ÙAZ*

ppo/val/clipfrac    ípUŒ"       x=ý	ób„¦i ÙAZ*

ppo/val/mean”UÅ¿ªÉC!       {ìö	c„¦i ÙAZ*

ppo/val/var    HÔÊ+       †ÃK	c„¦i ÙAZ*

ppo/val/var_explained`JÎ<N¨¥Ý'       »á±F	-c„¦i ÙAZ*

ppo/learning_rateÀÏ¸:7W+       †ÃK	>c„¦i ÙAZ*

time/ppo/forward_passàð$>Vm>a.       ÅËWú	Oc„¦i ÙAZ*!

time/ppo/compute_rewards @Ø: îo¼1       ƒƒé	ac„¦i ÙAZ*$
"
time/ppo/compute_advantages ”;*”Y¯,       ô®ÌE	½c„¦i ÙAZ*

time/ppo/optimize_step‡S?h>pt)       7ÿ_ 	d„¦i ÙAZ*

time/ppo/calc_stats06>+ºí$       B+€M	gd„¦i ÙAZ*

time/ppo/totalj.‘?}a£%       ê¼6ó	¾d„¦i ÙAZ*

env/reward_mean®ž>.`þ$       B+€M	e„¦i ÙAZ*

env/reward_std¤Êl<R…·î"       x=ý	¨¡‡©i ÙA[*

objective/klDA79?Í'       »á±F	¢‡©i ÙA[*

objective/kl_coefM©X>ùshâ'       »á±F	3¢‡©i ÙA[*

objective/entropy    RÁv¤/       m]P	G¢‡©i ÙA[*"
 
ppo/mean_non_score_rewardyí¿'àu%       ê¼6ó	Z¢‡©i ÙA[*

ppo/mean_scores®ž>¬4!t$       B+€M	k¢‡©i ÙA[*

ppo/std_scores¤Êl<-Gzä-       <AŠû	~¢‡©i ÙA[* 

tokens/queries_len_mean  äBsÃÅþ,       ô®ÌE	¢‡©i ÙA[*

tokens/queries_len_std    Žï’w/       m]P	¡¢‡©i ÙA[*"
 
tokens/responses_len_mean  €?ãq.       ÅËWú	²¢‡©i ÙA[*!

tokens/responses_len_std    „Æ…û%       ê¼6ó	Å¢‡©i ÙA[*

ppo/loss/policy   2]º>($       B+€M	¤£‡©i ÙA[*

ppo/loss/valueSèÕ8ÇF¤r$       B+€M	›¤‡©i ÙA[*

ppo/loss/totalB@+7Ÿ·Ø(       ÿpJ	¥‡©i ÙA[*

ppo/policy/entropy  €5âÕî9)       7ÿ_ 	e¥‡©i ÙA[*

ppo/policy/approxkl    ˜Í6")       7ÿ_ 	È¥‡©i ÙA[*

ppo/policy/policykl    ß—)       7ÿ_ 	¦‡©i ÙA[*

ppo/policy/clipfrac    ,×8ù0       •õÐ_	²¦‡©i ÙA[*#
!
ppo/policy/advantages_mean   ²•ÃrK&       sOã 	Ä¦‡©i ÙA[*

ppo/returns/mean~Å¿YÈÝ%       ê¼6ó	 §‡©i ÙA[*

ppo/returns/var%[9Ä¢¢#       °ŸwC	x§‡©i ÙA[*

ppo/val/vpred¼˜Å¿ú˜«X#       °ŸwC	Ï§‡©i ÙA[*

ppo/val/errorSèU9N²&       sOã 	%¨‡©i ÙA[*

ppo/val/clipfrac    …\"       x=ý	}¨‡©i ÙA[*

ppo/val/meanËcÅ¿mµô=!       {ìö	Û¨‡©i ÙA[*

ppo/val/var    ûÌ¡&+       †ÃK	4©‡©i ÙA[*

ppo/val/var_explained@^¿<…­ÀÛ'       »á±F	©‡©i ÙA[*

ppo/learning_rateÀÏ¸:÷rƒ+       †ÃK	ë©‡©i ÙA[*

time/ppo/forward_pass@Ã>ý‹"ù.       ÅËWú	Gª‡©i ÙA[*!

time/ppo/compute_rewards èÜ:JÏÌ!1       ƒƒé	Ÿª‡©i ÙA[*$
"
time/ppo/compute_advantages ì; Ò¦B,       ô®ÌE	ùª‡©i ÙA[*

time/ppo/optimize_stepáT?cCµ-)       7ÿ_ 	‡«‡©i ÙA[*

time/ppo/calc_statsàÞ>vª$       B+€M	™«‡©i ÙA[*

time/ppo/totaläË?ìH[¦%       ê¼6ó	¬‡©i ÙA[*

env/reward_mean®ž>»_¿$       B+€M	d¬‡©i ÙA[*

env/reward_std¤Êl<¤_Ç"       x=ý	FÅ‹¬i ÙA\*

objective/klDAü‹U§'       »á±F	´Å‹¬i ÙA\*

objective/kl_coefÍÌX>Ä›'       »á±F	ÐÅ‹¬i ÙA\*

objective/entropy    ãÏZä/       m]P	åÅ‹¬i ÙA\*"
 
ppo/mean_non_score_rewardO,í¿	¼¿%       ê¼6ó	÷Å‹¬i ÙA\*

ppo/mean_scores®ž>i	Ž©$       B+€M	Æ‹¬i ÙA\*

ppo/std_scores¤Êl<ŸpØi-       <AŠû	Æ‹¬i ÙA\* 

tokens/queries_len_mean  äB{=ñþ,       ô®ÌE	,Æ‹¬i ÙA\*

tokens/queries_len_std    wŒ‚/       m]P	>Æ‹¬i ÙA\*"
 
tokens/responses_len_mean  €?’ÿ¼q.       ÅËWú	QÆ‹¬i ÙA\*!

tokens/responses_len_std    4¶’%       ê¼6ó	dÆ‹¬i ÙA\*

ppo/loss/policy  €1ßÀ`$       B+€M	 Ê‹¬i ÙA\*

ppo/loss/valuez+Õ8G³ê$       B+€M	,Ê‹¬i ÙA\*

ppo/loss/total.™*7âg(       ÿpJ	DÊ‹¬i ÙA\*

ppo/policy/entropy  €5ý\Šµ)       7ÿ_ 	YÊ‹¬i ÙA\*

ppo/policy/approxkl    w f-)       7ÿ_ 	mÊ‹¬i ÙA\*

ppo/policy/policykl    cDä&)       7ÿ_ 	Ê‹¬i ÙA\*

ppo/policy/clipfrac    ½Î±0       •õÐ_	•Ê‹¬i ÙA\*#
!
ppo/policy/advantages_mean  €±½KTÏ&       sOã 	­Ê‹¬i ÙA\*

ppo/returns/meanä¤Å¿`m%9%       ê¼6ó	ÀÊ‹¬i ÙA\*

ppo/returns/var&[9).Œ#       °ŸwC	$Ë‹¬i ÙA\*

ppo/val/vpred´ŠÅ¿µÃ2˜#       °ŸwC	€Ë‹¬i ÙA\*

ppo/val/errorz+U9‚h-Y&       sOã 	ÚË‹¬i ÙA\*

ppo/val/clipfrac    Éú‡"       x=ý	4Ì‹¬i ÙA\*

ppo/val/meanŠ†Å¿
Có!       {ìö	ŽÌ‹¬i ÙA\*

ppo/val/var    *-‘·+       †ÃK	èÌ‹¬i ÙA\*

ppo/val/var_explainedÀõÚ<ù(.'       »á±F	@Í‹¬i ÙA\*

ppo/learning_rateÀÏ¸: VÝ+       †ÃK	šÍ‹¬i ÙA\*

time/ppo/forward_passðÄ>1¹<.       ÅËWú	ùÍ‹¬i ÙA\*!

time/ppo/compute_rewards  Õ:±5¦1       ƒƒé	UÎ‹¬i ÙA\*$
"
time/ppo/compute_advantages X;$y6h,       ô®ÌE	ªÎ‹¬i ÙA\*

time/ppo/optimize_step0T?‰3[v)       7ÿ_ 	Ï‹¬i ÙA\*

time/ppo/calc_stats>ý¾C¥$       B+€M	WÏ‹¬i ÙA\*

time/ppo/totalï?„°%       ê¼6ó	±Ï‹¬i ÙA\*

env/reward_mean®ž>UÎ9*$       B+€M	Ð‹¬i ÙA\*

env/reward_std¤Êl<ÖGÍ,"       x=ý	æ7¯i ÙA]*

objective/klDALÚ4p'       »á±F	a8¯i ÙA]*

objective/kl_coefRðX>CãY~'       »á±F	~8¯i ÙA]*

objective/entropy    ë&rÂ/       m]P	˜8¯i ÙA]*"
 
ppo/mean_non_score_reward*Sí¿,kz%       ê¼6ó	­8¯i ÙA]*

ppo/mean_scores®ž>n|iÕ$       B+€M	Â8¯i ÙA]*

ppo/std_scores¤Êl<tÐÂq-       <AŠû	Õ8¯i ÙA]* 

tokens/queries_len_mean  äB@(u,       ô®ÌE	ç8¯i ÙA]*

tokens/queries_len_std    Ÿ}â­/       m]P	û8¯i ÙA]*"
 
tokens/responses_len_mean  €?‚‚ëp.       ÅËWú	9¯i ÙA]*!

tokens/responses_len_std    ¼5‰A%       ê¼6ó	9¯i ÙA]*

ppo/loss/policy  €²
ŽôX$       B+€M	~;¯i ÙA]*

ppo/loss/valueÄÄÔ8èævÌ$       B+€M	n>¯i ÙA]*

ppo/loss/total÷)7#ž'Ù(       ÿpJ	¦@¯i ÙA]*

ppo/policy/entropy  €5ƒØá¯)       7ÿ_ 	Ô@¯i ÙA]*

ppo/policy/approxkl    €e²)       7ÿ_ 	ë@¯i ÙA]*

ppo/policy/policykl    ÖO)       7ÿ_ 	ÛB¯i ÙA]*

ppo/policy/clipfrac    à²0       •õÐ_	C¯i ÙA]*#
!
ppo/policy/advantages_mean  €2›«¥&       sOã 	%C¯i ÙA]*

ppo/returns/mean¾ËÅ¿™ûó3%       ê¼6ó	ÙC¯i ÙA]*

ppo/returns/varN[9oŒŸ#       °ŸwC	ƒD¯i ÙA]*

ppo/val/vpred–ÞÅ¿D¸µ#       °ŸwC	&E¯i ÙA]*

ppo/val/errorÄÄT9Õåù&       sOã 	ðE¯i ÙA]*

ppo/val/clipfrac    '@"       x=ý	¢F¯i ÙA]*

ppo/val/mean¼ÄÅ¿Ä(³!       {ìö	CG¯i ÙA]*

ppo/val/var    ïxŒI+       †ÃK	ëG¯i ÙA]*

ppo/val/var_explained ýé<>²' '       »á±F	‘H¯i ÙA]*

ppo/learning_rateÀÏ¸:¶£‡q+       †ÃK	3I¯i ÙA]*

time/ppo/forward_pass`¬"> |œ.       ÅËWú	ÙI¯i ÙA]*!

time/ppo/compute_rewards `Ó:¢Fó*1       ƒƒé	xJ¯i ÙA]*$
"
time/ppo/compute_advantages O; ¼¢,       ô®ÌE	K¯i ÙA]*

time/ppo/optimize_step<ÂT?åjá)       7ÿ_ 	²K¯i ÙA]*

time/ppo/calc_statsàá>·E$       B+€M	LL¯i ÙA]*

time/ppo/totalÐ±‘?'¤ÏØ%       ê¼6ó	ìL¯i ÙA]*

env/reward_mean®ž>Úò‹p$       B+€M	‰M¯i ÙA]*

env/reward_std¤Êl<­_¥‘"       x=ý	Õ¦€²i ÙA^*

objective/klDA‹Ú™'       »á±F	D§€²i ÙA^*

objective/kl_coefÝY>¿¡rÜ'       »á±F	a§€²i ÙA^*

objective/entropy    fM»Ÿ/       m]P	v§€²i ÙA^*"
 
ppo/mean_non_score_rewardzí¿Þu%       ê¼6ó	ˆ§€²i ÙA^*

ppo/mean_scores®ž>'•1"$       B+€M	š§€²i ÙA^*

ppo/std_scores¤Êl<ÚWÃ-       <AŠû	«§€²i ÙA^* 

tokens/queries_len_mean  äBJSSÉ,       ô®ÌE	¼§€²i ÙA^*

tokens/queries_len_std    KmW¦/       m]P	Í§€²i ÙA^*"
 
tokens/responses_len_mean  €?Aß: .       ÅËWú	á§€²i ÙA^*!

tokens/responses_len_std    ó{×%       ê¼6ó	ò§€²i ÙA^*

ppo/loss/policy   ²ù’h5$       B+€M	“ª€²i ÙA^*

ppo/loss/value¦Õ8ãq"t$       B+€M	!­€²i ÙA^*

ppo/loss/total…\*7MÂ^ë(       ÿpJ	N­€²i ÙA^*

ppo/policy/entropy  €5u½)       7ÿ_ 	Ì¯€²i ÙA^*

ppo/policy/approxkl    ðb)x)       7ÿ_ 	ø¯€²i ÙA^*

ppo/policy/policykl    ä~§})       7ÿ_ 	c²€²i ÙA^*

ppo/policy/clipfrac    ¶ô¾0       •õÐ_	“²€²i ÙA^*#
!
ppo/policy/advantages_mean   2[ûš¶&       sOã 	¡´€²i ÙA^*

ppo/returns/mean òÅ¿HÆÉ­%       ê¼6ó	Í´€²i ÙA^*

ppo/returns/varN[9\n#       °ŸwC	ä´€²i ÙA^*

ppo/val/vpred·áÅ¿®çpÒ#       °ŸwC	Ô¶€²i ÙA^*

ppo/val/error¦U9"5ºÍ&       sOã 	·€²i ÙA^*

ppo/val/clipfrac    öÉ°Ú"       x=ý	·€²i ÙA^*

ppo/val/meanÅÈÅ¿ôLé!       {ìö	Â·€²i ÙA^*

ppo/val/var    ÚÛ³¥+       †ÃK	i¸€²i ÙA^*

ppo/val/var_explained€KÝ<Ï;í'       »á±F	¹€²i ÙA^*

ppo/learning_rateÀÏ¸:î®ƒà+       †ÃK	§¹€²i ÙA^*

time/ppo/forward_pass`ð>ƒwl..       ÅËWú	Lº€²i ÙA^*!

time/ppo/compute_rewards Xå:ä¶÷1       ƒƒé	éº€²i ÙA^*$
"
time/ppo/compute_advantages D;µ¿¡,       ô®ÌE	…»€²i ÙA^*

time/ppo/optimize_step¬T?ˆŸ¸Ü)       7ÿ_ 	"¼€²i ÙA^*

time/ppo/calc_statsp>Ëe($       B+€M	½¼€²i ÙA^*

time/ppo/totalºÉ?õŒ?Ð%       ê¼6ó	Z½€²i ÙA^*

env/reward_mean®ž>I’¦>$       B+€M	ö½€²i ÙA^*

env/reward_std¤Êl<yËÚ"       x=ý	#õµi ÙA_*

objective/klDAÇ1äï'       »á±F	‘õµi ÙA_*

objective/kl_coefn7Y>ß'       »á±F	­õµi ÙA_*

objective/entropy    öÝº¡/       m]P	Âõµi ÙA_*"
 
ppo/mean_non_score_rewardõ í¿ßeí%       ê¼6ó	Ôõµi ÙA_*

ppo/mean_scores®ž>°Žó˜$       B+€M	åõµi ÙA_*

ppo/std_scores¤Êl<‘:!¥-       <AŠû	÷õµi ÙA_* 

tokens/queries_len_mean  äBø1_q,       ô®ÌE	
öµi ÙA_*

tokens/queries_len_std    rnæ/       m]P	öµi ÙA_*"
 
tokens/responses_len_mean  €?úÄ«Ý.       ÅËWú	.öµi ÙA_*!

tokens/responses_len_std    ‚×Ê¤%       ê¼6ó	?öµi ÙA_*

ppo/loss/policy  €1~‚™$       B+€M	³øµi ÙA_*

ppo/loss/valueVPÔ8ŠTÏ$       B+€M	Úûµi ÙA_*

ppo/loss/totalàé)7ýÌŽ(       ÿpJ	üµi ÙA_*

ppo/policy/entropy  €5Î¼³~)       7ÿ_ 	Qþµi ÙA_*

ppo/policy/approxkl    T±?¾)       7ÿ_ 	}þµi ÙA_*

ppo/policy/policykl    ÷Z^)       7ÿ_ 	–þµi ÙA_*

ppo/policy/clipfrac    rntú0       •õÐ_	Á ‚µi ÙA_*#
!
ppo/policy/advantages_mean  €±ce3&       sOã 	ð ‚µi ÙA_*

ppo/returns/meanŠÆ¿&‹ë%       ê¼6ó		‚µi ÙA_*

ppo/returns/var&[9H#       °ŸwC	‚µi ÙA_*

ppo/val/vpredÍ"Æ¿7ÀYÀ#       °ŸwC	„‚µi ÙA_*

ppo/val/errorVPT9ñ…&       sOã 	°‚µi ÙA_*

ppo/val/clipfrac    ´b
Z"       x=ý	É‚µi ÙA_*

ppo/val/meanÆ¿ÚÙeÎ!       {ìö	Û‚µi ÙA_*

ppo/val/var    ›¢u<+       †ÃK	í‚µi ÙA_*

ppo/val/var_explained úú<¢JÓ'       »á±F	 ‚µi ÙA_*

ppo/learning_rateÀÏ¸:¬ƒËå+       †ÃK	‚µi ÙA_*

time/ppo/forward_passpÔ">xc6¿.       ÅËWú	µ‚µi ÙA_*!

time/ppo/compute_rewards ¨×:\MÀ1       ƒƒé	S‚µi ÙA_*$
"
time/ppo/compute_advantages ¼;íï3Â,       ô®ÌE	í‚µi ÙA_*

time/ppo/optimize_stepxêS?®Óî)       7ÿ_ 	…‚µi ÙA_*

time/ppo/calc_statsÐŸ>Ö°”#$       B+€M	‚µi ÙA_*

time/ppo/total	‘?ÛÃ.%       ê¼6ó	·‚µi ÙA_*

env/reward_mean®ž>uô£$       B+€M	N	‚µi ÙA_*

env/reward_std¤Êl<¶VH"       x=ý	:v¸i ÙA`*

objective/klDAÝl¹+'       »á±F	­v¸i ÙA`*

objective/kl_coef[Y>ñ< '       »á±F	Îv¸i ÙA`*

objective/entropy    ˆn”q/       m]P	æv¸i ÙA`*"
 
ppo/mean_non_score_rewardäÇí¿ŠŒ"ò%       ê¼6ó	úv¸i ÙA`*

ppo/mean_scores®ž>Ú„t$       B+€M	v¸i ÙA`*

ppo/std_scores¤Êl<z¿±t-       <AŠû	"v¸i ÙA`* 

tokens/queries_len_mean  äBsÛs»,       ô®ÌE	4v¸i ÙA`*

tokens/queries_len_std    ”®Û/       m]P	Iv¸i ÙA`*"
 
tokens/responses_len_mean  €?1zÓä.       ÅËWú	]v¸i ÙA`*!

tokens/responses_len_std    ¬©ÉÓ%       ê¼6ó	qv¸i ÙA`*

ppo/loss/policy  @²tÃS:$       B+€M	Gv¸i ÙA`*

ppo/loss/valueýÔ8Ï¿¤$       B+€M	wv¸i ÙA`*

ppo/loss/total4*7Bj-¾(       ÿpJ	1v¸i ÙA`*

ppo/policy/entropy  €5OK>O)       7ÿ_ 	Þv¸i ÙA`*

ppo/policy/approxkl    9z™)       7ÿ_ 	}v¸i ÙA`*

ppo/policy/policykl    D
)       7ÿ_ 	v¸i ÙA`*

ppo/policy/clipfrac    ³z6W0       •õÐ_	ºv¸i ÙA`*#
!
ppo/policy/advantages_mean  @2×-·Ý&       sOã 	\v¸i ÙA`*

ppo/returns/meanx@Æ¿}ªÖä%       ê¼6ó	ýv¸i ÙA`*

ppo/returns/varN[9Å¡¥#       °ŸwC	v¸i ÙA`*

ppo/val/vpred¦8Æ¿¼ó‚½#       °ŸwC	4v¸i ÙA`*

ppo/val/errorýT9Æ¸d&       sOã 	Êv¸i ÙA`*

ppo/val/clipfrac    Š¨…C"       x=ý	` v¸i ÙA`*

ppo/val/meanÆ¿ò=@!       {ìö	ú v¸i ÙA`*

ppo/val/var    *–K+       †ÃK	–!v¸i ÙA`*

ppo/val/var_explained@Áá<ö¢¹'       »á±F	1"v¸i ÙA`*

ppo/learning_rateÀÏ¸:¡š8%+       †ÃK	Ì"v¸i ÙA`*

time/ppo/forward_pass`‘>þ’W‘.       ÅËWú	m#v¸i ÙA`*!

time/ppo/compute_rewards èä:²·ï1       ƒƒé	$v¸i ÙA`*$
"
time/ppo/compute_advantages ¸;nº4,       ô®ÌE	ž$v¸i ÙA`*

time/ppo/optimize_step„`T?`GÄÝ)       7ÿ_ 	:%v¸i ÙA`*

time/ppo/calc_stats`w>à\$       B+€M	Ö%v¸i ÙA`*

time/ppo/totalÐÙ?,Ãí%       ê¼6ó	t&v¸i ÙA`*

env/reward_mean®ž>±¯$       B+€M	'v¸i ÙA`*

env/reward_std¤Êl<Ž)Ó"       x=ý	Ì/n»i ÙAa*

objective/klDA¯>ÁÎ'       »á±F	N0n»i ÙAa*

objective/kl_coef¡~Y>†r•'       »á±F	{0n»i ÙAa*

objective/entropy    eQcÖ/       m]P	™0n»i ÙAa*"
 
ppo/mean_non_score_rewardÙîí¿ìÿÖ!%       ê¼6ó	¹0n»i ÙAa*

ppo/mean_scores®ž>V³ æ$       B+€M	Ð0n»i ÙAa*

ppo/std_scores¤Êl<•`:µ-       <AŠû	â0n»i ÙAa* 

tokens/queries_len_mean  äBˆ}~*,       ô®ÌE	ó0n»i ÙAa*

tokens/queries_len_std    (¨/       m]P	1n»i ÙAa*"
 
tokens/responses_len_mean  €?Ú<Ò.       ÅËWú	1n»i ÙAa*!

tokens/responses_len_std    „Ñ´š%       ê¼6ó	(1n»i ÙAa*

ppo/loss/policy   2¾VO$       B+€M	<4n»i ÙAa*

ppo/loss/value@6Ô8â\ËK$       B+€M	§8n»i ÙAa*

ppo/loss/total å)7ÂOSJ(       ÿpJ	Õ8n»i ÙAa*

ppo/policy/entropy  €5¶LŒ$)       7ÿ_ 	ï8n»i ÙAa*

ppo/policy/approxkl    ¸Žg²)       7ÿ_ 	9n»i ÙAa*

ppo/policy/policykl     Ð|)       7ÿ_ 	9n»i ÙAa*

ppo/policy/clipfrac    yÕ¿0       •õÐ_	›9n»i ÙAa*#
!
ppo/policy/advantages_mean   ²ª£DS&       sOã 	ù9n»i ÙAa*

ppo/returns/meanngÆ¿g­5%       ê¼6ó	Z:n»i ÙAa*

ppo/returns/var%[9â>¶ú#       °ŸwC	¹:n»i ÙAa*

ppo/val/vpredÇhÆ¿zZ#       °ŸwC	;n»i ÙAa*

ppo/val/error@6T9hHl\&       sOã 	i;n»i ÙAa*

ppo/val/clipfrac    •‹]"       x=ý	Á;n»i ÙAa*

ppo/val/mean`Æ¿ž!ò!       {ìö	<n»i ÙAa*

ppo/val/var    ‹+       †ÃK	u<n»i ÙAa*

ppo/val/var_explained Éþ<eÞlÒ'       »á±F	Ì<n»i ÙAa*

ppo/learning_rateÀÏ¸:Ec[+       †ÃK	%=n»i ÙAa*

time/ppo/forward_passpI">Ùù.       ÅËWú	=n»i ÙAa*!

time/ppo/compute_rewards àò:þO{1       ƒƒé	å=n»i ÙAa*$
"
time/ppo/compute_advantages Ü9;Èk_,       ô®ÌE	6>n»i ÙAa*

time/ppo/optimize_step¨OT?Ñ?x|)       7ÿ_ 	>n»i ÙAa*

time/ppo/calc_statsÀ¤>…r$       B+€M	ç>n»i ÙAa*

time/ppo/totalÜa‘?;v[%       ê¼6ó	=?n»i ÙAa*

env/reward_mean®ž>¢ïGù$       B+€M	?n»i ÙAa*

env/reward_std¤Êl<+“2÷"       x=ý	Áj¾i ÙAb*

objective/klDAØ^,«'       »á±F	ºÁj¾i ÙAb*

objective/kl_coefD¢Y>vb€™'       »á±F	ôÁj¾i ÙAb*

objective/entropy    ?‡cÊ/       m]P	 Âj¾i ÙAb*"
 
ppo/mean_non_score_rewardÕî¿wú[%       ê¼6ó	HÂj¾i ÙAb*

ppo/mean_scores®ž>]¿}x$       B+€M	lÂj¾i ÙAb*

ppo/std_scores¤Êl<Uß¶Ó-       <AŠû	ŽÂj¾i ÙAb* 

tokens/queries_len_mean  äBœ¢»,       ô®ÌE	²Âj¾i ÙAb*

tokens/queries_len_std    @ÚŽï/       m]P	ÔÂj¾i ÙAb*"
 
tokens/responses_len_mean  €?£ë.       ÅËWú	ôÂj¾i ÙAb*!

tokens/responses_len_std    =öš%       ê¼6ó	Ãj¾i ÙAb*

ppo/loss/policy   2=WìY$       B+€M	üÅj¾i ÙAb*

ppo/loss/valueåÊÔ8¦|W+$       B+€M	*Æj¾i ÙAb*

ppo/loss/totalê[*7«„jº(       ÿpJ	3Éj¾i ÙAb*

ppo/policy/entropy  €5œ ~K)       7ÿ_ 	dÉj¾i ÙAb*

ppo/policy/approxkl    %qƒÜ)       7ÿ_ 	|Éj¾i ÙAb*

ppo/policy/policykl    žÞYû)       7ÿ_ 	Éj¾i ÙAb*

ppo/policy/clipfrac    Eœ¼0       •õÐ_	8Êj¾i ÙAb*#
!
ppo/policy/advantages_mean   ²LÆ‰\&       sOã 	TÊj¾i ÙAb*

ppo/returns/meanjŽÆ¿vºFÀ%       ê¼6ó	µÊj¾i ÙAb*

ppo/returns/var%[9)·ÏT#       °ŸwC	Ëj¾i ÙAb*

ppo/val/vpredûŒÆ¿KÄM#       °ŸwC	gËj¾i ÙAb*

ppo/val/erroråÊT9-­é&       sOã 	ÁËj¾i ÙAb*

ppo/val/clipfrac    ¾u`—"       x=ý	Ìj¾i ÙAb*

ppo/val/mean}kÆ¿m‚Ç!       {ìö	uÌj¾i ÙAb*

ppo/val/var    ‡^Ù+       †ÃK	ÏÌj¾i ÙAb*

ppo/val/var_explained é<Ð!â'       »á±F	)Íj¾i ÙAb*

ppo/learning_rateÀÏ¸:1ÿ+       †ÃK	…Íj¾i ÙAb*

time/ppo/forward_pass°F>v˜–`.       ÅËWú	òÍj¾i ÙAb*!

time/ppo/compute_rewards ä:â­ýN1       ƒƒé	NÎj¾i ÙAb*$
"
time/ppo/compute_advantages ô;²(,       ô®ÌE	ŸÎj¾i ÙAb*

time/ppo/optimize_step°lU?òÛ/Ò)       7ÿ_ 	öÎj¾i ÙAb*

time/ppo/calc_stats >ÙŒž$       B+€M	OÏj¾i ÙAb*

time/ppo/total¼‘?ï‰Ø%       ê¼6ó	¦Ïj¾i ÙAb*

env/reward_mean®ž>ç%«G$       B+€M	üÏj¾i ÙAb*

env/reward_std¤Êl<Ž&þf"       x=ý	Ù®\Ái ÙAc*

objective/klDAõ„'       »á±F	H¯\Ái ÙAc*

objective/kl_coefìÅY>Hƒ×Å'       »á±F	d¯\Ái ÙAc*

objective/entropy    ¿ã˜:/       m]P	|¯\Ái ÙAc*"
 
ppo/mean_non_score_reward×<î¿bŒs%       ê¼6ó	¯\Ái ÙAc*

ppo/mean_scores®ž>BÕÑu$       B+€M	£¯\Ái ÙAc*

ppo/std_scores¤Êl<aÇÝ-       <AŠû	µ¯\Ái ÙAc* 

tokens/queries_len_mean  äB TðÍ,       ô®ÌE	Ç¯\Ái ÙAc*

tokens/queries_len_std    Q²
/       m]P	Ø¯\Ái ÙAc*"
 
tokens/responses_len_mean  €?A›P.       ÅËWú	é¯\Ái ÙAc*!

tokens/responses_len_std    ‹Ä±%       ê¼6ó	ü¯\Ái ÙAc*

ppo/loss/policy  €1W7$       B+€M	Y²\Ái ÙAc*

ppo/loss/valueZHÔ8@‹¸$       B+€M	‡²\Ái ÙAc*

ppo/loss/totalzã)7Xe (       ÿpJ	´\Ái ÙAc*

ppo/policy/entropy  €5×†ÓB)       7ÿ_ 	¬´\Ái ÙAc*

ppo/policy/approxkl    Õ‡¥)       7ÿ_ 	Æ´\Ái ÙAc*

ppo/policy/policykl    >¸•)       7ÿ_ 	Ù´\Ái ÙAc*

ppo/policy/clipfrac    >³©M0       •õÐ_	ï´\Ái ÙAc*#
!
ppo/policy/advantages_mean  €±?ÿõ¬&       sOã 	µ\Ái ÙAc*

ppo/returns/meanlµÆ¿>y‘%       ê¼6ó	µ\Ái ÙAc*

ppo/returns/var&[9!ß¡Â#       °ŸwC	ˆµ\Ái ÙAc*

ppo/val/vpred,²Æ¿?Çù#       °ŸwC	¶\Ái ÙAc*

ppo/val/errorZHT9žiË&       sOã 	d¶\Ái ÙAc*

ppo/val/clipfrac    õf„3"       x=ý	¼¶\Ái ÙAc*

ppo/val/mean²¦Æ¿bš!       {ìö	"·\Ái ÙAc*

ppo/val/var    4W=G+       †ÃK	·\Ái ÙAc*

ppo/val/var_explainedÀ$ü<³˜nÀ'       »á±F	î·\Ái ÙAc*

ppo/learning_rateÀÏ¸:é¦u+       †ÃK	H¸\Ái ÙAc*

time/ppo/forward_pass@0>±Ð‰.       ÅËWú	¤¸\Ái ÙAc*!

time/ppo/compute_rewards ØÖ:$a;›1       ƒƒé	þ¸\Ái ÙAc*$
"
time/ppo/compute_advantages °';ÒÆ¢¾,       ô®ÌE	W¹\Ái ÙAc*

time/ppo/optimize_stepÜHO?TY‰)       7ÿ_ 	®¹\Ái ÙAc*

time/ppo/calc_stats`À>½–YQ$       B+€M	º\Ái ÙAc*

time/ppo/totalxî?µÈLÃ%       ê¼6ó	cº\Ái ÙAc*

env/reward_mean®ž>ØÜ$       B+€M	ºº\Ái ÙAc*

env/reward_std¤Êl<´½ƒ"       x=ý	¿£JÄi ÙAd*

objective/klDA{_(÷'       »á±F	0¤JÄi ÙAd*

objective/kl_coefšéY>K'       »á±F	M¤JÄi ÙAd*

objective/entropy    ¹«~…/       m]P	d¤JÄi ÙAd*"
 
ppo/mean_non_score_rewardßcî¿¼Ñ†:%       ê¼6ó	x¤JÄi ÙAd*

ppo/mean_scores®ž>†“\}$       B+€M	‹¤JÄi ÙAd*

ppo/std_scores¤Êl<?’£-       <AŠû	Ÿ¤JÄi ÙAd* 

tokens/queries_len_mean  äB¡³RÓ,       ô®ÌE	±¤JÄi ÙAd*

tokens/queries_len_std    ÿx"×/       m]P	Ã¤JÄi ÙAd*"
 
tokens/responses_len_mean  €?ûW¸¶.       ÅËWú	Ô¤JÄi ÙAd*!

tokens/responses_len_std    eSHa%       ê¼6ó	ç¤JÄi ÙAd*

ppo/loss/policy  €1±êj?$       B+€M	Ù¥JÄi ÙAd*

ppo/loss/value™Ô8ü‘ð5$       B+€M	
¨JÄi ÙAd*

ppo/loss/total$*7¶$WW(       ÿpJ	V¨JÄi ÙAd*

ppo/policy/entropy  €5HüÎú)       7ÿ_ 	p¨JÄi ÙAd*

ppo/policy/approxkl    1àx)       7ÿ_ 	„¨JÄi ÙAd*

ppo/policy/policykl    øÉ·)       7ÿ_ 	–¨JÄi ÙAd*

ppo/policy/clipfrac    òn»i0       •õÐ_	©JÄi ÙAd*#
!
ppo/policy/advantages_mean  €±5(&       sOã 	{©JÄi ÙAd*

ppo/returns/meantÜÆ¿Ñ~2%       ê¼6ó	Ü©JÄi ÙAd*

ppo/returns/var&[9ã…©ö#       °ŸwC	9ªJÄi ÙAd*

ppo/val/vpredíÝÆ¿Sœ#       °ŸwC	”ªJÄi ÙAd*

ppo/val/error™T9–-Ð&       sOã 	êªJÄi ÙAd*

ppo/val/clipfrac    CO"       x=ý	A«JÄi ÙAd*

ppo/val/meanôÀÆ¿Ï!       {ìö	š«JÄi ÙAd*

ppo/val/var    uÉ +       †ÃK	ö«JÄi ÙAd*

ppo/val/var_explained€[ð<7i'       »á±F	N¬JÄi ÙAd*

ppo/learning_rateÀÏ¸:éú–=+       †ÃK	§¬JÄi ÙAd*

time/ppo/forward_passW>ÌÌ‘.       ÅËWú		­JÄi ÙAd*!

time/ppo/compute_rewards ø×:%ù,<1       ƒƒé	`­JÄi ÙAd*$
"
time/ppo/compute_advantages l;5
F0,       ô®ÌE	µ­JÄi ÙAd*

time/ppo/optimize_step\-Q?Bã^J)       7ÿ_ 	®JÄi ÙAd*

time/ppo/calc_stats Ø>að_Ì$       B+€M	q®JÄi ÙAd*

time/ppo/total:B?TX¼%       ê¼6ó	À®JÄi ÙAd*

env/reward_mean®ž>¯y¾$       B+€M	¯JÄi ÙAd*

env/reward_std¤Êl<_a#ù"       x=ý	ÃÄ>Çi ÙAe*

objective/klDA¾o'       »á±F	-Å>Çi ÙAe*

objective/kl_coefNZ>>_O#'       »á±F	NÅ>Çi ÙAe*

objective/entropy    %0â/       m]P	eÅ>Çi ÙAe*"
 
ppo/mean_non_score_rewardîŠî¿·d|Æ%       ê¼6ó	yÅ>Çi ÙAe*

ppo/mean_scores®ž>íN8$       B+€M	Å>Çi ÙAe*

ppo/std_scores¤Êl<8~÷-       <AŠû	žÅ>Çi ÙAe* 

tokens/queries_len_mean  äB\=éÇ,       ô®ÌE	°Å>Çi ÙAe*

tokens/queries_len_std    BªÅ¸/       m]P	ÂÅ>Çi ÙAe*"
 
tokens/responses_len_mean  €??;”.       ÅËWú	ÒÅ>Çi ÙAe*!

tokens/responses_len_std    ”Dø¯%       ê¼6ó	åÅ>Çi ÙAe*

ppo/loss/policy  €²\£º}$       B+€M	4È>Çi ÙAe*

ppo/loss/valuePgÔ8d×.$       B+€M	`È>Çi ÙAe*

ppo/loss/total@¬)7¬Ê(       ÿpJ	ÛÈ>Çi ÙAe*

ppo/policy/entropy  €5—D€)       7ÿ_ 	HÉ>Çi ÙAe*

ppo/policy/approxkl    [FÒl)       7ÿ_ 	¦É>Çi ÙAe*

ppo/policy/policykl    gÃØF)       7ÿ_ 	ÿÉ>Çi ÙAe*

ppo/policy/clipfrac    …1P0       •õÐ_	\Ê>Çi ÙAe*#
!
ppo/policy/advantages_mean  €25ü.6&       sOã 	¹Ê>Çi ÙAe*

ppo/returns/mean‚Ç¿×^mï%       ê¼6ó	Ë>Çi ÙAe*

ppo/returns/varN[9AíS1#       °ŸwC	pË>Çi ÙAe*

ppo/val/vpredîþÆ¿ðû# #       °ŸwC	ÇË>Çi ÙAe*

ppo/val/errorPgT9½T‡º&       sOã 	Ì>Çi ÙAe*

ppo/val/clipfrac    øâÙæ"       x=ý	tÌ>Çi ÙAe*

ppo/val/meanäíÆ¿…©m!       {ìö	ïÌ>Çi ÙAe*

ppo/val/var    Ï?Ä§+       †ÃK	RÍ>Çi ÙAe*

ppo/val/var_explained`¤÷<—|9'       »á±F	¡Í>Çi ÙAe*

ppo/learning_rateÀÏ¸:æzN+       †ÃK	øÍ>Çi ÙAe*

time/ppo/forward_pass0T>‡v.       ÅËWú	QÎ>Çi ÙAe*!

time/ppo/compute_rewards ÈL;6º1       ƒƒé	«Î>Çi ÙAe*$
"
time/ppo/compute_advantages <%;,Áó,       ô®ÌE	 Ï>Çi ÙAe*

time/ppo/optimize_step¤¶X?y}â3)       7ÿ_ 	TÏ>Çi ÙAe*

time/ppo/calc_stats •>^˜8$       B+€M	¨Ï>Çi ÙAe*

time/ppo/total4’?‰ý %       ê¼6ó	üÏ>Çi ÙAe*

env/reward_mean®ž>Ymj$       B+€M	OÐ>Çi ÙAe*

env/reward_std¤Êl<¼B¿ù"       x=ý	÷AÊi ÙAf*

objective/klDAVŒ4'       »á±F	y÷AÊi ÙAf*

objective/kl_coef1Z>Ù»¯*'       »á±F	™÷AÊi ÙAf*

objective/entropy    R4	È/       m]P	­÷AÊi ÙAf*"
 
ppo/mean_non_score_reward²î¿zé9/%       ê¼6ó	À÷AÊi ÙAf*

ppo/mean_scores®ž>³³Ö$       B+€M	Ñ÷AÊi ÙAf*

ppo/std_scores¤Êl<jÛ_®-       <AŠû	á÷AÊi ÙAf* 

tokens/queries_len_mean  äBéÊŒ,       ô®ÌE	ò÷AÊi ÙAf*

tokens/queries_len_std    ï7:÷/       m]P	øAÊi ÙAf*"
 
tokens/responses_len_mean  €?¨wÌ·.       ÅËWú	øAÊi ÙAf*!

tokens/responses_len_std    ]íPW%       ê¼6ó	'øAÊi ÙAf*

ppo/loss/policy   2Hˆa$       B+€M	qúAÊi ÙAf*

ppo/loss/value¡uÔ8–Ìñ^$       B+€M	ÿüAÊi ÙAf*

ppo/loss/total´*7Ê-¬‹(       ÿpJ	,ýAÊi ÙAf*

ppo/policy/entropy  €5½Ñ™*)       7ÿ_ 	²ÿAÊi ÙAf*

ppo/policy/approxkl    ãª½)       7ÿ_ 	êÿAÊi ÙAf*

ppo/policy/policykl    ëŠ“°)       7ÿ_ 	
 BÊi ÙAf*

ppo/policy/clipfrac    È)Y¸0       •õÐ_	»BÊi ÙAf*#
!
ppo/policy/advantages_mean   ²ãBWC&       sOã 	îBÊi ÙAf*

ppo/returns/mean˜*Ç¿½ÃÅ%       ê¼6ó	BÊi ÙAf*

ppo/returns/var%[9{.#       °ŸwC	{BÊi ÙAf*

ppo/val/vpred),Ç¿úhóá#       °ŸwC	¨BÊi ÙAf*

ppo/val/error¡uT9[¶=&       sOã 	ÀBÊi ÙAf*

ppo/val/clipfrac    ·ožÎ"       x=ý	,BÊi ÙAf*

ppo/val/meanPÇ¿I,Ó!       {ìö	‰BÊi ÙAf*

ppo/val/var    4+       †ÃK	éBÊi ÙAf*

ppo/val/var_explained ‡õ<¯+<B'       »á±F	BBÊi ÙAf*

ppo/learning_rateÀÏ¸:¥¦‘+       †ÃK	™BÊi ÙAf*

time/ppo/forward_passƒ$>ÜUº|.       ÅËWú	öBÊi ÙAf*!

time/ppo/compute_rewards ó:•(1       ƒƒé	MBÊi ÙAf*$
"
time/ppo/compute_advantages H;;ÚM2,       ô®ÌE	¥BÊi ÙAf*

time/ppo/optimize_stepÜbW?I“)       7ÿ_ 	÷BÊi ÙAf*

time/ppo/calc_statsP>wÏ·$       B+€M	M	BÊi ÙAf*

time/ppo/total “?%#í%       ê¼6ó	¥	BÊi ÙAf*

env/reward_mean®ž>6Ô'&$       B+€M	ù	BÊi ÙAf*

env/reward_std¤Êl<7Â¬"       x=ý	"í3Íi ÙAg*

objective/klDA‘ÖÛÂ'       »á±F	’í3Íi ÙAg*

objective/kl_coefÇTZ>$ƒü'       »á±F	¯í3Íi ÙAg*

objective/entropy    Ï½ 1/       m]P	Æí3Íi ÙAg*"
 
ppo/mean_non_score_rewardÙî¿×£½p%       ê¼6ó	Úí3Íi ÙAg*

ppo/mean_scores®ž>n'e"$       B+€M	ìí3Íi ÙAg*

ppo/std_scores¤Êl<•FÑ-       <AŠû	ÿí3Íi ÙAg* 

tokens/queries_len_mean  äBT›¤Ý,       ô®ÌE	î3Íi ÙAg*

tokens/queries_len_std    ¨oÖ±/       m]P	'î3Íi ÙAg*"
 
tokens/responses_len_mean  €?]dÍ9.       ÅËWú	:î3Íi ÙAg*!

tokens/responses_len_std    lªS%       ê¼6ó	Nî3Íi ÙAg*

ppo/loss/policy  @²á$       B+€M	©ð3Íi ÙAg*

ppo/loss/value’}Ô8]¥"
$       B+€M	Öð3Íi ÙAg*

ppo/loss/totalÎ)7wä4¸(       ÿpJ	Fô3Íi ÙAg*

ppo/policy/entropy  €5má†)       7ÿ_ 	sô3Íi ÙAg*

ppo/policy/approxkl    aìT5)       7ÿ_ 	ô3Íi ÙAg*

ppo/policy/policykl    Ó+V)       7ÿ_ 	 ô3Íi ÙAg*

ppo/policy/clipfrac    P_}t0       •õÐ_	´ô3Íi ÙAg*#
!
ppo/policy/advantages_mean  @2ø3&       sOã 	Èô3Íi ÙAg*

ppo/returns/mean²QÇ¿&sØW%       ê¼6ó	Ûô3Íi ÙAg*

ppo/returns/varN[9˜6j#       °ŸwC	ìô3Íi ÙAg*

ppo/val/vpredôMÇ¿6§3/#       °ŸwC	ýô3Íi ÙAg*

ppo/val/error’}T9°4®m&       sOã 	õ3Íi ÙAg*

ppo/val/clipfrac    –AX­"       x=ý	¬õ3Íi ÙAg*

ppo/val/mean@8Ç¿ñ¦Y!       {ìö	Àõ3Íi ÙAg*

ppo/val/var    À£Û+       †ÃK	ö3Íi ÙAg*

ppo/val/var_explainedàcô<(+ƒq'       »á±F	’ö3Íi ÙAg*

ppo/learning_rateÀÏ¸:cIÿ&+       †ÃK	÷3Íi ÙAg*

time/ppo/forward_pass0B">ø½O.       ÅËWú	{÷3Íi ÙAg*!

time/ppo/compute_rewards €×:7ª¢³1       ƒƒé	Õ÷3Íi ÙAg*$
"
time/ppo/compute_advantages H;ùóxI,       ô®ÌE	,ø3Íi ÙAg*

time/ppo/optimize_step$_S?åG)u)       7ÿ_ 	„ø3Íi ÙAg*

time/ppo/calc_stats@ù>E+¡Ê$       B+€M	îø3Íi ÙAg*

time/ppo/totalÐ›?ÔŸ€%       ê¼6ó	Jù3Íi ÙAg*

env/reward_mean®ž>ÔâÄ´$       B+€M	žù3Íi ÙAg*

env/reward_std¤Êl<ES:û"       x=ý	åj(Ñi ÙAh*

objective/klÌ5AÌM	'       »á±F	Nk(Ñi ÙAh*

objective/kl_coefxZ>m”w³'       »á±F	kk(Ñi ÙAh*

objective/entropy    ãcÕô/       m]P	k(Ñi ÙAh*"
 
ppo/mean_non_score_reward_OÀæžŒÖ%       ê¼6ó	—k(Ñi ÙAh*

ppo/mean_scores†@°@°º$       B+€M	ªk(Ñi ÙAh*

ppo/std_scores    “‡-       <AŠû	¼k(Ñi ÙAh* 

tokens/queries_len_mean  þB7êÏ,       ô®ÌE	Ïk(Ñi ÙAh*

tokens/queries_len_std    GË/       m]P	ãk(Ñi ÙAh*"
 
tokens/responses_len_mean  €?À¥š¬.       ÅËWú	ôk(Ñi ÙAh*!

tokens/responses_len_std    ›RT%       ê¼6ó	l(Ñi ÙAh*

ppo/loss/policy    T¬d$       B+€M	ýn(Ñi ÙAh*

ppo/loss/value°8Alì•$       B+€M	!r(Ñi ÙAh*

ppo/loss/totalD“?ÝÅÔ·(       ÿpJ	ÿr(Ñi ÙAh*

ppo/policy/entropy  |5¨J0)       7ÿ_ 	¥s(Ñi ÙAh*

ppo/policy/approxkl    ÖÙÞ)       7ÿ_ 	3t(Ñi ÙAh*

ppo/policy/policykl    õþ–î)       7ÿ_ 	±t(Ñi ÙAh*

ppo/policy/clipfrac    I’±0       •õÐ_	5u(Ñi ÙAh*#
!
ppo/policy/advantages_mean    Â&       sOã 	¤u(Ñi ÙAh*

ppo/returns/mean­1[@âbî%       ê¼6ó	v(Ñi ÙAh*

ppo/returns/var!„)©»!#       °ŸwC	Œv(Ñi ÙAh*

ppo/val/vpredÖiš?³6ÎÅ#       °ŸwC	w(Ñi ÙAh*

ppo/val/errorG
 AÎJ,`&       sOã 	uw(Ñi ÙAh*

ppo/val/clipfrac  @?É´"       x=ý	Ðw(Ñi ÙAh*

ppo/val/mean2¸Â¿*"Œ¡!       {ìö	0x(Ñi ÙAh*

ppo/val/var!„(½¬¾+       †ÃK	Šx(Ñi ÙAh*

ppo/val/var_explainedêøÖ÷É'       »á±F	êx(Ñi ÙAh*

ppo/learning_rateÀÏ¸:ñþBö+       †ÃK	Hy(Ñi ÙAh*

time/ppo/forward_passÂ/>
ºÂå.       ÅËWú	¥y(Ñi ÙAh*!

time/ppo/compute_rewards 0à:_jò1       ƒƒé	z(Ñi ÙAh*$
"
time/ppo/compute_advantages ð/;MÈ˜,       ô®ÌE	z(Ñi ÙAh*

time/ppo/optimize_step,Éd?Ák&¾)       7ÿ_ 	ýz(Ñi ÙAh*

time/ppo/calc_stats ˜>¦ÆÄO$       B+€M	p{(Ñi ÙAh*

time/ppo/totald"œ?ÀÒ¬%       ê¼6ó	Ü{(Ñi ÙAh*

env/reward_mean†@°@ë-ñû$       B+€M	*|(Ñi ÙAh*

env/reward_std    Æ„ò"       x=ý	tìôÒi ÙAi*

objective/klÌ5A9qô4'       »á±F	æìôÒi ÙAi*

objective/kl_coefXœZ>42€”'       »á±F	íôÒi ÙAi*

objective/entropy    nK+*/       m]P	íôÒi ÙAi*"
 
ppo/mean_non_score_reward6eÀ'jŸ%       ê¼6ó	*íôÒi ÙAi*

ppo/mean_scores†@°@¯ù–`$       B+€M	;íôÒi ÙAi*

ppo/std_scores    ß÷-       <AŠû	MíôÒi ÙAi* 

tokens/queries_len_mean  þBÿŒÙƒ,       ô®ÌE	^íôÒi ÙAi*

tokens/queries_len_std    ¸òR/       m]P	qíôÒi ÙAi*"
 
tokens/responses_len_mean  €?>¥9®.       ÅËWú	…íôÒi ÙAi*!

tokens/responses_len_std    wdSÌ%       ê¼6ó	—íôÒi ÙAi*

ppo/loss/policy     “þg$       B+€M	2ñôÒi ÙAi*

ppo/loss/valueÏb>`~É$       B+€M	`ñôÒi ÙAi*

ppo/loss/totalžp<=þqN(       ÿpJ	yñôÒi ÙAi*

ppo/policy/entropy A9ÉtÍ])       7ÿ_ 	ŽñôÒi ÙAi*

ppo/policy/approxklŽ~E/ãˆ#Û)       7ÿ_ 	ŸñôÒi ÙAi*

ppo/policy/policykl:Ÿ=7'åz{)       7ÿ_ 	±ñôÒi ÙAi*

ppo/policy/clipfrac    ‡,¾80       •õÐ_	ÄñôÒi ÙAi*#
!
ppo/policy/advantages_mean    Ù}oC&       sOã 	×ñôÒi ÙAi*

ppo/returns/meanÖ[@¥”‹…%       ê¼6ó	òôÒi ÙAi*

ppo/returns/var    ü¾ Ì#       °ŸwC	—òôÒi ÙAi*

ppo/val/vpredÚam@ÊÌ®a#       °ŸwC	óòôÒi ÙAi*

ppo/val/errorÆk>õºù	&       sOã 	LóôÒi ÙAi*

ppo/val/clipfrac   ?ðFóU"       x=ý	£óôÒi ÙAi*

ppo/val/meanéÝ€@eÕa!       {ìö	þóôÒi ÙAi*

ppo/val/var    Ý€éÁ+       †ÃK	YôôÒi ÙAi*

ppo/val/var_explained  €ÿÓêè«'       »á±F	´ôôÒi ÙAi*

ppo/learning_rateÀÏ¸:€.èp+       †ÃK	õôÒi ÙAi*

time/ppo/forward_pass€O1>‹yq.       ÅËWú	hõôÒi ÙAi*!

time/ppo/compute_rewards xÕ:Dlãc1       ƒƒé	ÃõôÒi ÙAi*$
"
time/ppo/compute_advantages (-;h”}i,       ô®ÌE	*öôÒi ÙAi*

time/ppo/optimize_stepÐ[e?ê?Õ·)       7ÿ_ 	öôÒi ÙAi*

time/ppo/calc_stats0>p¤*$       B+€M	ÖöôÒi ÙAi*

time/ppo/total<G?Á(„%       ê¼6ó	0÷ôÒi ÙAi*

env/reward_mean†@°@rs$       B+€M	‰÷ôÒi ÙAi*

env/reward_std    ¤~&"       x=ý	Cu²Ôi ÙAj*

objective/kl>5AžT@Z'       »á±F	¯u²Ôi ÙAj*

objective/kl_coef)ÀZ>Æ½ü'       »á±F	Íu²Ôi ÙAj*

objective/entropy‹Ý9òžâP/       m]P	äu²Ôi ÙAj*"
 
ppo/mean_non_score_reward˜zÀzß³%       ê¼6ó	úu²Ôi ÙAj*

ppo/mean_scores†@°@Â+ûé$       B+€M	v²Ôi ÙAj*

ppo/std_scores    §]Ì-       <AŠû	"v²Ôi ÙAj* 

tokens/queries_len_mean  þBê ‚,       ô®ÌE	4v²Ôi ÙAj*

tokens/queries_len_std    ½Çæ~/       m]P	Iv²Ôi ÙAj*"
 
tokens/responses_len_mean  €?l5nC.       ÅËWú	Zv²Ôi ÙAj*!

tokens/responses_len_std    _ì+ã%       ê¼6ó	mv²Ôi ÙAj*

ppo/loss/policy    üÄ$       B+€M	Üx²Ôi ÙAj*

ppo/loss/value58|=Rö$       B+€M	y²Ôi ÙAj*

ppo/loss/total’ÆÉ;¹^,|(       ÿpJ	Žy²Ôi ÙAj*

ppo/policy/entropy H&;úæþ)       7ÿ_ 	‰{²Ôi ÙAj*

ppo/policy/approxkl`Œ§0é!‡5)       7ÿ_ 	µ{²Ôi ÙAj*

ppo/policy/policykl€¸28æDpY)       7ÿ_ 	Î{²Ôi ÙAj*

ppo/policy/clipfrac    «XKD0       •õÐ_	ã{²Ôi ÙAj*#
!
ppo/policy/advantages_mean    úÅ™Ú&       sOã 	û{²Ôi ÙAj*

ppo/returns/meant[@J$f¬%       ê¼6ó	|²Ôi ÙAj*

ppo/returns/var    fº8#       °ŸwC	|²Ôi ÙAj*

ppo/val/vpred^uP@&|LÔ#       °ŸwC	2|²Ôi ÙAj*

ppo/val/errorÂ”¿=`m¿&       sOã 	¦|²Ôi ÙAj*

ppo/val/clipfrac   ?;ˆƒ5"       x=ý	ý|²Ôi ÙAj*

ppo/val/meanZT<@áL1Ô!       {ìö	U}²Ôi ÙAj*

ppo/val/var    9úÄ)+       †ÃK	­}²Ôi ÙAj*

ppo/val/var_explained  €ÿê]Pó'       »á±F	~²Ôi ÙAj*

ppo/learning_rateÀÏ¸:—éM+       †ÃK	]~²Ôi ÙAj*

time/ppo/forward_passà$>>.       ÅËWú	Ê~²Ôi ÙAj*!

time/ppo/compute_rewards ðÖ:úúöã1       ƒƒé	²Ôi ÙAj*$
"
time/ppo/compute_advantages ¸);pžD,       ô®ÌE	v²Ôi ÙAj*

time/ppo/optimize_stepäVb?W¬v)       7ÿ_ 	Í²Ôi ÙAj*

time/ppo/calc_stats >¢„æ£$       B+€M	!€²Ôi ÙAj*

time/ppo/totalÌÍ™?QÑ¤z%       ê¼6ó	x€²Ôi ÙAj*

env/reward_mean†@°@kåµ·$       B+€M	Î€²Ôi ÙAj*

env/reward_std    xÇI"       x=ý	‘ÏzÖi ÙAk*

objective/klð4A¢†['       »á±F	ÐzÖi ÙAk*

objective/kl_coef äZ>¢Ù©›'       »á±F	"ÐzÖi ÙAk*

objective/entropyÂ\9³ìèƒ/       m]P	9ÐzÖi ÙAk*"
 
ppo/mean_non_score_reward4À„Ê(é%       ê¼6ó	NÐzÖi ÙAk*

ppo/mean_scores†@°@ƒÙ$       B+€M	dÐzÖi ÙAk*

ppo/std_scores    êh-       <AŠû	vÐzÖi ÙAk* 

tokens/queries_len_mean  þBåthŽ,       ô®ÌE	‰ÐzÖi ÙAk*

tokens/queries_len_std    ˆh>/       m]P	žÐzÖi ÙAk*"
 
tokens/responses_len_mean  €?“ c.       ÅËWú	²ÐzÖi ÙAk*!

tokens/responses_len_std    ƒŒ<W%       ê¼6ó	ÄÐzÖi ÙAk*

ppo/loss/policy  8¯Ô}…Î$       B+€M	ªÑzÖi ÙAk*

ppo/loss/valueÍÁB=Ð|‘&$       B+€M	ÈÒzÖi ÙAk*

ppo/loss/total=Î›;áýÏb(       ÿpJ	4ÓzÖi ÙAk*

ppo/policy/entropy ¬Ù;\S)       7ÿ_ 	œÓzÖi ÙAk*

ppo/policy/approxklñÞµ3+XX¹)       7ÿ_ 	ùÓzÖi ÙAk*

ppo/policy/policykl9ý›9÷
ž)       7ÿ_ 	RÔzÖi ÙAk*

ppo/policy/clipfrac    ‘JF0       •õÐ_	®ÔzÖi ÙAk*#
!
ppo/policy/advantages_mean    Æd¯&       sOã 	ÕzÖi ÙAk*

ppo/returns/meanØðZ@Þ§“®%       ê¼6ó	hÕzÖi ÙAk*

ppo/returns/varŒ1Æ(A$1î#       °ŸwC	ÂÕzÖi ÙAk*

ppo/val/vpred¯Sj@
mC‹#       °ŸwC	ÖzÖi ÙAk*

ppo/val/error»w¯=µŽÀÀ&       sOã 	tÖzÖi ÙAk*

ppo/val/clipfrac  €>ô”„;"       x=ý	ÍÖzÖi ÙAk*

ppo/val/mean¼8t@Ûî!       {ìö	$×zÖi ÙAk*

ppo/val/var    ¤b1È+       †ÃK	×zÖi ÙAk*

ppo/val/var_explainedR¥bÔ¼6u'       »á±F	ä×zÖi ÙAk*

ppo/learning_rateÀÏ¸:ìèõx+       †ÃK	sØzÖi ÙAk*

time/ppo/forward_pass€@4>'+QÎ.       ÅËWú	‡ØzÖi ÙAk*!

time/ppo/compute_rewards ¸Õ:ñ(õ1       ƒƒé	áØzÖi ÙAk*$
"
time/ppo/compute_advantages ð);’7Ò,       ô®ÌE	?ÙzÖi ÙAk*

time/ppo/optimize_stepÔÖk?(%F`)       7ÿ_ 	˜ÙzÖi ÙAk*

time/ppo/calc_stats@X>'>àu$       B+€M	ùÙzÖi ÙAk*

time/ppo/totalHë ?ë0¸N%       ê¼6ó	NÚzÖi ÙAk*

env/reward_mean†@°@ÁÀ,x$       B+€M	ÆÚzÖi ÙAk*

env/reward_std    ñ&ªe"       x=ý	µAØi ÙAl*

objective/klž/A§7¯'       »á±F	rµAØi ÙAl*

objective/kl_coefÝ[>0L '       »á±F	ŽµAØi ÙAl*

objective/entropyÒ¬Å:ká·/       m]P	¢µAØi ÙAl*"
 
ppo/mean_non_score_rewardˆ¡À1.ýÆ%       ê¼6ó	¶µAØi ÙAl*

ppo/mean_scores†@°@a…Œœ$       B+€M	ÈµAØi ÙAl*

ppo/std_scores    ! a -       <AŠû	ÚµAØi ÙAl* 

tokens/queries_len_mean  þB~Ç%Ö,       ô®ÌE	êµAØi ÙAl*

tokens/queries_len_std    sbÅ/       m]P	üµAØi ÙAl*"
 
tokens/responses_len_mean  €?Ã§o¸.       ÅËWú	¶AØi ÙAl*!

tokens/responses_len_std    ïV^j%       ê¼6ó	¶AØi ÙAl*

ppo/loss/policy  ¹®ã_¾$       B+€M	·AØi ÙAl*

ppo/loss/valueF=ã<6o
$       B+€M	¸AØi ÙAl*

ppo/loss/totalŸÊ5;ÌÊ(       ÿpJ	ºAØi ÙAl*

ppo/policy/entropy`6É<×Å¼Ú)       7ÿ_ 	0ºAØi ÙAl*

ppo/policy/approxklî†j4"Ù«d)       7ÿ_ 	IºAØi ÙAl*

ppo/policy/policyklz:[Û_i)       7ÿ_ 	[ºAØi ÙAl*

ppo/policy/clipfrac    ¥ïº0       •õÐ_	qºAØi ÙAl*#
!
ppo/policy/advantages_mean  @¬)Ša[&       sOã 	‡ºAØi ÙAl*

ppo/returns/mean„ßZ@Ö72s%       ê¼6ó	šºAØi ÙAl*

ppo/returns/varŒ1F)i!Åï#       °ŸwC	»AØi ÙAl*

ppo/val/vpred$ML@8¶}#       °ŸwC	]»AØi ÙAl*

ppo/val/errorF=c=¸ËáÝ&       sOã 	µ»AØi ÙAl*

ppo/val/clipfrac    êžÇ"       x=ý	
¼AØi ÙAl*

ppo/val/meanÑ`M@aEýw!       {ìö	b¼AØi ÙAl*

ppo/val/var    ©Ämõ+       †ÃK	¿¼AØi ÙAl*

ppo/val/var_explained=Â’ÓuÇŸw'       »á±F	½AØi ÙAl*

ppo/learning_rateÀÏ¸:û&!Q+       †ÃK	s½AØi ÙAl*

time/ppo/forward_pass0Ë&>H/.       ÅËWú	Ï½AØi ÙAl*!

time/ppo/compute_rewards €;çF1       ƒƒé	4¾AØi ÙAl*$
"
time/ppo/compute_advantages €);K"Žª,       ô®ÌE	„¾AØi ÙAl*

time/ppo/optimize_stepàÔe?œ‚Ï«)       7ÿ_ 	Ú¾AØi ÙAl*

time/ppo/calc_stats`ø!>š|s$       B+€M	.¿AØi ÙAl*

time/ppo/totalÚœ?EïPý%       ê¼6ó	„¿AØi ÙAl*

env/reward_mean†@°@Ó«©$       B+€M	×¿AØi ÙAl*

env/reward_std    §‘½V"       x=ý	KOYÚi ÙAm*

objective/klöƒA
K'       »á±F	¸OYÚi ÙAm*

objective/kl_coefÀ+[>à}Kä'       »á±F	ÔOYÚi ÙAm*

objective/entropy¯˜>k±òØ/       m]P	éOYÚi ÙAm*"
 
ppo/mean_non_score_reward!ðÀ­¦Ë©%       ê¼6ó	ýOYÚi ÙAm*

ppo/mean_scoresª«@AQºÇ$       B+€M	PYÚi ÙAm*

ppo/std_scoresWöh?æ‰ø‚-       <AŠû	#PYÚi ÙAm* 

tokens/queries_len_mean  þBzšÌÙ,       ô®ÌE	4PYÚi ÙAm*

tokens/queries_len_std    #¯>/       m]P	FPYÚi ÙAm*"
 
tokens/responses_len_mean  „?ý%.       ÅËWú	XPYÚi ÙAm*!

tokens/responses_len_stdó5>q\%       ê¼6ó	jPYÚi ÙAm*

ppo/loss/policy,D’¼q$       B+€M	êRYÚi ÙAm*

ppo/loss/value¿lz?g«û$       B+€M	SYÚi ÙAm*

ppo/loss/totalõÅ£=IÍLö(       ÿpJ	ŒSYÚi ÙAm*

ppo/policy/entropy/’á;?Œ´)       7ÿ_ 	^UYÚi ÙAm*

ppo/policy/approxklFëä?0Eæ5)       7ÿ_ 	‰UYÚi ÙAm*

ppo/policy/policykl!Š>õ(6)       7ÿ_ 	ŸUYÚi ÙAm*

ppo/policy/clipfracŒ.º<%;í0       •õÐ_	¶UYÚi ÙAm*#
!
ppo/policy/advantages_mean>ø±9©`&       sOã 	ÉUYÚi ÙAm*

ppo/returns/meanS4G@.WB¸%       ê¼6ó	ÛUYÚi ÙAm*

ppo/returns/varÆ¿?ì0æ#       °ŸwC	ìUYÚi ÙAm*

ppo/val/vpredz~r@ïï#       °ŸwC	JVYÚi ÙAm*

ppo/val/error¿lú?V°&       sOã 	­VYÚi ÙAm*

ppo/val/clipfrac    Ÿ¬U¸"       x=ý	 WYÚi ÙAm*

ppo/val/meanS\@Ä‘:!       {ìö	XWYÚi ÙAm*

ppo/val/varb[7ÐžFö+       †ÃK	³WYÚi ÙAm*

ppo/val/var_explained@–œ¾G,ÿ'       »á±F	
XYÚi ÙAm*

ppo/learning_rateÀÏ¸:.Ðž+       †ÃK	bXYÚi ÙAm*

time/ppo/forward_pass À0>yŸ<m.       ÅËWú	½XYÚi ÙAm*!

time/ppo/compute_rewards Ö:Eôh@1       ƒƒé	YYÚi ÙAm*$
"
time/ppo/compute_advantages |*;ç¶Ÿ®,       ô®ÌE	fYYÚi ÙAm*

time/ppo/optimize_stepô˜m?¬{))       7ÿ_ 	¼YYÚi ÙAm*

time/ppo/calc_statsðÇ&>qhÆÈ$       B+€M	ZYÚi ÙAm*

time/ppo/total®J¢?srÈ%       ê¼6ó	iZYÚi ÙAm*

env/reward_meanª«@Ã[¶[$       B+€M	½ZYÚi ÙAm*

env/reward_stdWöh?z­#"       x=ý	æjÜi ÙAn*

objective/klÌ5Aë7{­'       »á±F	UkÜi ÙAn*

objective/kl_coef©O[>wˆTŠ'       »á±F	okÜi ÙAn*

objective/entropy    kÿ/       m]P	‚kÜi ÙAn*"
 
ppo/mean_non_score_reward¡ÒÀ¡ã$G%       ê¼6ó	•kÜi ÙAn*

ppo/mean_scores†@°@Ç_èµ$       B+€M	¥kÜi ÙAn*

ppo/std_scores    ¡c'"-       <AŠû	¶kÜi ÙAn* 

tokens/queries_len_mean  þBÁ>iØ,       ô®ÌE	ÈkÜi ÙAn*

tokens/queries_len_std    j-ú/       m]P	ÚkÜi ÙAn*"
 
tokens/responses_len_mean  €?Kxaj.       ÅËWú	ìkÜi ÙAn*!

tokens/responses_len_std    ”æÝ{%       ê¼6ó	ýkÜi ÙAn*

ppo/loss/policy    yè$       B+€M	nÜi ÙAn*

ppo/loss/valuerØ>W®+"$       B+€M	³rÜi ÙAn*

ppo/loss/totalêób<ý¶Ú(       ÿpJ	ÞrÜi ÙAn*

ppo/policy/entropy  4?Ë3«)       7ÿ_ 	ôrÜi ÙAn*

ppo/policy/approxkl    &„Ny)       7ÿ_ 	sÜi ÙAn*

ppo/policy/policykl    ðÏü5)       7ÿ_ 	sÜi ÙAn*

ppo/policy/clipfrac    Ru¢t0       •õÐ_	-sÜi ÙAn*#
!
ppo/policy/advantages_mean    2ZT&       sOã 	DsÜi ÙAn*

ppo/returns/meank®Z@[½_%       ê¼6ó	VsÜi ÙAn*

ppo/returns/var    úK5#       °ŸwC	hsÜi ÙAn*

ppo/val/vpredû*;@ÇúÆØ#       °ŸwC	xsÜi ÙAn*

ppo/val/errorrØ> h&       sOã 	§uÜi ÙAn*

ppo/val/clipfrac    µyo«"       x=ý	ÒuÜi ÙAn*

ppo/val/mean¶M@ÿ¦úþ!       {ìö	èuÜi ÙAn*

ppo/val/var    :R+       †ÃK	vÜi ÙAn*

ppo/val/var_explained  €ÿŠ:'       »á±F	vÜi ÙAn*

ppo/learning_rateÀÏ¸:êÚ«+       †ÃK	#vÜi ÙAn*

time/ppo/forward_pass C(>[*’-.       ÅËWú	PyÜi ÙAn*!

time/ppo/compute_rewards HØ:Ù¢Æc1       ƒƒé	yyÜi ÙAn*$
"
time/ppo/compute_advantages ð#;.—¢,       ô®ÌE	”yÜi ÙAn*

time/ppo/optimize_step g?0¹ÛÁ)       7ÿ_ 	¦yÜi ÙAn*

time/ppo/calc_statsP¾!>/ÔJ$       B+€M	¸yÜi ÙAn*

time/ppo/totalP?+Kõ%       ê¼6ó	ÈyÜi ÙAn*

env/reward_mean†@°@o6&0$       B+€M	ÚyÜi ÙAn*

env/reward_std    —£)"       x=ý	-õßÝi ÙAo*

objective/klÌ5A þÚ€'       »á±F	–õßÝi ÙAo*

objective/kl_coef—s[>o>/‰'       »á±F	³õßÝi ÙAo*

objective/entropy    +¿-/       m]P	ÈõßÝi ÙAo*"
 
ppo/mean_non_score_rewardŽèÀÂ—à!%       ê¼6ó	àõßÝi ÙAo*

ppo/mean_scores†@°@HS~o$       B+€M	ñõßÝi ÙAo*

ppo/std_scores     ‡y”-       <AŠû	ößÝi ÙAo* 

tokens/queries_len_mean  þBÌ ,ý,       ô®ÌE	ößÝi ÙAo*

tokens/queries_len_std    \41/       m]P	(ößÝi ÙAo*"
 
tokens/responses_len_mean  €?ô](.       ÅËWú	9ößÝi ÙAo*!

tokens/responses_len_std    ÿPQV%       ê¼6ó	KößÝi ÙAo*

ppo/loss/policy    ©)lT$       B+€M	"÷ßÝi ÙAo*

ppo/loss/value‚¤=KEùH$       B+€M	øßÝi ÙAo*

ppo/loss/total7›<Ï‰_(       ÿpJ	gøßÝi ÙAo*

ppo/policy/entropy    àZ])       7ÿ_ 	ÉøßÝi ÙAo*

ppo/policy/approxkl    AËT)       7ÿ_ 	 ùßÝi ÙAo*

ppo/policy/policykl    €Ÿs)       7ÿ_ 	tùßÝi ÙAo*

ppo/policy/clipfrac    ˆŸõ0       •õÐ_	ÍùßÝi ÙAo*#
!
ppo/policy/advantages_mean    –ãv&       sOã 	2úßÝi ÙAo*

ppo/returns/mean~˜Z@àø¼%       ê¼6ó	ÃúßÝi ÙAo*

ppo/returns/var    ±y©”#       °ŸwC	ûßÝi ÙAo*

ppo/val/vpred8 o@v¾ü#       °ŸwC	qûßÝi ÙAo*

ppo/val/error‚$>R¶Š&       sOã 	ÇûßÝi ÙAo*

ppo/val/clipfrac    À3["       x=ý	üßÝi ÙAo*

ppo/val/mean-fW@eÁ!       {ìö	yüßÝi ÙAo*

ppo/val/var!„)¡ot{+       †ÃK	ÒüßÝi ÙAo*

ppo/val/var_explained  €ÿÓù³'       »á±F	(ýßÝi ÙAo*

ppo/learning_rateÀÏ¸:M	À‹+       †ÃK	2ÿßÝi ÙAo*

time/ppo/forward_pass0³.>3úÒÞ.       ÅËWú	`ÿßÝi ÙAo*!

time/ppo/compute_rewards °Õ:¸•c¶1       ƒƒé	ÈÿßÝi ÙAo*$
"
time/ppo/compute_advantages (*;F”/,       ô®ÌE	) àÝi ÙAo*

time/ppo/optimize_stepFf?þWÞí)       7ÿ_ 	ƒ àÝi ÙAo*

time/ppo/calc_stats w!>-fò$       B+€M	Ü àÝi ÙAo*

time/ppo/total$µ?`•>%       ê¼6ó	<àÝi ÙAo*

env/reward_mean†@°@­´$       B+€M	‘àÝi ÙAo*

env/reward_std    Û)zx"       x=ý	â[ßi ÙAp*

objective/klÌ5A…‹öÉ'       »á±F	Q\ßi ÙAp*

objective/kl_coefŒ—[>*o‡g'       »á±F	o\ßi ÙAp*

objective/entropy    ‰Ýx‡/       m]P	†\ßi ÙAp*"
 
ppo/mean_non_score_rewardþÀØ|÷µ%       ê¼6ó	›\ßi ÙAp*

ppo/mean_scores†@°@§HÍÜ$       B+€M	¯\ßi ÙAp*

ppo/std_scores    Ö*TF-       <AŠû	Â\ßi ÙAp* 

tokens/queries_len_mean  þB–öâ´,       ô®ÌE	Ö\ßi ÙAp*

tokens/queries_len_std    Oýÿ˜/       m]P	ë\ßi ÙAp*"
 
tokens/responses_len_mean  €?ùºlC.       ÅËWú	 ]ßi ÙAp*!

tokens/responses_len_std    ÕËz\%       ê¼6ó	]ßi ÙAp*

ppo/loss/policy    ’së$       B+€M	{`ßi ÙAp*

ppo/loss/value =K=6~†$       B+€M	©`ßi ÙAp*

ppo/loss/total³—¢;&‘á§(       ÿpJ	Ã`ßi ÙAp*

ppo/policy/entropy    ü"ø)       7ÿ_ 	Ö`ßi ÙAp*

ppo/policy/approxkl    þ×NL)       7ÿ_ 	è`ßi ÙAp*

ppo/policy/policykl    „~Ã)       7ÿ_ 	ü`ßi ÙAp*

ppo/policy/clipfrac    Šª7w0       •õÐ_	aßi ÙAp*#
!
ppo/policy/advantages_mean     (¤&       sOã 	raßi ÙAp*

ppo/returns/meanŒ‚Z@NwÍ%       ê¼6ó	Öaßi ÙAp*

ppo/returns/var!„)o´é·#       °ŸwC	3bßi ÙAp*

ppo/val/vpredqM@K7Æ#       °ŸwC	Žbßi ÙAp*

ppo/val/error =Ë=iJ&       sOã 	çbßi ÙAp*

ppo/val/clipfrac    Qðÿn"       x=ý	@cßi ÙAp*

ppo/val/meane@2Ÿ!       {ìö	›cßi ÙAp*

ppo/val/var    Én+       †ÃK	÷cßi ÙAp*

ppo/val/var_explained³ãÄÓh™£'       »á±F	`dßi ÙAp*

ppo/learning_rateÀÏ¸:«}_Í+       †ÃK	´dßi ÙAp*

time/ppo/forward_passâ'>æÁ*:.       ÅËWú	eßi ÙAp*!

time/ppo/compute_rewards ÐÕ:¹ä[1       ƒƒé	meßi ÙAp*$
"
time/ppo/compute_advantages ´,;M9µš,       ô®ÌE	Åeßi ÙAp*

time/ppo/optimize_stept¼f?9[Î)       7ÿ_ 	fßi ÙAp*

time/ppo/calc_statsðP!>vFIZ$       B+€M	rfßi ÙAp*

time/ppo/totalÀ?³u%       ê¼6ó	Ïfßi ÙAp*

env/reward_mean†@°@"fÐ×$       B+€M	%gßi ÙAp*

env/reward_std    ÿ_À…"       x=ý	)->ái ÙAq*

objective/klÌ5AH¬|)'       »á±F	™->ái ÙAq*

objective/kl_coef†»[>•À°¬'       »á±F	³->ái ÙAq*

objective/entropy    ”âqÚ/       m]P	Æ->ái ÙAq*"
 
ppo/mean_non_score_rewardtÀÙèA3%       ê¼6ó	Ø->ái ÙAq*

ppo/mean_scores†@°@5nú $       B+€M	ê->ái ÙAq*

ppo/std_scores    8Ÿ=-       <AŠû	ü->ái ÙAq* 

tokens/queries_len_mean  þBÅð,       ô®ÌE	.>ái ÙAq*

tokens/queries_len_std    JŒ"/       m]P	.>ái ÙAq*"
 
tokens/responses_len_mean  €?]¤Öó.       ÅËWú	/.>ái ÙAq*!

tokens/responses_len_std    *©%       ê¼6ó	@.>ái ÙAq*

ppo/loss/policy    -¾Šú$       B+€M	X/>ái ÙAq*

ppo/loss/valueðÿï<ª´;ˆ$       B+€M	u0>ái ÙAq*

ppo/loss/totalóÿ?;!ÎYÉ(       ÿpJ	1>ái ÙAq*

ppo/policy/entropy    _ A)       7ÿ_ 	l1>ái ÙAq*

ppo/policy/approxkl    ”¢a)       7ÿ_ 	Ä1>ái ÙAq*

ppo/policy/policykl    î›þ#)       7ÿ_ 	2>ái ÙAq*

ppo/policy/clipfrac    W.gK0       •õÐ_	u2>ái ÙAq*#
!
ppo/policy/advantages_mean    2›W¸&       sOã 	Ñ2>ái ÙAq*

ppo/returns/mean™lZ@`7ê%       ê¼6ó	,3>ái ÙAq*

ppo/returns/var    ÑÔP3#       °ŸwC	ƒ3>ái ÙAq*

ppo/val/vpred¦}^@‹'h¸#       °ŸwC	Ú3>ái ÙAq*

ppo/val/errorHÈj=|Î¡&       sOã 	94>ái ÙAq*

ppo/val/clipfrac  €>ëpv"       x=ý	4>ái ÙAq*

ppo/val/meaneïH@øt!       {ìö	ç4>ái ÙAq*

ppo/val/var    `Š\+       †ÃK	K5>ái ÙAq*

ppo/val/var_explained  €ÿà¸í2'       »á±F	 5>ái ÙAq*

ppo/learning_rateÀÏ¸:ãùÉ+       †ÃK	ú5>ái ÙAq*

time/ppo/forward_pass€û)>ê‘>.       ÅËWú	V6>ái ÙAq*!

time/ppo/compute_rewards ÐÔ:¥|—}1       ƒƒé	©6>ái ÙAq*$
"
time/ppo/compute_advantages ä);Ó½Ö,       ô®ÌE	 7>ái ÙAq*

time/ppo/optimize_step•f?æè)       7ÿ_ 	R7>ái ÙAq*

time/ppo/calc_statsp+>áatê$       B+€M	¦7>ái ÙAq*

time/ppo/totalÞÛœ?Å"Ü%       ê¼6ó	ü7>ái ÙAq*

env/reward_mean†@°@½­Î,$       B+€M	L8>ái ÙAq*

env/reward_std    rz"       x=ý	¦#öâi ÙAr*

objective/klÌ5AÞN.ø'       »á±F	$öâi ÙAr*

objective/kl_coef†ß[>e¨óØ'       »á±F	.$öâi ÙAr*

objective/entropy    W”z/       m]P	E$öâi ÙAr*"
 
ppo/mean_non_score_rewardj*ÀÚ:,˜%       ê¼6ó	Y$öâi ÙAr*

ppo/mean_scores†@°@	u t$       B+€M	k$öâi ÙAr*

ppo/std_scores    „bi-       <AŠû	}$öâi ÙAr* 

tokens/queries_len_mean  þB£Íé¸,       ô®ÌE	Ž$öâi ÙAr*

tokens/queries_len_std    ›Å)/       m]P	Ÿ$öâi ÙAr*"
 
tokens/responses_len_mean  €?8!.       ÅËWú	±$öâi ÙAr*!

tokens/responses_len_std    =!€ç%       ê¼6ó	Â$öâi ÙAr*

ppo/loss/policy    Ý 2½$       B+€M	L'öâi ÙAr*

ppo/loss/value£á«<#iÝ$       B+€M	f)öâi ÙAr*

ppo/loss/totalO	;Œ[, (       ÿpJ	•)öâi ÙAr*

ppo/policy/entropy    >[§Û)       7ÿ_ 	­)öâi ÙAr*

ppo/policy/approxkl    …¼£)       7ÿ_ 	Á)öâi ÙAr*

ppo/policy/policykl    j0•y)       7ÿ_ 	Ô)öâi ÙAr*

ppo/policy/clipfrac    qÃ«0       •õÐ_	è)öâi ÙAr*#
!
ppo/policy/advantages_mean    âJ+_&       sOã 	ÿ)öâi ÙAr*

ppo/returns/mean¢VZ@ŸoWÖ%       ê¼6ó	É:öâi ÙAr*

ppo/returns/var    Í–	#       °ŸwC	ò:öâi ÙAr*

ppo/val/vpred¨q[@ß
vJ#       °ŸwC	ý;öâi ÙAr*

ppo/val/errorþó*=›­U£&       sOã 	U<öâi ÙAr*

ppo/val/clipfrac  €>5ëå"       x=ý	¶<öâi ÙAr*

ppo/val/meanl@Íº¬b!       {ìö	=öâi ÙAr*

ppo/val/var    ¦$ï+       †ÃK	]=öâi ÙAr*

ppo/val/var_explained  €ÿGÕ‹'       »á±F	´=öâi ÙAr*

ppo/learning_rateÀÏ¸:XúŽ+       †ÃK	>öâi ÙAr*

time/ppo/forward_passÐc)>á°Ûú.       ÅËWú	i>öâi ÙAr*!

time/ppo/compute_rewards  ò:ÆN1       ƒƒé	Â>öâi ÙAr*$
"
time/ppo/compute_advantages d);0 Ÿ,       ô®ÌE	?öâi ÙAr*

time/ppo/optimize_stepH„d?‰Ðá)       7ÿ_ 	n?öâi ÙAr*

time/ppo/calc_stats°s>i>Ù$       B+€M	À?öâi ÙAr*

time/ppo/totalÖð›?ô÷%       ê¼6ó	@öâi ÙAr*

env/reward_mean†@°@ž'YÕ$       B+€M	m@öâi ÙAr*

env/reward_std    ëû:	"       x=ý	O“Âäi ÙAs*

objective/klÌ5A¦Ao'       »á±F	¹“Âäi ÙAs*

objective/kl_coefŒ\>=ôÃ'       »á±F	Ö“Âäi ÙAs*

objective/entropy    Í;–/       m]P	ê“Âäi ÙAs*"
 
ppo/mean_non_score_rewarde@À¸™pà%       ê¼6ó	”Âäi ÙAs*

ppo/mean_scores†@°@‹;Ž$       B+€M	”Âäi ÙAs*

ppo/std_scores    ¡Ê„-       <AŠû	+”Âäi ÙAs* 

tokens/queries_len_mean  þByÁ,       ô®ÌE	>”Âäi ÙAs*

tokens/queries_len_std    ÔB|T/       m]P	O”Âäi ÙAs*"
 
tokens/responses_len_mean  €?gÞä„.       ÅËWú	a”Âäi ÙAs*!

tokens/responses_len_std    •3žè%       ê¼6ó	t”Âäi ÙAs*

ppo/loss/policy    “¹[$       B+€M	³–Âäi ÙAs*

ppo/loss/valueÆ$«<¡Ïd2$       B+€M	à–Âäi ÙAs*

ppo/loss/total8ê;Àõ-A(       ÿpJ	œ˜Âäi ÙAs*

ppo/policy/entropy    W¦÷N)       7ÿ_ 	È˜Âäi ÙAs*

ppo/policy/approxkl    22çz)       7ÿ_ 	à˜Âäi ÙAs*

ppo/policy/policykl    bjŠ)       7ÿ_ 	õ˜Âäi ÙAs*

ppo/policy/clipfrac    YÍéÛ0       •õÐ_	
™Âäi ÙAs*#
!
ppo/policy/advantages_mean    ÔáDË&       sOã 	™Âäi ÙAs*

ppo/returns/mean§@Z@CÔha%       ê¼6ó	„™Âäi ÙAs*

ppo/returns/var    @rç#       °ŸwC	æ™Âäi ÙAs*

ppo/val/vpredú(R@U°·ë#       °ŸwC	AšÂäi ÙAs*

ppo/val/errorËá=¬àe—&       sOã 	œšÂäi ÙAs*

ppo/val/clipfrac   ?ýž‹"       x=ý	óšÂäi ÙAs*

ppo/val/meani­F@òîŽ!       {ìö	L›Âäi ÙAs*

ppo/val/var    ‡DõF+       †ÃK	§›Âäi ÙAs*

ppo/val/var_explained  €ÿ±V”'       »á±F	 œÂäi ÙAs*

ppo/learning_rateÀÏ¸:÷€jü+       †ÃK	ZœÂäi ÙAs*

time/ppo/forward_pass°´->´Ö/?.       ÅËWú	´œÂäi ÙAs*!

time/ppo/compute_rewards  ù:Ö±1Ë1       ƒƒé	Âäi ÙAs*$
"
time/ppo/compute_advantages Ô*;­êË§,       ô®ÌE	cÂäi ÙAs*

time/ppo/optimize_stepä¥f?~:F)       7ÿ_ 	¹Âäi ÙAs*

time/ppo/calc_stats )!>µŒÌ$       B+€M	žÂäi ÙAs*

time/ppo/totalÅ?úÎ0I%       ê¼6ó	gžÂäi ÙAs*

env/reward_mean†@°@à¦D$       B+€M	ºžÂäi ÙAs*

env/reward_std    óÕ'%"       x=ý	ÏEæi ÙAt*

objective/klÌ5AVçß'       »á±F	8Fæi ÙAt*

objective/kl_coef™'\>Ll„ø'       »á±F	VFæi ÙAt*

objective/entropy    ØvÒ/       m]P	mFæi ÙAt*"
 
ppo/mean_non_score_rewardeVÀ‘.…o%       ê¼6ó	Fæi ÙAt*

ppo/mean_scores†@°@"<&C$       B+€M	’Fæi ÙAt*

ppo/std_scores    ’¯\Õ-       <AŠû	¦Fæi ÙAt* 

tokens/queries_len_mean  þBC¡×C,       ô®ÌE	ºFæi ÙAt*

tokens/queries_len_std    EÖ~'/       m]P	ÌFæi ÙAt*"
 
tokens/responses_len_mean  €?k:n—.       ÅËWú	ÝFæi ÙAt*!

tokens/responses_len_std    ú•,¬%       ê¼6ó	ðFæi ÙAt*

ppo/loss/policy    ½Yš$       B+€M	sJæi ÙAt*

ppo/loss/value Z<[“El$       B+€M	¡Jæi ÙAt*

ppo/loss/totalšöæ:ÞrŒ(       ÿpJ	¸Jæi ÙAt*

ppo/policy/entropy    óE²)       7ÿ_ 	ÌJæi ÙAt*

ppo/policy/approxkl    PH´\)       7ÿ_ 	ÞJæi ÙAt*

ppo/policy/policykl    Ð›Ø)       7ÿ_ 	ïJæi ÙAt*

ppo/policy/clipfrac    —;gv0       •õÐ_	Kæi ÙAt*#
!
ppo/policy/advantages_mean    7ž&       sOã 	Kæi ÙAt*

ppo/returns/mean§*Z@è}¬‹%       ê¼6ó	£Kæi ÙAt*

ppo/returns/var    Í›’#       °ŸwC	Læi ÙAt*

ppo/val/vpredÄÔd@@}_Š#       °ŸwC	bLæi ÙAt*

ppo/val/error Z=¸ÚõÊ&       sOã 	·Læi ÙAt*

ppo/val/clipfrac    ½ï$õ"       x=ý	Mæi ÙAt*

ppo/val/meanÆqh@äö¤ü!       {ìö	fMæi ÙAt*

ppo/val/var!„)bBì’+       †ÃK	½Mæi ÙAt*

ppo/val/var_explained  €ÿwÍÂ-'       »á±F	Næi ÙAt*

ppo/learning_rateÀÏ¸:	ðO+       †ÃK	rNæi ÙAt*

time/ppo/forward_pass°}(>(J¦‡.       ÅËWú	ÐNæi ÙAt*!

time/ppo/compute_rewards àØ:åTk%1       ƒƒé	'Oæi ÙAt*$
"
time/ppo/compute_advantages (,;ž!è,       ô®ÌE	{Oæi ÙAt*

time/ppo/optimize_stepÌg?÷¸ßI)       7ÿ_ 	ÑOæi ÙAt*

time/ppo/calc_statsà`">^ƒ$       B+€M	)Pæi ÙAt*

time/ppo/totalzr?ìk¯	%       ê¼6ó	~Pæi ÙAt*

env/reward_mean†@°@O&æ$       B+€M	ÑPæi ÙAt*

env/reward_std    h)”	"       x=ý	Î¬Oèi ÙAu*

objective/klÌ5AåíìÖ'       »á±F	:­Oèi ÙAu*

objective/kl_coefªK\>¾iPˆ'       »á±F	X­Oèi ÙAu*

objective/entropy    ¿Ý×Ô/       m]P	n­Oèi ÙAu*"
 
ppo/mean_non_score_rewardglÀŸÍÁ%       ê¼6ó	‚­Oèi ÙAu*

ppo/mean_scores†@°@]M¸$       B+€M	”­Oèi ÙAu*

ppo/std_scores    &gã-       <AŠû	¦­Oèi ÙAu* 

tokens/queries_len_mean  þBÎçÅ%,       ô®ÌE	¶­Oèi ÙAu*

tokens/queries_len_std    (‘ˆŸ/       m]P	Ç­Oèi ÙAu*"
 
tokens/responses_len_mean  €?ý5à¹.       ÅËWú	Ø­Oèi ÙAu*!

tokens/responses_len_std    Ú$xæ%       ê¼6ó	ê­Oèi ÙAu*

ppo/loss/policy    £Ög$       B+€M	ñ¯Oèi ÙAu*

ppo/loss/value$š=<Õb5Î$       B+€M	6²Oèi ÙAu*

ppo/loss/total„®—:Œ|¬(       ÿpJ	b²Oèi ÙAu*

ppo/policy/entropy    oK|˜)       7ÿ_ 	s´Oèi ÙAu*

ppo/policy/approxkl    ‚?!)       7ÿ_ 	Ÿ´Oèi ÙAu*

ppo/policy/policykl    V–âJ)       7ÿ_ 	ö¶Oèi ÙAu*

ppo/policy/clipfrac    ×æBœ0       •õÐ_	"·Oèi ÙAu*#
!
ppo/policy/advantages_mean    —åz¿&       sOã 	:·Oèi ÙAu*

ppo/returns/mean¥Z@.µ%       ê¼6ó	q¹Oèi ÙAu*

ppo/returns/var    ™ö
#       °ŸwC	›¹Oèi ÙAu*

ppo/val/vpred3¬P@üð²b#       °ŸwC	²¹Oèi ÙAu*

ppo/val/error$š½<¤”E&       sOã 	Å¹Oèi ÙAu*

ppo/val/clipfrac    6î,¢"       x=ý	Ü¹Oèi ÙAu*

ppo/val/mean$S@Ûë!       {ìö	ð¹Oèi ÙAu*

ppo/val/var    œèMt+       †ÃK	ºOèi ÙAu*

ppo/val/var_explained  €ÿ¦ìšµ'       »á±F	ºOèi ÙAu*

ppo/learning_rateÀÏ¸:¾FúÐ+       †ÃK	#ºOèi ÙAu*

time/ppo/forward_pass@ >¸»È..       ÅËWú	4ºOèi ÙAu*!

time/ppo/compute_rewards ˜Ô:,M1       ƒƒé	›ºOèi ÙAu*$
"
time/ppo/compute_advantages \1;ýMÇu,       ô®ÌE	õºOèi ÙAu*

time/ppo/optimize_stepÿX?NUGh)       7ÿ_ 	T»Oèi ÙAu*

time/ppo/calc_statsàÙ>Ø¥œ$       B+€M	 »Oèi ÙAu*

time/ppo/totalF”?æ„/
%       ê¼6ó	ó»Oèi ÙAu*

env/reward_mean†@°@2Õ$       B+€M	F¼Oèi ÙAu*

env/reward_std    ­Vò"       x=ý	Cøéi ÙAv*

objective/klÌ5AÝ7á'       »á±F	®øéi ÙAv*

objective/kl_coefÂo\>Aü¦+'       »á±F	Éøéi ÙAv*

objective/entropy    @Ò™¿/       m]P	Üøéi ÙAv*"
 
ppo/mean_non_score_rewardm‚À SÞ%       ê¼6ó	ñøéi ÙAv*

ppo/mean_scores†@°@ØK"$       B+€M	øéi ÙAv*

ppo/std_scores    §Æö-       <AŠû	øéi ÙAv* 

tokens/queries_len_mean  þB'— a,       ô®ÌE	%øéi ÙAv*

tokens/queries_len_std    
Ä™Ž/       m]P	6øéi ÙAv*"
 
tokens/responses_len_mean  €?–Â!.       ÅËWú	Gøéi ÙAv*!

tokens/responses_len_std    @:¼%       ê¼6ó	Xøéi ÙAv*

ppo/loss/policy    Þ)W$       B+€M	á	øéi ÙAv*

ppo/loss/value:'Ó;7Ð‡Õ$       B+€M	
øéi ÙAv*

ppo/loss/total.ì(:.áV(       ÿpJ	Ðøéi ÙAv*

ppo/policy/entropy    d-n)       7ÿ_ 	Ñøéi ÙAv*

ppo/policy/approxkl    ¤¢4)       7ÿ_ 	[øéi ÙAv*

ppo/policy/policykl    »4Ð)       7ÿ_ 	Ãøéi ÙAv*

ppo/policy/clipfrac    ø…0       •õÐ_	+øéi ÙAv*#
!
ppo/policy/advantages_mean    9ôBÿ&       sOã 	”øéi ÙAv*

ppo/returns/meanŸþY@øÃÆ%       ê¼6ó	øøéi ÙAv*

ppo/returns/var    ÁÝÜa#       °ŸwC	Vøéi ÙAv*

ppo/val/vpredâ[`@‡n#       °ŸwC	´øéi ÙAv*

ppo/val/error:'S<Õ õ&       sOã 	øéi ÙAv*

ppo/val/clipfrac    ¤l="       x=ý	zøéi ÙAv*

ppo/val/meanÕŒZ@Çy« !       {ìö	Ðøéi ÙAv*

ppo/val/var    i‹üY+       †ÃK	*øéi ÙAv*

ppo/val/var_explained  €ÿ!¹Ç'       »á±F	ƒøéi ÙAv*

ppo/learning_rateÀÏ¸:A9¸£+       †ÃK	Øøéi ÙAv*

time/ppo/forward_pass`{">94†¾.       ÅËWú	2øéi ÙAv*!

time/ppo/compute_rewards ÐÐ:ÿí^Ã1       ƒƒé	‹øéi ÙAv*$
"
time/ppo/compute_advantages ä*;W'Ê-,       ô®ÌE	èøéi ÙAv*

time/ppo/optimize_stepTæ[?ÇB))       7ÿ_ 	Døéi ÙAv*

time/ppo/calc_stats ï>¡€Fà$       B+€M	¦øéi ÙAv*

time/ppo/totalVÌ•?ð†¥%       ê¼6ó	øéi ÙAv*

env/reward_mean†@°@)ˆH$       B+€M	^øéi ÙAv*

env/reward_std    Ùj“"       x=ý	¸„¢ëi ÙAw*

objective/klÌ5A¿Ñƒ'       »á±F	…¢ëi ÙAw*

objective/kl_coefà“\>àÈ9'       »á±F	<…¢ëi ÙAw*

objective/entropy    i3™:/       m]P	R…¢ëi ÙAw*"
 
ppo/mean_non_score_rewardw˜À×yQ*%       ê¼6ó	d…¢ëi ÙAw*

ppo/mean_scores†@°@F\S–$       B+€M	v…¢ëi ÙAw*

ppo/std_scores    [·ãÿ-       <AŠû	‡…¢ëi ÙAw* 

tokens/queries_len_mean  þBÂÎ5,       ô®ÌE	˜…¢ëi ÙAw*

tokens/queries_len_std    á‰^i/       m]P	«…¢ëi ÙAw*"
 
tokens/responses_len_mean  €?ÈÖ&.       ÅËWú	»…¢ëi ÙAw*!

tokens/responses_len_std    F¤5%       ê¼6ó	Ì…¢ëi ÙAw*

ppo/loss/policy    Ë6$       B+€M	Hˆ¢ëi ÙAw*

ppo/loss/value‰ád;Nß¨$       B+€M	ÖŠ¢ëi ÙAw*

ppo/loss/totalÔ·9Í
9ƒ(       ÿpJ	‹¢ëi ÙAw*

ppo/policy/entropy    ÕÄX
)       7ÿ_ 	‹¢ëi ÙAw*

ppo/policy/approxkl    Då)       7ÿ_ 	“‹¢ëi ÙAw*

ppo/policy/policykl    =ôK§)       7ÿ_ 	‰¢ëi ÙAw*

ppo/policy/clipfrac    \¬Æˆ0       •õÐ_	¶¢ëi ÙAw*#
!
ppo/policy/advantages_mean    ú\Œ¼&       sOã 	Ï¢ëi ÙAw*

ppo/returns/mean•èY@úW®p%       ê¼6ó	ã¢ëi ÙAw*

ppo/returns/var    ¯#Y#       °ŸwC	ô¢ëi ÙAw*

ppo/val/vpred®óV@šr&#       °ŸwC	Ž¢ëi ÙAw*

ppo/val/error‰áä;Jl&       sOã 	Ž¢ëi ÙAw*

ppo/val/clipfrac    ¹–kt"       x=ý	g’¢ëi ÙAw*

ppo/val/mean­»]@E§ƒo!       {ìö	’¢ëi ÙAw*

ppo/val/var!„)Í'0+       †ÃK	§’¢ëi ÙAw*

ppo/val/var_explained  €ÿi'       »á±F	¸’¢ëi ÙAw*

ppo/learning_rateÀÏ¸:S=”0+       †ÃK	É’¢ëi ÙAw*

time/ppo/forward_passà&>6ˆ.       ÅËWú	Û’¢ëi ÙAw*!

time/ppo/compute_rewards øÍ:ê[õá1       ƒƒé	ì’¢ëi ÙAw*$
"
time/ppo/compute_advantages è$;  ü,       ô®ÌE	ý’¢ëi ÙAw*

time/ppo/optimize_step,Y?ÒÊ`É)       7ÿ_ 	“¢ëi ÙAw*

time/ppo/calc_statsP—>PÅ»$       B+€M	!“¢ëi ÙAw*

time/ppo/totalþ	”?B:Æß%       ê¼6ó	p•¢ëi ÙAw*

env/reward_mean†@°@WùÚ´$       B+€M	š•¢ëi ÙAw*

env/reward_std    £´q¿"       x=ý	Ž˜Eíi ÙAx*

objective/klÌ5Až1Ð§'       »á±F	ü˜Eíi ÙAx*

objective/kl_coef¸\>X°ªÛ'       »á±F	™Eíi ÙAx*

objective/entropy    QRµA/       m]P	)™Eíi ÙAx*"
 
ppo/mean_non_score_reward„®À¬×%       ê¼6ó	;™Eíi ÙAx*

ppo/mean_scores†@°@þ:$       B+€M	L™Eíi ÙAx*

ppo/std_scores    }Ùç-       <AŠû	]™Eíi ÙAx* 

tokens/queries_len_mean  þB°ç,       ô®ÌE	n™Eíi ÙAx*

tokens/queries_len_std    *Yð†/       m]P	™Eíi ÙAx*"
 
tokens/responses_len_mean  €?hÚçe.       ÅËWú	™Eíi ÙAx*!

tokens/responses_len_std    ¹°;R%       ê¼6ó	¡™Eíi ÙAx*

ppo/loss/policy    Z3ut$       B+€M	œEíi ÙAx*

ppo/loss/valuer£;*h$       B+€M	§žEíi ÙAx*

ppo/loss/total„a9>ãì (       ÿpJ	ÕžEíi ÙAx*

ppo/policy/entropy    #W#:)       7ÿ_ 	ëžEíi ÙAx*

ppo/policy/approxkl    m?´r)       7ÿ_ 	>¡Eíi ÙAx*

ppo/policy/policykl    ïJ|G)       7ÿ_ 	l¡Eíi ÙAx*

ppo/policy/clipfrac    –ÈK£0       •õÐ_	„¡Eíi ÙAx*#
!
ppo/policy/advantages_mean    -hµ&       sOã 	l¥Eíi ÙAx*

ppo/returns/meanˆÒY@zwØÐ%       ê¼6ó	”¥Eíi ÙAx*

ppo/returns/var    À¸Õ#       °ŸwC	ª¥Eíi ÙAx*

ppo/val/vpredr¾Y@Ô„if#       °ŸwC	»¥Eíi ÙAx*

ppo/val/errorr£Œ;¶XZ&       sOã 	Ë¥Eíi ÙAx*

ppo/val/clipfrac    G·/Ó"       x=ý	Ü¥Eíi ÙAx*

ppo/val/mean²ýS@œ½K!       {ìö	ì¥Eíi ÙAx*

ppo/val/var!„)æÑ
¦+       †ÃK	ü¥Eíi ÙAx*

ppo/val/var_explained  €ÿò¦'       »á±F	¦Eíi ÙAx*

ppo/learning_rateÀÏ¸:ÄŒë+       †ÃK	¦Eíi ÙAx*

time/ppo/forward_passq >é=#“.       ÅËWú	,¨Eíi ÙAx*!

time/ppo/compute_rewards (Î:Ø,	±1       ƒƒé	X¨Eíi ÙAx*$
"
time/ppo/compute_advantages $%;tcv\,       ô®ÌE	n¨Eíi ÙAx*

time/ppo/optimize_stepxdX?¢F%›)       7ÿ_ 	¨Eíi ÙAx*

time/ppo/calc_statspÝ>ßf>„$       B+€M	’¨Eíi ÙAx*

time/ppo/totalnä“?Û ÔE%       ê¼6ó	¢¨Eíi ÙAx*

env/reward_mean†@°@ˆ†Ú%$       B+€M	;ªEíi ÙAx*

env/reward_std    <¥ò¾"       x=ý	‘Jõîi ÙAy*

objective/klÌ5Ar[('       »á±F	þJõîi ÙAy*

objective/kl_coef-Ü\>Ü¨o'       »á±F	Kõîi ÙAy*

objective/entropy    \ß/       m]P	1Kõîi ÙAy*"
 
ppo/mean_non_score_reward•ÄÀå±áô%       ê¼6ó	CKõîi ÙAy*

ppo/mean_scores†@°@8\ û$       B+€M	TKõîi ÙAy*

ppo/std_scores    ._}é-       <AŠû	eKõîi ÙAy* 

tokens/queries_len_mean  þBâ—i,       ô®ÌE	xKõîi ÙAy*

tokens/queries_len_std    xÓÒ/       m]P	‰Kõîi ÙAy*"
 
tokens/responses_len_mean  €?]‚ÖÒ.       ÅËWú	™Kõîi ÙAy*!

tokens/responses_len_std    t‚ó«%       ê¼6ó	ªKõîi ÙAy*

ppo/loss/policy    u¦O\$       B+€M	‰Lõîi ÙAy*

ppo/loss/value_“ã:`sÅu$       B+€M	LMõîi ÙAy*

ppo/loss/total€69ul¸{(       ÿpJ	±Mõîi ÙAy*

ppo/policy/entropy    WÈì)       7ÿ_ 	Nõîi ÙAy*

ppo/policy/approxkl    µçßh)       7ÿ_ 	iNõîi ÙAy*

ppo/policy/policykl    ¿.)       7ÿ_ 	ÌNõîi ÙAy*

ppo/policy/clipfrac    î#±0       •õÐ_	Oõîi ÙAy*#
!
ppo/policy/advantages_mean    8¿&       sOã 	uOõîi ÙAy*

ppo/returns/meanx¼Y@ÐÚ—D%       ê¼6ó	ÎOõîi ÙAy*

ppo/returns/var!„)J^æ´#       °ŸwC	'Põîi ÙAy*

ppo/val/vpredÂ[@¹#Û#       °ŸwC	ŠPõîi ÙAy*

ppo/val/error_“c;€F&       sOã 	×Põîi ÙAy*

ppo/val/clipfrac    k®Z"       x=ý	.Qõîi ÙAy*

ppo/val/mean«•_@“Ú¦!       {ìö	…Qõîi ÙAy*

ppo/val/var    §°GX+       †ÃK	Rõîi ÙAy*

ppo/val/var_explainedÄv\Ñ/[7d'       »á±F	$Rõîi ÙAy*

ppo/learning_rateÀÏ¸:c;t?+       †ÃK	zRõîi ÙAy*

time/ppo/forward_pass°M>žé€.       ÅËWú	5‚õîi ÙAy*!

time/ppo/compute_rewards °Í:˜ñ}t1       ƒƒé	d‚õîi ÙAy*$
"
time/ppo/compute_advantages 4";(‹Ã,       ô®ÌE	{‚õîi ÙAy*

time/ppo/optimize_step¬Y?m¿r)       7ÿ_ 	Œ‚õîi ÙAy*

time/ppo/calc_statsP>Ü0˜($       B+€M	ž‚õîi ÙAy*

time/ppo/totalFõ“?üÉI–%       ê¼6ó	¯‚õîi ÙAy*

env/reward_mean†@°@P„z—$       B+€M	¿‚õîi ÙAy*

env/reward_std    ˜ Ã"       x=ý	ÉTœði ÙAz*

objective/klÌ5A9h'‰'       »á±F	5Uœði ÙAz*

objective/kl_coef] ]>as4'       »á±F	TUœði ÙAz*

objective/entropy    /'$ /       m]P	jUœði ÙAz*"
 
ppo/mean_non_score_rewardªÚÀL/%       ê¼6ó	Uœði ÙAz*

ppo/mean_scores†@°@Þüº$       B+€M	Uœði ÙAz*

ppo/std_scores    ªjz¦-       <AŠû	¡Uœði ÙAz* 

tokens/queries_len_mean  þBgÊW,       ô®ÌE	³Uœði ÙAz*

tokens/queries_len_std    ]ãí/       m]P	ÆUœði ÙAz*"
 
tokens/responses_len_mean  €?å³´.       ÅËWú	×Uœði ÙAz*!

tokens/responses_len_std    b«’%       ê¼6ó	èUœði ÙAz*

ppo/loss/policy    rîù$       B+€M	gXœði ÙAz*

ppo/loss/value‹r°:ÎVa˜$       B+€M	’Xœði ÙAz*

ppo/loss/totalp(9.¡ôî(       ÿpJ	ªXœði ÙAz*

ppo/policy/entropy    (PG&)       7ÿ_ 	¾Xœði ÙAz*

ppo/policy/approxkl    ÚÊP–)       7ÿ_ 	'Yœði ÙAz*

ppo/policy/policykl    ã9Q[)       7ÿ_ 	ËZœði ÙAz*

ppo/policy/clipfrac    9"0       •õÐ_	ùZœði ÙAz*#
!
ppo/policy/advantages_mean    [³Ñ8&       sOã 	[œði ÙAz*

ppo/returns/meanb¦Y@EŒ%       ê¼6ó	)[œði ÙAz*

ppo/returns/var    ýam#       °ŸwC	<[œði ÙAz*

ppo/val/vpredÓV@‹.N#       °ŸwC	N[œði ÙAz*

ppo/val/error‹r0;àJÐ&       sOã 	º[œði ÙAz*

ppo/val/clipfrac    ˜ä

"       x=ý	"\œði ÙAz*

ppo/val/meanWU@o”à¡!       {ìö	–\œði ÙAz*

ppo/val/var    ">/+       †ÃK	!]œði ÙAz*

ppo/val/var_explained  €ÿCU'       »á±F	€^œði ÙAz*

ppo/learning_rateÀÏ¸:à‹Ën+       †ÃK	_œði ÙAz*

time/ppo/forward_pass°£%>ŸÖ[å.       ÅËWú	 _œði ÙAz*!

time/ppo/compute_rewards  Ô:»‡Þ51       ƒƒé	`œði ÙAz*$
"
time/ppo/compute_advantages -;
Dñ,       ô®ÌE	r`œði ÙAz*

time/ppo/optimize_stepWb?>×JA)       7ÿ_ 	Ô`œði ÙAz*

time/ppo/calc_stats ]>ÓS’$       B+€M	7aœði ÙAz*

time/ppo/totaltù™?ØV0%       ê¼6ó	›aœði ÙAz*

env/reward_mean†@°@eÿ$       B+€M	 bœði ÙAz*

env/reward_std    vp@V"       x=ý	¯âEòi ÙA{*

objective/klÌ5AÃßéæ'       »á±F	ãEòi ÙA{*

objective/kl_coef’$]>{—Ô'       »á±F	-ãEòi ÙA{*

objective/entropy    (4oâ/       m]P	CãEòi ÙA{*"
 
ppo/mean_non_score_rewardÂðÀ00%       ê¼6ó	UãEòi ÙA{*

ppo/mean_scores†@°@)Kþ$       B+€M	fãEòi ÙA{*

ppo/std_scores     6=D-       <AŠû	vãEòi ÙA{* 

tokens/queries_len_mean  þBF´,       ô®ÌE	†ãEòi ÙA{*

tokens/queries_len_std    ‚S\/       m]P	™ãEòi ÙA{*"
 
tokens/responses_len_mean  €?C>£a.       ÅËWú	«ãEòi ÙA{*!

tokens/responses_len_std    †b/Ë%       ê¼6ó	¼ãEòi ÙA{*

ppo/loss/policy    „•M5$       B+€M	ÐåEòi ÙA{*

ppo/loss/valueŠÑt:²erd$       B+€M	/èEòi ÙA{*

ppo/loss/totalÔÚÃ8±"qÖ(       ÿpJ	ZèEòi ÙA{*

ppo/policy/entropy    ¥bú)       7ÿ_ 	âëEòi ÙA{*

ppo/policy/approxkl    ·O)       7ÿ_ 	ìEòi ÙA{*

ppo/policy/policykl    §÷Ú)       7ÿ_ 	#ìEòi ÙA{*

ppo/policy/clipfrac    ì¬È¸0       •õÐ_	7ìEòi ÙA{*#
!
ppo/policy/advantages_mean    9ï@’&       sOã 	IìEòi ÙA{*

ppo/returns/meanJY@ Ï%       ê¼6ó	\ìEòi ÙA{*

ppo/returns/var    ýŸ¼#       °ŸwC	mìEòi ÙA{*

ppo/val/vpred'9\@ö ö#       °ŸwC	}ìEòi ÙA{*

ppo/val/errorŠÑô:³jÊ&       sOã 	ìEòi ÙA{*

ppo/val/clipfrac    ¸Ák€"       x=ý	ŸìEòi ÙA{*

ppo/val/meanÑð[@åª?B!       {ìö	íEòi ÙA{*

ppo/val/var    e]Iä+       †ÃK	ÔîEòi ÙA{*

ppo/val/var_explained  €ÿF´œ@'       »á±F	ÿîEòi ÙA{*

ppo/learning_rateÀÏ¸:sÇ½ô+       †ÃK	ïEòi ÙA{*

time/ppo/forward_pass`Ò>m¸Óª.       ÅËWú	(ïEòi ÙA{*!

time/ppo/compute_rewards Ä:älÅ1       ƒƒé	:ïEòi ÙA{*$
"
time/ppo/compute_advantages ";ÍÍ:",       ô®ÌE	KïEòi ÙA{*

time/ppo/optimize_step4ºX?¦´5j)       7ÿ_ 	[ïEòi ÙA{*

time/ppo/calc_statsP>{ôÄ$       B+€M	nïEòi ÙA{*

time/ppo/totaln¾“?Ü'9Ÿ%       ê¼6ó	ÌïEòi ÙA{*

env/reward_mean†@°@;®xR$       B+€M	"ðEòi ÙA{*

env/reward_std    ,eë7"       x=ý	-ÿói ÙA|*

objective/klÌ5A‘+g™'       »á±F	–ÿói ÙA|*

objective/kl_coefÎH]>£pâë'       »á±F	±ÿói ÙA|*

objective/entropy    L
õ[/       m]P	Åÿói ÙA|*"
 
ppo/mean_non_score_rewardÞÀu=Å”%       ê¼6ó	Øÿói ÙA|*

ppo/mean_scores†@°@wµÀ¼$       B+€M	éÿói ÙA|*

ppo/std_scores    ÅQ¡P-       <AŠû	úÿói ÙA|* 

tokens/queries_len_mean  þBÔx),       ô®ÌE	ÿói ÙA|*

tokens/queries_len_std    Pò‘Á/       m]P	ÿói ÙA|*"
 
tokens/responses_len_mean  €?Êâ.       ÅËWú	,ÿói ÙA|*!

tokens/responses_len_std    ¥Øö%       ê¼6ó	>ÿói ÙA|*

ppo/loss/policy    ôµ˜Î$       B+€M	tÿói ÙA|*

ppo/loss/valueÐG:©ç-+$       B+€M		"ÿói ÙA|*

ppo/loss/total€b8fIy(       ÿpJ	5"ÿói ÙA|*

ppo/policy/entropy    ëcÝ)       7ÿ_ 	K"ÿói ÙA|*

ppo/policy/approxkl    ¹ð!8)       7ÿ_ 	_"ÿói ÙA|*

ppo/policy/policykl    ¨QMù)       7ÿ_ 	r"ÿói ÙA|*

ppo/policy/clipfrac    +=fŽ0       •õÐ_	í"ÿói ÙA|*#
!
ppo/policy/advantages_mean    sâõh&       sOã 	a%ÿói ÙA|*

ppo/returns/mean-zY@»þC$%       ê¼6ó	á%ÿói ÙA|*

ppo/returns/var!„)¦(Ìú#       °ŸwC	ë'ÿói ÙA|*

ppo/val/vpred@“W@óÞÌ#       °ŸwC	R(ÿói ÙA|*

ppo/val/errorÐG:gÇ^&       sOã 	§(ÿói ÙA|*

ppo/val/clipfrac    +{_"       x=ý	…*ÿói ÙA|*

ppo/val/meanaY@ŠX?Î!       {ìö	î*ÿói ÙA|*

ppo/val/var    ð¯m+       †ÃK	^+ÿói ÙA|*

ppo/val/var_explained’ÝˆÐ
f['       »á±F	·+ÿói ÙA|*

ppo/learning_rateÀÏ¸:÷üÒ+       †ÃK	,ÿói ÙA|*

time/ppo/forward_passp >CvÖû.       ÅËWú	f,ÿói ÙA|*!

time/ppo/compute_rewards hÖ:ª¢øŽ1       ƒƒé	¶,ÿói ÙA|*$
"
time/ppo/compute_advantages œ!;hT¶×,       ô®ÌE	-ÿói ÙA|*

time/ppo/optimize_step\A]?‰ÕÖK)       7ÿ_ 	U-ÿói ÙA|*

time/ppo/calc_stats;>;?÷$       B+€M	¥-ÿói ÙA|*

time/ppo/totalê“–?·¥¿>%       ê¼6ó	ö-ÿói ÙA|*

env/reward_mean†@°@Ôù$       B+€M	D.ÿói ÙA|*

env/reward_std    ¶7ó¥"       x=ý	 t°õi ÙA}*

objective/klÌ5A×:_w'       »á±F	bt°õi ÙA}*

objective/kl_coefm]>Ø­`M'       »á±F	yt°õi ÙA}*

objective/entropy    °jòû/       m]P	t°õi ÙA}*"
 
ppo/mean_non_score_rewardýÀž#ê%       ê¼6ó	t°õi ÙA}*

ppo/mean_scores†@°@"ªú$       B+€M	®t°õi ÙA}*

ppo/std_scores    ¨ôN»-       <AŠû	¾t°õi ÙA}* 

tokens/queries_len_mean  þB}Re„,       ô®ÌE	Ît°õi ÙA}*

tokens/queries_len_std    ‹"s‚/       m]P	àt°õi ÙA}*"
 
tokens/responses_len_mean  €?‹ .       ÅËWú	ót°õi ÙA}*!

tokens/responses_len_std    éµC@%       ê¼6ó	u°õi ÙA}*

ppo/loss/policy    Ë^É$       B+€M	îv°õi ÙA}*

ppo/loss/value²Ù‘9Ÿ[Ô}$       B+€M	z°õi ÙA}*

ppo/loss/totalQ\é7
‰Fõ(       ÿpJ	6z°õi ÙA}*

ppo/policy/entropy    ¢‡E@)       7ÿ_ 	Lz°õi ÙA}*

ppo/policy/approxkl    f!òÏ)       7ÿ_ 	^z°õi ÙA}*

ppo/policy/policykl    æÅŽj)       7ÿ_ 	oz°õi ÙA}*

ppo/policy/clipfrac    !&=ç0       •õÐ_	z°õi ÙA}*#
!
ppo/policy/advantages_mean    œõ‰	&       sOã 	’z°õi ÙA}*

ppo/returns/meandY@Q9%       ê¼6ó	¤z°õi ÙA}*

ppo/returns/var!„)¶œBÝ#       °ŸwC	µz°õi ÙA}*

ppo/val/vpredZZ@@JåÄ#       °ŸwC	Åz°õi ÙA}*

ppo/val/error²Ù:¸u&       sOã 	/{°õi ÙA}*

ppo/val/clipfrac    M
Ð"       x=ý	Œ{°õi ÙA}*

ppo/val/meaniŒX@¢0(±!       {ìö	æ{°õi ÙA}*

ppo/val/var    ?àj+       †ÃK	;|°õi ÙA}*

ppo/val/var_explainedåJÐÝD ='       »á±F	Ž|°õi ÙA}*

ppo/learning_rateÀÏ¸:æÈüI+       †ÃK	ã|°õi ÙA}*

time/ppo/forward_pass ï><dë.       ÅËWú	9}°õi ÙA}*!

time/ppo/compute_rewards  Õ:6ÅÔO1       ƒƒé	Ž}°õi ÙA}*$
"
time/ppo/compute_advantages p";!4G,       ô®ÌE	á}°õi ÙA}*

time/ppo/optimize_step˜™_?ðÞD)       7ÿ_ 	0~°õi ÙA}*

time/ppo/calc_statsÀX>&A{$       B+€M	‚~°õi ÙA}*

time/ppo/totalˆ^—?í%ÜO%       ê¼6ó	Õ~°õi ÙA}*

env/reward_mean†@°@Z—+`$       B+€M	%°õi ÙA}*

env/reward_std    È(™7"       x=ý	y`÷i ÙA~*

objective/klÌ5AlX*/'       »á±F	å`÷i ÙA~*

objective/kl_coefV‘]>e:çJ'       »á±F	`÷i ÙA~*

objective/entropy    û`“ /       m]P	`÷i ÙA~*"
 
ppo/mean_non_score_reward 3ÀøòË%       ê¼6ó	+`÷i ÙA~*

ppo/mean_scores†@°@I2Ûó$       B+€M	?`÷i ÙA~*

ppo/std_scores    f^-       <AŠû	R`÷i ÙA~* 

tokens/queries_len_mean  þBIŽ]4,       ô®ÌE	f`÷i ÙA~*

tokens/queries_len_std    çx–ó/       m]P	{`÷i ÙA~*"
 
tokens/responses_len_mean  €?0ùO.       ÅËWú	`÷i ÙA~*!

tokens/responses_len_std    \éï’%       ê¼6ó	¡`÷i ÙA~*

ppo/loss/policy    úc7O$       B+€M	Z`÷i ÙA~*

ppo/loss/valueá>9./ÊÕ$       B+€M	‡`÷i ÙA~*

ppo/loss/total´˜7”z½ƒ(       ÿpJ	Ÿ`÷i ÙA~*

ppo/policy/entropy    ûL\)       7ÿ_ 	²`÷i ÙA~*

ppo/policy/approxkl    Ô–…Y)       7ÿ_ 	Ä`÷i ÙA~*

ppo/policy/policykl    {)       7ÿ_ 	Õ`÷i ÙA~*

ppo/policy/clipfrac    ™,iÚ0       •õÐ_	é`÷i ÙA~*#
!
ppo/policy/advantages_mean    ×ˆÄ&       sOã 	 `÷i ÙA~*

ppo/returns/meanëMY@» LV%       ê¼6ó	`÷i ÙA~*

ppo/returns/var!„)ªË @#       °ŸwC	%`÷i ÙA~*

ppo/val/vpredQ1Y@€Öâ#       °ŸwC	œ`÷i ÙA~*

ppo/val/errorá¾9}€ð¿&       sOã 	n`÷i ÙA~*

ppo/val/clipfrac    ‚ÃŒ›"       x=ý	—`÷i ÙA~*

ppo/val/mean-åZ@o[ÕV!       {ìö	¬`÷i ÙA~*

ppo/val/var!„)º4’I+       †ÃK	À`÷i ÙA~*

ppo/val/var_explainedê¸ÏCµõ±'       »á±F	Ò`÷i ÙA~*

ppo/learning_rateÀÏ¸:`M´+       †ÃK	ã`÷i ÙA~*

time/ppo/forward_passPè>
P¥.       ÅËWú	K`÷i ÙA~*!

time/ppo/compute_rewards PÒ:MÒWð1       ƒƒé	§`÷i ÙA~*$
"
time/ppo/compute_advantages $*;ü®E,       ô®ÌE	þ`÷i ÙA~*

time/ppo/optimize_stepÀ¬X?‡Ô¡×)       7ÿ_ 	T`÷i ÙA~*

time/ppo/calc_stats ¿>u'Îë$       B+€M	¨`÷i ÙA~*

time/ppo/totalV—“?™ÂìÔ%       ê¼6ó	`÷i ÙA~*

env/reward_mean†@°@…]*$       B+€M	X`÷i ÙA~*

env/reward_std    ¤ôû"       x=ý	òùi ÙA*

objective/klÌ5A );'       »á±F	Xùi ÙA*

objective/kl_coef¤µ]>òw}¸'       »á±F	qùi ÙA*

objective/entropy    ¹á°W/       m]P	ƒùi ÙA*"
 
ppo/mean_non_score_rewardGIÀ1QTŸ%       ê¼6ó	–ùi ÙA*

ppo/mean_scores†@°@Å…N$       B+€M	¦ùi ÙA*

ppo/std_scores    Ò7f_-       <AŠû	¹ùi ÙA* 

tokens/queries_len_mean  þBÇr“,       ô®ÌE	Ëùi ÙA*

tokens/queries_len_std    ½ï×;/       m]P	Ýùi ÙA*"
 
tokens/responses_len_mean  €?#¼gö.       ÅËWú	íùi ÙA*!

tokens/responses_len_std    l©%       ê¼6ó	þùi ÙA*

ppo/loss/policy    {‰›|$       B+€M	Aùi ÙA*

ppo/loss/value¹9ˆÆKÅ$       B+€M	€ùi ÙA*

ppo/loss/total(Q7ã+<É(       ÿpJ	­ùi ÙA*

ppo/policy/entropy    W3˜)       7ÿ_ 	:ùi ÙA*

ppo/policy/approxkl    ©^N-)       7ÿ_ 	Kùi ÙA*

ppo/policy/policykl    Ö6£é)       7ÿ_ 	vùi ÙA*

ppo/policy/clipfrac    Û§•0       •õÐ_	ùi ÙA*#
!
ppo/policy/advantages_mean    oÞ˜ç&       sOã 	¤ùi ÙA*

ppo/returns/meanÄ7Y@ãSÍ}%       ê¼6ó	¶ùi ÙA*

ppo/returns/var!„)øìØú#       °ŸwC	Èùi ÙA*

ppo/val/vpred’ÃX@¥³#       °ŸwC	Ùùi ÙA*

ppo/val/error¹‚9£ªV&       sOã 	ëùi ÙA*

ppo/val/clipfrac    ô™ó0"       x=ý	ýùi ÙA*

ppo/val/meanc¥W@“øÍŒ!       {ìö	\ùi ÙA*

ppo/val/var    ÷HêD+       †ÃK	·ùi ÙA*

ppo/val/var_explainedxF}Ïp&]±'       »á±F	ùi ÙA*

ppo/learning_rateÀÏ¸:G
)÷+       †ÃK	fùi ÙA*

time/ppo/forward_pass`>ŒÚrˆ.       ÅËWú	¾ùi ÙA*!

time/ppo/compute_rewards èÁ:O€1       ƒƒé	ùi ÙA*$
"
time/ppo/compute_advantages X";áK2(,       ô®ÌE	jùi ÙA*

time/ppo/optimize_step(8X?J„Ôc)       7ÿ_ 	ùi ÙA*

time/ppo/calc_statsÀÌ>œm]ü$       B+€M	uùi ÙA*

time/ppo/totaln™“?m±æ%       ê¼6ó	Ìùi ÙA*

env/reward_mean†@°@œkm³$       B+€M	!ùi ÙA*

env/reward_std    BvÖ
#       °ŸwC	¾ÇÃúi ÙA€*

objective/klÌ5Aãò(       ÿpJ	/ÈÃúi ÙA€*

objective/kl_coef÷Ù]>*&t(       ÿpJ	LÈÃúi ÙA€*

objective/entropy    G«¢_0       •õÐ_	dÈÃúi ÙA€*"
 
ppo/mean_non_score_rewardr_ÀSwºA&       sOã 	zÈÃúi ÙA€*

ppo/mean_scores†@°@v[$'%       ê¼6ó	ÈÃúi ÙA€*

ppo/std_scores    ?v8q.       ÅËWú	¤ÈÃúi ÙA€* 

tokens/queries_len_mean  þB80ôÑ-       <AŠû	¸ÈÃúi ÙA€*

tokens/queries_len_std    ,±+w0       •õÐ_	ÌÈÃúi ÙA€*"
 
tokens/responses_len_mean  €?ç?f/       m]P	ÜÈÃúi ÙA€*!

tokens/responses_len_std    x(&       sOã 	îÈÃúi ÙA€*

ppo/loss/policy    ²¼%       ê¼6ó	nËÃúi ÙA€*

ppo/loss/value¬#ç8â¯r0%       ê¼6ó	½ÏÃúi ÙA€*

ppo/loss/totalUé879¹a)       7ÿ_ 	ëÏÃúi ÙA€*

ppo/policy/entropy    œL$ú*       ®‘õ	ÐÃúi ÙA€*

ppo/policy/approxkl    	Õ\*       ®‘õ	ÐÃúi ÙA€*

ppo/policy/policykl    ‚„tQ*       ®‘õ	'ÐÃúi ÙA€*

ppo/policy/clipfrac    bbý1       ƒƒé	<ÐÃúi ÙA€*#
!
ppo/policy/advantages_mean     Ðz"'       »á±F	RÐÃúi ÙA€*

ppo/returns/mean›!Y@5¸BÉ&       sOã 	dÐÃúi ÙA€*

ppo/returns/var    †“Î$       B+€M	ÔÐÃúi ÙA€*

ppo/val/vpred¬ÜY@F5‰$       B+€M	;ÑÃúi ÙA€*

ppo/val/error¬#g9ÿG'       »á±F	6ÓÃúi ÙA€*

ppo/val/clipfrac    $äiÚ#       °ŸwC	bÓÃúi ÙA€*

ppo/val/meanÌwZ@\üì"       x=ý	{ÓÃúi ÙA€*

ppo/val/var!„)Kò©,       ô®ÌE	ŽÓÃúi ÙA€*

ppo/val/var_explained  €ÿìè˜˜(       ÿpJ	 ÓÃúi ÙA€*

ppo/learning_rateÀÏ¸:UÀ{ÿ,       ô®ÌE	±ÓÃúi ÙA€*

time/ppo/forward_passpZ>ËÛ+©/       m]P	ÅÓÃúi ÙA€*!

time/ppo/compute_rewards °Õ:…|2       $Vì	ÖÓÃúi ÙA€*$
"
time/ppo/compute_advantages T,;N®Â-       <AŠû	QÔÃúi ÙA€*

time/ppo/optimize_step| Y? )¯œ*       ®‘õ	JÖÃúi ÙA€*

time/ppo/calc_statsÐ&!>OzHß%       ê¼6ó	¬ÖÃúi ÙA€*

time/ppo/totalN.•?Š¨s|&       sOã 	ôÖÃúi ÙA€*

env/reward_mean†@°@+*´%       ê¼6ó	4×Ãúi ÙA€*

env/reward_std    Zð3ñ#       °ŸwC	Ñ§züi ÙA*

objective/klÌ5A!B·µ(       ÿpJ	H¨züi ÙA*

objective/kl_coefPþ]>n±oë(       ÿpJ	e¨züi ÙA*

objective/entropy    “Ð–0       •õÐ_	y¨züi ÙA*"
 
ppo/mean_non_score_rewardŸuÀBì l&       sOã 	Œ¨züi ÙA*

ppo/mean_scores†@°@žm7¤%       ê¼6ó	 ¨züi ÙA*

ppo/std_scores    Å«¹¥.       ÅËWú	²¨züi ÙA* 

tokens/queries_len_mean  þBDý\-       <AŠû	Ä¨züi ÙA*

tokens/queries_len_std    ·üÒÜ0       •õÐ_	×¨züi ÙA*"
 
tokens/responses_len_mean  €?õØ&)/       m]P	é¨züi ÙA*!

tokens/responses_len_std    ®#µ)&       sOã 	ú¨züi ÙA*

ppo/loss/policy    ãÊ½%       ê¼6ó	˜«züi ÙA*

ppo/loss/value‡˜8,ëÅy%       ê¼6ó	ô­züi ÙA*

ppo/loss/total\ô6Â÷)       7ÿ_ 	!®züi ÙA*

ppo/policy/entropy    ŠÓÁ’*       ®‘õ	ò¯züi ÙA*

ppo/policy/approxkl    Tv¤*       ®‘õ	°züi ÙA*

ppo/policy/policykl    !Š…*       ®‘õ	4°züi ÙA*

ppo/policy/clipfrac    å[Ká1       ƒƒé	H°züi ÙA*#
!
ppo/policy/advantages_mean    mò|Ò'       »á±F	\°züi ÙA*

ppo/returns/meanmY@–hg*&       sOã 	n°züi ÙA*

ppo/returns/var    —HÂ$       B+€M	°züi ÙA*

ppo/val/vpredPX@+ð}Ê$       B+€M	æ°züi ÙA*

ppo/val/error‡93:û¸'       »á±F	˜²züi ÙA*

ppo/val/clipfrac    ¶ÊN±#       °ŸwC	Ä²züi ÙA*

ppo/val/meanMX@E'i"       x=ý	Ü²züi ÙA*

ppo/val/var    6:9§,       ô®ÌE	î²züi ÙA*

ppo/val/var_explained  €ÿž²ª¬(       ÿpJ	 ³züi ÙA*

ppo/learning_rateÀÏ¸:>¦÷ï,       ô®ÌE	³züi ÙA*

time/ppo/forward_passÐ0>:)/       m]P	%³züi ÙA*!

time/ppo/compute_rewards PÇ:qsu32       $Vì	³züi ÙA*$
"
time/ppo/compute_advantages ° ;Õây-       <AŠû	Ô³züi ÙA*

time/ppo/optimize_step<ã]?ßH·*       ®‘õ	'´züi ÙA*

time/ppo/calc_statsð|>(–S%       ê¼6ó	{´züi ÙA*

time/ppo/total|k–?o´Ý°&       sOã 	Ð´züi ÙA*

env/reward_mean†@°@J¥°%       ê¼6ó	!µzüi ÙA*

env/reward_std    	Š
D#       °ŸwC	d Hþi ÙA‚*

objective/klÌ5AÙòñ©(       ÿpJ	Ë Hþi ÙA‚*

objective/kl_coef¯"^>•AMÉ(       ÿpJ	æ Hþi ÙA‚*

objective/entropy    ÚÅÜ0       •õÐ_	ü Hþi ÙA‚*"
 
ppo/mean_non_score_rewardÑ‹ÀP÷MŽ&       sOã 	!Hþi ÙA‚*

ppo/mean_scores†@°@€Ü>»%       ê¼6ó	!Hþi ÙA‚*

ppo/std_scores    8TDº.       ÅËWú	/!Hþi ÙA‚* 

tokens/queries_len_mean  þBEkXU-       <AŠû	?!Hþi ÙA‚*

tokens/queries_len_std    „5Þ0       •õÐ_	R!Hþi ÙA‚*"
 
tokens/responses_len_mean  €?À#dî/       m]P	c!Hþi ÙA‚*!

tokens/responses_len_std    žwy&       sOã 	v!Hþi ÙA‚*

ppo/loss/policy    ˆ:KÔ%       ê¼6ó	D%Hþi ÙA‚*

ppo/loss/valueYÎ@8|†5(%       ê¼6ó	p%Hþi ÙA‚*

ppo/loss/total®>š6¤Û)       7ÿ_ 	‰%Hþi ÙA‚*

ppo/policy/entropy    é”*       ®‘õ	œ%Hþi ÙA‚*

ppo/policy/approxkl    €üñµ*       ®‘õ	®%Hþi ÙA‚*

ppo/policy/policykl    vG*       ®‘õ	À%Hþi ÙA‚*

ppo/policy/clipfrac    y‹ô1       ƒƒé	Õ%Hþi ÙA‚*#
!
ppo/policy/advantages_mean    {œÔ±'       »á±F	ë%Hþi ÙA‚*

ppo/returns/mean<õX@ äd‚&       sOã 	þ%Hþi ÙA‚*

ppo/returns/var!„)×1$       B+€M	&Hþi ÙA‚*

ppo/val/vpred‹Y@¡0ª$       B+€M	Ü&Hþi ÙA‚*

ppo/val/errorYÎÀ8A3'       »á±F	ï&Hþi ÙA‚*

ppo/val/clipfrac    S;d#       °ŸwC	 'Hþi ÙA‚*

ppo/val/meanXJY@xª«Ó"       x=ý	Z'Hþi ÙA‚*

ppo/val/var    q²û¿,       ô®ÌE	µ'Hþi ÙA‚*

ppo/val/var_explainedçÇºÎ¬_Ãp(       ÿpJ	(Hþi ÙA‚*

ppo/learning_rateÀÏ¸:*œF,       ô®ÌE	d(Hþi ÙA‚*

time/ppo/forward_pass°k)>óói/       m]P	À(Hþi ÙA‚*!

time/ppo/compute_rewards ˆÕ:i)¿2       $Vì	)Hþi ÙA‚*$
"
time/ppo/compute_advantages Ìl;8ž-       <AŠû	m)Hþi ÙA‚*

time/ppo/optimize_step4¬f?À
!à*       ®‘õ	Ä)Hþi ÙA‚*

time/ppo/calc_statsÐI!>~¬á%       ê¼6ó	*Hþi ÙA‚*

time/ppo/total2[?¼¤ð&       sOã 	Š*Hþi ÙA‚*

env/reward_mean†@°@Èa %       ê¼6ó	Þ*Hþi ÙA‚*

env/reward_std    iK#Õ#       °ŸwC	´Ô j ÙAƒ*

objective/klÌ5A®H…½(       ÿpJ	Õ j ÙAƒ*

objective/kl_coefG^>%ÿ±Å(       ÿpJ	.Õ j ÙAƒ*

objective/entropy    äÞ#0       •õÐ_	DÕ j ÙAƒ*"
 
ppo/mean_non_score_reward¢À<Œ×‹&       sOã 	WÕ j ÙAƒ*

ppo/mean_scores†@°@p…„Ç%       ê¼6ó	iÕ j ÙAƒ*

ppo/std_scores    >©ÀŒ.       ÅËWú	|Õ j ÙAƒ* 

tokens/queries_len_mean  þB=ñT~-       <AŠû	ŽÕ j ÙAƒ*

tokens/queries_len_std    %Ëù¢0       •õÐ_	 Õ j ÙAƒ*"
 
tokens/responses_len_mean  €?$ìR‘/       m]P	°Õ j ÙAƒ*!

tokens/responses_len_std    IÈGÀ&       sOã 	ÁÕ j ÙAƒ*

ppo/loss/policy    8Æu%       ê¼6ó	ä× j ÙAƒ*

ppo/loss/value­Êá7ÃÞ„æ%       ê¼6ó	Ú j ÙAƒ*

ppo/loss/total$¢467¼Ýh)       7ÿ_ 	1Ú j ÙAƒ*

ppo/policy/entropy    á”¹*       ®‘õ	¹Ý j ÙAƒ*

ppo/policy/approxkl    Ï}á1*       ®‘õ	ãÝ j ÙAƒ*

ppo/policy/policykl    »ì>*       ®‘õ	úÝ j ÙAƒ*

ppo/policy/clipfrac    ó‹ñ1       ƒƒé	Þ j ÙAƒ*#
!
ppo/policy/advantages_mean    åDg¸'       »á±F	!Þ j ÙAƒ*

ppo/returns/meanßX@ÆT&       sOã 	2Þ j ÙAƒ*

ppo/returns/var    •?„{$       B+€M	CÞ j ÙAƒ*

ppo/val/vpredñ„X@Â»Ð$       B+€M	SÞ j ÙAƒ*

ppo/val/error­Êa8“:à['       »á±F	cÞ j ÙAƒ*

ppo/val/clipfrac    §TŽ#       °ŸwC	tÞ j ÙAƒ*

ppo/val/mean4Y@‰è’"       x=ý	ºß j ÙAƒ*

ppo/val/var!„)·ß«²,       ô®ÌE	Eà j ÙAƒ*

ppo/val/var_explained  €ÿ˜Ñ(       ÿpJ	$â j ÙAƒ*

ppo/learning_rateÀÏ¸:T}Ã,       ô®ÌE	â j ÙAƒ*

time/ppo/forward_pass€œ>è¦-/       m]P	êâ j ÙAƒ*!

time/ppo/compute_rewards Â: ²62       $Vì	Hã j ÙAƒ*$
"
time/ppo/compute_advantages ä);Ôô}B-       <AŠû	˜ã j ÙAƒ*

time/ppo/optimize_stepX_X?ÍhN’*       ®‘õ	èã j ÙAƒ*

time/ppo/calc_statsPô>¨iÐ%       ê¼6ó	;ä j ÙAƒ*

time/ppo/totalü¨“?’j¨&       sOã 	Œä j ÙAƒ*

env/reward_mean†@°@Q‰G@%       ê¼6ó	âä j ÙAƒ*

env/reward_std    °I_”#       °ŸwC	e¼j ÙA„*

objective/klÌ5A¦I‰(       ÿpJ	Õ¼j ÙA„*

objective/kl_coefk^>ÙrÐ(       ÿpJ	ò¼j ÙA„*

objective/entropy    Î‰|0       •õÐ_		¼j ÙA„*"
 
ppo/mean_non_score_reward?¸Àu:Ê»&       sOã 	¼j ÙA„*

ppo/mean_scores†@°@þ]Š%       ê¼6ó	,¼j ÙA„*

ppo/std_scores    °Ye.       ÅËWú	?¼j ÙA„* 

tokens/queries_len_mean  þBC š$-       <AŠû	P¼j ÙA„*

tokens/queries_len_std    cs¡—0       •õÐ_	b¼j ÙA„*"
 
tokens/responses_len_mean  €?\§9‘/       m]P	s¼j ÙA„*!

tokens/responses_len_std    žŠ’&       sOã 	„¼j ÙA„*

ppo/loss/policy    !Xfn%       ê¼6ó	Á¼j ÙA„*

ppo/loss/valueXP7}:(	%       ê¼6ó	Ú¼j ÙA„*

ppo/loss/totalÛ¬¦5\D#‘)       7ÿ_ 	 ¼j ÙA„*

ppo/policy/entropy    ”Jø,*       ®‘õ	 ¼j ÙA„*

ppo/policy/approxkl    e‘·"*       ®‘õ	3 ¼j ÙA„*

ppo/policy/policykl    eN'A*       ®‘õ	E ¼j ÙA„*

ppo/policy/clipfrac    ÝÐ
1       ƒƒé	Å ¼j ÙA„*#
!
ppo/policy/advantages_mean    A©`í'       »á±F	¾"¼j ÙA„*

ppo/returns/meanÌÈX@Å|V$&       sOã 	é"¼j ÙA„*

ppo/returns/var!„).FoO$       B+€M	#¼j ÙA„*

ppo/val/vpredììX@<à>š$       B+€M	#¼j ÙA„*

ppo/val/errorXÐ7Tu
'       »á±F	&#¼j ÙA„*

ppo/val/clipfrac    èûÛ#       °ŸwC	7#¼j ÙA„*

ppo/val/meanºX@þQŽ"       x=ý	H#¼j ÙA„*

ppo/val/var    q8/j,       ô®ÌE	X#¼j ÙA„*

ppo/val/var_explainedRÕÉÍŒ)È0(       ÿpJ	É#¼j ÙA„*

ppo/learning_rateÀÏ¸:‚§ù,       ô®ÌE	)$¼j ÙA„*

time/ppo/forward_pass€**>#t$;/       m]P	ˆ$¼j ÙA„*!

time/ppo/compute_rewards ˆÛ:íy\c2       $Vì	ã$¼j ÙA„*$
"
time/ppo/compute_advantages  *;kî"Ž-       <AŠû	<%¼j ÙA„*

time/ppo/optimize_stepÈnj?¥¶Í *       ®‘õ	•%¼j ÙA„*

time/ppo/calc_stats :>,›(Ý%       ê¼6ó	ì%¼j ÙA„*

time/ppo/totalòž?‰à´ï&       sOã 	Y&¼j ÙA„*

env/reward_mean†@°@a×o%       ê¼6ó	°&¼j ÙA„*

env/reward_std    «¯ì„#       °ŸwC	ýÖrj ÙA…*

objective/klÌ5AêQõS(       ÿpJ	g×rj ÙA…*

objective/kl_coefð^>¥õM(       ÿpJ	‚×rj ÙA…*

objective/entropy    -r¼ 0       •õÐ_	—×rj ÙA…*"
 
ppo/mean_non_score_reward{ÎÀZÌxý&       sOã 	©×rj ÙA…*

ppo/mean_scores†@°@d’Bç%       ê¼6ó	»×rj ÙA…*

ppo/std_scores    îýP$.       ÅËWú	Ì×rj ÙA…* 

tokens/queries_len_mean  þB'U-       <AŠû	Ý×rj ÙA…*

tokens/queries_len_std    ×³‰k0       •õÐ_	ï×rj ÙA…*"
 
tokens/responses_len_mean  €?}¼Ï€/       m]P	 Ørj ÙA…*!

tokens/responses_len_std    ­ êÑ&       sOã 	Ørj ÙA…*

ppo/loss/policy    ¼%Mô%       ê¼6ó	VÚrj ÙA…*

ppo/loss/valueFjI7P8š?%       ê¼6ó	’Þrj ÙA…*

ppo/loss/totalÒ!¡5½—)       7ÿ_ 	½Þrj ÙA…*

ppo/policy/entropy    èÎšË*       ®‘õ	ÙÞrj ÙA…*

ppo/policy/approxkl    ]`*       ®‘õ	íÞrj ÙA…*

ppo/policy/policykl    
Çã*       ®‘õ	ÿÞrj ÙA…*

ppo/policy/clipfrac    ŽþÉ1       ƒƒé	ßrj ÙA…*#
!
ppo/policy/advantages_mean    ;®‚M'       »á±F	$ßrj ÙA…*

ppo/returns/mean‘²X@CŸ¬&       sOã 	6ßrj ÙA…*

ppo/returns/var    ;Ô—$       B+€M	Hßrj ÙA…*

ppo/val/vpredÍ¼X@Ë•çë$       B+€M	Zßrj ÙA…*

ppo/val/errorFjÉ7h™‡¾'       »á±F	¸árj ÙA…*

ppo/val/clipfrac    'öÅp#       °ŸwC	çárj ÙA…*

ppo/val/mean¶'Y@‡Zë§"       x=ý	þárj ÙA…*

ppo/val/var!„)!Î$ž,       ô®ÌE	färj ÙA…*

ppo/val/var_explained  €ÿ«	‘²(       ÿpJ	”ärj ÙA…*

ppo/learning_rateÀÏ¸:èO5,       ô®ÌE	ªärj ÙA…*

time/ppo/forward_pass@- >f“ØÁ/       m]P	çrj ÙA…*!

time/ppo/compute_rewards ÈÚ:n$&	2       $Vì	Açrj ÙA…*$
"
time/ppo/compute_advantages ”(;zù2õ-       <AŠû	Zçrj ÙA…*

time/ppo/optimize_stepˆ|g?Þyž·*       ®‘õ	9érj ÙA…*

time/ppo/calc_stats`Ä>pî»¦%       ê¼6ó	bérj ÙA…*

time/ppo/totalÖ‰›?=¼”™&       sOã 	zérj ÙA…*

env/reward_mean†@°@ÅRB%       ê¼6ó	Œérj ÙA…*

env/reward_std    ¼øW#       °ŸwC	`„,j ÙA†*

objective/klÌ5AiŒ+(       ÿpJ	Í„,j ÙA†*

objective/kl_coefg´^>¼¯Š(       ÿpJ	é„,j ÙA†*

objective/entropy    –¨Â0       •õÐ_	þ„,j ÙA†*"
 
ppo/mean_non_score_reward¼äÀŠì…&       sOã 	…,j ÙA†*

ppo/mean_scores†@°@€n%       ê¼6ó	"…,j ÙA†*

ppo/std_scores    µ½º.       ÅËWú	4…,j ÙA†* 

tokens/queries_len_mean  þBÝñÃ-       <AŠû	D…,j ÙA†*

tokens/queries_len_std    ”M¢½0       •õÐ_	U…,j ÙA†*"
 
tokens/responses_len_mean  €?ÃÒ<b/       m]P	h…,j ÙA†*!

tokens/responses_len_std    ÅLa&       sOã 	z…,j ÙA†*

ppo/loss/policy    ,¬’%       ê¼6ó	–‡,j ÙA†*

ppo/loss/value96È6Çûõ§%       ê¼6ó	Á‡,j ÙA†*

ppo/loss/total`+ 5íÄaË)       7ÿ_ 	¬Š,j ÙA†*

ppo/policy/entropy    EŽFJ*       ®‘õ	ÖŠ,j ÙA†*

ppo/policy/approxkl    •®}*       ®‘õ	îŠ,j ÙA†*

ppo/policy/policykl    ©Œîy*       ®‘õ	‹,j ÙA†*

ppo/policy/clipfrac    –ó’1       ƒƒé	‹,j ÙA†*#
!
ppo/policy/advantages_mean    -#¡s'       »á±F	,‹,j ÙA†*

ppo/returns/meanPœX@†9&       sOã 	?‹,j ÙA†*

ppo/returns/var    ¢¶Æý$       B+€M	P‹,j ÙA†*

ppo/val/vpred,zX@ùè‰O$       B+€M	b‹,j ÙA†*

ppo/val/error96H7’i '       »á±F	s‹,j ÙA†*

ppo/val/clipfrac    rÇã#       °ŸwC	Ã‹,j ÙA†*

ppo/val/mean[FX@pî7="       x=ý	*Œ,j ÙA†*

ppo/val/var    T‰OW,       ô®ÌE	„Œ,j ÙA†*

ppo/val/var_explained  €ÿìð‘C(       ÿpJ	×Œ,j ÙA†*

ppo/learning_rateÀÏ¸:³{¯,       ô®ÌE	.,j ÙA†*

time/ppo/forward_passð¾+>/gÙ/       m]P	†,j ÙA†*!

time/ppo/compute_rewards ÐÏ:ÅŽD2       $Vì	Û,j ÙA†*$
"
time/ppo/compute_advantages ¬.;y5-ç-       <AŠû	/Ž,j ÙA†*

time/ppo/optimize_stepée? ÌÀ*       ®‘õ	‰Ž,j ÙA†*

time/ppo/calc_statsÀ˜>j#ù>%       ê¼6ó	ÕŽ,j ÙA†*

time/ppo/totalRíœ?B-&       sOã 	),j ÙA†*

env/reward_mean†@°@ž!õb%       ê¼6ó	y,j ÙA†*

env/reward_std    ¥1Q¿#       °ŸwC	”4áj ÙA‡*

objective/klÌ5A¸´‚2(       ÿpJ	5áj ÙA‡*

objective/kl_coefäØ^>¼æÏž(       ÿpJ	#5áj ÙA‡*

objective/entropy    ®¡²í0       •õÐ_	:5áj ÙA‡*"
 
ppo/mean_non_score_rewardÿúÀ²ÅòÔ&       sOã 	L5áj ÙA‡*

ppo/mean_scores†@°@³#u}%       ê¼6ó	^5áj ÙA‡*

ppo/std_scores    9Y?.       ÅËWú	o5áj ÙA‡* 

tokens/queries_len_mean  þBDÇw-       <AŠû	€5áj ÙA‡*

tokens/queries_len_std    ÅŸ0       •õÐ_	“5áj ÙA‡*"
 
tokens/responses_len_mean  €?ç|¡/       m]P	¥5áj ÙA‡*!

tokens/responses_len_std    ©RqX&       sOã 	¶5áj ÙA‡*

ppo/loss/policy    6ûM%       ê¼6ó	æ:áj ÙA‡*

ppo/loss/value*è6  \k%       ê¼6ó	;áj ÙA‡*

ppo/loss/total@»95XÖ»Š)       7ÿ_ 	*;áj ÙA‡*

ppo/policy/entropy    ˜¿ *       ®‘õ	>;áj ÙA‡*

ppo/policy/approxkl    ^£ªî*       ®‘õ	Q;áj ÙA‡*

ppo/policy/policykl    ¨öëF*       ®‘õ	b;áj ÙA‡*

ppo/policy/clipfrac    gô»Ì1       ƒƒé	v;áj ÙA‡*#
!
ppo/policy/advantages_mean    Ø_V.'       »á±F	Š;áj ÙA‡*

ppo/returns/mean†X@ ¨Ô1&       sOã 	›;áj ÙA‡*

ppo/returns/var!„)Èç­¹$       B+€M	¬;áj ÙA‡*

ppo/val/vpredþ´X@
ug»$       B+€M	<áj ÙA‡*

ppo/val/error*h73îãœ'       »á±F	g<áj ÙA‡*

ppo/val/clipfrac    ™QN#       °ŸwC	¿<áj ÙA‡*

ppo/val/meanøÚX@™ŸÇz"       x=ý	=áj ÙA‡*

ppo/val/var!„)ö/á,       ô®ÌE	o=áj ÙA‡*

ppo/val/var_explainedÀè`Í¤O(       ÿpJ	Å=áj ÙA‡*

ppo/learning_rateÀÏ¸:ŠÞþÈ,       ô®ÌE	>áj ÙA‡*

time/ppo/forward_passPm&>µ’²ã/       m]P	z>áj ÙA‡*!

time/ppo/compute_rewards Ô:¡óoÈ2       $Vì	Ý>áj ÙA‡*$
"
time/ppo/compute_advantages X(;«ÌÍt-       <AŠû	-?áj ÙA‡*

time/ppo/optimize_stepH]?¢Éd*       ®‘õ	†?áj ÙA‡*

time/ppo/calc_stats`­>ËUƒ¢%       ê¼6ó	Ú?áj ÙA‡*

time/ppo/totalˆ/—?MŠ0ñ&       sOã 	1@áj ÙA‡*

env/reward_mean†@°@R	3m%       ê¼6ó	ˆ@áj ÙA‡*

env/reward_std    g+¾•#       °ŸwC	–Âœj ÙAˆ*

objective/klÌ5A‰-ãE(       ÿpJ	Ãœj ÙAˆ*

objective/kl_coefgý^>f¾™(       ÿpJ	/Ãœj ÙAˆ*

objective/entropy    ÐU=ý0       •õÐ_	EÃœj ÙAˆ*"
 
ppo/mean_non_score_rewardGÀ³®5&       sOã 	YÃœj ÙAˆ*

ppo/mean_scores†@°@6µJ%       ê¼6ó	nÃœj ÙAˆ*

ppo/std_scores    w8.       ÅËWú	ƒÃœj ÙAˆ* 

tokens/queries_len_mean  þBÐÐ-       <AŠû	 Ãœj ÙAˆ*

tokens/queries_len_std    :Î«0       •õÐ_	¾Ãœj ÙAˆ*"
 
tokens/responses_len_mean  €?ºDkl/       m]P	ÛÃœj ÙAˆ*!

tokens/responses_len_std    r.z&       sOã 	ÕÄœj ÙAˆ*

ppo/loss/policy    Þx6u%       ê¼6ó	¯Æœj ÙAˆ*

ppo/loss/value˜p6À-%       ê¼6ó	uÈœj ÙAˆ*

ppo/loss/totalzÀ4]TÕ±)       7ÿ_ 	“Éœj ÙAˆ*

ppo/policy/entropy    V‘‘Î*       ®‘õ	ÅÊœj ÙAˆ*

ppo/policy/approxkl    ¼á¹*       ®‘õ	iÌœj ÙAˆ*

ppo/policy/policykl    Qv§î*       ®‘õ	Íœj ÙAˆ*

ppo/policy/clipfrac    Ã	åï1       ƒƒé	¤Íœj ÙAˆ*#
!
ppo/policy/advantages_mean    v)Rs'       »á±F	¿Íœj ÙAˆ*

ppo/returns/meanÄoX@	¨dŸ&       sOã 	%Îœj ÙAˆ*

ppo/returns/var!„)¢»ãî$       B+€M	‚Îœj ÙAˆ*

ppo/val/vpredžEX@´ç3$       B+€M	áÎœj ÙAˆ*

ppo/val/error˜ð6+Joí'       »á±F	<Ïœj ÙAˆ*

ppo/val/clipfrac    ÛÛÓ#       °ŸwC	—Ïœj ÙAˆ*

ppo/val/mean8PX@¨n·T"       x=ý	òÏœj ÙAˆ*

ppo/val/var!„)ÅWôÍ,       ô®ÌE	NÐœj ÙAˆ*

ppo/val/var_explainedl…èÌñáÆa(       ÿpJ	¨Ðœj ÙAˆ*

ppo/learning_rateÀÏ¸:‘’
J,       ô®ÌE	Ñœj ÙAˆ*

time/ppo/forward_passP&>óð/       m]P	aÑœj ÙAˆ*!

time/ppo/compute_rewards øÈ:õõµø2       $Vì	»Ñœj ÙAˆ*$
"
time/ppo/compute_advantages Œ!;%Øœ-       <AŠû	Òœj ÙAˆ*

time/ppo/optimize_step(Že?]mÉ°*       ®‘õ	kÒœj ÙAˆ*

time/ppo/calc_statsÐg!>eR!!%       ê¼6ó	ÄÒœj ÙAˆ*

time/ppo/total^;œ?ÿºèí&       sOã 	Óœj ÙAˆ*

env/reward_mean†@°@O^»G%       ê¼6ó	uÓœj ÙAˆ*

env/reward_std    –•ŽÞ#       °ŸwC	ãiR
j ÙA‰*

objective/klÌ5A'ê:Ø(       ÿpJ	ºjR
j ÙA‰*

objective/kl_coefð!_>,ùx(       ÿpJ	ØjR
j ÙA‰*

objective/entropy    Ì™Ö0       •õÐ_	íjR
j ÙA‰*"
 
ppo/mean_non_score_reward“'À0ÑD¬&       sOã 	 kR
j ÙA‰*

ppo/mean_scores†@°@>ÂBa%       ê¼6ó	kR
j ÙA‰*

ppo/std_scores    ùðIž.       ÅËWú	%kR
j ÙA‰* 

tokens/queries_len_mean  þBþ~Ø'-       <AŠû	6kR
j ÙA‰*

tokens/queries_len_std    ãóVz0       •õÐ_	IkR
j ÙA‰*"
 
tokens/responses_len_mean  €?Ib;}/       m]P	[kR
j ÙA‰*!

tokens/responses_len_std    O­k&       sOã 	lkR
j ÙA‰*

ppo/loss/policy    °ò¬à%       ê¼6ó	WoR
j ÙA‰*

ppo/loss/value¢§'6Euê˜%       ê¼6ó	†oR
j ÙA‰*

ppo/loss/total¶†4dQí±)       7ÿ_ 	¡oR
j ÙA‰*

ppo/policy/entropy    Iß|*       ®‘õ	µoR
j ÙA‰*

ppo/policy/approxkl     öØê*       ®‘õ	ÇoR
j ÙA‰*

ppo/policy/policykl    \Ác *       ®‘õ	ÙoR
j ÙA‰*

ppo/policy/clipfrac    t1       ƒƒé	ìoR
j ÙA‰*#
!
ppo/policy/advantages_mean    Nó'       »á±F	þoR
j ÙA‰*

ppo/returns/meanzYX@’÷aÏ&       sOã 	pR
j ÙA‰*

ppo/returns/var    ,J¿X$       B+€M	!pR
j ÙA‰*

ppo/val/vpred­|X@Ú
Šl$       B+€M	“pR
j ÙA‰*

ppo/val/error¢§§6VDNw'       »á±F	grR
j ÙA‰*

ppo/val/clipfrac    “m…#       °ŸwC	•rR
j ÙA‰*

ppo/val/meanÐtX@c¸^o"       x=ý	­rR
j ÙA‰*

ppo/val/var    Î=N,       ô®ÌE	ÃrR
j ÙA‰*

ppo/val/var_explained  €ÿ3'ê&(       ÿpJ	ÖrR
j ÙA‰*

ppo/learning_rateÀÏ¸:l3s+,       ô®ÌE	èrR
j ÙA‰*

time/ppo/forward_pass b$>Lí—/       m]P	ùrR
j ÙA‰*!

time/ppo/compute_rewards ðÝ:í-o2       $Vì	isR
j ÙA‰*$
"
time/ppo/compute_advantages Ì);õ-¼ª-       <AŠû	ÇsR
j ÙA‰*

time/ppo/optimize_stepDÇf?Óx0*       ®‘õ	!tR
j ÙA‰*

time/ppo/calc_statsàY>:°Èa%       ê¼6ó	ztR
j ÙA‰*

time/ppo/totalÜ)œ?CÌHY&       sOã 	ÚtR
j ÙA‰*

env/reward_mean†@°@ÍkÄ¥%       ê¼6ó	1uR
j ÙA‰*

env/reward_std    ïÄ.z#       °ŸwC	»~j ÙAŠ*

objective/klÌ5A°{¡(       ÿpJ	&j ÙAŠ*

objective/kl_coefF_>ø’×(       ÿpJ	Cj ÙAŠ*

objective/entropy    o(„e0       •õÐ_	Vj ÙAŠ*"
 
ppo/mean_non_score_rewardá=ÀÈí­î&       sOã 	hj ÙAŠ*

ppo/mean_scores†@°@öK§õ%       ê¼6ó	xj ÙAŠ*

ppo/std_scores    ;c.       ÅËWú	Šj ÙAŠ* 

tokens/queries_len_mean  þBð}¶í-       <AŠû	›j ÙAŠ*

tokens/queries_len_std    À•‘¹0       •õÐ_	­j ÙAŠ*"
 
tokens/responses_len_mean  €?¶î_/       m]P	¾j ÙAŠ*!

tokens/responses_len_std    éjV‹&       sOã 	Ðj ÙAŠ*

ppo/loss/policy    ƒèžö%       ê¼6ó	‚j ÙAŠ*

ppo/loss/value
2ó5“2A3%       ê¼6ó	?‚j ÙAŠ*

ppo/loss/totalnŽB4};0!)       7ÿ_ 	W‚j ÙAŠ*

ppo/policy/entropy    Ðu~.*       ®‘õ	ƒj ÙAŠ*

ppo/policy/approxkl    Ÿ[“*       ®‘õ	'ƒj ÙAŠ*

ppo/policy/policykl    *²xj*       ®‘õ	xƒj ÙAŠ*

ppo/policy/clipfrac    ©¥›~1       ƒƒé	×ƒj ÙAŠ*#
!
ppo/policy/advantages_mean    IS²8'       »á±F	8„j ÙAŠ*

ppo/returns/mean+CX@ü"à§&       sOã 	•„j ÙAŠ*

ppo/returns/var    ð¯Ë$       B+€M	ð„j ÙAŠ*

ppo/val/vpredò.X@<	´$       B+€M	F…j ÙAŠ*

ppo/val/error
2s6ðœ’b'       »á±F	…j ÙAŠ*

ppo/val/clipfrac    ¿S#       °ŸwC	ö…j ÙAŠ*

ppo/val/mean
TX@öaÌ"       x=ý	S†j ÙAŠ*

ppo/val/var    –„i_,       ô®ÌE	«†j ÙAŠ*

ppo/val/var_explained  €ÿƒ_ˆ¥(       ÿpJ	‡j ÙAŠ*

ppo/learning_rateÀÏ¸:ô7é/,       ô®ÌE	\‡j ÙAŠ*

time/ppo/forward_pass0)>— ˜/       m]P	»‡j ÙAŠ*!

time/ppo/compute_rewards ˜Ó:Í!2       $Vì	ˆj ÙAŠ*$
"
time/ppo/compute_advantages );&’)¯-       <AŠû	hˆj ÙAŠ*

time/ppo/optimize_stepà˜[? /2Å*       ®‘õ	¼ˆj ÙAŠ*

time/ppo/calc_statsð>¼Uï%       ê¼6ó	%‰j ÙAŠ*

time/ppo/totalÞ–?Â2&       sOã 	z‰j ÙAŠ*

env/reward_mean†@°@7Üíy%       ê¼6ó	Ñ‰j ÙAŠ*

env/reward_std    ü±D“#       °ŸwC	\êºj ÙA‹*

objective/klÌ5A*HWA(       ÿpJ	Çêºj ÙA‹*

objective/kl_coefk_>†ßçÒ(       ÿpJ	æêºj ÙA‹*

objective/entropy    P¯j0       •õÐ_	üêºj ÙA‹*"
 
ppo/mean_non_score_reward4TÀölÕ&       sOã 	ëºj ÙA‹*

ppo/mean_scores†@°@Ýn‰Ÿ%       ê¼6ó	#ëºj ÙA‹*

ppo/std_scores    3fw.       ÅËWú	5ëºj ÙA‹* 

tokens/queries_len_mean  þBi&ì@-       <AŠû	Fëºj ÙA‹*

tokens/queries_len_std    NTû0       •õÐ_	Zëºj ÙA‹*"
 
tokens/responses_len_mean  €?ºø\/       m]P	mëºj ÙA‹*!

tokens/responses_len_std    Ë3n,&       sOã 	ƒëºj ÙA‹*

ppo/loss/policy    MÇ
”%       ê¼6ó	 íºj ÙA‹*

ppo/loss/valueròè4!³;%       ê¼6ó	àïºj ÙA‹*

ppo/loss/total[:3ºCE<)       7ÿ_ 	ðºj ÙA‹*

ppo/policy/entropy    l>Í*       ®‘õ	]òºj ÙA‹*

ppo/policy/approxkl    Ht *       ®‘õ	ˆòºj ÙA‹*

ppo/policy/policykl    ~*       ®‘õ	Ÿòºj ÙA‹*

ppo/policy/clipfrac    ;¨’Ö1       ƒƒé	4öºj ÙA‹*#
!
ppo/policy/advantages_mean    ½ô{'       »á±F	^öºj ÙA‹*

ppo/returns/meanÙ,X@nn»&       sOã 	vöºj ÙA‹*

ppo/returns/var    æ`"^$       B+€M	‰öºj ÙA‹*

ppo/val/vpredÎ7X@W=vÕ$       B+€M	œöºj ÙA‹*

ppo/val/errorròh5_õ?¤'       »á±F	®öºj ÙA‹*

ppo/val/clipfrac    äêi–#       °ŸwC	Àöºj ÙA‹*

ppo/val/meanæ&X@^,;Æ"       x=ý	Ñöºj ÙA‹*

ppo/val/var    ²Í¥ú,       ô®ÌE	áöºj ÙA‹*

ppo/val/var_explained  €ÿ£³µ‚(       ÿpJ	óöºj ÙA‹*

ppo/learning_rateÀÏ¸:È[3,       ô®ÌE	wøºj ÙA‹*

time/ppo/forward_pass@¢!>â›Ù‰/       m]P	õøºj ÙA‹*!

time/ppo/compute_rewards P×:®Ìhä2       $Vì	]ùºj ÙA‹*$
"
time/ppo/compute_advantages Ì(;mÃ¦Y-       <AŠû	³ùºj ÙA‹*

time/ppo/optimize_stepü.X?¡õ*       ®‘õ		úºj ÙA‹*

time/ppo/calc_stats`Ö>l®D%       ê¼6ó	]úºj ÙA‹*

time/ppo/total.Ó“?%M˜&       sOã 	·úºj ÙA‹*

env/reward_mean†@°@uãŒÛ%       ê¼6ó	ûºj ÙA‹*

env/reward_std    õáð#       °ŸwC	ljj ÙAŒ*

objective/klÌ5A¢pøx(       ÿpJ	oljj ÙAŒ*

objective/kl_coef®_>âÙ](       ÿpJ	Œljj ÙAŒ*

objective/entropy    0¿ð0       •õÐ_	¡ljj ÙAŒ*"
 
ppo/mean_non_score_reward‰jÀ.øŠ¹&       sOã 	´ljj ÙAŒ*

ppo/mean_scores†@°@Å„É‰%       ê¼6ó	Æljj ÙAŒ*

ppo/std_scores    ðÂˆ.       ÅËWú	Øljj ÙAŒ* 

tokens/queries_len_mean  þBOÄ[-       <AŠû	êljj ÙAŒ*

tokens/queries_len_std    H0¾Œ0       •õÐ_	üljj ÙAŒ*"
 
tokens/responses_len_mean  €?{É/       m]P	mjj ÙAŒ*!

tokens/responses_len_std    µ¯{7&       sOã 	mjj ÙAŒ*

ppo/loss/policy    ýÕS(%       ê¼6ó	9ojj ÙAŒ*

ppo/loss/value”›–5G¥Ü5%       ê¼6ó	›qjj ÙAŒ*

ppo/loss/totalîøð36/Aº)       7ÿ_ 	Çqjj ÙAŒ*

ppo/policy/entropy    ¹mc1*       ®‘õ	áqjj ÙAŒ*

ppo/policy/approxkl    âœ*       ®‘õ	ôqjj ÙAŒ*

ppo/policy/policykl    [±*       ®‘õ	rjj ÙAŒ*

ppo/policy/clipfrac    
âÄÁ1       ƒƒé	rjj ÙAŒ*#
!
ppo/policy/advantages_mean    û\¤'       »á±F	1rjj ÙAŒ*

ppo/returns/mean‚X@·t=&       sOã 	Drjj ÙAŒ*

ppo/returns/var!„)ºÉÁâ$       B+€M	·vjj ÙAŒ*

ppo/val/vpredxX@°ö‡$       B+€M	ßvjj ÙAŒ*

ppo/val/error”›6/vÑ'       »á±F	övjj ÙAŒ*

ppo/val/clipfrac    šÛèÍ#       °ŸwC	wjj ÙAŒ*

ppo/val/meanø8X@¶>á…"       x=ý	wjj ÙAŒ*

ppo/val/var!„)‹àƒ»,       ô®ÌE	+wjj ÙAŒ*

ppo/val/var_explained¸æÌÜ¢Ñê(       ÿpJ	<wjj ÙAŒ*

ppo/learning_rateÀÏ¸:
¿,       ô®ÌE	Mwjj ÙAŒ*

time/ppo/forward_passpÂ>ËfßÕ/       m]P	]wjj ÙAŒ*!

time/ppo/compute_rewards Î:äÚÚ§2       $Vì	nwjj ÙAŒ*$
"
time/ppo/compute_advantages ¬$;ú’h¢-       <AŠû	ùxjj ÙAŒ*

time/ppo/optimize_step=[?„<jŸ*       ®‘õ	‘yjj ÙAŒ*

time/ppo/calc_statsÀÓ>«n%       ê¼6ó	zjj ÙAŒ*

time/ppo/total^Y•?I¨§&       sOã 	þ{jj ÙAŒ*

env/reward_mean†@°@š6[%       ê¼6ó	i|jj ÙAŒ*

env/reward_std    0˜…R#       °ŸwC	”T!j ÙA*

objective/klÌ5AŠàÍ‡(       ÿpJ	 U!j ÙA*

objective/kl_coefO´_>Ø³ôÒ(       ÿpJ	U!j ÙA*

objective/entropy    ˆ„Ÿ0       •õÐ_	3U!j ÙA*"
 
ppo/mean_non_score_rewardã€À„k‚%&       sOã 	EU!j ÙA*

ppo/mean_scores†@°@DóÉž%       ê¼6ó	VU!j ÙA*

ppo/std_scores    (ÒÞf.       ÅËWú	gU!j ÙA* 

tokens/queries_len_mean  þB±Š-       <AŠû	yU!j ÙA*

tokens/queries_len_std    Y”0       •õÐ_	‹U!j ÙA*"
 
tokens/responses_len_mean  €?_È6/       m]P	›U!j ÙA*!

tokens/responses_len_std    ¿á>&       sOã 	­U!j ÙA*

ppo/loss/policy    4÷Û%       ê¼6ó	ûW!j ÙA*

ppo/loss/value1¿3N¥;Ÿ%       ê¼6ó	)X!j ÙA*

ppo/loss/totalô2‡@)       7ÿ_ 	¡X!j ÙA*

ppo/policy/entropy    b¦0g*       ®‘õ	Y!j ÙA*

ppo/policy/approxkl    Ê;0j*       ®‘õ	mY!j ÙA*

ppo/policy/policykl    WlP*       ®‘õ	ÊY!j ÙA*

ppo/policy/clipfrac    8ç·Â1       ƒƒé	,Z!j ÙA*#
!
ppo/policy/advantages_mean    %Ô¼³'       »á±F	ŒZ!j ÙA*

ppo/returns/mean) X@2¼®x&       sOã 	õZ!j ÙA*

ppo/returns/var    ÅÕÌ[$       B+€M	I[!j ÙA*

ppo/val/vpred±ûW@¬fûÈ$       B+€M	£[!j ÙA*

ppo/val/error1?4²’s'       »á±F	ü[!j ÙA*

ppo/val/clipfrac    O=Ûq#       °ŸwC	W\!j ÙA*

ppo/val/meanâõW@vIµ"       x=ý	²\!j ÙA*

ppo/val/var    	Ÿp×,       ô®ÌE	]!j ÙA*

ppo/val/var_explained  €ÿ3šo“(       ÿpJ	j]!j ÙA*

ppo/learning_rateÀÏ¸:ø¼i,       ô®ÌE	É]!j ÙA*

time/ppo/forward_pass*>‚Œ]©/       m]P	(^!j ÙA*!

time/ppo/compute_rewards @Õ:zÐ2       $Vì	^!j ÙA*$
"
time/ppo/compute_advantages P);ŽÆ]-       <AŠû	Ù^!j ÙA*

time/ppo/optimize_stepÜ½i?|íªÊ*       ®‘õ	5_!j ÙA*

time/ppo/calc_stats°>!š7n%       ê¼6ó	Ž_!j ÙA*

time/ppo/total’Ÿž?-OÐ&       sOã 	ë_!j ÙA*

env/reward_mean†@°@ýŸq%       ê¼6ó	D`!j ÙA*

env/reward_std    \‘#       °ŸwC	Kçj ÙAŽ*

objective/klÌ5AkpT(       ÿpJ	¸çj ÙAŽ*

objective/kl_coeföØ_>=½€Ž(       ÿpJ	Ôçj ÙAŽ*

objective/entropy    îZi0       •õÐ_	êçj ÙAŽ*"
 
ppo/mean_non_score_reward@—ÀH½%R&       sOã 	ýçj ÙAŽ*

ppo/mean_scores†@°@zõµ>%       ê¼6ó	çj ÙAŽ*

ppo/std_scores    KåÂ.       ÅËWú	$çj ÙAŽ* 

tokens/queries_len_mean  þB—S 6-       <AŠû	4çj ÙAŽ*

tokens/queries_len_std    vw‹Õ0       •õÐ_	Fçj ÙAŽ*"
 
tokens/responses_len_mean  €?`ç/       m]P	Wçj ÙAŽ*!

tokens/responses_len_std    ‰ 0_&       sOã 	içj ÙAŽ*

ppo/loss/policy    ” ¦%       ê¼6ó	O	çj ÙAŽ*

ppo/loss/valuee‰;5ma%       ê¼6ó	Òçj ÙAŽ*

ppo/loss/total„–3Þ-?)       7ÿ_ 	çj ÙAŽ*

ppo/policy/entropy    »¨ƒ!*       ®‘õ	ƒçj ÙAŽ*

ppo/policy/approxkl    •„LË*       ®‘õ	°çj ÙAŽ*

ppo/policy/policykl    0É4*       ®‘õ	Éçj ÙAŽ*

ppo/policy/clipfrac    N
Ê1       ƒƒé	¥çj ÙAŽ*#
!
ppo/policy/advantages_mean    ·7’g'       »á±F	Ôçj ÙAŽ*

ppo/returns/meanÌéW@x˜·&       sOã 	ðçj ÙAŽ*

ppo/returns/var    Ø_P$       B+€M	Îçj ÙAŽ*

ppo/val/vpredÌóW@ck$       B+€M	÷çj ÙAŽ*

ppo/val/errore‰»5ÁËçÈ'       »á±F	çj ÙAŽ*

ppo/val/clipfrac    ÍP®#       °ŸwC	"çj ÙAŽ*

ppo/val/mean†X@µ~"       x=ý	3çj ÙAŽ*

ppo/val/var    ;éq,       ô®ÌE	Eçj ÙAŽ*

ppo/val/var_explained  €ÿgÇ•(       ÿpJ	Wçj ÙAŽ*

ppo/learning_rateÀÏ¸:¥­9,       ô®ÌE	gçj ÙAŽ*

time/ppo/forward_pass n.>	FâC/       m]P	yçj ÙAŽ*!

time/ppo/compute_rewards ¸Ò:µçú32       $Vì	Šçj ÙAŽ*$
"
time/ppo/compute_advantages ˆ&;	‘n-       <AŠû	ïçj ÙAŽ*

time/ppo/optimize_stepdÒi?zf×*       ®‘õ	çj ÙAŽ*

time/ppo/calc_statsÐ-$>©ž
%       ê¼6ó	0çj ÙAŽ*

time/ppo/totalîÆŸ?÷ÿ»•&       sOã 	Bçj ÙAŽ*

env/reward_mean†@°@Ãçyˆ%       ê¼6ó	Sçj ÙAŽ*

env/reward_std    ¥$é<#       °ŸwC	Ãªj ÙA*

objective/klÌ5A‘Í7!(       ÿpJ	êÃªj ÙA*

objective/kl_coef£ý_><–é(       ÿpJ	Äªj ÙA*

objective/entropy    ¹LÓ0       •õÐ_	Äªj ÙA*"
 
ppo/mean_non_score_reward¡­ÀTÁ43&       sOã 	*Äªj ÙA*

ppo/mean_scores†@°@=)bG%       ê¼6ó	;Äªj ÙA*

ppo/std_scores    òÈ@Ø.       ÅËWú	MÄªj ÙA* 

tokens/queries_len_mean  þBò@-       <AŠû	^Äªj ÙA*

tokens/queries_len_std    ÇÈÀ0       •õÐ_	oÄªj ÙA*"
 
tokens/responses_len_mean  €?••€€/       m]P	Äªj ÙA*!

tokens/responses_len_std    +ž«¬&       sOã 	Äªj ÙA*

ppo/loss/policy    >êe]%       ê¼6ó	ÅÆªj ÙA*

ppo/loss/value’&4z×êœ%       ê¼6ó	´Êªj ÙA*

ppo/loss/totalÚ„2H»è+)       7ÿ_ 	ßÊªj ÙA*

ppo/policy/entropy    Îa·*       ®‘õ	öÊªj ÙA*

ppo/policy/approxkl    ü€ï4*       ®‘õ		Ëªj ÙA*

ppo/policy/policykl    $$w*       ®‘õ	Ëªj ÙA*

ppo/policy/clipfrac    ÆºÊ1       ƒƒé	.Ëªj ÙA*#
!
ppo/policy/advantages_mean    y@
¤'       »á±F	@Ëªj ÙA*

ppo/returns/meankÓW@r3«v&       sOã 	QËªj ÙA*

ppo/returns/var    ì%•ö$       B+€M	bËªj ÙA*

ppo/val/vpredxËW@_žÙ–$       B+€M	sËªj ÙA*

ppo/val/error’¦4ÓûtM'       »á±F	àËªj ÙA*

ppo/val/clipfrac    hþ#       °ŸwC	¤Íªj ÙA*

ppo/val/meanÚÒW@¢×Â"       x=ý	ÏÍªj ÙA*

ppo/val/var    ò+,       ô®ÌE	æÍªj ÙA*

ppo/val/var_explained  €ÿV|—(       ÿpJ	ûÍªj ÙA*

ppo/learning_rateÀÏ¸:¯b·,       ô®ÌE	Îªj ÙA*

time/ppo/forward_pass @->[hÌÂ/       m]P	Îªj ÙA*!

time/ppo/compute_rewards ðÓ:µ™ËÖ2       $Vì	.Îªj ÙA*$
"
time/ppo/compute_advantages <^;ÿY‚æ-       <AŠû	ŠÎªj ÙA*

time/ppo/optimize_step$j?O2Çy*       ®‘õ	¤Ðªj ÙA*

time/ppo/calc_stats°Ú#><³Ñø%       ê¼6ó	Ñªj ÙA*

time/ppo/totalöÕŸ?ËîFþ&       sOã 	yÑªj ÙA*

env/reward_mean†@°@d„%       ê¼6ó	ÑÑªj ÙA*

env/reward_std    ¢@#õ#       °ŸwC	d _j ÙA*

objective/klÌ5Aæ^X(       ÿpJ	Ê _j ÙA*

objective/kl_coefV"`>ªAŒ)(       ÿpJ	ã _j ÙA*

objective/entropy    n…0       •õÐ_	ö _j ÙA*"
 
ppo/mean_non_score_rewardÄÀí}F­&       sOã 		¡_j ÙA*

ppo/mean_scores†@°@š@(%       ê¼6ó	¡_j ÙA*

ppo/std_scores    1Â.       ÅËWú	.¡_j ÙA* 

tokens/queries_len_mean  þBw² -       <AŠû	?¡_j ÙA*

tokens/queries_len_std    m
R0       •õÐ_	Q¡_j ÙA*"
 
tokens/responses_len_mean  €?òÿ7/       m]P	a¡_j ÙA*!

tokens/responses_len_std    <NÈÿ&       sOã 	s¡_j ÙA*

ppo/loss/policy    èÿQ%       ê¼6ó	££_j ÙA*

ppo/loss/value°÷¨4ï¤Ó%       ê¼6ó	S¥_j ÙA*

ppo/loss/total,3–|Š )       7ÿ_ 	ê¥_j ÙA*

ppo/policy/entropy    ³fÝ|*       ®‘õ	W¦_j ÙA*

ppo/policy/approxkl    üXï*       ®‘õ	¶¦_j ÙA*

ppo/policy/policykl    Òv î*       ®‘õ	§_j ÙA*

ppo/policy/clipfrac    ÄSžÎ1       ƒƒé	r§_j ÙA*#
!
ppo/policy/advantages_mean    x“›ë'       »á±F	Ì§_j ÙA*

ppo/returns/mean½W@D’…&       sOã 	(¨_j ÙA*

ppo/returns/var    I•?3$       B+€M	|¨_j ÙA*

ppo/val/vpred`ÆW@ì%$       B+€M	Î¨_j ÙA*

ppo/val/error°÷(5¨«#Y'       »á±F	#©_j ÙA*

ppo/val/clipfrac    éVíÿ#       °ŸwC	y©_j ÙA*

ppo/val/meanšÏW@Ÿu="       x=ý	Ë©_j ÙA*

ppo/val/var    Ê‰ß*,       ô®ÌE	#ª_j ÙA*

ppo/val/var_explained  €ÿ7;Ò1(       ÿpJ	uª_j ÙA*

ppo/learning_rateÀÏ¸:ÜNè,       ô®ÌE	Éª_j ÙA*

time/ppo/forward_pass '">³/Q./       m]P	 «_j ÙA*!

time/ppo/compute_rewards È:ÎæÈ2       $Vì	p«_j ÙA*$
"
time/ppo/compute_advantages È;lË‹-       <AŠû	Á«_j ÙA*

time/ppo/optimize_step´PX? »’>*       ®‘õ	¬_j ÙA*

time/ppo/calc_stats@ÿ>Õ£þ%       ê¼6ó	d¬_j ÙA*

time/ppo/totalÑ“?òÃ7&       sOã 	³¬_j ÙA*

env/reward_mean†@°@<£O%       ê¼6ó	­_j ÙA*

env/reward_std    üÄ¡#       °ŸwC	!z4j ÙA‘*

objective/klÌ5A8–ë(       ÿpJ	‘z4j ÙA‘*

objective/kl_coefG`>B&Ò(       ÿpJ	¯z4j ÙA‘*

objective/entropy    Ô¶rD0       •õÐ_	Åz4j ÙA‘*"
 
ppo/mean_non_score_rewardoÚÀ–è_g&       sOã 	Ùz4j ÙA‘*

ppo/mean_scores†@°@®"R.%       ê¼6ó	ìz4j ÙA‘*

ppo/std_scores    §o.       ÅËWú	þz4j ÙA‘* 

tokens/queries_len_mean  þBŒº@p-       <AŠû	{4j ÙA‘*

tokens/queries_len_std    ¡¨90       •õÐ_	%{4j ÙA‘*"
 
tokens/responses_len_mean  €?UýŸY/       m]P	7{4j ÙA‘*!

tokens/responses_len_std    ‰-Î &       sOã 	I{4j ÙA‘*

ppo/loss/policy    ëšÚ%       ê¼6ó	æ~4j ÙA‘*

ppo/loss/valuek4x&ÞÒ%       ê¼6ó	4j ÙA‘*

ppo/loss/total±}¼2¼êõå)       7ÿ_ 	-4j ÙA‘*

ppo/policy/entropy    Q½ÁB*       ®‘õ	Ê‚4j ÙA‘*

ppo/policy/approxkl    3
¤*       ®‘õ	÷‚4j ÙA‘*

ppo/policy/policykl    òÀêå*       ®‘õ	ƒ4j ÙA‘*

ppo/policy/clipfrac    rf‘1       ƒƒé	&ƒ4j ÙA‘*#
!
ppo/policy/advantages_mean     ÷—'       »á±F	8ƒ4j ÙA‘*

ppo/returns/mean¦W@YòÀ&       sOã 	Jƒ4j ÙA‘*

ppo/returns/var    !ƒÄë$       B+€M	[ƒ4j ÙA‘*

ppo/val/vpredÆ¡W@±o$       B+€M	Ö…4j ÙA‘*

ppo/val/errorë4æWô'       »á±F	†4j ÙA‘*

ppo/val/clipfrac    ²D#       °ŸwC	vˆ4j ÙA‘*

ppo/val/meanV°W@šd‹9"       x=ý	­ˆ4j ÙA‘*

ppo/val/var    °&*,       ô®ÌE	(Š4j ÙA‘*

ppo/val/var_explained  €ÿË¨ýÕ(       ÿpJ	‹4j ÙA‘*

ppo/learning_rateÀÏ¸:ˆP¹¶,       ô®ÌE	úŒ4j ÙA‘*

time/ppo/forward_passðë*>åò¢q/       m]P	Â4j ÙA‘*!

time/ppo/compute_rewards  Ö:Ñ¨i2       $Vì	oŽ4j ÙA‘*$
"
time/ppo/compute_advantages 6;©jÖn-       <AŠû	4j ÙA‘*

time/ppo/optimize_step¬rg?Ò›y*       ®‘õ	¸4j ÙA‘*

time/ppo/calc_statsp•>¡’e%       ê¼6ó	Y4j ÙA‘*

time/ppo/total |?yfA&       sOã 	ý4j ÙA‘*

env/reward_mean†@°@DÝÜy%       ê¼6ó	š‘4j ÙA‘*

env/reward_std    ëG¬æ#       °ŸwC	o×Ýj ÙA’*

objective/klÌ5AäÒ(       ÿpJ	Þ×Ýj ÙA’*

objective/kl_coefÍk`>$X(       ÿpJ	ú×Ýj ÙA’*

objective/entropy    5F^{0       •õÐ_	ØÝj ÙA’*"
 
ppo/mean_non_score_rewardÚðÀ;#§&       sOã 	ØÝj ÙA’*

ppo/mean_scores†@°@ÅQ%       ê¼6ó	0ØÝj ÙA’*

ppo/std_scores    )|êâ.       ÅËWú	BØÝj ÙA’* 

tokens/queries_len_mean  þB›U]-       <AŠû	SØÝj ÙA’*

tokens/queries_len_std    `¾‹0       •õÐ_	dØÝj ÙA’*"
 
tokens/responses_len_mean  €?Q`!x/       m]P	vØÝj ÙA’*!

tokens/responses_len_std    ÆRK¥&       sOã 	ˆØÝj ÙA’*

ppo/loss/policy    ßO?»%       ê¼6ó	kÜÝj ÙA’*

ppo/loss/value®Ô×3Wã0å%       ê¼6ó	´áÝj ÙA’*

ppo/loss/total%ª,2}j)       7ÿ_ 	ãáÝj ÙA’*

ppo/policy/entropy    ¹&1*       ®‘õ	úáÝj ÙA’*

ppo/policy/approxkl    Tß§*       ®‘õ	âÝj ÙA’*

ppo/policy/policykl    í¸¶*       ®‘õ	 âÝj ÙA’*

ppo/policy/clipfrac    XY!ê1       ƒƒé	4âÝj ÙA’*#
!
ppo/policy/advantages_mean    ¾Dš'       »á±F	KâÝj ÙA’*

ppo/returns/mean2W@/€”&       sOã 	]âÝj ÙA’*

ppo/returns/var    )&!p$       B+€M	nâÝj ÙA’*

ppo/val/vpred\•W@¿¤T$       B+€M	€âÝj ÙA’*

ppo/val/error®ÔW4ÖÍ£'       »á±F	GäÝj ÙA’*

ppo/val/clipfrac    #†R¦#       °ŸwC	qäÝj ÙA’*

ppo/val/meanÈšW@‘Œœþ"       x=ý	ˆäÝj ÙA’*

ppo/val/var    ö£Œx,       ô®ÌE	OæÝj ÙA’*

ppo/val/var_explained  €ÿ ?$Û(       ÿpJ	wæÝj ÙA’*

ppo/learning_rateÀÏ¸:¥à,       ô®ÌE	ŽæÝj ÙA’*

time/ppo/forward_pass°³*>T‚Í/       m]P	>çÝj ÙA’*!

time/ppo/compute_rewards àò:¼äã2       $Vì	ÚçÝj ÙA’*$
"
time/ppo/compute_advantages 3;€ªÉ:-       <AŠû	rèÝj ÙA’*

time/ppo/optimize_step,ég?~¡ç*       ®‘õ		éÝj ÙA’*

time/ppo/calc_stats ý">N‰d‘%       ê¼6ó	 éÝj ÙA’*

time/ppo/totalhCž?#6G&       sOã 	7êÝj ÙA’*

env/reward_mean†@°@†ÇnÅ%       ê¼6ó	ÏêÝj ÙA’*

env/reward_std    ¾ý`Ù#       °ŸwC	7ö›j ÙA“*

objective/klÌ5A²·b»(       ÿpJ	²ö›j ÙA“*

objective/kl_coef’`>½rv1(       ÿpJ	Ðö›j ÙA“*

objective/entropy    »œë0       •õÐ_	èö›j ÙA“*"
 
ppo/mean_non_score_rewardJ	À.Ÿéf&       sOã 	üö›j ÙA“*

ppo/mean_scores†@°@<Â‘3%       ê¼6ó	÷›j ÙA“*

ppo/std_scores    ©²Y¯.       ÅËWú	$÷›j ÙA“* 

tokens/queries_len_mean  þBS Bº-       <AŠû	6÷›j ÙA“*

tokens/queries_len_std    .¿lá0       •õÐ_	K÷›j ÙA“*"
 
tokens/responses_len_mean  €?´Rèj/       m]P	\÷›j ÙA“*!

tokens/responses_len_std    (Ò4&       sOã 	n÷›j ÙA“*

ppo/loss/policy    5¬%       ê¼6ó	ßù›j ÙA“*

ppo/loss/value&€4QæxÄ%       ê¼6ó	ý›j ÙA“*

ppo/loss/total×ùÌ2[Ma~)       7ÿ_ 	C œj ÙA“*

ppo/policy/entropy    Ho_*       ®‘õ	p œj ÙA“*

ppo/policy/approxkl    bYÃ*       ®‘õ	ˆ œj ÙA“*

ppo/policy/policykl    ([¬*       ®‘õ	› œj ÙA“*

ppo/policy/clipfrac    j¶‰F1       ƒƒé	° œj ÙA“*#
!
ppo/policy/advantages_mean    sh–¯'       »á±F	hœj ÙA“*

ppo/returns/meanÂyW@]ç\&       sOã 	œj ÙA“*

ppo/returns/var    8?A$       B+€M	iœj ÙA“*

ppo/val/vpredyW@Vílž$       B+€M	8œj ÙA“*

ppo/val/error& 5Š{[å'       »á±F	ðœj ÙA“*

ppo/val/clipfrac    øFK#       °ŸwC	œj ÙA“*

ppo/val/meanÕˆW@+ãòW"       x=ý	Jœj ÙA“*

ppo/val/var!„)¿là	,       ô®ÌE	öœj ÙA“*

ppo/val/var_explained  €ÿÿ†<Z(       ÿpJ	Ÿœj ÙA“*

ppo/learning_rateÀÏ¸:ÊÄ}ƒ,       ô®ÌE	G	œj ÙA“*

time/ppo/forward_pass@À(>aà2É/       m]P	ñ	œj ÙA“*!

time/ppo/compute_rewards Àá:ÁðžŠ2       $Vì	•
œj ÙA“*$
"
time/ppo/compute_advantages TV;Dåä„-       <AŠû	6œj ÙA“*

time/ppo/optimize_stepã`?aÞ
á*       ®‘õ	Úœj ÙA“*

time/ppo/calc_stats`>Î³%       ê¼6ó	~œj ÙA“*

time/ppo/total¢á™?.ëL%&       sOã 	!œj ÙA“*

env/reward_mean†@°@³.`Å%       ê¼6ó	Áœj ÙA“*

env/reward_std    ý	#       °ŸwC	iÃcj ÙA”*

objective/klÌ5A½ÒQ°(       ÿpJ	ÐÃcj ÙA”*

objective/kl_coef]µ`>í#Å*(       ÿpJ	PÄcj ÙA”*

objective/entropy    Ï=Å¡0       •õÐ_	gÄcj ÙA”*"
 
ppo/mean_non_score_reward½	À'î˜"&       sOã 	{Äcj ÙA”*

ppo/mean_scores†@°@£ø°2%       ê¼6ó	ŽÄcj ÙA”*

ppo/std_scores    
pÏ­.       ÅËWú	¢Äcj ÙA”* 

tokens/queries_len_mean  þBµ<v³-       <AŠû	¸Äcj ÙA”*

tokens/queries_len_std    à¤a0       •õÐ_	ÊÄcj ÙA”*"
 
tokens/responses_len_mean  €?³6öÀ/       m]P	ÝÄcj ÙA”*!

tokens/responses_len_std    ²P`x&       sOã 	îÄcj ÙA”*

ppo/loss/policy    Œ/v¯%       ê¼6ó	Çcj ÙA”*

ppo/loss/value>eS3|§ð%       ê¼6ó	ŠËcj ÙA”*

ppo/loss/totalË©1}JS+)       7ÿ_ 	¸Ëcj ÙA”*

ppo/policy/entropy    m¤Iµ*       ®‘õ	ÏËcj ÙA”*

ppo/policy/approxkl    ÿn2*       ®‘õ	ãËcj ÙA”*

ppo/policy/policykl    ¼ÿ3*       ®‘õ	öËcj ÙA”*

ppo/policy/clipfrac    îýGU1       ƒƒé	îÍcj ÙA”*#
!
ppo/policy/advantages_mean    žÇL2'       »á±F	Îcj ÙA”*

ppo/returns/meanNcW@#4z•&       sOã 	5Îcj ÙA”*

ppo/returns/var!„)•É!<$       B+€M	oÐcj ÙA”*

ppo/val/vpredêdW@)œI$       B+€M	˜Ðcj ÙA”*

ppo/val/error>eÓ3óZ.ý'       »á±F	°Ðcj ÙA”*

ppo/val/clipfrac    ƒÍÇ#       °ŸwC	ÂÐcj ÙA”*

ppo/val/mean%kW@#ê^j"       x=ý	jÑcj ÙA”*

ppo/val/var    ´†˜q,       ô®ÌE	Òcj ÙA”*

ppo/val/var_explainedÊÌÉ’Ò7(       ÿpJ	¯Òcj ÙA”*

ppo/learning_rateÀÏ¸:9F;,       ô®ÌE	PÓcj ÙA”*

time/ppo/forward_passÐ¥&>‘æÔ/       m]P	õÓcj ÙA”*!

time/ppo/compute_rewards (ç:*Ý¦ï2       $Vì	¾Ôcj ÙA”*$
"
time/ppo/compute_advantages Œ(;‚(ž-       <AŠû	^Õcj ÙA”*

time/ppo/optimize_step¼”`?lÊ„Ý*       ®‘õ	öÕcj ÙA”*

time/ppo/calc_statsð`>÷Ñr%       ê¼6ó	ŒÖcj ÙA”*

time/ppo/total®{™?¤Ðy£&       sOã 	$×cj ÙA”*

env/reward_mean†@°@BÄ_è%       ê¼6ó	¾×cj ÙA”*

env/reward_std    ˜”~=#       °ŸwC	Øç(j ÙA•*

objective/klÌ5ABú¿(       ÿpJ	Hè(j ÙA•*

objective/kl_coef.Ú`><R‚A(       ÿpJ	fè(j ÙA•*

objective/entropy    ¬fo€0       •õÐ_	|è(j ÙA•*"
 
ppo/mean_non_score_reward44	ÀnÒV÷&       sOã 	Žè(j ÙA•*

ppo/mean_scores†@°@¤ðv»%       ê¼6ó	¡è(j ÙA•*

ppo/std_scores    ­n~.       ÅËWú	´è(j ÙA•* 

tokens/queries_len_mean  þBÊ¨­)-       <AŠû	Åè(j ÙA•*

tokens/queries_len_std    )†0¦0       •õÐ_	×è(j ÙA•*"
 
tokens/responses_len_mean  €?(ÖÜQ/       m]P	éè(j ÙA•*!

tokens/responses_len_std    &MzI&       sOã 	úè(j ÙA•*

ppo/loss/policy    $|”{%       ê¼6ó	­ë(j ÙA•*

ppo/loss/value|e4ÒÆŠ½%       ê¼6ó	Ùí(j ÙA•*

ppo/loss/totalr–·2a¿¶½)       7ÿ_ 	î(j ÙA•*

ppo/policy/entropy    bk-*       ®‘õ	î(j ÙA•*

ppo/policy/approxkl    ¾h†•*       ®‘õ	*ð(j ÙA•*

ppo/policy/policykl    %À›)*       ®‘õ	Vð(j ÙA•*

ppo/policy/clipfrac    w®;±1       ƒƒé	oð(j ÙA•*#
!
ppo/policy/advantages_mean    d—'       »á±F	¨ò(j ÙA•*

ppo/returns/meanØLW@B–Ök&       sOã 	éò(j ÙA•*

ppo/returns/var    ›*Ä›$       B+€M	 ó(j ÙA•*

ppo/val/vpredÊNW@°$       B+€M	ó(j ÙA•*

ppo/val/error|å4p°m„'       »á±F	‰ö(j ÙA•*

ppo/val/clipfrac    –cJ#       °ŸwC	µö(j ÙA•*

ppo/val/mean´\W@K¢-¥"       x=ý	ú(j ÙA•*

ppo/val/var    Ìo„,       ô®ÌE	cü(j ÙA•*

ppo/val/var_explained  €ÿJ‡£(       ÿpJ	ü(j ÙA•*

ppo/learning_rateÀÏ¸:Ýƒdc,       ô®ÌE	¨ü(j ÙA•*

time/ppo/forward_pass€²+>“°2i/       m]P	»ü(j ÙA•*!

time/ppo/compute_rewards ÈÕ:½ï2       $Vì	bý(j ÙA•*$
"
time/ppo/compute_advantages d(;>¾Í7-       <AŠû	þý(j ÙA•*

time/ppo/optimize_step¸#j?†é*       ®‘õ	–þ(j ÙA•*

time/ppo/calc_stats —">e´~%       ê¼6ó	-ÿ(j ÙA•*

time/ppo/total
gŸ?NYB&       sOã 	Åÿ(j ÙA•*

env/reward_mean†@°@²%       ê¼6ó	[ )j ÙA•*

env/reward_std    hµ›#       °ŸwC	!Þ j ÙA–*

objective/klÌ5AW%ñ(       ÿpJ	"Þ j ÙA–*

objective/kl_coefÿ`>˜›«(       ÿpJ	&"Þ j ÙA–*

objective/entropy    Šõë0       •õÐ_	:"Þ j ÙA–*"
 
ppo/mean_non_score_reward¯J	À—³”’&       sOã 	K"Þ j ÙA–*

ppo/mean_scores†@°@›¨&%       ê¼6ó	^"Þ j ÙA–*

ppo/std_scores    ŽÊ©.       ÅËWú	p"Þ j ÙA–* 

tokens/queries_len_mean  þBRpê*-       <AŠû	"Þ j ÙA–*

tokens/queries_len_std    Ü4á0       •õÐ_	”"Þ j ÙA–*"
 
tokens/responses_len_mean  €?Kó2/       m]P	¥"Þ j ÙA–*!

tokens/responses_len_std    A„¿&       sOã 	¹"Þ j ÙA–*

ppo/loss/policy    Oñ¢%       ê¼6ó	ÿ$Þ j ÙA–*

ppo/loss/value9
™3;0%       ê¼6ó	v*Þ j ÙA–*

ppo/loss/total(Ýô1+— M)       7ÿ_ 	¤*Þ j ÙA–*

ppo/policy/entropy    ö5qM*       ®‘õ	½*Þ j ÙA–*

ppo/policy/approxkl    Ä­í*       ®‘õ	Ð*Þ j ÙA–*

ppo/policy/policykl    bÉ{*       ®‘õ	ã*Þ j ÙA–*

ppo/policy/clipfrac    r`™ù1       ƒƒé	ù*Þ j ÙA–*#
!
ppo/policy/advantages_mean    `¤¤‚'       »á±F	+Þ j ÙA–*

ppo/returns/mean]6W@¿dðL&       sOã 	$+Þ j ÙA–*

ppo/returns/var    m´È$       B+€M	L-Þ j ÙA–*

ppo/val/vpredR6W@Ùô
Ð$       B+€M	w-Þ j ÙA–*

ppo/val/error9
4·]wë'       »á±F	Ž-Þ j ÙA–*

ppo/val/clipfrac    ôr"q#       °ŸwC	¢-Þ j ÙA–*

ppo/val/meanØ>W@QÈ&+"       x=ý	H.Þ j ÙA–*

ppo/val/var    *Š@Ä,       ô®ÌE	ç.Þ j ÙA–*

ppo/val/var_explained  €ÿdöç‡(       ÿpJ	ƒ/Þ j ÙA–*

ppo/learning_rateÀÏ¸:5”,       ô®ÌE	0Þ j ÙA–*

time/ppo/forward_passðA(>t’Úc/       m]P	À0Þ j ÙA–*!

time/ppo/compute_rewards Ï:ñÖw(2       $Vì	Y1Þ j ÙA–*$
"
time/ppo/compute_advantages  ";)Cíâ-       <AŠû	ð1Þ j ÙA–*

time/ppo/optimize_stepœíi?³H+4*       ®‘õ	ˆ2Þ j ÙA–*

time/ppo/calc_stats3">Û£Dñ%       ê¼6ó	3Þ j ÙA–*

time/ppo/totalÔÌž?ýœ‰þ&       sOã 	µ3Þ j ÙA–*

env/reward_mean†@°@–ZDb%       ê¼6ó	J4Þ j ÙA–*

env/reward_std    <ÖX÷#       °ŸwC	fîŠ"j ÙA—*

objective/klÌ5AÁòù¬(       ÿpJ	ÉîŠ"j ÙA—*

objective/kl_coefâ#a>×³yC(       ÿpJ	çîŠ"j ÙA—*

objective/entropy    z…r„0       •õÐ_	SïŠ"j ÙA—*"
 
ppo/mean_non_score_reward-a	ÀMÄÊá&       sOã 	eïŠ"j ÙA—*

ppo/mean_scores†@°@?›Æ%       ê¼6ó	xïŠ"j ÙA—*

ppo/std_scores    Ñ¡zá.       ÅËWú	‰ïŠ"j ÙA—* 

tokens/queries_len_mean  þB÷pÕ†-       <AŠû	šïŠ"j ÙA—*

tokens/queries_len_std    Š‰f0       •õÐ_	¬ïŠ"j ÙA—*"
 
tokens/responses_len_mean  €?¯¼ì/       m]P	¼ïŠ"j ÙA—*!

tokens/responses_len_std    æOµk&       sOã 	ÌïŠ"j ÙA—*

ppo/loss/policy    S» ½%       ê¼6ó	ÙñŠ"j ÙA—*

ppo/loss/value§742Á!%       ê¼6ó	àøŠ"j ÙA—*

ppo/loss/total
ì’2`Û¶O)       7ÿ_ 	ùŠ"j ÙA—*

ppo/policy/entropy    M”YO*       ®‘õ	$ùŠ"j ÙA—*

ppo/policy/approxkl    ²*       ®‘õ	6ùŠ"j ÙA—*

ppo/policy/policykl    é×,Í*       ®‘õ	HùŠ"j ÙA—*

ppo/policy/clipfrac    ”®{1       ƒƒé	[ùŠ"j ÙA—*#
!
ppo/policy/advantages_mean    sÜ# '       »á±F	oùŠ"j ÙA—*

ppo/returns/meanÞW@|Ì&       sOã 	€ùŠ"j ÙA—*

ppo/returns/var    wP;$       B+€M	‘ùŠ"j ÙA—*

ppo/val/vpred˜"W@ÐW'8$       B+€M	¢ùŠ"j ÙA—*

ppo/val/error§·4í§$¦'       »á±F	ÞúŠ"j ÙA—*

ppo/val/clipfrac    n×.K#       °ŸwC	ÆûŠ"j ÙA—*

ppo/val/meand.W@r7ÓŽ"       x=ý	tüŠ"j ÙA—*

ppo/val/var    Xk‰e,       ô®ÌE	ýŠ"j ÙA—*

ppo/val/var_explained  €ÿvç(       ÿpJ	¹ýŠ"j ÙA—*

ppo/learning_rateÀÏ¸:öb›,       ô®ÌE	VþŠ"j ÙA—*

time/ppo/forward_pass 1&>ÖáXp/       m]P	øþŠ"j ÙA—*!

time/ppo/compute_rewards  Ö:Aýˆ2       $Vì	“ÿŠ"j ÙA—*$
"
time/ppo/compute_advantages 0%;ý®-       <AŠû	* ‹"j ÙA—*

time/ppo/optimize_step|L`?AÞèÔ*       ®‘õ	¾ ‹"j ÙA—*

time/ppo/calc_stats`é>—Hoê%       ê¼6ó	S‹"j ÙA—*

time/ppo/totalø™?›²&       sOã 	ê‹"j ÙA—*

env/reward_mean†@°@Ç®Û%       ê¼6ó	~‹"j ÙA—*

env/reward_std    ñ›†.#       °ŸwC	w´Q$j ÙA˜*

objective/klÌ5A›Bõô(       ÿpJ	÷´Q$j ÙA˜*

objective/kl_coefÅHa>þ‡.Ÿ(       ÿpJ	{µQ$j ÙA˜*

objective/entropy    ÞÖÙ„0       •õÐ_	”µQ$j ÙA˜*"
 
ppo/mean_non_score_reward°w	ÀFÐÔõ&       sOã 	¨µQ$j ÙA˜*

ppo/mean_scores†@°@r"ß[%       ê¼6ó	½µQ$j ÙA˜*

ppo/std_scores    žV“™.       ÅËWú	ÏµQ$j ÙA˜* 

tokens/queries_len_mean  þB‡+-       <AŠû	àµQ$j ÙA˜*

tokens/queries_len_std    )nW00       •õÐ_	òµQ$j ÙA˜*"
 
tokens/responses_len_mean  €?NzÃ*/       m]P	¶Q$j ÙA˜*!

tokens/responses_len_std    q¬øê&       sOã 	¶Q$j ÙA˜*

ppo/loss/policy    ×u÷%       ê¼6ó	Æ¸Q$j ÙA˜*

ppo/loss/value£™á3ÒNV%       ê¼6ó	8ÀQ$j ÙA˜*

ppo/loss/totalêz42®˜N)       7ÿ_ 	gÀQ$j ÙA˜*

ppo/policy/entropy    ¡JÁå*       ®‘õ	€ÀQ$j ÙA˜*

ppo/policy/approxkl    ºž¸*       ®‘õ	”ÀQ$j ÙA˜*

ppo/policy/policykl    T&Ük*       ®‘õ	§ÀQ$j ÙA˜*

ppo/policy/clipfrac    û#Œé1       ƒƒé	»ÀQ$j ÙA˜*#
!
ppo/policy/advantages_mean    £¹…ý'       »á±F	ÒÀQ$j ÙA˜*

ppo/returns/mean\	W@Tú"î&       sOã 	åÀQ$j ÙA˜*

ppo/returns/var    UÊ$       B+€M	÷ÀQ$j ÙA˜*

ppo/val/vpred(	W@
Up$       B+€M	ÁQ$j ÙA˜*

ppo/val/error£™a4ŠfÖ‚'       »á±F	ÇÁQ$j ÙA˜*

ppo/val/clipfrac    !3{|#       °ŸwC	šÂQ$j ÙA˜*

ppo/val/meanŒW@ÿCÛs"       x=ý	GÃQ$j ÙA˜*

ppo/val/var    }ÊÁ,       ô®ÌE	çÃQ$j ÙA˜*

ppo/val/var_explained  €ÿ6sìi(       ÿpJ	„ÄQ$j ÙA˜*

ppo/learning_rateÀÏ¸:=ÀH£,       ô®ÌE	"ÅQ$j ÙA˜*

time/ppo/forward_pass`U+>a_/       m]P	ÇÅQ$j ÙA˜*!

time/ppo/compute_rewards H;áX…Ì2       $Vì	bÆQ$j ÙA˜*$
"
time/ppo/compute_advantages -;lŸ´µ-       <AŠû	úÆQ$j ÙA˜*

time/ppo/optimize_step¨‡i?šáŸt*       ®‘õ	ÇQ$j ÙA˜*

time/ppo/calc_statsP #>bÏôÇ%       ê¼6ó	$ÈQ$j ÙA˜*

time/ppo/total"KŸ?ª$£&       sOã 	ºÈQ$j ÙA˜*

env/reward_mean†@°@!í´%       ê¼6ó	QÉQ$j ÙA˜*

env/reward_std    ñÒã#       °ŸwC	<q	&j ÙA™*

objective/klÌ5A@©«(       ÿpJ	ªq	&j ÙA™*

objective/kl_coef®ma>)Þ3(       ÿpJ	Çq	&j ÙA™*

objective/entropy    ©Š'/0       •õÐ_	Úq	&j ÙA™*"
 
ppo/mean_non_score_reward6Ž	ÀÄªÉ&       sOã 	íq	&j ÙA™*

ppo/mean_scores†@°@½ó%       ê¼6ó	þq	&j ÙA™*

ppo/std_scores    éæv.       ÅËWú	r	&j ÙA™* 

tokens/queries_len_mean  þBŠÝl-       <AŠû	!r	&j ÙA™*

tokens/queries_len_std    X‡j30       •õÐ_	2r	&j ÙA™*"
 
tokens/responses_len_mean  €?†üÐœ/       m]P	Br	&j ÙA™*!

tokens/responses_len_std    ›yçs&       sOã 	Tr	&j ÙA™*

ppo/loss/policy    	ÕæÏ%       ê¼6ó	Ët	&j ÙA™*

ppo/loss/value4:«nÜ%       ê¼6ó	@|	&j ÙA™*

ppo/loss/totalÌ1h2&QzÉ)       7ÿ_ 	m|	&j ÙA™*

ppo/policy/entropy    n~Òi*       ®‘õ	†|	&j ÙA™*

ppo/policy/approxkl    -ÃÏ<*       ®‘õ	˜|	&j ÙA™*

ppo/policy/policykl    eÊÜ*       ®‘õ	¯|	&j ÙA™*

ppo/policy/clipfrac    ¼‹Õâ1       ƒƒé	Ã|	&j ÙA™*#
!
ppo/policy/advantages_mean    í5Qø'       »á±F	Õ|	&j ÙA™*

ppo/returns/mean×òV@hûyl&       sOã 	ç|	&j ÙA™*

ppo/returns/var    ÎpZ$       B+€M	ø|	&j ÙA™*

ppo/val/vpredKõV@À$       B+€M		}	&j ÙA™*

ppo/val/error‘4Ln¼'       »á±F	M	&j ÙA™*

ppo/val/clipfrac    Ú>Î¾#       °ŸwC	y	&j ÙA™*

ppo/val/mean¿ÿV@o±Ã…"       x=ý		&j ÙA™*

ppo/val/var    2¹„V,       ô®ÌE	?€	&j ÙA™*

ppo/val/var_explained  €ÿ@¯¯!(       ÿpJ	ß€	&j ÙA™*

ppo/learning_rateÀÏ¸:`ÙÛ-,       ô®ÌE	|	&j ÙA™*

time/ppo/forward_pass@0>fä†/       m]P	‚	&j ÙA™*!

time/ppo/compute_rewards  Ú:“«2       $Vì	¹‚	&j ÙA™*$
"
time/ppo/compute_advantages È;;*Oì-       <AŠû	Sƒ	&j ÙA™*

time/ppo/optimize_stepÀWk?Ð¸QÅ*       ®‘õ	êƒ	&j ÙA™*

time/ppo/calc_statsðF#>þ‡z$%       ê¼6ó	€„	&j ÙA™*

time/ppo/total® ?õ¿j§&       sOã 	…	&j ÙA™*

env/reward_mean†@°@0£~%       ê¼6ó	¯…	&j ÙA™*

env/reward_std    f¤F#       °ŸwC	Kõ*j ÙAš*

objective/kl,A°BUp(       ÿpJ	²õ*j ÙAš*

objective/kl_coefž’a>]ïÕ(       ÿpJ	Îõ*j ÙAš*

objective/entropy    ÿ®Ùf0       •õÐ_	âõ*j ÙAš*"
 
ppo/mean_non_score_reward¡À ’›=&       sOã 	óõ*j ÙAš*

ppo/mean_scores    ã2iÔ%       ê¼6ó	ö*j ÙAš*

ppo/std_scores    ž#@Ø.       ÅËWú	2ö*j ÙAš* 

tokens/queries_len_mean  æBN{ñ-       <AŠû	Cö*j ÙAš*

tokens/queries_len_std    ~ÚEº0       •õÐ_	Uö*j ÙAš*"
 
tokens/responses_len_mean  €?ºìuô/       m]P	eö*j ÙAš*!

tokens/responses_len_std    ®½¤&       sOã 	vö*j ÙAš*

ppo/loss/policy    )ilU%       ê¼6ó	¼ø*j ÙAš*

ppo/loss/valueÌxAÈ5üß%       ê¼6ó	yü*j ÙAš*

ppo/loss/total
Ç?ˆñ')       7ÿ_ 	¤ü*j ÙAš*

ppo/policy/entropy    ÝÈô*       ®‘õ	ã *j ÙAš*

ppo/policy/approxkl    Ñ?“*       ®‘õ	*j ÙAš*

ppo/policy/policykl    ‡”*       ®‘õ	4*j ÙAš*

ppo/policy/clipfrac    ”<×1       ƒƒé	a*j ÙAš*#
!
ppo/policy/advantages_mean    lñ'       »á±F	G*j ÙAš*

ppo/returns/mean¡Àf†·&       sOã 	p*j ÙAš*

ppo/returns/var    ­è$       B+€M	‡*j ÙAš*

ppo/val/vpredÌÎc?0ªQ6$       B+€M	š*j ÙAš*

ppo/val/errorm½YA§>¿¥'       »á±F	¬*j ÙAš*

ppo/val/clipfrac  @?ˆ’ž#       °ŸwC	½*j ÙAš*

ppo/val/mean¦ÖV@Ã=} "       x=ý	 *j ÙAš*

ppo/val/var    Ž0Š,       ô®ÌE	K*j ÙAš*

ppo/val/var_explained  €ÿ2ñ®(       ÿpJ	¢*j ÙAš*

ppo/learning_rateÀÏ¸:I8Æu,       ô®ÌE	Ë*j ÙAš*

time/ppo/forward_pass h>|±½;/       m]P	à*j ÙAš*!

time/ppo/compute_rewards ÐÓ:qƒç–2       $Vì	ô*j ÙAš*$
"
time/ppo/compute_advantages @;²›-       <AŠû	*j ÙAš*

time/ppo/optimize_stepdK?¯[5-*       ®‘õ	*j ÙAš*

time/ppo/calc_stats@¶
>j†!.%       ê¼6ó	)*j ÙAš*

time/ppo/total¼¶Š?ë¤pw&       sOã 	_*j ÙAš*

env/reward_mean    ç
¥˜%       ê¼6ó	ˆ*j ÙAš*

env/reward_std    qÛs}#       °ŸwC	Œ˜{+j ÙA›*

objective/kl,AŽçç<(       ÿpJ	÷˜{+j ÙA›*

objective/kl_coef“·a>ƒ\(       ÿpJ	™{+j ÙA›*

objective/entropy    :§0       •õÐ_	/™{+j ÙA›*"
 
ppo/mean_non_score_rewardÞ¹ÀÖâ"Ò&       sOã 	B™{+j ÙA›*

ppo/mean_scores    Nþš~%       ê¼6ó	U™{+j ÙA›*

ppo/std_scores    ^¸9Ö.       ÅËWú	j™{+j ÙA›* 

tokens/queries_len_mean  æB4[	-       <AŠû	~™{+j ÙA›*

tokens/queries_len_std    4Ä’Ê0       •õÐ_	’™{+j ÙA›*"
 
tokens/responses_len_mean  €?äX¢/       m]P	¥™{+j ÙA›*!

tokens/responses_len_std    «J7€&       sOã 	·™{+j ÙA›*

ppo/loss/policy    õ$¼%       ê¼6ó	œ{+j ÙA›*

ppo/loss/valueT§Ï>û¥Í^%       ê¼6ó	$Ÿ{+j ÙA›*

ppo/loss/totalv&=[²11)       7ÿ_ 	TŸ{+j ÙA›*

ppo/policy/entropy   4šiÒæ*       ®‘õ	mŸ{+j ÙA›*

ppo/policy/approxkl    ø ¢*       ®‘õ	i¡{+j ÙA›*

ppo/policy/policykl    ™%*       ®‘õ	˜¡{+j ÙA›*

ppo/policy/clipfrac    °Àô1       ƒƒé	´¡{+j ÙA›*#
!
ppo/policy/advantages_mean    IÕG²'       »á±F	¬£{+j ÙA›*

ppo/returns/meanÞ¹ÀcOf&       sOã 	Û£{+j ÙA›*

ppo/returns/var!„);gæ¦$       B+€M	ò£{+j ÙA›*

ppo/val/vpred`–GÀû¢æ¯$       B+€M	ý¥{+j ÙA›*

ppo/val/errorT§O?ôé´'       »á±F	,¦{+j ÙA›*

ppo/val/clipfrac    œç—ê#       °ŸwC	E¦{+j ÙA›*

ppo/val/meanÕŽÀŠbÚt"       x=ý	‹¨{+j ÙA›*

ppo/val/var    Nãš,       ô®ÌE	¸¨{+j ÙA›*

ppo/val/var_explained*IÕ¶­—Š(       ÿpJ	Ð¨{+j ÙA›*

ppo/learning_rateÀÏ¸:Í-3r,       ô®ÌE	ä¨{+j ÙA›*

time/ppo/forward_passÀP!>‰Jw/       m]P	”©{+j ÙA›*!

time/ppo/compute_rewards 0Ö:¨nþò2       $Vì	6ª{+j ÙA›*$
"
time/ppo/compute_advantages ¸;BÄZÈ-       <AŠû	Õª{+j ÙA›*

time/ppo/optimize_step<W?ÿàš3*       ®‘õ	r«{+j ÙA›*

time/ppo/calc_stats@b>PX%       ê¼6ó	¬{+j ÙA›*

time/ppo/total“?ŸòÃ±&       sOã 	°¬{+j ÙA›*

env/reward_mean    R¦l<%       ê¼6ó	L­{+j ÙA›*

env/reward_std    ?Ù#       °ŸwC	éyð,j ÙAœ*

objective/kl,A³"'„(       ÿpJ	ezð,j ÙAœ*

objective/kl_coefŽÜa>øŠp(       ÿpJ	ƒzð,j ÙAœ*

objective/entropyþÿ_4»|0       •õÐ_	ýzð,j ÙAœ*"
 
ppo/mean_non_score_reward»ÒÀœJ§&       sOã 	{ð,j ÙAœ*

ppo/mean_scores    €‘íb%       ê¼6ó	&{ð,j ÙAœ*

ppo/std_scores    U¼ðß.       ÅËWú	9{ð,j ÙAœ* 

tokens/queries_len_mean  æBåò¨-       <AŠû	K{ð,j ÙAœ*

tokens/queries_len_std    b•O£0       •õÐ_	_{ð,j ÙAœ*"
 
tokens/responses_len_mean  €?pä²-/       m]P	p{ð,j ÙAœ*!

tokens/responses_len_std    =¾&       sOã 	‚{ð,j ÙAœ*

ppo/loss/policy    “Ñ2%       ê¼6ó	¨}ð,j ÙAœ*

ppo/loss/valueæ>uˆŸ7%       ê¼6ó	5ƒð,j ÙAœ*

ppo/loss/totalp™U<ÅšÀ˜)       7ÿ_ 	fƒð,j ÙAœ*

ppo/policy/entropy  ç7/îÌ*       ®‘õ	~ƒð,j ÙAœ*

ppo/policy/approxklÞË¬+LG»±*       ®‘õ	“ƒð,j ÙAœ*

ppo/policy/policyklóÿ”5Íô®Ó*       ®‘õ	¥ƒð,j ÙAœ*

ppo/policy/clipfrac    RÂ¸o1       ƒƒé	¸ƒð,j ÙAœ*#
!
ppo/policy/advantages_mean    É-¡U'       »á±F	Ðƒð,j ÙAœ*

ppo/returns/mean»ÒÀ©Pïn&       sOã 	ãƒð,j ÙAœ*

ppo/returns/var    HÁ@r$       B+€M	3‰ð,j ÙAœ*

ppo/val/vpredÜÍÀÆúRe$       B+€M	_‰ð,j ÙAœ*

ppo/val/error¢Ía>ƒO:ì'       »á±F	v‰ð,j ÙAœ*

ppo/val/clipfrac   ?qÚFˆ#       °ŸwC	‰‰ð,j ÙAœ*

ppo/val/meanëÚ<ÀC±¤"       x=ý	š‰ð,j ÙAœ*

ppo/val/var    Üˆ,       ô®ÌE	tŒð,j ÙAœ*

ppo/val/var_explained  €ÿþ¡ä(       ÿpJ	Vð,j ÙAœ*

ppo/learning_rateÀÏ¸:V›¤*,       ô®ÌE	Žð,j ÙAœ*

time/ppo/forward_passà‚>‘Ÿ<T/       m]P	®Žð,j ÙAœ*!

time/ppo/compute_rewards Ó:9ùN¸2       $Vì	Kð,j ÙAœ*$
"
time/ppo/compute_advantages h;>ã¥´-       <AŠû	æð,j ÙAœ*

time/ppo/optimize_stepH*L?½xË©*       ®‘õ	}ð,j ÙAœ*

time/ppo/calc_statsðF>®“žÍ%       ê¼6ó	‘ð,j ÙAœ*

time/ppo/total¼QŒ?åªd&       sOã 	®‘ð,j ÙAœ*

env/reward_mean    ?¡P%       ê¼6ó	C’ð,j ÙAœ*

env/reward_std    Æ¼Ø#       °ŸwC	Àb.j ÙA*

objective/kl ,A77êý(       ÿpJ	€Àb.j ÙA*

objective/kl_coefb>uô+'(       ÿpJ	žÀb.j ÙA*

objective/entropyèÿ6—„ä¹0       •õÐ_	´Àb.j ÙA*"
 
ppo/mean_non_score_reward–ëÀ‚U(­&       sOã 	ÆÀb.j ÙA*

ppo/mean_scores    †Üƒ%       ê¼6ó	ØÀb.j ÙA*

ppo/std_scores    NÙEý.       ÅËWú	éÀb.j ÙA* 

tokens/queries_len_mean  æBA(«-       <AŠû	ûÀb.j ÙA*

tokens/queries_len_std    åü¬60       •õÐ_	Áb.j ÙA*"
 
tokens/responses_len_mean  €? Ê/       m]P	Áb.j ÙA*!

tokens/responses_len_std    p‘Î?&       sOã 	0Áb.j ÙA*

ppo/loss/policy    1æ9>%       ê¼6ó	pÂb.j ÙA*

ppo/loss/value†,>Vj%       ê¼6ó	7Êb.j ÙA*

ppo/loss/total²‰<Ú®ãt)       7ÿ_ 	eÊb.j ÙA*

ppo/policy/entropy °09!Òd*       ®‘õ	Êb.j ÙA*

ppo/policy/approxklê—y-LÜž9*       ®‘õ	’Êb.j ÙA*

ppo/policy/policyklµ?6nyÒ*       ®‘õ	¦Êb.j ÙA*

ppo/policy/clipfrac    ;ª[1       ƒƒé	¹Êb.j ÙA*#
!
ppo/policy/advantages_mean    `†§B'       »á±F	ËÊb.j ÙA*

ppo/returns/mean–ëÀÏ93ñ&       sOã 	ÝÊb.j ÙA*

ppo/returns/var    ì„$       B+€M	ïÊb.j ÙA*

ppo/val/vpredÆìï¿%–	$       B+€M	 Ëb.j ÙA*

ppo/val/error,ªŒ>*á£'       »á±F	xÌb.j ÙA*

ppo/val/clipfrac   ?D*w#       °ŸwC	•Íb.j ÙA*

ppo/val/meanÖ¿ûšÈ"       x=ý	GÎb.j ÙA*

ppo/val/var!„(r^ì¸,       ô®ÌE	îÎb.j ÙA*

ppo/val/var_explained  €ÿD+~Ò(       ÿpJ	Ïb.j ÙA*

ppo/learning_rateÀÏ¸:6?,       ô®ÌE	.Ðb.j ÙA*

time/ppo/forward_pass`Š%>€úß$/       m]P	ÐÐb.j ÙA*!

time/ppo/compute_rewards Hî:Ø”›x2       $Vì	nÑb.j ÙA*$
"
time/ppo/compute_advantages x8;ê¢÷Í-       <AŠû	Òb.j ÙA*

time/ppo/optimize_step˜ŒV?g¤H*       ®‘õ	¥Òb.j ÙA*

time/ppo/calc_stats0>9ba%       ê¼6ó	@Ób.j ÙA*

time/ppo/total.’?©8M&       sOã 	ÚÓb.j ÙA*

env/reward_mean    ÄIÞC%       ê¼6ó	rÔb.j ÙA*

env/reward_std    ªœƒ¹#       °ŸwC	¹’×/j ÙAž*

objective/kló,A%“S?(       ÿpJ	/“×/j ÙAž*

objective/kl_coef—&b>Ÿ†¶.(       ÿpJ	M“×/j ÙAž*

objective/entropy°?7æêOk0       •õÐ_	c“×/j ÙAž*"
 
ppo/mean_non_score_rewardoÀÈRöI&       sOã 	v“×/j ÙAž*

ppo/mean_scores    Pò[)%       ê¼6ó	†“×/j ÙAž*

ppo/std_scores    d*Kï.       ÅËWú	˜“×/j ÙAž* 

tokens/queries_len_mean  æB•z<Ö-       <AŠû	ª“×/j ÙAž*

tokens/queries_len_std    YcKQ0       •õÐ_	»“×/j ÙAž*"
 
tokens/responses_len_mean  €?¬Nšx/       m]P	Î“×/j ÙAž*!

tokens/responses_len_std    ·ÿ&       sOã 	à“×/j ÙAž*

ppo/loss/policy    Eû1%       ê¼6ó	L˜×/j ÙAž*

ppo/loss/value (Þ;}q%       ê¼6ó	z˜×/j ÙAž*

ppo/loss/total´¹1:¿GÛ{)       7ÿ_ 	“˜×/j ÙAž*

ppo/policy/entropy XÎ9«{Ð”*       ®‘õ	¥˜×/j ÙAž*

ppo/policy/approxklEñž-Xû*       ®‘õ	·˜×/j ÙAž*

ppo/policy/policykl#?¡6[µÒÏ*       ®‘õ	&š×/j ÙAž*

ppo/policy/clipfrac    R’Ÿ1       ƒƒé	íš×/j ÙAž*#
!
ppo/policy/advantages_mean    ƒ›ùa'       »á±F	ž›×/j ÙAž*

ppo/returns/meanoÀ{-]è&       sOã 	Hœ×/j ÙAž*

ppo/returns/var    b? Ñ$       B+€M	îœ×/j ÙAž*

ppo/val/vpredÇÀóVÈÎ$       B+€M	‹×/j ÙAž*

ppo/val/error (^<ýo'       »á±F	(ž×/j ÙAž*

ppo/val/clipfrac    ¬ŽÀ#       °ŸwC	Ãž×/j ÙAž*

ppo/val/meaneYÀíýÛ–"       x=ý	`Ÿ×/j ÙAž*

ppo/val/var    Uj·„,       ô®ÌE	ýŸ×/j ÙAž*

ppo/val/var_explained  €ÿ¼@%(       ÿpJ	š ×/j ÙAž*

ppo/learning_rateÀÏ¸:”¶ÁO,       ô®ÌE	6¡×/j ÙAž*

time/ppo/forward_pass Ê>:Ùó/       m]P	Ø¡×/j ÙAž*!

time/ppo/compute_rewards  Ú:&ÛÎ@2       $Vì	q¢×/j ÙAž*$
"
time/ppo/compute_advantages ; \#ÿ-       <AŠû	
£×/j ÙAž*

time/ppo/optimize_step”gV?#W*       ®‘õ	 £×/j ÙAž*

time/ppo/calc_stats`%>¦ÿZl%       ê¼6ó	5¤×/j ÙAž*

time/ppo/totalÌ•‘?h€¹&       sOã 	Î¤×/j ÙAž*

env/reward_mean    ˆ5ec%       ê¼6ó	d¥×/j ÙAž*

env/reward_std    ö÷Ø#       °ŸwC	Ùe]1j ÙAŸ*

objective/klä,AqŒöm(       ÿpJ	Lf]1j ÙAŸ*

objective/kl_coef¤Kb>®0	(       ÿpJ	jf]1j ÙAŸ*

objective/entropy|8yÕûb0       •õÐ_	f]1j ÙAŸ*"
 
ppo/mean_non_score_rewardJÀš§o1&       sOã 	”f]1j ÙAŸ*

ppo/mean_scores    ykùï%       ê¼6ó	¤f]1j ÙAŸ*

ppo/std_scores    ±:…/.       ÅËWú	¶f]1j ÙAŸ* 

tokens/queries_len_mean  æBá
~-       <AŠû	Çf]1j ÙAŸ*

tokens/queries_len_std    Ì¹V»0       •õÐ_	Úf]1j ÙAŸ*"
 
tokens/responses_len_mean  €?þMÏÒ/       m]P	ëf]1j ÙAŸ*!

tokens/responses_len_std    óŠŽ{&       sOã 	ýf]1j ÙAŸ*

ppo/loss/policy  d®Šø%       ê¼6ó	Ah]1j ÙAŸ*

ppo/loss/value`:<1-l%       ê¼6ó	k]1j ÙAŸ*

ppo/loss/total2*å:é4Ç)       7ÿ_ 	/k]1j ÙAŸ*

ppo/policy/entropy ”6:3Tþ\*       ®‘õ	Hk]1j ÙAŸ*

ppo/policy/approxklBç–.¾¨(Å*       ®‘õ	²m]1j ÙAŸ*

ppo/policy/policykl}>7­pAá*       ®‘õ	âm]1j ÙAŸ*

ppo/policy/clipfrac    è¾z•1       ƒƒé	üm]1j ÙAŸ*#
!
ppo/policy/advantages_mean  @,úˆ…'       »á±F	n]1j ÙAŸ*

ppo/returns/meanJÀO÷¦™&       sOã 	×n]1j ÙAŸ*

ppo/returns/varŒ1Æ(ÆÛ³v$       B+€M	‰o]1j ÙAŸ*

ppo/val/vpredÌ
$ÀWíÜ¸$       B+€M	&p]1j ÙAŸ*

ppo/val/error`:=¸ñ¨l'       »á±F	Àp]1j ÙAŸ*

ppo/val/clipfrac    „¬KÁ#       °ŸwC	Wq]1j ÙAŸ*

ppo/val/mean‰…#À·E "       x=ý	ñq]1j ÙAŸ*

ppo/val/var    ÂºLœ,       ô®ÌE	¶r]1j ÙAŸ*

ppo/val/var_explained¼ ¹ÓI%rß(       ÿpJ	Rs]1j ÙAŸ*

ppo/learning_rateÀÏ¸:)Â›è,       ô®ÌE	ês]1j ÙAŸ*

time/ppo/forward_passÀn>2Æú/       m]P	‡t]1j ÙAŸ*!

time/ppo/compute_rewards õ:_Ã<"2       $Vì	u]1j ÙAŸ*$
"
time/ppo/compute_advantages €;´I-       <AŠû	´u]1j ÙAŸ*

time/ppo/optimize_step(eN?¡ÎÃü*       ®‘õ	Iv]1j ÙAŸ*

time/ppo/calc_statsPø>2c^„%       ê¼6ó	Üv]1j ÙAŸ*

time/ppo/totalp.?çÁ&[&       sOã 	tw]1j ÙAŸ*

env/reward_mean    òô@J%       ê¼6ó	x]1j ÙAŸ*

env/reward_std    Y¼Ç#       °ŸwC	 Ï2j ÙA *

objective/klÅ,AÀ­èä(       ÿpJ	“Ï2j ÙA *

objective/kl_coef¸pb>ýôà.(       ÿpJ	±Ï2j ÙA *

objective/entropy~8*E ±0       •õÐ_	ÆÏ2j ÙA *"
 
ppo/mean_non_score_reward6Ài}&       sOã 	ÝÏ2j ÙA *

ppo/mean_scores    vYñ%       ê¼6ó	ðÏ2j ÙA *

ppo/std_scores    ‰¾6a.       ÅËWú	Ï2j ÙA * 

tokens/queries_len_mean  æBý˜a-       <AŠû	Ï2j ÙA *

tokens/queries_len_std    -Ï0       •õÐ_	)Ï2j ÙA *"
 
tokens/responses_len_mean  €?BÏ /       m]P	<Ï2j ÙA *!

tokens/responses_len_std    –ì”&       sOã 	OÏ2j ÙA *

ppo/loss/policy    ß’	\%       ê¼6ó	yÏ2j ÙA *

ppo/loss/valueæ;ûáŸì%       ê¼6ó	Ï2j ÙA *

ppo/loss/totalpÙ|9¿°æ)       7ÿ_ 	ËÏ2j ÙA *

ppo/policy/entropy k°:+ýh¸*       ®‘õ	åÏ2j ÙA *

ppo/policy/approxklss¡/W%ÉR*       ®‘õ	áÏ2j ÙA *

ppo/policy/policyklÜì 7×O«5*       ®‘õ	Ï2j ÙA *

ppo/policy/clipfrac    ¯}C01       ƒƒé	,Ï2j ÙA *#
!
ppo/policy/advantages_mean    ;Ü«-'       »á±F	ÜÏ2j ÙA *

ppo/returns/mean6À—8‡&       sOã 	Ï2j ÙA *

ppo/returns/var    6‰£@$       B+€M	7Ï2j ÙA *

ppo/val/vpredÃÀŽNMP$       B+€M	ÚÏ2j ÙA *

ppo/val/erroræž;tº•"'       »á±F	zÏ2j ÙA *

ppo/val/clipfrac     ËÃC#       °ŸwC	 Ï2j ÙA *

ppo/val/meanpÀ<ÿçG"       x=ý	¿ Ï2j ÙA *

ppo/val/var    £;¯Â,       ô®ÌE	d!Ï2j ÙA *

ppo/val/var_explained  €ÿÂ¤©Á(       ÿpJ	"Ï2j ÙA *

ppo/learning_rateÀÏ¸:tcšZ,       ô®ÌE	O#Ï2j ÙA *

time/ppo/forward_passP©>žâÆ/       m]P	A$Ï2j ÙA *!

time/ppo/compute_rewards ÐÏ:Ü7NY2       $Vì	Á$Ï2j ÙA *$
"
time/ppo/compute_advantages 8;§²eÅ-       <AŠû	3%Ï2j ÙA *

time/ppo/optimize_step4RV?s0¯T*       ®‘õ	•%Ï2j ÙA *

time/ppo/calc_stats°$>Óí7á%       ê¼6ó	õ%Ï2j ÙA *

time/ppo/total¼D’?õzòÖ&       sOã 	S&Ï2j ÙA *

env/reward_mean    ï_|—%       ê¼6ó	±&Ï2j ÙA *

env/reward_std    ¡aUí#       °ŸwC	F…L4j ÙA¡*

objective/klŽ,A]”’¡(       ÿpJ	¬…L4j ÙA¡*

objective/kl_coefÑ•b>'“O(       ÿpJ	Ç…L4j ÙA¡*

objective/entropy†¬î87ðoj0       •õÐ_	Þ…L4j ÙA¡*"
 
ppo/mean_non_score_rewardÚNÀom,¬&       sOã 	ó…L4j ÙA¡*

ppo/mean_scores    2J/%       ê¼6ó		†L4j ÙA¡*

ppo/std_scores    &»P?.       ÅËWú	†L4j ÙA¡* 

tokens/queries_len_mean  æBzMøé-       <AŠû	-†L4j ÙA¡*

tokens/queries_len_std    ÞW Ø0       •õÐ_	@†L4j ÙA¡*"
 
tokens/responses_len_mean  €?„ý)/       m]P	R†L4j ÙA¡*!

tokens/responses_len_std    ö
 &       sOã 	d†L4j ÙA¡*

ppo/loss/policy    	” %       ê¼6ó	wˆL4j ÙA¡*

ppo/loss/value-¯í;“}Ú%       ê¼6ó	¢ˆL4j ÙA¡*

ppo/loss/total¾%>:ÌÇÐÄ)       7ÿ_ 	6ŠL4j ÙA¡*

ppo/policy/entropy€ƒ	;ÇÄÑ2*       ®‘õ	aŠL4j ÙA¡*

ppo/policy/approxklž¸/ðÛõ-*       ®‘õ	yŠL4j ÙA¡*

ppo/policy/policykl¾¸e7,Í*       ®‘õ	ŒŠL4j ÙA¡*

ppo/policy/clipfrac    À?ì1       ƒƒé	 ŠL4j ÙA¡*#
!
ppo/policy/advantages_mean    Yz°'       »á±F	´ŠL4j ÙA¡*

ppo/returns/meanÚNÀ÷¡&       sOã 	X‹L4j ÙA¡*

ppo/returns/var    îªŠ$       B+€M	j‹L4j ÙA¡*

ppo/val/vpredÊ¡Àª¯é§$       B+€M	¾‹L4j ÙA¡*

ppo/val/error-¯m<·íL]'       »á±F	BŒL4j ÙA¡*

ppo/val/clipfrac    ãfw¦#       °ŸwC	SŒL4j ÙA¡*

ppo/val/mean“ÈÀŸ«ù"       x=ý	¦ŒL4j ÙA¡*

ppo/val/var    6öÁ,       ô®ÌE	úŒL4j ÙA¡*

ppo/val/var_explained  €ÿá;¼Ý(       ÿpJ	ML4j ÙA¡*

ppo/learning_rateÀÏ¸:˜Qã,       ô®ÌE	¿L4j ÙA¡*

time/ppo/forward_pass°¶>˜ˆV/       m]P	ŽL4j ÙA¡*!

time/ppo/compute_rewards PÍ:‡ˆœ2       $Vì	lŽL4j ÙA¡*$
"
time/ppo/compute_advantages T4;œí&-       <AŠû	¾ŽL4j ÙA¡*

time/ppo/optimize_step8·N?)‹*       ®‘õ	L4j ÙA¡*

time/ppo/calc_statsà>jùx_%       ê¼6ó	`L4j ÙA¡*

time/ppo/totalB#?I2á&       sOã 	±L4j ÙA¡*

env/reward_mean    Î
Ã%       ê¼6ó	L4j ÙA¡*

env/reward_std    þÑŸŒ#       °ŸwC	3É5j ÙA¢*

objective/klr,A"ðÁ…(       ÿpJ	›É5j ÙA¢*

objective/kl_coefñºb>,s…(       ÿpJ	·É5j ÙA¢*

objective/entropybm9¤:lý0       •õÐ_	ÏÉ5j ÙA¢*"
 
ppo/mean_non_score_reward¶gÀÔ·ê&       sOã 	ãÉ5j ÙA¢*

ppo/mean_scores    ¤$T›%       ê¼6ó	ùÉ5j ÙA¢*

ppo/std_scores    —ÆL.       ÅËWú	É5j ÙA¢* 

tokens/queries_len_mean  æBÑ×÷e-       <AŠû	$É5j ÙA¢*

tokens/queries_len_std    ªÌ´0       •õÐ_	7É5j ÙA¢*"
 
tokens/responses_len_mean  €?k·þG/       m]P	JÉ5j ÙA¢*!

tokens/responses_len_std    T 8¤&       sOã 	^É5j ÙA¢*

ppo/loss/policy  ˜¯-Œy%       ê¼6ó	8	É5j ÙA¢*

ppo/loss/valueüpø:V4}n%       ê¼6ó	(
É5j ÙA¢*

ppo/loss/total·ÀF9¶Ô)       7ÿ_ 	
É5j ÙA¢*

ppo/policy/entropy€P;PŠwÙ*       ®‘õ	ó
É5j ÙA¢*

ppo/policy/approxkl_ê³,(á€Â*       ®‘õ	IÉ5j ÙA¢*

ppo/policy/policykl€ú¶éèO*       ®‘õ	žÉ5j ÙA¢*

ppo/policy/clipfrac    	Ú–1       ƒƒé	óÉ5j ÙA¢*#
!
ppo/policy/advantages_mean    Þ '       »á±F	RÉ5j ÙA¢*

ppo/returns/mean¶gÀB’ü&       sOã 	­É5j ÙA¢*

ppo/returns/var!)!ÒÑ$       B+€M		É5j ÙA¢*

ppo/val/vpred8pÀ|í‘$       B+€M	¹É5j ÙA¢*

ppo/val/errorüpx;Þ0fÄ'       »á±F	É5j ÙA¢*

ppo/val/clipfrac    9I—û#       °ŸwC	iÉ5j ÙA¢*

ppo/val/mean~ÀµVÁõ"       x=ý	ÁÉ5j ÙA¢*

ppo/val/var!„)·;h,       ô®ÌE	É5j ÙA¢*

ppo/val/var_explainedu­ðÑ²ñÛ}(       ÿpJ	nÉ5j ÙA¢*

ppo/learning_rateÀÏ¸:©äî,       ô®ÌE	ÄÉ5j ÙA¢*

time/ppo/forward_passP- >¸v/³/       m]P	 É5j ÙA¢*!

time/ppo/compute_rewards Ú:ª”A2       $Vì	tÉ5j ÙA¢*$
"
time/ppo/compute_advantages Ì;ÎÎïy-       <AŠû	ÈÉ5j ÙA¢*

time/ppo/optimize_stepl4O?ÈâN*       ®‘õ	É5j ÙA¢*

time/ppo/calc_stats€Z>Fÿå%       ê¼6ó	rÉ5j ÙA¢*

time/ppo/totald2Ž?üˆù&       sOã 	ÇÉ5j ÙA¢*

env/reward_mean    ©3¨­%       ê¼6ó	!É5j ÙA¢*

env/reward_std    7…#       °ŸwC	@DF7j ÙA£*

objective/klz,A:9(       ÿpJ	ËDF7j ÙA£*

objective/kl_coefàb>*;—(       ÿpJ	ôDF7j ÙA£*

objective/entropy¨•
9;7ÝŒ0       •õÐ_	EF7j ÙA£*"
 
ppo/mean_non_score_reward¶€ÀÅa9£&       sOã 	5EF7j ÙA£*

ppo/mean_scores    Š­øÔ%       ê¼6ó	REF7j ÙA£*

ppo/std_scores    Eþ´™.       ÅËWú	nEF7j ÙA£* 

tokens/queries_len_mean  æB–å%+-       <AŠû	ŒEF7j ÙA£*

tokens/queries_len_std    ZLGó0       •õÐ_	ªEF7j ÙA£*"
 
tokens/responses_len_mean  €?wÙcq/       m]P	ÇEF7j ÙA£*!

tokens/responses_len_std    ÁD}«&       sOã 	äEF7j ÙA£*

ppo/loss/policy  2¯ûÿ½å%       ê¼6ó	dGF7j ÙA£*

ppo/loss/valuea;yÔ,%       ê¼6ó	IF7j ÙA£*

ppo/loss/total¨5r9‘Õ£¼)       7ÿ_ 	ÆIF7j ÙA£*

ppo/policy/entropy À;“Î°*       ®‘õ	SJF7j ÙA£*

ppo/policy/approxkl	Ž+ñvNV*       ®‘õ	ÙJF7j ÙA£*

ppo/policy/policykl ð2wRÑ¬*       ®‘õ	XKF7j ÙA£*

ppo/policy/clipfrac    ´ü1       ƒƒé	ãKF7j ÙA£*#
!
ppo/policy/advantages_mean    Q@U˜'       »á±F	fLF7j ÙA£*

ppo/returns/mean¶€Àÿž)t&       sOã 	ËLF7j ÙA£*

ppo/returns/var!)ŽÊÔ$       B+€M	PMF7j ÙA£*

ppo/val/vpredÈ¹À÷bãû$       B+€M	³MF7j ÙA£*

ppo/val/errora—;›{F'       »á±F	.NF7j ÙA£*

ppo/val/clipfrac    Ê¢#       °ŸwC	½NF7j ÙA£*

ppo/val/mean»Àþí³"       x=ý	ZOF7j ÙA£*

ppo/val/var    +L#ñ,       ô®ÌE	PF7j ÙA£*

ppo/val/var_explained„¦Ò/ÿ³n(       ÿpJ	#PF7j ÙA£*

ppo/learning_rateÀÏ¸: {{,       ô®ÌE	ˆPF7j ÙA£*

time/ppo/forward_pass€®>„Ê0/       m]P	éPF7j ÙA£*!

time/ppo/compute_rewards °Ô:˜üI2       $Vì	gQF7j ÙA£*$
"
time/ppo/compute_advantages T;@5-       <AŠû	éQF7j ÙA£*

time/ppo/optimize_step8
V?5B¡*       ®‘õ	CRF7j ÙA£*

time/ppo/calc_statsà#>ç=Ù%       ê¼6ó	ŸRF7j ÙA£*

time/ppo/total6#’?ÇFô•&       sOã 	ûRF7j ÙA£*

env/reward_mean    ë®ãZ%       ê¼6ó	^SF7j ÙA£*

env/reward_std    *`uU#       °ŸwC	Å>¥8j ÙA¤*

objective/klu,AÚf(       ÿpJ	,?¥8j ÙA¤*

objective/kl_coefCc>ñ"J(       ÿpJ	G?¥8j ÙA¤*

objective/entropyw-9t‹(}0       •õÐ_	[?¥8j ÙA¤*"
 
ppo/mean_non_score_reward­™ÀÓóæu&       sOã 	m?¥8j ÙA¤*

ppo/mean_scores    ƒ¶Pr%       ê¼6ó	}?¥8j ÙA¤*

ppo/std_scores    ž$.       ÅËWú	?¥8j ÙA¤* 

tokens/queries_len_mean  æBèPYi-       <AŠû	Ÿ?¥8j ÙA¤*

tokens/queries_len_std    áÈ¥0       •õÐ_	±?¥8j ÙA¤*"
 
tokens/responses_len_mean  €?¯ k{/       m]P	Â?¥8j ÙA¤*!

tokens/responses_len_std    	KH‹&       sOã 	Ó?¥8j ÙA¤*

ppo/loss/policy    Ôû¦%       ê¼6ó	øA¥8j ÙA¤*

ppo/loss/valueè5 :Ã½%       ê¼6ó	´C¥8j ÙA¤*

ppo/loss/total+ 9‹¾5Ö)       7ÿ_ 	ÞC¥8j ÙA¤*

ppo/policy/entropy€N;¡b
Þ*       ®‘õ	õC¥8j ÙA¤*

ppo/policy/approxklZ.Öê4…*       ®‘õ	D¥8j ÙA¤*

ppo/policy/policyklw7aW*       ®‘õ	D¥8j ÙA¤*

ppo/policy/clipfrac    5{JÇ1       ƒƒé	F¥8j ÙA¤*#
!
ppo/policy/advantages_mean    1EìÉ'       »á±F	DF¥8j ÙA¤*

ppo/returns/mean­™À>lKÀ&       sOã 	[F¥8j ÙA¤*

ppo/returns/var    € g­$       B+€M	lF¥8j ÙA¤*

ppo/val/vpred–kÀ)‚a$       B+€M	|F¥8j ÙA¤*

ppo/val/errorè5 ;µ>¶î'       »á±F	F¥8j ÙA¤*

ppo/val/clipfrac    ½G?#       °ŸwC	F¥8j ÙA¤*

ppo/val/meanÀ6À_t«"       x=ý	­F¥8j ÙA¤*

ppo/val/var    ¿",       ô®ÌE	½F¥8j ÙA¤*

ppo/val/var_explained  €ÿkê·Q(       ÿpJ	!G¥8j ÙA¤*

ppo/learning_rateÀÏ¸::÷NK,       ô®ÌE	wG¥8j ÙA¤*

time/ppo/forward_pass >/åÁB/       m]P	ÒG¥8j ÙA¤*!

time/ppo/compute_rewards ØÕ:ÍRÅÇ2       $Vì	aH¥8j ÙA¤*$
"
time/ppo/compute_advantages l$;>èþ›-       <AŠû	ºH¥8j ÙA¤*

time/ppo/optimize_stepBO?ôe¤¥*       ®‘õ	I¥8j ÙA¤*

time/ppo/calc_stats f>|Ö+%       ê¼6ó	aI¥8j ÙA¤*

time/ppo/total(˜?ÑÐK&       sOã 	¸I¥8j ÙA¤*

env/reward_mean    ¥®à%       ê¼6ó	J¥8j ÙA¤*

env/reward_std    Ö•V#       °ŸwC	ø:j ÙA¥*

objective/klZ,A“)3(       ÿpJ	ø:j ÙA¥*

objective/kl_coeft*c>pD(       ÿpJ	¬ø:j ÙA¥*

objective/entropyn+9jìžØ0       •õÐ_	Âø:j ÙA¥*"
 
ppo/mean_non_score_reward•²À!ÁÞ&       sOã 	Öø:j ÙA¥*

ppo/mean_scores    í¸7r%       ê¼6ó	éø:j ÙA¥*

ppo/std_scores    i*.       ÅËWú	ýø:j ÙA¥* 

tokens/queries_len_mean  æBÃr-       <AŠû	ù:j ÙA¥*

tokens/queries_len_std    3é-Ä0       •õÐ_	 ù:j ÙA¥*"
 
tokens/responses_len_mean  €?áD>€/       m]P	0ù:j ÙA¥*!

tokens/responses_len_std    ¼M¾v&       sOã 	Cù:j ÙA¥*

ppo/loss/policy    ö 7%       ê¼6ó	ºû:j ÙA¥*

ppo/loss/valueC*:$\
 %       ê¼6ó	­ÿ:j ÙA¥*

ppo/loss/total¦5ˆ8ë¦i)       7ÿ_ 	íÿ:j ÙA¥*

ppo/policy/entropy€›5;2Àwa*       ®‘õ	 :j ÙA¥*

ppo/policy/approxkl(µM.cn…*       ®‘õ	2 :j ÙA¥*

ppo/policy/policykl8š7däÀ*       ®‘õ	P :j ÙA¥*

ppo/policy/clipfrac    îô=µ1       ƒƒé	Þ :j ÙA¥*#
!
ppo/policy/advantages_mean    @h‘Å'       »á±F	G:j ÙA¥*

ppo/returns/mean•²ÀtÕX;&       sOã 	§:j ÙA¥*

ppo/returns/var    jŒR‹$       B+€M	:j ÙA¥*

ppo/val/vpred¿•Àd­;P$       B+€M	a:j ÙA¥*

ppo/val/errorCª:Â8S'       »á±F	·:j ÙA¥*

ppo/val/clipfrac    áÝ‘½#       °ŸwC	:j ÙA¥*

ppo/val/mean–üÀÿ ŸÕ"       x=ý	m:j ÙA¥*

ppo/val/var    ~÷j^,       ô®ÌE	Æ:j ÙA¥*

ppo/val/var_explained  €ÿ°j6(       ÿpJ	:j ÙA¥*

ppo/learning_rateÀÏ¸:##¾,       ô®ÌE	y:j ÙA¥*

time/ppo/forward_pass`# >l_½/       m]P	×:j ÙA¥*!

time/ppo/compute_rewards Ò:ÊGd2       $Vì	/:j ÙA¥*$
"
time/ppo/compute_advantages ¤);[o­-       <AŠû	¥:j ÙA¥*

time/ppo/optimize_step¨\W?ŠíÊ‚*       ®‘õ	ü:j ÙA¥*

time/ppo/calc_stats j>ƒ9"%       ê¼6ó	Q:j ÙA¥*

time/ppo/totalö“?ÈWÀ6&       sOã 	·:j ÙA¥*

env/reward_mean    ¯žÉ%       ê¼6ó	#:j ÙA¥*

env/reward_std    …òu›#       °ŸwC	”“;j ÙA¦*

objective/klJ,A­ÅÊ|(       ÿpJ	~”“;j ÙA¦*

objective/kl_coef¬Oc>ÞÓ[(       ÿpJ	›”“;j ÙA¦*

objective/entropy²Ã;9^¼ŸN0       •õÐ_	±”“;j ÙA¦*"
 
ppo/mean_non_score_reward‹ËÀ^Ú±	&       sOã 	È”“;j ÙA¦*

ppo/mean_scores    xÐ‹%       ê¼6ó	Û”“;j ÙA¦*

ppo/std_scores    áæå~.       ÅËWú	ð”“;j ÙA¦* 

tokens/queries_len_mean  æB4–ò-       <AŠû	•“;j ÙA¦*

tokens/queries_len_std    _v#40       •õÐ_	•“;j ÙA¦*"
 
tokens/responses_len_mean  €?.ÿ²e/       m]P	+•“;j ÙA¦*!

tokens/responses_len_std    ñ³º&       sOã 	>•“;j ÙA¦*

ppo/loss/policy    ­pî4%       ê¼6ó	=–“;j ÙA¦*

ppo/loss/value*WI:ÞC½”%       ê¼6ó	-—“;j ÙA¦*

ppo/loss/totalˆ¡8×ì%)       7ÿ_ 	——“;j ÙA¦*

ppo/policy/entropy 	<;\hß[*       ®‘õ	û—“;j ÙA¦*

ppo/policy/approxklÃ.?,qÙ¥L*       ®‘õ	X˜“;j ÙA¦*

ppo/policy/policykl@öØµïKýÐ*       ®‘õ	²˜“;j ÙA¦*

ppo/policy/clipfrac    7Óo1       ƒƒé	™“;j ÙA¦*#
!
ppo/policy/advantages_mean    çýJ1'       »á±F	n™“;j ÙA¦*

ppo/returns/mean‹ËÀáŽ"ƒ&       sOã 	Î™“;j ÙA¦*

ppo/returns/var    bY$       B+€M	(š“;j ÙA¦*

ppo/val/vpred eÀ‡a$       B+€M	š“;j ÙA¦*

ppo/val/error*WÉ:!Éûm'       »á±F	Úš“;j ÙA¦*

ppo/val/clipfrac    cÜ°7#       °ŸwC	.›“;j ÙA¦*

ppo/val/meanÂÀ¤Š9ô"       x=ý	Œ›“;j ÙA¦*

ppo/val/var    ±;ð:,       ô®ÌE	æ›“;j ÙA¦*

ppo/val/var_explained  €ÿuÙ1_(       ÿpJ	>œ“;j ÙA¦*

ppo/learning_rateÀÏ¸:Ê¤Ò,       ô®ÌE	–œ“;j ÙA¦*

time/ppo/forward_passO>–Ë/       m]P	óœ“;j ÙA¦*!

time/ppo/compute_rewards èÐ:]¬À$2       $Vì	c“;j ÙA¦*$
"
time/ppo/compute_advantages H;=­:I-       <AŠû	¾“;j ÙA¦*

time/ppo/optimize_stepLN?C)×*       ®‘õ	ž“;j ÙA¦*

time/ppo/calc_statsàr>6³%       ê¼6ó	jž“;j ÙA¦*

time/ppo/totaløúŒ?–ýâ&       sOã 	Äž“;j ÙA¦*

env/reward_mean    Oµ%       ê¼6ó	Ÿ“;j ÙA¦*

env/reward_std    fGD#       °ŸwC	ž=j ÙA§*

objective/klQ,A§!ò(       ÿpJ	nž=j ÙA§*

objective/kl_coefëtc>dðã(       ÿpJ	‰ž=j ÙA§*

objective/entropyD49F#¨0       •õÐ_	žž=j ÙA§*"
 
ppo/mean_non_score_reward›äÀ¥mê&       sOã 	°ž=j ÙA§*

ppo/mean_scores    d;Ào%       ê¼6ó	Âž=j ÙA§*

ppo/std_scores    D æ.       ÅËWú	Ôž=j ÙA§* 

tokens/queries_len_mean  æBÆé×-       <AŠû	æž=j ÙA§*

tokens/queries_len_std    7õ0       •õÐ_	÷ž=j ÙA§*"
 
tokens/responses_len_mean  €?*z‡î/       m]P	Ÿ=j ÙA§*!

tokens/responses_len_std    b´Ë:&       sOã 	Ÿ=j ÙA§*

ppo/loss/policy    ;uÎ²%       ê¼6ó	ó¢=j ÙA§*

ppo/loss/value¹9B÷g%       ê¼6ó	£=j ÙA§*

ppo/loss/totalÕô}7I®)       7ÿ_ 	4£=j ÙA§*

ppo/policy/entropy Í2;Ôû¯*       ®‘õ	K£=j ÙA§*

ppo/policy/approxkl°Ý-{ƒË*       ®‘õ	_£=j ÙA§*

ppo/policy/policyklÀuk¶B$G6*       ®‘õ	q£=j ÙA§*

ppo/policy/clipfrac    ñÞ1       ƒƒé	÷£=j ÙA§*#
!
ppo/policy/advantages_mean    ,=ô$'       »á±F	]¤=j ÙA§*

ppo/returns/mean›äÀë”:&       sOã 	Z¦=j ÙA§*

ppo/returns/var    ‘ÂS$       B+€M	¦=j ÙA§*

ppo/val/vpredˆ¡À´ë'c$       B+€M	¦¦=j ÙA§*

ppo/val/error¹ž9¸þ“§'       »á±F	»¦=j ÙA§*

ppo/val/clipfrac    †Ñ#       °ŸwC	Î¦=j ÙA§*

ppo/val/mean•nÀ–)¢Œ"       x=ý	á¦=j ÙA§*

ppo/val/var    eÂÛ,       ô®ÌE	ó¦=j ÙA§*

ppo/val/var_explained  €ÿFúD"(       ÿpJ	§=j ÙA§*

ppo/learning_rateÀÏ¸:8À,       ô®ÌE	d§=j ÙA§*

time/ppo/forward_pass0>®ùF—/       m]P	½§=j ÙA§*!

time/ppo/compute_rewards 8Ý:YŽ.2       $Vì	¨=j ÙA§*$
"
time/ppo/compute_advantages \&;“öyÍ-       <AŠû	p¨=j ÙA§*

time/ppo/optimize_step€öN?s³*       ®‘õ	Í¨=j ÙA§*

time/ppo/calc_statspÙ>}ËGÊ%       ê¼6ó	A©=j ÙA§*

time/ppo/totalÈå?^‰­&       sOã 	˜©=j ÙA§*

env/reward_mean    ÃšÈŒ%       ê¼6ó	ê©=j ÙA§*

env/reward_std    Y"î#       °ŸwC	£l>j ÙA¨*

objective/klX,Aþ3/Õ(       ÿpJ	p£l>j ÙA¨*

objective/kl_coef/šc>U›÷(       ÿpJ	Ž£l>j ÙA¨*

objective/entropyVD-9¦µ060       •õÐ_	¤£l>j ÙA¨*"
 
ppo/mean_non_score_reward®ýÀi‘™·&       sOã 	¹£l>j ÙA¨*

ppo/mean_scores    ÒãX%       ê¼6ó	Ë£l>j ÙA¨*

ppo/std_scores    µæà.       ÅËWú	Ü£l>j ÙA¨* 

tokens/queries_len_mean  æBY²÷-       <AŠû	í£l>j ÙA¨*

tokens/queries_len_std    5k©ô0       •õÐ_	ÿ£l>j ÙA¨*"
 
tokens/responses_len_mean  €?Rtnx/       m]P	¤l>j ÙA¨*!

tokens/responses_len_std    ‚Y« &       sOã 	&¤l>j ÙA¨*

ppo/loss/policy    ŽÍä#%       ê¼6ó	t¦l>j ÙA¨*

ppo/loss/valueŠ™Ã9¾¶#%       ê¼6ó	«l>j ÙA¨*

ppo/loss/totalÖz8‹Î!')       7ÿ_ 	<«l>j ÙA¨*

ppo/policy/entropy 1;Û"®*       ®‘õ	S«l>j ÙA¨*

ppo/policy/approxklív,i»*       ®‘õ	j«l>j ÙA¨*

ppo/policy/policykl¸÷Á5~Ž*       ®‘õ	|«l>j ÙA¨*

ppo/policy/clipfrac    r'Nb1       ƒƒé	«l>j ÙA¨*#
!
ppo/policy/advantages_mean    –÷'       »á±F	¦«l>j ÙA¨*

ppo/returns/mean®ýÀ8fvŠ&       sOã 	¸«l>j ÙA¨*

ppo/returns/var    ú)ÒÔ$       B+€M	É«l>j ÙA¨*

ppo/val/vpredo¸À©g˜$       B+€M	Ù«l>j ÙA¨*

ppo/val/errorŠ™C:cY'       »á±F	,®l>j ÙA¨*

ppo/val/clipfrac    †s3@#       °ŸwC	[®l>j ÙA¨*

ppo/val/meanˆìÀÉFT“"       x=ý	q®l>j ÙA¨*

ppo/val/var    M\LÖ,       ô®ÌE	±l>j ÙA¨*

ppo/val/var_explained  €ÿïøÁÓ(       ÿpJ	5±l>j ÙA¨*

ppo/learning_rateÀÏ¸:Wµ¤‡,       ô®ÌE	L±l>j ÙA¨*

time/ppo/forward_pass°l>pHz$/       m]P	_±l>j ÙA¨*!

time/ppo/compute_rewards d;½2Æ2       $Vì	Å±l>j ÙA¨*$
"
time/ppo/compute_advantages ü;V\D-       <AŠû	h³l>j ÙA¨*

time/ppo/optimize_stepäN?2Ø*       ®‘õ	‘³l>j ÙA¨*

time/ppo/calc_stats°d>¼6d…%       ê¼6ó	ª³l>j ÙA¨*

time/ppo/totalÚÿŒ?ÆÝõ&       sOã 	¼³l>j ÙA¨*

env/reward_mean    =®p%       ê¼6ó	Í³l>j ÙA¨*

env/reward_std    Å×—Ë#       °ŸwC	°¤Ð?j ÙA©*

objective/klR,A	‹…(       ÿpJ	¥Ð?j ÙA©*

objective/kl_coefy¿c>Ò]Nö(       ÿpJ	7¥Ð?j ÙA©*

objective/entropyœ39-Cˆ0       •õÐ_	M¥Ð?j ÙA©*"
 
ppo/mean_non_score_reward¸Àü#äÞ&       sOã 	a¥Ð?j ÙA©*

ppo/mean_scores    XÝe%       ê¼6ó	s¥Ð?j ÙA©*

ppo/std_scores    •sú.       ÅËWú	†¥Ð?j ÙA©* 

tokens/queries_len_mean  æBdÑ-J-       <AŠû	—¥Ð?j ÙA©*

tokens/queries_len_std    jÁî0       •õÐ_	©¥Ð?j ÙA©*"
 
tokens/responses_len_mean  €?¦¥Ê/       m]P	º¥Ð?j ÙA©*!

tokens/responses_len_std    	à=&       sOã 	Ì¥Ð?j ÙA©*

ppo/loss/policy  ¯,V±ê%       ê¼6ó	¤ªÐ?j ÙA©*

ppo/loss/valuex$8,Çu«%       ê¼6ó	ÏªÐ?j ÙA©*

ppo/loss/total’ƒ6Ï—S=)       7ÿ_ 	æªÐ?j ÙA©*

ppo/policy/entropy€u9;IO™Ð*       ®‘õ	ùªÐ?j ÙA©*

ppo/policy/approxklÅ6-í|C*       ®‘õ	«Ð?j ÙA©*

ppo/policy/policyklõv6fB5t*       ®‘õ	«Ð?j ÙA©*

ppo/policy/clipfrac    =Tö¯1       ƒƒé	1«Ð?j ÙA©*#
!
ppo/policy/advantages_mean  @¬µÆŸ'       »á±F	D«Ð?j ÙA©*

ppo/returns/mean¸À³,šà&       sOã 	U«Ð?j ÙA©*

ppo/returns/var!„(¸öÄ$       B+€M	g«Ð?j ÙA©*

ppo/val/vpredÓÿÀßÇ$       B+€M	‘­Ð?j ÙA©*

ppo/val/errorx¤8øyþF'       »á±F	»­Ð?j ÙA©*

ppo/val/clipfrac    äJ#       °ŸwC	*¯Ð?j ÙA©*

ppo/val/meanºÇÀæ€§"       x=ý	Í¯Ð?j ÙA©*

ppo/val/var!„)\$>,       ô®ÌE	¼±Ð?j ÙA©*

ppo/val/var_explainedNTŸÏUé(       ÿpJ	9²Ð?j ÙA©*

ppo/learning_rateÀÏ¸:®€ Û,       ô®ÌE	•²Ð?j ÙA©*

time/ppo/forward_pass '>d?t¦/       m]P	û²Ð?j ÙA©*!

time/ppo/compute_rewards Ù:VµÒê2       $Vì	J³Ð?j ÙA©*$
"
time/ppo/compute_advantages 8;˜¾Å&-       <AŠû	¨³Ð?j ÙA©*

time/ppo/optimize_stepŒÔN?L•úx*       ®‘õ	õ³Ð?j ÙA©*

time/ppo/calc_statsPE>¯éÏª%       ê¼6ó	H´Ð?j ÙA©*

time/ppo/total–?ùe›4&       sOã 	´Ð?j ÙA©*

env/reward_mean    \/Xv%       ê¼6ó	ñ´Ð?j ÙA©*

env/reward_std    ¡/…ô#       °ŸwC	Xô4Aj ÙAª*

objective/klH,Aiø(Ô(       ÿpJ	Äô4Aj ÙAª*

objective/kl_coefÊäc>Yö“(       ÿpJ	âô4Aj ÙAª*

objective/entropy©“<9lÔh½0       •õÐ_	÷ô4Aj ÙAª*"
 
ppo/mean_non_score_rewardÆ/À|-K†&       sOã 		õ4Aj ÙAª*

ppo/mean_scores    ¶ci‘%       ê¼6ó	õ4Aj ÙAª*

ppo/std_scores    ÑàÊ.       ÅËWú	,õ4Aj ÙAª* 

tokens/queries_len_mean  æB²Hù-       <AŠû	>õ4Aj ÙAª*

tokens/queries_len_std    ={0       •õÐ_	Sõ4Aj ÙAª*"
 
tokens/responses_len_mean  €?ƒw/       m]P	eõ4Aj ÙAª*!

tokens/responses_len_std    –n/·&       sOã 	yõ4Aj ÙAª*

ppo/loss/policy €ƒ¯U4%       ê¼6ó	ø4Aj ÙAª*

ppo/loss/value7)59Þ,1W%       ê¼6ó	£ü4Aj ÙAª*

ppo/loss/totalBí7ØÅ)       7ÿ_ 	Ñü4Aj ÙAª*

ppo/policy/entropy€¹>;&Ô–`*       ®‘õ	êü4Aj ÙAª*

ppo/policy/approxklÏK]*U]Î*       ®‘õ	þü4Aj ÙAª*

ppo/policy/policykl@öÓ4¥œ³¤*       ®‘õ	ý4Aj ÙAª*

ppo/policy/clipfrac    þÓú:1       ƒƒé	* 5Aj ÙAª*#
!
ppo/policy/advantages_mean    ÈÑ20'       »á±F	à5Aj ÙAª*

ppo/returns/meanÆ/À‹ŽÜ&       sOã 	Ú5Aj ÙAª*

ppo/returns/var!)ãÞe»$       B+€M	5Aj ÙAª*

ppo/val/vpred0 À×1k$       B+€M	45Aj ÙAª*

ppo/val/error7)µ9K¨òÌ'       »á±F	Õ5Aj ÙAª*

ppo/val/clipfrac    “‰1#       °ŸwC	t5Aj ÙAª*

ppo/val/mean›Àªo"       x=ý	5Aj ÙAª*

ppo/val/var    %€,       ô®ÌE	´5Aj ÙAª*

ppo/val/var_explainedî/ÐlÙW(       ÿpJ	P5Aj ÙAª*

ppo/learning_rateÀÏ¸: `Ó,       ô®ÌE	ì5Aj ÙAª*

time/ppo/forward_passp>	²e¥/       m]P	”5Aj ÙAª*!

time/ppo/compute_rewards Õ:ÞYƒ2       $Vì	0	5Aj ÙAª*$
"
time/ppo/compute_advantages Ð;½.B-       <AŠû	É	5Aj ÙAª*

time/ppo/optimize_stepÔÈQ?!š¥*       ®‘õ	b
5Aj ÙAª*

time/ppo/calc_stats@Š>
öd%       ê¼6ó	ú
5Aj ÙAª*

time/ppo/totalðz?áCí&       sOã 	•5Aj ÙAª*

env/reward_mean    wf%C%       ê¼6ó	-5Aj ÙAª*

env/reward_std    ­á	$#       °ŸwC	S¬Bj ÙA«*

objective/klJ,AÛ¾K(       ÿpJ	½¬Bj ÙA«*

objective/kl_coef 
d>Ä)Óx(       ÿpJ	Ú¬Bj ÙA«*

objective/entropy·[;9ºq”0       •õÐ_	ñ¬Bj ÙA«*"
 
ppo/mean_non_score_rewardàHÀ–+<&       sOã 	¬Bj ÙA«*

ppo/mean_scores    H060%       ê¼6ó	¬Bj ÙA«*

ppo/std_scores    ó€2<.       ÅËWú	,¬Bj ÙA«* 

tokens/queries_len_mean  æBÑAƒP-       <AŠû	=¬Bj ÙA«*

tokens/queries_len_std    bÿîd0       •õÐ_	O¬Bj ÙA«*"
 
tokens/responses_len_mean  €? 8Õt/       m]P	_¬Bj ÙA«*!

tokens/responses_len_std    ZåLò&       sOã 	q¬Bj ÙA«*

ppo/loss/policy €¯»C2%       ê¼6ó	¬Bj ÙA«*

ppo/loss/valueSdý7¦=¦P%       ê¼6ó	² ¬Bj ÙA«*

ppo/loss/total_´J6°oµ±)       7ÿ_ 	Þ ¬Bj ÙA«*

ppo/policy/entropy ,;;á£i–*       ®‘õ	&#¬Bj ÙA«*

ppo/policy/approxkl_àV,G¦*‹*       ®‘õ	Q#¬Bj ÙA«*

ppo/policy/policyklôù¶%ç…¼*       ®‘õ	h#¬Bj ÙA«*

ppo/policy/clipfrac    %ü±Ð1       ƒƒé	}#¬Bj ÙA«*#
!
ppo/policy/advantages_mean   ¬ïåªr'       »á±F	-$¬Bj ÙA«*

ppo/returns/meanàHÀÊG‘&       sOã 	Ô$¬Bj ÙA«*

ppo/returns/var!„(ÍÖŠá$       B+€M	y%¬Bj ÙA«*

ppo/val/vpredÎÀö@g$       B+€M	œ&¬Bj ÙA«*

ppo/val/errorSd}8DcÕ¥'       »á±F	X'¬Bj ÙA«*

ppo/val/clipfrac    ¡>ß#       °ŸwC	Ï'¬Bj ÙA«*

ppo/val/meanbtÀc©îf"       x=ý	S9¬Bj ÙA«*

ppo/val/var    ¥p°,       ô®ÌE	ò9¬Bj ÙA«*

ppo/val/var_explained1yuÏù3æ(       ÿpJ	_:¬Bj ÙA«*

ppo/learning_rateÀÏ¸:€Í,       ô®ÌE	Ê:¬Bj ÙA«*

time/ppo/forward_pass0Ã>yƒö±/       m]P	0;¬Bj ÙA«*!

time/ppo/compute_rewards xú:@Ú{h2       $Vì	‘;¬Bj ÙA«*$
"
time/ppo/compute_advantages ;µ>¶Ä-       <AŠû	ð;¬Bj ÙA«*

time/ppo/optimize_stepÔÓO?÷ó¦Ò*       ®‘õ	J<¬Bj ÙA«*

time/ppo/calc_stats >KÝ%       ê¼6ó	£<¬Bj ÙA«*

time/ppo/totalæŽ?Žf©z&       sOã 	þ<¬Bj ÙA«*

env/reward_mean    ÿfaÂ%       ê¼6ó	Y=¬Bj ÙA«*

env/reward_std    æ©[#       °ŸwC	3¼Dj ÙA¬*

objective/klO,A2Ëm(       ÿpJ	 ¼Dj ÙA¬*

objective/kl_coef}/d>ƒp9<(       ÿpJ	¼¼Dj ÙA¬*

objective/entropyõó59Á c$0       •õÐ_	Ï¼Dj ÙA¬*"
 
ppo/mean_non_score_rewardbÀa"&       sOã 	â¼Dj ÙA¬*

ppo/mean_scores    ˆ%       ê¼6ó	õ¼Dj ÙA¬*

ppo/std_scores    ˜1ýe.       ÅËWú	½Dj ÙA¬* 

tokens/queries_len_mean  æB7‡1-       <AŠû	½Dj ÙA¬*

tokens/queries_len_std    ²•·0       •õÐ_	0½Dj ÙA¬*"
 
tokens/responses_len_mean  €?ödI¸/       m]P	@½Dj ÙA¬*!

tokens/responses_len_std    ÜÆñ&       sOã 	R½Dj ÙA¬*

ppo/loss/policy    ‡àg%       ê¼6ó	¿Dj ÙA¬*

ppo/loss/value¦y8©­„%       ê¼6ó	ÆÁDj ÙA¬*

ppo/loss/totalh¸Ç6ÜLª])       7ÿ_ 	ñÁDj ÙA¬*

ppo/policy/entropy€M7;žëþ®*       ®‘õ	•ÂDj ÙA¬*

ppo/policy/approxklÁ*
5@¡*       ®‘õ	©ÂDj ÙA¬*

ppo/policy/policyklÀ÷;µE>Ê*       ®‘õ	þÂDj ÙA¬*

ppo/policy/clipfrac    ´Œ<£1       ƒƒé	WÃDj ÙA¬*#
!
ppo/policy/advantages_mean    ¯ZçÁ'       »á±F	´ÃDj ÙA¬*

ppo/returns/meanbÀALŠ&       sOã 	ÄDj ÙA¬*

ppo/returns/var    •UB	$       B+€M	`ÄDj ÙA¬*

ppo/val/vpredÀÚÏÈÍ$       B+€M	°ÄDj ÙA¬*

ppo/val/error¦ù8åÉòÓ'       »á±F	ÅDj ÙA¬*

ppo/val/clipfrac    u{{ž#       °ŸwC	„ÅDj ÙA¬*

ppo/val/mean³ßÀÚ	f|"       x=ý	ÙÅDj ÙA¬*

ppo/val/var    Ü€¬e,       ô®ÌE	/ÆDj ÙA¬*

ppo/val/var_explained  €ÿ]¹‚º(       ÿpJ	ƒÆDj ÙA¬*

ppo/learning_rateÀÏ¸:jÚËl,       ô®ÌE	ÙÆDj ÙA¬*

time/ppo/forward_pass0>ý×Ž/       m]P	5ÇDj ÙA¬*!

time/ppo/compute_rewards x0;<dV2       $Vì	ŠÇDj ÙA¬*$
"
time/ppo/compute_advantages \;çl|s-       <AŠû	ßÇDj ÙA¬*

time/ppo/optimize_step<N?â@Î†*       ®‘õ	5ÈDj ÙA¬*

time/ppo/calc_stats`=>CWPf%       ê¼6ó	…ÈDj ÙA¬*

time/ppo/total?›ˆmg&       sOã 	ÛÈDj ÙA¬*

env/reward_mean    ‡²”%       ê¼6ó	0ÉDj ÙA¬*

env/reward_std    SÏ<#       °ŸwC	T¸}Ej ÙA­*

objective/klP,A¬o\6(       ÿpJ	º¸}Ej ÙA­*

objective/kl_coefàTd>-L{@(       ÿpJ	×¸}Ej ÙA­*

objective/entropyú“59°´œ0       •õÐ_	ì¸}Ej ÙA­*"
 
ppo/mean_non_score_reward${À[Ù˜&       sOã 	¹}Ej ÙA­*

ppo/mean_scores    PAæe%       ê¼6ó	¹}Ej ÙA­*

ppo/std_scores    Ê?z§.       ÅËWú	(¹}Ej ÙA­* 

tokens/queries_len_mean  æB½5ø-       <AŠû	;¹}Ej ÙA­*

tokens/queries_len_std    ÒµÓ0       •õÐ_	N¹}Ej ÙA­*"
 
tokens/responses_len_mean  €?gA±ý/       m]P	b¹}Ej ÙA­*!

tokens/responses_len_std    8_b&       sOã 	t¹}Ej ÙA­*

ppo/loss/policy    ·Ué_%       ê¼6ó	­»}Ej ÙA­*

ppo/loss/valueî(7ÌÑç%       ê¼6ó	j¾}Ej ÙA­*

ppo/loss/totalÛá5¹È×ù)       7ÿ_ 	–¾}Ej ÙA­*

ppo/policy/entropy Ï8;éåâ)*       ®‘õ	®¾}Ej ÙA­*

ppo/policy/approxkløo²+á6‚*       ®‘õ	QÁ}Ej ÙA­*

ppo/policy/policykl ø£5†q÷ð*       ®‘õ	}Á}Ej ÙA­*

ppo/policy/clipfrac    f˜=1       ƒƒé	BÅ}Ej ÙA­*#
!
ppo/policy/advantages_mean    ën1¢'       »á±F	nÅ}Ej ÙA­*

ppo/returns/mean${À”Ë1h&       sOã 	†Å}Ej ÙA­*

ppo/returns/var    ÕÿL$       B+€M	›Å}Ej ÙA­*

ppo/val/vpredÉÀÞWÆ$       B+€M	­Å}Ej ÙA­*

ppo/val/errorî(8¸KQF'       »á±F	ÀÅ}Ej ÙA­*

ppo/val/clipfrac    ÷ïï#       °ŸwC	ÒÅ}Ej ÙA­*

ppo/val/meanÀf«y"       x=ý	åÅ}Ej ÙA­*

ppo/val/var    ­ oÆ,       ô®ÌE	öÅ}Ej ÙA­*

ppo/val/var_explained  €ÿjÍ5(       ÿpJ	Æ}Ej ÙA­*

ppo/learning_rateÀÏ¸:	ôù,       ô®ÌE	¥Æ}Ej ÙA­*

time/ppo/forward_pass )!>Å“”/       m]P	¸Æ}Ej ÙA­*!

time/ppo/compute_rewards ¨Ò:®òh2       $Vì	Ç}Ej ÙA­*$
"
time/ppo/compute_advantages 4;Å¬Œ«-       <AŠû	dÇ}Ej ÙA­*

time/ppo/optimize_step8»N?°ï ª*       ®‘õ	¶Ç}Ej ÙA­*

time/ppo/calc_stats>Šy%       ê¼6ó	È}Ej ÙA­*

time/ppo/totalˆ	Ž?LÊ·›&       sOã 	aÈ}Ej ÙA­*

env/reward_mean    âEº%       ê¼6ó	´È}Ej ÙA­*

env/reward_std    Ž}f#       °ŸwC	„GåFj ÙA®*

objective/klL,A¸¬¢(       ÿpJ	ôGåFj ÙA®*

objective/kl_coefIzd>Dä·.(       ÿpJ	HåFj ÙA®*

objective/entropyÒ99íoîj0       •õÐ_	(HåFj ÙA®*"
 
ppo/mean_non_score_rewardF”À´;Ïõ&       sOã 	<HåFj ÙA®*

ppo/mean_scores    ¥åÐõ%       ê¼6ó	PHåFj ÙA®*

ppo/std_scores    v*¤¨.       ÅËWú	bHåFj ÙA®* 

tokens/queries_len_mean  æB¯0ß›-       <AŠû	uHåFj ÙA®*

tokens/queries_len_std    ¯Òüâ0       •õÐ_	‡HåFj ÙA®*"
 
tokens/responses_len_mean  €?§¼KÚ/       m]P	™HåFj ÙA®*!

tokens/responses_len_std    †{†&       sOã 	«HåFj ÙA®*

ppo/loss/policy    êýàZ%       ê¼6ó	$KåFj ÙA®*

ppo/loss/valueÁ´7Ý”iú%       ê¼6ó	NåFj ÙA®*

ppo/loss/totalh6Ù ì)       7ÿ_ 	INåFj ÙA®*

ppo/policy/entropy€Œ;;§¨Ž*       ®‘õ	`NåFj ÙA®*

ppo/policy/approxklýp¡*þð¼*       ®‘õ	rNåFj ÙA®*

ppo/policy/policykl@ø%5d3Ó*       ®‘õ	…NåFj ÙA®*

ppo/policy/clipfrac    ªb1       ƒƒé	™NåFj ÙA®*#
!
ppo/policy/advantages_mean    ªNØ'       »á±F	°NåFj ÙA®*

ppo/returns/meanF”ÀØ(¤ß&       sOã 	ÁNåFj ÙA®*

ppo/returns/var    ðÅ!˜$       B+€M	ÓNåFj ÙA®*

ppo/val/vpred+ÀCùR­$       B+€M	ãNåFj ÙA®*

ppo/val/errorÁ48¼,¶9'       »á±F	6OåFj ÙA®*

ppo/val/clipfrac    cÞž6#       °ŸwC	œOåFj ÙA®*

ppo/val/mean)NÀÿf%	"       x=ý	ôOåFj ÙA®*

ppo/val/var    éÜN&,       ô®ÌE	OPåFj ÙA®*

ppo/val/var_explained  €ÿ1‚)D(       ÿpJ	¤PåFj ÙA®*

ppo/learning_rateÀÏ¸:Êmã,       ô®ÌE	üPåFj ÙA®*

time/ppo/forward_passz!>ýDO/       m]P	vQåFj ÙA®*!

time/ppo/compute_rewards 8ò:x8Ë2       $Vì	ÓQåFj ÙA®*$
"
time/ppo/compute_advantages ü;%ê˜^-       <AŠû	BRåFj ÙA®*

time/ppo/optimize_stepÔEV?F Ú*       ®‘õ	œRåFj ÙA®*

time/ppo/calc_stats°\> “Ô%       ê¼6ó	îRåFj ÙA®*

time/ppo/total4Š’?DQî&       sOã 	ESåFj ÙA®*

env/reward_mean    Gìa»%       ê¼6ó	¥SåFj ÙA®*

env/reward_std    Ê9÷#       °ŸwC	‘Ú‰Hj ÙA¯*

objective/klŒ>*Ad0í(       ÿpJ	üÚ‰Hj ÙA¯*

objective/kl_coef¸Ÿd>ŒpÝç(       ÿpJ	Û‰Hj ÙA¯*

objective/entropyæ?Qæ6ê0       •õÐ_	-Û‰Hj ÙA¯*"
 
ppo/mean_non_score_rewardxnÀ¢î&       sOã 	@Û‰Hj ÙA¯*

ppo/mean_scores±Ø3>ê:9%       ê¼6ó	TÛ‰Hj ÙA¯*

ppo/std_scores_W~?gTL€.       ÅËWú	fÛ‰Hj ÙA¯* 

tokens/queries_len_mean  æB&A-       <AŠû	zÛ‰Hj ÙA¯*

tokens/queries_len_std    Œù¸'0       •õÐ_	Û‰Hj ÙA¯*"
 
tokens/responses_len_mean  „?”kd/       m]P	ŸÛ‰Hj ÙA¯*!

tokens/responses_len_stdó5>Rl¥½&       sOã 	°Û‰Hj ÙA¯*

ppo/loss/policy>ø0y÷d%       ê¼6ó	ìÝ‰Hj ÙA¯*

ppo/loss/value°Py>Ï­%       ê¼6ó	0à‰Hj ÙA¯*

ppo/loss/totalÁsÇ<é†)       7ÿ_ 	`à‰Hj ÙA¯*

ppo/policy/entropy‡ý@j|ž®*       ®‘õ	lâ‰Hj ÙA¯*

ppo/policy/approxklÆ'@Gÿ%Z*       ®‘õ	â‰Hj ÙA¯*

ppo/policy/policykl¢Hß>&ó^.*       ®‘õ	æ‰Hj ÙA¯*

ppo/policy/clipfracü>ê;1       ƒƒé	Mæ‰Hj ÙA¯*#
!
ppo/policy/advantages_mean>ø±Ì¨~š'       »á±F	dæ‰Hj ÙA¯*

ppo/returns/meanýÀÀ¡ò‚&       sOã 	xæ‰Hj ÙA¯*

ppo/returns/var“Yò?„ ý
$       B+€M	Šæ‰Hj ÙA¯*

ppo/val/vpred9õ¿-ž"$       B+€M	œæ‰Hj ÙA¯*

ppo/val/errorÆQý??h’'       »á±F	­æ‰Hj ÙA¯*

ppo/val/clipfracŒ.:=8tU#       °ŸwC	¾æ‰Hj ÙA¯*

ppo/val/mean§&À®KSá"       x=ý	Ïæ‰Hj ÙA¯*

ppo/val/var y¥.9¯Y,       ô®ÌE	àæ‰Hj ÙA¯*

ppo/val/var_explainedàe9½~½±X(       ÿpJ		é‰Hj ÙA¯*

ppo/learning_rateÀÏ¸:ÏC#Ö,       ô®ÌE	5é‰Hj ÙA¯*

time/ppo/forward_pass ¼>)ð/       m]P	®é‰Hj ÙA¯*!

time/ppo/compute_rewards 8Ø:xõÒý2       $Vì		ê‰Hj ÙA¯*$
"
time/ppo/compute_advantages  (;óg	-       <AŠû	cê‰Hj ÙA¯*

time/ppo/optimize_step|O?·€—*       ®‘õ	¶ê‰Hj ÙA¯*

time/ppo/calc_stats°ƒ>Äii%       ê¼6ó	ë‰Hj ÙA¯*

time/ppo/total!?¢\ë&       sOã 	`ë‰Hj ÙA¯*

env/reward_mean±Ø3>¾Gž%       ê¼6ó	µë‰Hj ÙA¯*

env/reward_std_W~?pYëy