H       þ’H	³H-ll ÙAbrain.Event:2R.
,tensorboard.summary.writer.event_file_writerå¡¨Õ"       x=ý	üá‹}l ÙA*

objective/kl    Åð†0'       »á±F	„â‹}l ÙA*

objective/kl_coefÍÌL><X'       »á±F	¦â‹}l ÙA*

objective/entropyPûBÑwó/       m]P	¿â‹}l ÙA*"
 
ppo/mean_non_score_reward    ðIÍe%       ê¼6ó	Öâ‹}l ÙA*

ppo/mean_scoresÌ`L?Üábû$       B+€M	êâ‹}l ÙA*

ppo/std_scoresNoÁ?\uê-       <AŠû	ûâ‹}l ÙA* 

tokens/queries_len_mean  ÞB“EÝý,       ô®ÌE	ã‹}l ÙA*

tokens/queries_len_std    %KíŠ/       m]P	ã‹}l ÙA*"
 
tokens/responses_len_mean   A=Ò=.       ÅËWú	0ã‹}l ÙA*!

tokens/responses_len_std    G<ÍÁ%       ê¼6ó	Aã‹}l ÙA*

ppo/loss/policy,^î=ÙI¹å$       B+€M	žå‹}l ÙA*

ppo/loss/valuel`í@C9q$       B+€M	+é‹}l ÙA*

ppo/loss/total‚²[?yPº(       ÿpJ	Yé‹}l ÙA*

ppo/policy/entropy<»@DäÇ)       7ÿ_ 	pé‹}l ÙA*

ppo/policy/approxklD‹*AúÍÖ¨)       7ÿ_ 	„é‹}l ÙA*

ppo/policy/policykl"@@ˆ!Î)       7ÿ_ 	•é‹}l ÙA*

ppo/policy/clipfracffí> er0       •õÐ_	¨é‹}l ÙA*#
!
ppo/policy/advantages_meanš™‡3½QûU&       sOã 	Éë‹}l ÙA*

ppo/returns/mean‡Ê?°mÖ%       ê¼6ó	öë‹}l ÙA*

ppo/returns/varxÿ?Ea#       °ŸwC	ì‹}l ÙA*

ppo/val/vpredO?ûÇDW#       °ŸwC	úí‹}l ÙA*

ppo/val/error˜’LAŒŒòd&       sOã 	'î‹}l ÙA*

ppo/val/clipfrac  ½>Áè¬ñ"       x=ý	?î‹}l ÙA*

ppo/val/meanðü?@VJ:5!       {ìö	ð‹}l ÙA*

ppo/val/varð‡M@3›Ú+       †ÃK	Tñ‹}l ÙA*

ppo/val/var_explained^»ÁIåÎ'       »á±F	ò‹}l ÙA*

ppo/learning_rateÀÏ¸:’I+       †ÃK	óó‹}l ÙA*

time/ppo/forward_pass°˜?>:,«h.       ÅËWú	½ô‹}l ÙA*!

time/ppo/compute_rewards ¢æ;ö’1       ƒƒé	~õ‹}l ÙA*$
"
time/ppo/compute_advantages ;;é­.T,       ô®ÌE	2ö‹}l ÙA*

time/ppo/optimize_step¸˜?°(TP)       7ÿ_ 	Õö‹}l ÙA*

time/ppo/calc_statsP1.>GYÊÔ$       B+€M	t÷‹}l ÙA*

time/ppo/totaläÌ®?Ž¾©%       ê¼6ó	ø‹}l ÙA*

env/reward_meanÌ`L?œŠw$       B+€M	²ø‹}l ÙA*

env/reward_stdNoÁ?ŽnÒ‹"       x=ý	®(™l ÙA*

objective/klËOB
2'       »á±F	(™l ÙA*

objective/kl_coef?«L>zºÄ
'       »á±F	”(™l ÙA*

objective/entropy8ŠC*Itä/       m]P	¨(™l ÙA*"
 
ppo/mean_non_score_reward^ç¿Mt?%       ê¼6ó	¹(™l ÙA*

ppo/mean_scores &	@vÊ•$       B+€M	Ê(™l ÙA*

ppo/std_scores3dä?Ý`z-       <AŠû	Ú(™l ÙA* 

tokens/queries_len_mean  Cs‚¾£,       ô®ÌE	ë(™l ÙA*

tokens/queries_len_std    ÛôÎº/       m]P	ü(™l ÙA*"
 
tokens/responses_len_mean   A*`'<.       ÅËWú		(™l ÙA*!

tokens/responses_len_std    	HÀ%       ê¼6ó		(™l ÙA*

ppo/loss/policyà’™:zn*$       B+€M	((™l ÙA*

ppo/loss/valueÀÜAiö	°$       B+€M	J(™l ÙA*

ppo/loss/totaldx?Ù1~b(       ÿpJ	s(™l ÙA*

ppo/policy/entropy³É@þS)       7ÿ_ 	‡(™l ÙA*

ppo/policy/approxkl1é¬?ˆ’íÖ)       7ÿ_ 	š(™l ÙA*

ppo/policy/policykl\P?¼ÍFà)       7ÿ_ 	ª(™l ÙA*

ppo/policy/clipfracÌÌì>k,žd0       •õÐ_	¼(™l ÙA*#
!
ppo/policy/advantages_meanÍÌl³úx´è&       sOã 	°(™l ÙA*

ppo/returns/mean3u¸¿âæ/%       ê¼6ó	Ú(™l ÙA*

ppo/returns/varœäÄ@TÑ#       °ŸwC	ð(™l ÙA*

ppo/val/vpred0Ç=íÏŽs#       °ŸwC	S(™l ÙA*

ppo/val/error²-A—M¶µ&       sOã 	†(™l ÙA*

ppo/val/clipfracÍL?`ãHŸ"       x=ý	Ÿ(™l ÙA*

ppo/val/meannI@±Å]Z!       {ìö	±(™l ÙA*

ppo/val/var¢ŠC>),q+       †ÃK	Á(™l ÙA*

ppo/val/var_explaineddí¿ðs¥'       »á±F	Ñ(™l ÙA*

ppo/learning_rateÀÏ¸:‚Ãn‰+       †ÃK	8(™l ÙA*

time/ppo/forward_pass G¬>qîÀT.       ÅËWú	I(™l ÙA*!

time/ppo/compute_rewards  ×:5šÛ1       ƒƒé	û(™l ÙA*$
"
time/ppo/compute_advantages ÄR;>P!í,       ô®ÌE	°(™l ÙA*

time/ppo/optimize_step(ç‹?7qG~)       7ÿ_ 	\(™l ÙA*

time/ppo/calc_stats`…@>,O?$       B+€M	(™l ÙA*

time/ppo/totalü«Ï?E¤)H%       ê¼6ó	±(™l ÙA*

env/reward_mean &	@–Áwè$       B+€M	J(™l ÙA*

env/reward_std3dä?Åñ"       x=ý	Ôø¥l ÙA*

objective/klnO?B´câ>'       »á±F	‡Ôø¥l ÙA*

objective/kl_coefÇÌL>[Sx'       »á±F	¢Ôø¥l ÙA*

objective/entropyí@CïÐô“/       m]P	¶Ôø¥l ÙA*"
 
ppo/mean_non_score_reward†àô¾Í½î¯%       ê¼6ó	ÈÔø¥l ÙA*

ppo/mean_scores,ü?WÎÆ$       B+€M	ÙÔø¥l ÙA*

ppo/std_scores.¤Ï?¨º|-       <AŠû	ëÔø¥l ÙA* 

tokens/queries_len_mean  Cœ.Œ,       ô®ÌE	ûÔø¥l ÙA*

tokens/queries_len_std    Šm¿£/       m]P	Õø¥l ÙA*"
 
tokens/responses_len_mean   AðýÔ.       ÅËWú	Õø¥l ÙA*!

tokens/responses_len_std    ø¾ïÚ%       ê¼6ó	-Õø¥l ÙA*

ppo/loss/policy©¶½nßõ$       B+€M	”Øø¥l ÙA*

ppo/loss/valuežœ¼@Yìuò$       B+€M	³Úø¥l ÙA*

ppo/loss/total ?b(£z(       ÿpJ	nÞø¥l ÙA*

ppo/policy/entropyz®â@ƒŠ\Í)       7ÿ_ 	šÞø¥l ÙA*

ppo/policy/approxklÔÓì>¤XÈJ)       7ÿ_ 	°Þø¥l ÙA*

ppo/policy/policykl2Ñ>çç)       7ÿ_ 	ÄÞø¥l ÙA*

ppo/policy/clipfracfæ?ï¯¦s0       •õÐ_	æáø¥l ÙA*#
!
ppo/policy/advantages_meanÍÌ”38Ä¢x&       sOã 	âø¥l ÙA*

ppo/returns/mean¤ÀR)ý%       ê¼6ó	,âø¥l ÙA*

ppo/returns/varj‚å@™yDÁ#       °ŸwC	=âø¥l ÙA*

ppo/val/vpred!¿+Ë”#       °ŸwC	Oâø¥l ÙA*

ppo/val/error»xAjCð"&       sOã 	_âø¥l ÙA*

ppo/val/clipfrac  ?÷ó"       x=ý	ðäø¥l ÙA*

ppo/val/meanŽÑz½q¶¸#!       {ìö	åø¥l ÙA*

ppo/val/var±èT=ÐºÁ„+       †ÃK	2åø¥l ÙA*

ppo/val/var_explainedì–¾¾¤-Ÿ	'       »á±F	Gåø¥l ÙA*

ppo/learning_rateÀÏ¸:€†n+       †ÃK	kçø¥l ÙA*

time/ppo/forward_pass°…c>t
Âñ.       ÅËWú	–çø¥l ÙA*!

time/ppo/compute_rewards €ú:HE61       ƒƒé	¬çø¥l ÙA*$
"
time/ppo/compute_advantages (W;íÜo$,       ô®ÌE	¿çø¥l ÙA*

time/ppo/optimize_stepH5š?Z|ÇÅ)       7ÿ_ 	\èø¥l ÙA*

time/ppo/calc_statsð;V>øŽÇ6$       B+€M	óèø¥l ÙA*

time/ppo/totalpÒ??Í%       ê¼6ó	Œéø¥l ÙA*

env/reward_mean,ü?¼Q$       B+€M	"êø¥l ÙA*

env/reward_std.¤Ï?öò"       x=ý	ã´l ÙA*

objective/klbž4B·wøý'       »á±F	lã´l ÙA*

objective/kl_coefUîL>¦“'       »á±F	èã´l ÙA*

objective/entropy.žC8ó3/       m]P	þã´l ÙA*"
 
ppo/mean_non_score_rewardúVç¾hÄ”Ó%       ê¼6ó	ä´l ÙA*

ppo/mean_scores+ù?¾3V$       B+€M	8ä´l ÙA*

ppo/std_scores”º?e©„ÿ-       <AŠû	Iä´l ÙA* 

tokens/queries_len_mean  CåàÇ´,       ô®ÌE	Zä´l ÙA*

tokens/queries_len_std    ÝÉn//       m]P	jä´l ÙA*"
 
tokens/responses_len_mean   A|¡mN.       ÅËWú	zä´l ÙA*!

tokens/responses_len_std    œWû%       ê¼6ó	‹ä´l ÙA*

ppo/loss/policyfÔ½-’‡¤$       B+€M	ç´l ÙA*

ppo/loss/value^ƒ‹@±]˜$       B+€M	uê´l ÙA*

ppo/loss/totalª>Š–k(       ÿpJ	£ê´l ÙA*

ppo/policy/entropy$Ú@3•!)       7ÿ_ 	Ïì´l ÙA*

ppo/policy/approxklPÁ¦>@çz—)       7ÿ_ 	ýì´l ÙA*

ppo/policy/policykl{±=¾¶qV)       7ÿ_ 	`ï´l ÙA*

ppo/policy/clipfracÌÌ?=¤­0       •õÐ_	ï´l ÙA*#
!
ppo/policy/advantages_meanÍÌ²!¹&       sOã 	¨ï´l ÙA*

ppo/returns/meanÒHÀ[ì;%       ê¼6ó		ò´l ÙA*

ppo/returns/var3æÏ@´ce(#       °ŸwC	1ò´l ÙA*

ppo/val/vpredm]¿ó’së#       °ŸwC	Gò´l ÙA*

ppo/val/error}AÍ§=&       sOã 	ëõ´l ÙA*

ppo/val/clipfracffø>Œ”."       x=ý	ö´l ÙA*

ppo/val/mean]^¿`u!       {ìö	)ö´l ÙA*

ppo/val/varb“=Sà/+       †ÃK	=ö´l ÙA*

ppo/val/var_explained8•{¾!K´'       »á±F	Nö´l ÙA*

ppo/learning_rateÀÏ¸:¼RÚ±+       †ÃK	^ö´l ÙA*

time/ppo/forward_pass`Rc>ì?ÛN.       ÅËWú	nö´l ÙA*!

time/ppo/compute_rewards  Ù:ßO[Ý1       ƒƒé	~ö´l ÙA*$
"
time/ppo/compute_advantages TW;ü¡£,       ô®ÌE	Žö´l ÙA*

time/ppo/optimize_stepàX”?˜h¶)       7ÿ_ 	žö´l ÙA*

time/ppo/calc_stats ÇJ> DZ$       B+€M	'ø´l ÙA*

time/ppo/total€ÀÊ?ÍuZ–%       ê¼6ó	ú´l ÙA*

env/reward_mean+ù?!ð./$       B+€M	6ú´l ÙA*

env/reward_std”º?Ú:f’"       x=ý	D©;Âl ÙA*

objective/klç”LBÍéœ'       »á±F	³©;Âl ÙA*

objective/kl_coeféM>m‚2'       »á±F	Ñ©;Âl ÙA*

objective/entropyCPC¡*uC/       m]P	æ©;Âl ÙA*"
 
ppo/mean_non_score_reward´Œ¿}Eê’%       ê¼6ó	ø©;Âl ÙA*

ppo/mean_scores´&Î?ÅÅ6<$       B+€M		ª;Âl ÙA*

ppo/std_scores)éÇ?]Ñ©:-       <AŠû	ª;Âl ÙA* 

tokens/queries_len_mean  Cúmv@,       ô®ÌE	-ª;Âl ÙA*

tokens/queries_len_std    Áå/       m]P	?ª;Âl ÙA*"
 
tokens/responses_len_mean @žAæDº.       ÅËWú	Qª;Âl ÙA*!

tokens/responses_len_stdUdž?Ñ~ä%       ê¼6ó	cª;Âl ÙA*

ppo/loss/policy?ÄË½+ã†$       B+€M	9­;Âl ÙA*

ppo/loss/valueÃå³@_¡"$       B+€M	*°;Âl ÙA*

ppo/loss/totalöäì>6d(       ÿpJ	W°;Âl ÙA*

ppo/policy/entropy” Ü@zí›é)       7ÿ_ 	o°;Âl ÙA*

ppo/policy/approxkl2çÀ> ‹£ )       7ÿ_ 	°;Âl ÙA*

ppo/policy/policyklÌ>©óšJ)       7ÿ_ 	“°;Âl ÙA*

ppo/policy/clipfracè?è¾¹0       •õÐ_	©°;Âl ÙA*#
!
ppo/policy/advantages_mean°ãõ²ôy•#&       sOã 	»°;Âl ÙA*

ppo/returns/meanN<AÀÎb4>%       ê¼6ó	Î°;Âl ÙA*

ppo/returns/varš-í@wâv9#       °ŸwC	D±;Âl ÙA*

ppo/val/vpredZ‰´¿Ý©Ä#       °ŸwC	³;Âl ÙA*

ppo/val/errorÙ(A½õ&       sOã 	/³;Âl ÙA*

ppo/val/clipfracv*?¥Ñf"       x=ý	G³;Âl ÙA*

ppo/val/meanòùH¿J]!       {ìö	Z³;Âl ÙA*

ppo/val/vargøN>Þañ}+       †ÃK	l³;Âl ÙA*

ppo/val/var_explained(‡K¾¶Î'       »á±F	³;Âl ÙA*

ppo/learning_rateÀÏ¸:…¡&+       †ÃK	³;Âl ÙA*

time/ppo/forward_pass g[>£â.       ÅËWú	´;Âl ÙA*!

time/ppo/compute_rewards H×:äëzð1       ƒƒé	ˆ´;Âl ÙA*$
"
time/ppo/compute_advantages ´e;ê}::,       ô®ÌE	^Á;Âl ÙA*

time/ppo/optimize_stepD’?¤¸Ã)       7ÿ_ 	†Á;Âl ÙA*

time/ppo/calc_statsàÁd>„ó¸=$       B+€M	dÃ;Âl ÙA*

time/ppo/totalî³Ê?|®:‚%       ê¼6ó	Ä;Âl ÙA*

env/reward_mean´&Î?«ž¢‹$       B+€M	„Ä;Âl ÙA*

env/reward_std)éÇ?ÏÃ<"       x=ý	p»Ûl ÙA*

objective/kl)ªRB°“ìð'       »á±F	sp»Ûl ÙA*

objective/kl_coef‚1M>šOŽB'       »á±F	p»Ûl ÙA*

objective/entropyØ¢Cú×„Ç/       m]P	¢p»Ûl ÙA*"
 
ppo/mean_non_score_rewardš¿« ý5%       ê¼6ó	´p»Ûl ÙA*

ppo/mean_scores@ak?ìöî·$       B+€M	Çp»Ûl ÙA*

ppo/std_scoresºE>?v²öô-       <AŠû	Úp»Ûl ÙA* 

tokens/queries_len_mean  Cþ@Éb,       ô®ÌE	íp»Ûl ÙA*

tokens/queries_len_std    öùl/       m]P	q»Ûl ÙA*"
 
tokens/responses_len_mean   Ad½øg.       ÅËWú	q»Ûl ÙA*!

tokens/responses_len_std    Öôói%       ê¼6ó	$q»Ûl ÙA*

ppo/loss/policyùRž½.!YB$       B+€M	×s»Ûl ÙA*

ppo/loss/valueŠ¯@?¿ëÛ$       B+€M	Dv»Ûl ÙA*

ppo/loss/totalQ‡ð>‹'Ã2(       ÿpJ	Ûv»Ûl ÙA*

ppo/policy/entropy˜ ×@Úä5§)       7ÿ_ 	Tw»Ûl ÙA*

ppo/policy/approxklEZ¼>‘¸ ›)       7ÿ_ 	½w»Ûl ÙA*

ppo/policy/policyklÁ&>kœ{ï)       7ÿ_ 	"x»Ûl ÙA*

ppo/policy/clipfracÍL?lòÚB0       •õÐ_	Šx»Ûl ÙA*#
!
ppo/policy/advantages_meanff¦±Ø\Y°&       sOã 	öx»Ûl ÙA*

ppo/returns/mean¸œpÀÉhZ%       ê¼6ó	cy»Ûl ÙA*

ppo/returns/vartÐ@=Ã¢#       °ŸwC	Ìy»Ûl ÙA*

ppo/val/vpred÷†
À{Åÿ#       °ŸwC	1z»Ûl ÙA*

ppo/val/errorL#ù@öMÒ§&       sOã 	–z»Ûl ÙA*

ppo/val/clipfrac43?›:‚F"       x=ý	÷z»Ûl ÙA*

ppo/val/mean‹§¿$Y¬o!       {ìö	Y{»Ûl ÙA*

ppo/val/var¬b·>E)i+       †ÃK	¿{»Ûl ÙA*

ppo/val/var_explainedH+J¾bRƒ'       »á±F	#|»Ûl ÙA*

ppo/learning_rateÀÏ¸:xÍ=l+       †ÃK	ƒ|»Ûl ÙA*

time/ppo/forward_pass`u>ÍÝ .       ÅËWú	ê|»Ûl ÙA*!

time/ppo/compute_rewards 0Ý:ŸFÉ+1       ƒƒé	P}»Ûl ÙA*$
"
time/ppo/compute_advantages Ô_;‘cÉ,       ô®ÌE	Æ}»Ûl ÙA*

time/ppo/optimize_step‚J³?”^k)       7ÿ_ 	(~»Ûl ÙA*

time/ppo/calc_statsP]>î‰7É$       B+€M	Œ~»Ûl ÙA*

time/ppo/totalÎ9î?§*mX%       ê¼6ó	û~»Ûl ÙA*

env/reward_mean@ak?š¨$       B+€M	T»Ûl ÙA*

env/reward_stdºE>?è!7Ÿ"       x=ý	)H?çl ÙA*

objective/kl¸ bB¶ð6…'       »á±F	H?çl ÙA*

objective/kl_coef SM>ç×p '       »á±F	©H?çl ÙA*

objective/entropy£Cíñdã/       m]P	¼H?çl ÙA*"
 
ppo/mean_non_score_reward³¿®™5%       ê¼6ó	ÎH?çl ÙA*

ppo/mean_scoresÌ©˜?ï¬tw$       B+€M	àH?çl ÙA*

ppo/std_scoresp³?<ˆC -       <AŠû	òH?çl ÙA* 

tokens/queries_len_mean  CÃ~$&,       ô®ÌE	I?çl ÙA*

tokens/queries_len_std    —ñÉ/       m]P	I?çl ÙA*"
 
tokens/responses_len_mean   A"c½.       ÅËWú	$I?çl ÙA*!

tokens/responses_len_std    šº*J%       ê¼6ó	6I?çl ÙA*

ppo/loss/policy«k™½Fr$       B+€M	7K?çl ÙA*

ppo/loss/value€“¥@u†8Å$       B+€M	àM?çl ÙA*

ppo/loss/total‘â>®Å‹(       ÿpJ	N?çl ÙA*

ppo/policy/entropy±Ë@ˆ×Ø)       7ÿ_ 	N?çl ÙA*

ppo/policy/approxklêÓ>ñã±J)       7ÿ_ 	NP?çl ÙA*

ppo/policy/policykl`Œ4>qB™N)       7ÿ_ 	xP?çl ÙA*

ppo/policy/clipfracÍL?(]‘0       •õÐ_	P?çl ÙA*#
!
ppo/policy/advantages_meangfÚ³{;Ø&       sOã 	£P?çl ÙA*

ppo/returns/meanà„ÀÛÇ|x%       ê¼6ó	´P?çl ÙA*

ppo/returns/var¨Ab‚Ó#       °ŸwC	ÄP?çl ÙA*

ppo/val/vpred¶ª0À]{¿#       °ŸwC	Q?çl ÙA*

ppo/val/errorá.
A5¨î&       sOã 	yQ?çl ÙA*

ppo/val/clipfrac  	?ŒùÅm"       x=ý	ÍQ?çl ÙA*

ppo/val/mean¤À™:
!       {ìö	 R?çl ÙA*

ppo/val/vardK5?²Õ…+       †ÃK	wR?çl ÙA*

ppo/val/var_explainedà§Ý<¦¶ì'       »á±F	ÍR?çl ÙA*

ppo/learning_rateÀÏ¸:É÷žä+       †ÃK	 S?çl ÙA*

time/ppo/forward_pass {>p¤œ>.       ÅËWú	uS?çl ÙA*!

time/ppo/compute_rewards ÈÑ:¦°¯1       ƒƒé	ÊS?çl ÙA*$
"
time/ppo/compute_advantages n;¹ÄUu,       ô®ÌE	T?çl ÙA*

time/ppo/optimize_stepÆU­?¨l±È)       7ÿ_ 	‚T?çl ÙA*

time/ppo/calc_statsÀÉ_>â	†2$       B+€M	ÕT?çl ÙA*

time/ppo/total^]é?üŽý—%       ê¼6ó	YU?çl ÙA*

env/reward_meanÌ©˜?gV2$       B+€M	kU?çl ÙA*

env/reward_stdp³?I.>Z"       x=ý	¸Úòl ÙA*

objective/kl°fB=&ê_'       »á±F	€Úòl ÙA*

objective/kl_coefÄtM>*q”'       »á±F	=€Úòl ÙA*

objective/entropy8êòB'æ“/       m]P	U€Úòl ÙA*"
 
ppo/mean_non_score_rewardPX¿“‘bÖ%       ê¼6ó	j€Úòl ÙA*

ppo/mean_scores-~L?ÔYU$       B+€M	}€Úòl ÙA*

ppo/std_scoresIÐ!?&àhë-       <AŠû	€Úòl ÙA* 

tokens/queries_len_mean  CÖãúú,       ô®ÌE	¡€Úòl ÙA*

tokens/queries_len_std    öU¹U/       m]P	µ€Úòl ÙA*"
 
tokens/responses_len_mean ÀŸA€k4.       ÅËWú	Æ€Úòl ÙA*!

tokens/responses_len_stdó5>¤×à%       ê¼6ó	×€Úòl ÙA*

ppo/loss/policy5´¶½‰ÄÍ$       B+€M	þ‚Úòl ÙA*

ppo/loss/valueß‹@>YFñ$       B+€M	ˆÚòl ÙA*

ppo/loss/total%™¹>ÃO(       ÿpJ	FˆÚòl ÙA*

ppo/policy/entropyjú¹@äÀH)       7ÿ_ 	_ˆÚòl ÙA*

ppo/policy/approxklžŸË>QÛ5)       7ÿ_ 	rˆÚòl ÙA*

ppo/policy/policyklnKL>Æ3³H)       7ÿ_ 	‘ˆÚòl ÙA*

ppo/policy/clipfracÐ…?ll ~0       •õÐ_	£ˆÚòl ÙA*#
!
ppo/policy/advantages_mean3û
+&       sOã 	¸ˆÚòl ÙA*

ppo/returns/mean«,À,â%       ê¼6ó	ÊˆÚòl ÙA*

ppo/returns/varTôAÝ<c#       °ŸwC	ÙˆÚòl ÙA*

ppo/val/vpredÞIÀÄë	~#       °ŸwC	èˆÚòl ÙA*

ppo/val/error“ûÔ@	ñdm&       sOã 	B‹Úòl ÙA*

ppo/val/clipfracÃg?ÁirÄ"       x=ý	l‹Úòl ÙA*

ppo/val/meanùÁ%À¨÷0!       {ìö	ƒ‹Úòl ÙA*

ppo/val/varlCÞ?MfËp+       †ÃK	øÚòl ÙA*

ppo/val/var_explainedjÛ‡>elÐ%'       »á±F	!ŽÚòl ÙA*

ppo/learning_rateÀÏ¸:-œ§—+       †ÃK	6ŽÚòl ÙA*

time/ppo/forward_pass€¡q>èË.       ÅËWú	‘Úòl ÙA*!

time/ppo/compute_rewards  í:3À1       ƒƒé	-‘Úòl ÙA*$
"
time/ppo/compute_advantages ”\;C/ì,       ô®ÌE	D‘Úòl ÙA*

time/ppo/optimize_stepÎX?`ÖÒ)       7ÿ_ 	U‘Úòl ÙA*

time/ppo/calc_stats×]>dfÇX$       B+€M	~“Úòl ÙA*

time/ppo/total ó×?^ C%       ê¼6ó	¦“Úòl ÙA*

env/reward_mean-~L?1Þx$       B+€M	º“Úòl ÙA*

env/reward_stdIÐ!?µf_˜"       x=ý	’^ˆþl ÙA	*

objective/klíl{BÏ0‚'       »á±F	ö^ˆþl ÙA	*

objective/kl_coefm–M>F–€a'       »á±F	_ˆþl ÙA	*

objective/entropyþµãBüÙ…/       m]P	'_ˆþl ÙA	*"
 
ppo/mean_non_score_reward*y&¿H2Æé%       ê¼6ó	;_ˆþl ÙA	*

ppo/mean_scores™š?é¾1ù$       B+€M	Q_ˆþl ÙA	*

ppo/std_scoresÔ*¤?;„Át-       <AŠû	c_ˆþl ÙA	* 

tokens/queries_len_mean  C‰íf¬,       ô®ÌE	u_ˆþl ÙA	*

tokens/queries_len_std    ²¡èx/       m]P	ˆ_ˆþl ÙA	*"
 
tokens/responses_len_mean @›Aw(6.       ÅËWú	š_ˆþl ÙA	*!

tokens/responses_len_stdçî@@a½%       ê¼6ó	¬_ˆþl ÙA	*

ppo/loss/policy’«‡½ oq6$       B+€M	bˆþl ÙA	*

ppo/loss/valueèw}@ÊÜO$       B+€M	àfˆþl ÙA	*

ppo/loss/totalnÛ¨>7"7(       ÿpJ	gˆþl ÙA	*

ppo/policy/entropyŠË¤@ Z)       7ÿ_ 	"gˆþl ÙA	*

ppo/policy/approxkl%ûÏ?Q¡ w)       7ÿ_ 	4gˆþl ÙA	*

ppo/policy/policyklÑ$7?œmLs)       7ÿ_ 	Dgˆþl ÙA	*

ppo/policy/clipfrac?8P#ê0       •õÐ_	Xgˆþl ÙA	*#
!
ppo/policy/advantages_mean}u³¨îÉW&       sOã 	jgˆþl ÙA	*

ppo/returns/mean¬Ø˜Àôüä%%       ê¼6ó	{gˆþl ÙA	*

ppo/returns/var,±LA¾p…#       °ŸwC	gˆþl ÙA	*

ppo/val/vpred7‹À´­#       °ŸwC	gˆþl ÙA	*

ppo/val/errorZˆ™@çòó¯&       sOã 	jˆþl ÙA	*

ppo/val/clipfracVÁ÷>T9Ä{"       x=ý	:jˆþl ÙA	*

ppo/val/mean!_ÀmAß!       {ìö	Rjˆþl ÙA	*

ppo/val/varrU7@cýn<+       †ÃK	cjˆþl ÙA	*

ppo/val/var_explainedÔý?pè'       »á±F	sjˆþl ÙA	*

ppo/learning_rateÀÏ¸:ªŒ®+       †ÃK	ƒjˆþl ÙA	*

time/ppo/forward_pass`…r>úêQÞ.       ÅËWú	•jˆþl ÙA	*!

time/ppo/compute_rewards €Ò:že¸1       ƒƒé	–nˆþl ÙA	*$
"
time/ppo/compute_advantages üZ;¹šsà,       ô®ÌE	Ànˆþl ÙA	*

time/ppo/optimize_stepB·¥?©¤ )       7ÿ_ 	Önˆþl ÙA	*

time/ppo/calc_statsPÔ\>gÊ^â$       B+€M	ênˆþl ÙA	*

time/ppo/total Gà?B{i%       ê¼6ó	ünˆþl ÙA	*

env/reward_mean™š?¥³Ï<$       B+€M	oˆþl ÙA	*

env/reward_stdÔ*¤?ÌðF"       x=ý	ù X5m ÙA
*

objective/kl°ŠBõ–÷'       »á±F	[!X5m ÙA
*

objective/kl_coef¸M>…S‡U'       »á±F	v!X5m ÙA
*

objective/entropyª7ØB{Í/       m]P	‹!X5m ÙA
*"
 
ppo/mean_non_score_reward‘1¿OÃLW%       ê¼6ó	Ÿ!X5m ÙA
*

ppo/mean_scoresD*j?`:÷ö$       B+€M	·!X5m ÙA
*

ppo/std_scores‹€?ÙW-       <AŠû	É!X5m ÙA
* 

tokens/queries_len_mean  C™åÉú,       ô®ÌE	Ù!X5m ÙA
*

tokens/queries_len_std    Ž¯®S/       m]P	ë!X5m ÙA
*"
 
tokens/responses_len_mean   AhÆ.       ÅËWú	û!X5m ÙA
*!

tokens/responses_len_std    BkÀŠ%       ê¼6ó	"X5m ÙA
*

ppo/loss/policy%0;‚[s¬$       B+€M	$X5m ÙA
*

ppo/loss/valueÂM@óPë¢$       B+€M	¤'X5m ÙA
*

ppo/loss/totalCè>ŽÃë(       ÿpJ	Ï'X5m ÙA
*

ppo/policy/entropyŒ®@ç Ž)       7ÿ_ 	=,X5m ÙA
*

ppo/policy/approxklÓ*@ëíÿ)       7ÿ_ 	l,X5m ÙA
*

ppo/policy/policykl‹&\?¬°Jp)       7ÿ_ 	,X5m ÙA
*

ppo/policy/clipfrac33÷>ƒÃò0       •õÐ_	•,X5m ÙA
*#
!
ppo/policy/advantages_mean  $³c])&       sOã 	«,X5m ÙA
*

ppo/returns/mean±$£ÀÏî'v%       ê¼6ó	¼,X5m ÙA
*

ppo/returns/var·ðTA"b\¤#       °ŸwC	Í,X5m ÙA
*

ppo/val/vpred÷ŒÀ½}‹A#       °ŸwC	Ü,X5m ÙA
*

ppo/val/error¿`Ã@tÃõ•&       sOã 	ë,X5m ÙA
*

ppo/val/clipfrac  Ü>˜õÊ"       x=ý	ü,X5m ÙA
*

ppo/val/meanKªWÀFÎŸE!       {ìö	ï.X5m ÙA
*

ppo/val/var‰v@0à‘+       †ÃK	/X5m ÙA
*

ppo/val/var_explainedŽ
?Lôj«'       »á±F	-/X5m ÙA
*

ppo/learning_rateÀÏ¸:«nó +       †ÃK	=/X5m ÙA
*

time/ppo/forward_passÐÃh>®hôÁ.       ÅËWú	ì/X5m ÙA
*!

time/ppo/compute_rewards ˆÒ:Æ<é1       ƒƒé	ÿ/X5m ÙA
*$
"
time/ppo/compute_advantages [;ÖÝuO,       ô®ÌE	Z0X5m ÙA
*

time/ppo/optimize_stepPÕ™?†D‡È)       7ÿ_ 	³0X5m ÙA
*

time/ppo/calc_stats€QW>êé¯$       B+€M	1X5m ÙA
*

time/ppo/total:|Ò?åã%       ê¼6ó	i1X5m ÙA
*

env/reward_meanD*j?\rà$       B+€M	À1X5m ÙA
*

env/reward_std‹€?”W"       x=ý	­Om ÙA*

objective/kl
—oB•Æ8'       »á±F	­Om ÙA*

objective/kl_coefÑÙM>îÔáv'       »á±F	°­Om ÙA*

objective/entropyøµBó³
{/       m]P	Ç­Om ÙA*"
 
ppo/mean_non_score_reward¤R5¿ý2žr%       ê¼6ó	Þ­Om ÙA*

ppo/mean_scoresiñ?;a¦$       B+€M	ñ­Om ÙA*

ppo/std_scoresN„t?^`-       <AŠû	­Om ÙA* 

tokens/queries_len_mean  C
·[þ,       ô®ÌE	­Om ÙA*

tokens/queries_len_std    kŠ‡ü/       m]P	+­Om ÙA*"
 
tokens/responses_len_mean  ˆAc4+Ý.       ÅËWú	<­Om ÙA*!

tokens/responses_len_std{“½@¼È9%       ê¼6ó	P­Om ÙA*

ppo/loss/policyq¸½öXn$       B+€M	Ž­Om ÙA*

ppo/loss/value&›L@$Ó-Æ$       B+€M	¾­Om ÙA*

ppo/loss/totall>Øü‚((       ÿpJ	6­Om ÙA*

ppo/policy/entropyÒÂ‰@Ýý•9)       7ÿ_ 	I­Om ÙA*

ppo/policy/approxklìÛ?Œ"±)       7ÿ_ 	x­Om ÙA*

ppo/policy/policykl^?=.Çz)       7ÿ_ 	‘­Om ÙA*

ppo/policy/clipfrac   ?¨ž360       •õÐ_	©­Om ÙA*#
!
ppo/policy/advantages_mean   3¬¤*&       sOã 	¼­Om ÙA*

ppo/returns/meanqÂ—ÀGíL%       ê¼6ó	Ï­Om ÙA*

ppo/returns/var8>ZA  	‚#       °ŸwC	á­Om ÙA*

ppo/val/vpredîë„À=‡½Z#       °ŸwC	õ­Om ÙA*

ppo/val/error³ñ²@'Úö‡&       sOã 	O ­Om ÙA*

ppo/val/clipfrac´´Ô>?ÐÛz"       x=ý	° ­Om ÙA*

ppo/val/meanxÀÙb@T!       {ìö	
!­Om ÙA*

ppo/val/var2g‚@äO%ì+       †ÃK	g!­Om ÙA*

ppo/val/var_explained„? ¤'       »á±F	×!­Om ÙA*

ppo/learning_rateÀÏ¸:G20™+       †ÃK	/"­Om ÙA*

time/ppo/forward_pass Ðd>Ž(Ù.       ÅËWú	Œ"­Om ÙA*!

time/ppo/compute_rewards ¨Ô:]8ç 1       ƒƒé	ç"­Om ÙA*$
"
time/ppo/compute_advantages üS;Û„²Ø,       ô®ÌE	>#­Om ÙA*

time/ppo/optimize_step¶Ñ’?¼&hB)       7ÿ_ 	•#­Om ÙA*

time/ppo/calc_statsbL>ƒÖ~$       B+€M	ñ#­Om ÙA*

time/ppo/totalš™É?×:*~%       ê¼6ó	J$­Om ÙA*

env/reward_meaniñ?³úÂÑ$       B+€M	¡$­Om ÙA*

env/reward_stdN„t?…‹ƒÌ"       x=ý	£~Qm ÙA*

objective/klûuAÇ‘³’'       »á±F	k£~Qm ÙA*

objective/kl_coef‹ûM>6;í»'       »á±F	†£~Qm ÙA*

objective/entropy™ã)?f÷	/       m]P	š£~Qm ÙA*"
 
ppo/mean_non_score_rewardàøì¿›È%       ê¼6ó	¬£~Qm ÙA*

ppo/mean_scoresyÊ·<’$Z$       B+€M	¿£~Qm ÙA*

ppo/std_scores¶õ>šo½¿-       <AŠû	Ð£~Qm ÙA* 

tokens/queries_len_mean  C2©ÁÛ,       ô®ÌE	â£~Qm ÙA*

tokens/queries_len_std    `C¶_/       m]P	ô£~Qm ÙA*"
 
tokens/responses_len_mean  ˆ?Éá.       ÅËWú	¤~Qm ÙA*!

tokens/responses_len_stdóµ>6¼J¸%       ê¼6ó	¤~Qm ÙA*

ppo/loss/policy¸>Ó,ù\$       B+€M	Y¦~Qm ÙA*

ppo/loss/value­w°Aøæ$       B+€M	é¨~Qm ÙA*

ppo/loss/total@Õ»c°(       ÿpJ	©~Qm ÙA*

ppo/policy/entropyÖb>¯ÛV¨)       7ÿ_ 	-©~Qm ÙA*

ppo/policy/approxklÚPBÌÜm[)       7ÿ_ 	 ©~Qm ÙA*

ppo/policy/policykl?AabV)       7ÿ_ 	4«~Qm ÙA*

ppo/policy/clipfracÓÒR=È˜Š0       •õÐ_	a«~Qm ÙA*#
!
ppo/policy/advantages_mean---´„A™ò&       sOã 	{«~Qm ÙA*

ppo/returns/meaní¿÷¿†Ë†ä%       ê¼6ó	«~Qm ÙA*

ppo/returns/varÜg-=’ºù#       °ŸwC	 «~Qm ÙA*

ppo/val/vpredS˜ÀžõD>#       °ŸwC	¯«~Qm ÙA*

ppo/val/error²(]A¹¹»&       sOã 	¬~Qm ÙA*

ppo/val/clipfrac  @?¨ùY"       x=ý	f¬~Qm ÙA*

ppo/val/meanÁ“»!       {ìö	»¬~Qm ÙA*

ppo/val/varNÅ>ËkœL+       †ÃK	­~Qm ÙA*

ppo/val/var_explainedÎ¿¢Ã%Ÿ'Ï'       »á±F	f­~Qm ÙA*

ppo/learning_rateÀÏ¸:‹†ê™+       †ÃK	¼­~Qm ÙA*

time/ppo/forward_passQ>11œ.       ÅËWú	®~Qm ÙA*!

time/ppo/compute_rewards  ä:Ö¸'à1       ƒƒé	i®~Qm ÙA*$
"
time/ppo/compute_advantages DN;Yo6«,       ô®ÌE	¼®~Qm ÙA*

time/ppo/optimize_stepZ‡?u²O
)       7ÿ_ 	¯~Qm ÙA*

time/ppo/calc_stats€8>i¥ëa$       B+€M	b¯~Qm ÙA*

time/ppo/totalìô¸?­•%       ê¼6ó	¶¯~Qm ÙA*

env/reward_meanyÊ·<á Ä´$       B+€M	°~Qm ÙA*

env/reward_std¶õ>z"       x=ý	¡N
^m ÙA*

objective/klí[}B•` «'       »á±F	O
^m ÙA*

objective/kl_coefJN>ÁOcå'       »á±F	!O
^m ÙA*

objective/entropyŽhAÎø/       m]P	4O
^m ÙA*"
 
ppo/mean_non_score_reward»³#¿Ã¾±%       ê¼6ó	HO
^m ÙA*

ppo/mean_scores†f?÷× P$       B+€M	]O
^m ÙA*

ppo/std_scoresÇŠ’>ZÞÒR-       <AŠû	oO
^m ÙA* 

tokens/queries_len_mean  C®:ýo,       ô®ÌE	€O
^m ÙA*

tokens/queries_len_std    Zy`­/       m]P	’O
^m ÙA*"
 
tokens/responses_len_mean €ŸAU¼.       ÅËWú	¤O
^m ÙA*!

tokens/responses_len_stdóµ>‰«N%       ê¼6ó	µO
^m ÙA*

ppo/loss/policy'qÍ0ï¦Öv$       B+€M	öQ
^m ÙA*

ppo/loss/valueñr?‹ ù$       B+€M	)U
^m ÙA*

ppo/loss/totalŽ¥Á=„`°B(       ÿpJ	TU
^m ÙA*

ppo/policy/entropy*wX?á»å)       7ÿ_ 	kU
^m ÙA*

ppo/policy/approxkli÷Å>¢€)       7ÿ_ 	|U
^m ÙA*

ppo/policy/policykl †K:D1é)       7ÿ_ 	U
^m ÙA*

ppo/policy/clipfrac°ÜS=«àÆ0       •õÐ_	¢U
^m ÙA*#
!
ppo/policy/advantages_meanf€ ±Cª×à&       sOã 	³U
^m ÙA*

ppo/returns/mean^OÀb£ý%       ê¼6ó	ÄU
^m ÙA*

ppo/returns/var¤dAÝ£+ƒ#       °ŸwC	ÖU
^m ÙA*

ppo/val/vpredªù¿c˜¶@#       °ŸwC	æU
^m ÙA*

ppo/val/errorZSä@&öHf&       sOã 	5V
^m ÙA*

ppo/val/clipfracË=>ü@h"       x=ý	‹V
^m ÙA*

ppo/val/mean6aÀ…°¾!       {ìö	âV
^m ÙA*

ppo/val/varÔ_%?ºZ™s+       †ÃK	9W
^m ÙA*

ppo/val/var_explainedÈñ=·ZØ7'       »á±F	W
^m ÙA*

ppo/learning_rateÀÏ¸:®Ë$„+       †ÃK	åW
^m ÙA*

time/ppo/forward_passÀd>çñ2.       ÅËWú	<X
^m ÙA*!

time/ppo/compute_rewards Ü:ßeÁs1       ƒƒé	©X
^m ÙA*$
"
time/ppo/compute_advantages ˆS;†»f?,       ô®ÌE	Y
^m ÙA*

time/ppo/optimize_step~’?Ÿ®ˆU)       7ÿ_ 	¢Y
^m ÙA*

time/ppo/calc_stats/D>»²÷u$       B+€M	´Y
^m ÙA*

time/ppo/total¶'È?«šQ%       ê¼6ó		Z
^m ÙA*

env/reward_mean†f?$¿ïá$       B+€M	cZ
^m ÙA*

env/reward_stdÇŠ’>Š„4"       x=ý	I‡Ûjm ÙA*

objective/klù¹¥BõÃHq'       »á±F	´‡Ûjm ÙA*

objective/kl_coef?N>dz'       »á±F	Ñ‡Ûjm ÙA*

objective/entropy•1ÿAq—Ÿ/       m]P	æ‡Ûjm ÙA*"
 
ppo/mean_non_score_rewardÀ U¿1Ùx%       ê¼6ó	ú‡Ûjm ÙA*

ppo/mean_scoresÍ¨‚?Ìg¥$       B+€M	ˆÛjm ÙA*

ppo/std_scores©ë|?Ÿ9Y-       <AŠû	ˆÛjm ÙA* 

tokens/queries_len_mean  C¡#Ž,       ô®ÌE	2ˆÛjm ÙA*

tokens/queries_len_std    éÇxf/       m]P	FˆÛjm ÙA*"
 
tokens/responses_len_mean   AFþá.       ÅËWú	YˆÛjm ÙA*!

tokens/responses_len_std    n0(º%       ê¼6ó	lˆÛjm ÙA*

ppo/loss/policyÁy‚= sTù$       B+€M	éŠÛjm ÙA*

ppo/loss/valuep©ø@Ô;•$       B+€M	‹Ûjm ÙA*

ppo/loss/total,=W?¾ÅR-(       ÿpJ	VÛjm ÙA*

ppo/policy/entropy”›>)``&)       7ÿ_ 	ƒÛjm ÙA*

ppo/policy/approxklaÅArÿ`)       7ÿ_ 	›Ûjm ÙA*

ppo/policy/policykl=@Èv#l)       7ÿ_ 	®Ûjm ÙA*

ppo/policy/clipfracš™u>Ð+ï50       •õÐ_	ÂÛjm ÙA*#
!
ppo/policy/advantages_meanš™2\Çµ#&       sOã 	ØÛjm ÙA*

ppo/returns/meanMh”Àõ±\%       ê¼6ó	éÛjm ÙA*

ppo/returns/varØNAs:jf#       °ŸwC	úÛjm ÙA*

ppo/val/vpred$xÀ}80þ#       °ŸwC	_ŽÛjm ÙA*

ppo/val/error¤HJAÊ);ä&       sOã 	¼ŽÛjm ÙA*

ppo/val/clipfrac ý>ÿXž|"       x=ý	Ûjm ÙA*

ppo/val/meanôÐ¿1æ!       {ìö	uÛjm ÙA*

ppo/val/varšk?ÞG+S+       †ÃK	×Ûjm ÙA*

ppo/val/var_explained@š´<£éFø'       »á±F	2Ûjm ÙA*

ppo/learning_rateÀÏ¸:@‡7—+       †ÃK	Ûjm ÙA*

time/ppo/forward_passà˜a>pÓÌB.       ÅËWú	üÛjm ÙA*!

time/ppo/compute_rewards èÙ:ã™q¯1       ƒƒé	M‘Ûjm ÙA*$
"
time/ppo/compute_advantages ì[;ÍÔH,       ô®ÌE	J”Ûjm ÙA*

time/ppo/optimize_stepxö—?˜=Ãâ)       7ÿ_ 	¹”Ûjm ÙA*

time/ppo/calc_statsÐ;N>;g¾Å$       B+€M	A•Ûjm ÙA*

time/ppo/total ˜Î?Ið©n%       ê¼6ó	K—Ûjm ÙA*

env/reward_meanÍ¨‚?§^íÌ$       B+€M	¿—Ûjm ÙA*

env/reward_std©ë|?ætÝí"       x=ý	”¿}vm ÙA*

objective/kl$aBÿº’j'       »á±F	À}vm ÙA*

objective/kl_coefÚ`N><'ø/'       »á±F	!À}vm ÙA*

objective/entropyÚ¿X8•ä99/       m]P	6À}vm ÙA*"
 
ppo/mean_non_score_rewardc3¿s;êv%       ê¼6ó	IÀ}vm ÙA*

ppo/mean_scores–Ì>vštx$       B+€M	[À}vm ÙA*

ppo/std_scores¥Åµ<9c‰ò-       <AŠû	nÀ}vm ÙA* 

tokens/queries_len_mean  Cmƒ5R,       ô®ÌE	À}vm ÙA*

tokens/queries_len_std    æV—Î/       m]P	’À}vm ÙA*"
 
tokens/responses_len_mean   A„ße.       ÅËWú	¤À}vm ÙA*!

tokens/responses_len_std    Í½eÿ%       ê¼6ó	¸À}vm ÙA*

ppo/loss/policy9)g$       B+€M	ôÁ}vm ÙA*

ppo/loss/value\R@J½¹’$       B+€M	\Ä}vm ÙA*

ppo/loss/total1¨>Y¹—_(       ÿpJ	‹Ä}vm ÙA*

ppo/policy/entropy Èñ:¯,@)       7ÿ_ 	äÆ}vm ÙA*

ppo/policy/approxklÐ–Ž3àˆÓB)       7ÿ_ 	Ç}vm ÙA*

ppo/policy/policyklä¿C9B$iF)       7ÿ_ 	'Ç}vm ÙA*

ppo/policy/clipfrac    Y00       •õÐ_	<Ç}vm ÙA*#
!
ppo/policy/advantages_mean™™I2`l&       sOã 	OÇ}vm ÙA*

ppo/returns/meanÎk.À+4ç%       ê¼6ó	ÒÇ}vm ÙA*

ppo/returns/varxNA,#óú#       °ŸwC	VÈ}vm ÙA*

ppo/val/vpredßÀwiä#       °ŸwC	ÔÈ}vm ÙA*

ppo/val/errorë›°@ˆ×¥&       sOã 	SÉ}vm ÙA*

ppo/val/clipfracÌÌß>Åå4"       x=ý	ËÉ}vm ÙA*

ppo/val/meanxšBÀÙ?!       {ìö	HÊ}vm ÙA*

ppo/val/varÑö‚>²Í¸6+       †ÃK	ÅÊ}vm ÙA*

ppo/val/var_explained˜N´>¦.'       »á±F	>Ë}vm ÙA*

ppo/learning_rateÀÏ¸:á€;•+       †ÃK	»Ë}vm ÙA*

time/ppo/forward_pass d>ÑWÖÂ.       ÅËWú	=Ì}vm ÙA*!

time/ppo/compute_rewards 0×:bH-1       ƒƒé	¸Ì}vm ÙA*$
"
time/ppo/compute_advantages ¬V;3*`ß,       ô®ÌE	0Í}vm ÙA*

time/ppo/optimize_step|*—?
ûz)       7ÿ_ 	ªÍ}vm ÙA*

time/ppo/calc_stats¬N>Û1ð$       B+€M	EÎ}vm ÙA*

time/ppo/total’'Î?K€¦%       ê¼6ó	ÀÎ}vm ÙA*

env/reward_mean–Ì> ÙØ²$       B+€M	9Ï}vm ÙA*

env/reward_std¥Åµ<+g]"       x=ý	¸!ñ€m ÙA*

objective/klÞ)bBš_'       »á±F	&"ñ€m ÙA*

objective/kl_coefª‚N>¾2à¸'       »á±F	B"ñ€m ÙA*

objective/entropy·[‡>ÙE¥^/       m]P	W"ñ€m ÙA*"
 
ppo/mean_non_score_rewardô¿˜±XÎ%       ê¼6ó	k"ñ€m ÙA*

ppo/mean_scores[õÆ>P£ý$       B+€M	"ñ€m ÙA*

ppo/std_scores¼ãv<¦çE-       <AŠû	’"ñ€m ÙA* 

tokens/queries_len_mean  CŠ)H­,       ô®ÌE	£"ñ€m ÙA*

tokens/queries_len_std    u»”Ž/       m]P	µ"ñ€m ÙA*"
 
tokens/responses_len_mean   AÒ»?Ó.       ÅËWú	Å"ñ€m ÙA*!

tokens/responses_len_std    ëFÂ>%       ê¼6ó	Ø"ñ€m ÙA*

ppo/loss/policyËé/:S|£$       B+€M	%ñ€m ÙA*

ppo/loss/valueNàù?;Ô?«$       B+€M	 'ñ€m ÙA*

ppo/loss/total–H>(-ë(       ÿpJ	M'ñ€m ÙA*

ppo/policy/entropynx;ðË»Ü)       7ÿ_ 	f'ñ€m ÙA*

ppo/policy/approxklŸrˆ:Åd)       7ÿ_ 	w'ñ€m ÙA*

ppo/policy/policykl±~¸írÒ)       7ÿ_ 	‰'ñ€m ÙA*

ppo/policy/clipfracÍÌÌ9F>ú&0       •õÐ_	ž'ñ€m ÙA*#
!
ppo/policy/advantages_meanÍÌ42Úöá&       sOã 	(ñ€m ÙA*

ppo/returns/meanÚ¶&À²¥r%       ê¼6ó	ì)ñ€m ÙA*

ppo/returns/varGyAšG×#       °ŸwC	*ñ€m ÙA*

ppo/val/vpredoè6À9ª(#       °ŸwC	+*ñ€m ÙA*

ppo/val/erroròºH@Çt&       sOã 	=*ñ€m ÙA*

ppo/val/clipfracfæ?×Ñê"       x=ý	O*ñ€m ÙA*

ppo/val/meanÈAÀœ’]!       {ìö	_*ñ€m ÙA*

ppo/val/varP†å?æ(¬1+       †ÃK	p*ñ€m ÙA*

ppo/val/var_explained–u&?J.'       »á±F	ç*ñ€m ÙA*

ppo/learning_rateÀÏ¸:Ðµ‡<+       †ÃK	B+ñ€m ÙA*

time/ppo/forward_pass0¸h>CScÑ.       ÅËWú	¡+ñ€m ÙA*!

time/ppo/compute_rewards èØ:Wõr1       ƒƒé	û+ñ€m ÙA*$
"
time/ppo/compute_advantages ÈZ;‰$û!,       ô®ÌE	V,ñ€m ÙA*

time/ppo/optimize_stepÈò—?({)       7ÿ_ 	.ñ€m ÙA*

time/ppo/calc_statsPCZ>êOsJ$       B+€M	y.ñ€m ÙA*

time/ppo/totalFøÐ?|â!}%       ê¼6ó	Ü.ñ€m ÙA*

env/reward_mean[õÆ>Ê¡÷$       B+€M	7/ñ€m ÙA*

env/reward_std¼ãv<¸ÐÜ"       x=ý	‰ülŒm ÙA*

objective/klÈ#aB·ÇGs'       »á±F	÷ülŒm ÙA*

objective/kl_coef€¤N>y+KÎ'       »á±F	ýlŒm ÙA*

objective/entropyJGÂ9ËÜ‹/       m]P	-ýlŒm ÙA*"
 
ppo/mean_non_score_rewardÆb¿À˜O›%       ê¼6ó	?ýlŒm ÙA*

ppo/mean_scores¨%Ì>» °ƒ$       B+€M	PýlŒm ÙA*

ppo/std_scoresþJ¿;"Ý·-       <AŠû	aýlŒm ÙA* 

tokens/queries_len_mean  C,Ø¹x,       ô®ÌE	qýlŒm ÙA*

tokens/queries_len_std    üðÌ/       m]P	ƒýlŒm ÙA*"
 
tokens/responses_len_mean   A¹hñ¡.       ÅËWú	“ýlŒm ÙA*!

tokens/responses_len_std    ü@R%       ê¼6ó	£ýlŒm ÙA*

ppo/loss/policy  ÒµÛ…ŠÔ$       B+€M	«ÿlŒm ÙA*

ppo/loss/valuekyb?Q'QN$       B+€M	ÄmŒm ÙA*

ppo/loss/total-µ=~(       ÿpJ	òmŒm ÙA*

ppo/policy/entropyfÓR9g•Ñ)       7ÿ_ 	mŒm ÙA*

ppo/policy/approxkl‘GT.Ø°rt)       7ÿ_ 	mŒm ÙA*

ppo/policy/policykl¶˜e¶ò²¤)       7ÿ_ 	NmŒm ÙA*

ppo/policy/clipfrac    ZZ¾0       •õÐ_	mŒm ÙA*#
!
ppo/policy/advantages_meanff±GÑ&       sOã 	•mŒm ÙA*

ppo/returns/meanê„À$Ë%       ê¼6ó	¯mŒm ÙA*

ppo/returns/var‘¹ù@´œ@‹#       °ŸwC	ÜmŒm ÙA*

ppo/val/vpredÐ?
ÀÓúyG#       °ŸwC	T
mŒm ÙA*

ppo/val/errorÏ¿?*îŸ&       sOã 	}
mŒm ÙA*

ppo/val/clipfracff†>>Q5Û"       x=ý	”
mŒm ÙA*

ppo/val/mean†JÀª2j!       {ìö	mŒm ÙA*

ppo/val/var,ù$@u¸Š}+       †ÃK	¯mŒm ÙA*

ppo/val/var_explainedµO?† '       »á±F	ÄmŒm ÙA*

ppo/learning_rateÀÏ¸:”ñf7+       †ÃK	ÖmŒm ÙA*

time/ppo/forward_pass «a>CƒE–.       ÅËWú	çmŒm ÙA*!

time/ppo/compute_rewards @Û:;¢‡*1       ƒƒé	ømŒm ÙA*$
"
time/ppo/compute_advantages \;£]1N,       ô®ÌE	PmŒm ÙA*

time/ppo/optimize_stepv”?&=_K)       7ÿ_ 	ÔmŒm ÙA*

time/ppo/calc_stats >M>…ŽÄÍ$       B+€M	:mŒm ÙA*

time/ppo/total
ŠÊ?äJü]%       ê¼6ó	¥mŒm ÙA*

env/reward_mean¨%Ì>$¹Å$       B+€M	ùmŒm ÙA*

env/reward_stdþJ¿;.t_N"       x=ý	ñeÍ—m ÙA*

objective/kl$aB['       »á±F	_fÍ—m ÙA*

objective/kl_coef[ÆN>X$þ'       »á±F	}fÍ—m ÙA*

objective/entropyÒß¿8õ’Iå/       m]P	’fÍ—m ÙA*"
 
ppo/mean_non_score_rewardÆz¿ÑÓâ%       ê¼6ó	¥fÍ—m ÙA*

ppo/mean_scores–Ì>»#—ë$       B+€M	¸fÍ—m ÙA*

ppo/std_scores¥Åµ<=‡»-       <AŠû	ÊfÍ—m ÙA* 

tokens/queries_len_mean  C5Î,       ô®ÌE	ÝfÍ—m ÙA*

tokens/queries_len_std    Ôh/%/       m]P	ðfÍ—m ÙA*"
 
tokens/responses_len_mean   AUê„.       ÅËWú	gÍ—m ÙA*!

tokens/responses_len_std     +9=%       ê¼6ó	gÍ—m ÙA*

ppo/loss/policyÌdÚ5 Šâä$       B+€M	TjÍ—m ÙA*

ppo/loss/value*:Ý>Ý@za$       B+€M	‘mÍ—m ÙA*

ppo/loss/total	ý0=¨hò(       ÿpJ	ÁmÍ—m ÙA*

ppo/policy/entropy4l9 ïæ%)       7ÿ_ 	ÙmÍ—m ÙA*

ppo/policy/approxkláÛó-oXÛ@)       7ÿ_ 	ímÍ—m ÙA*

ppo/policy/policykl´’6Ò)g7)       7ÿ_ 	ÿmÍ—m ÙA*

ppo/policy/clipfrac    s¸n0       •õÐ_	nÍ—m ÙA*#
!
ppo/policy/advantages_meanš™!2ÿ;D&       sOã 	,nÍ—m ÙA*

ppo/returns/meanÅyÀ#Ä[‡%       ê¼6ó	AnÍ—m ÙA*

ppo/returns/varv5 A§šo#       °ŸwC	RnÍ—m ÙA*

ppo/val/vpred-q	ÀŒuìc#       °ŸwC	dnÍ—m ÙA*

ppo/val/error^Œ#?vh&       sOã 	ÏnÍ—m ÙA*

ppo/val/clipfrac43À>"Èì¯"       x=ý	/oÍ—m ÙA*

ppo/val/meanvÒÀïÙØ!       {ìö	ŒoÍ—m ÙA*

ppo/val/varÄ£@ÊKj+       †ÃK	ìoÍ—m ÙA*

ppo/val/var_explainedú–k?r¹Tm'       »á±F	IpÍ—m ÙA*

ppo/learning_rateÀÏ¸:Ìÿ+       †ÃK	¢pÍ—m ÙA*

time/ppo/forward_pass€šb>3
4.       ÅËWú	qÍ—m ÙA*!

time/ppo/compute_rewards ÀØ:Üº]¥1       ƒƒé	ZqÍ—m ÙA*$
"
time/ppo/compute_advantages Ðl;Ôœ>k,       ô®ÌE	²qÍ—m ÙA*

time/ppo/optimize_step|1•?¥Övø)       7ÿ_ 	rÍ—m ÙA*

time/ppo/calc_stats-P>g`?X$       B+€M	brÍ—m ÙA*

time/ppo/total¦9Ì?O•ƒ%       ê¼6ó	¸rÍ—m ÙA*

env/reward_mean–Ì>$aÛ$       B+€M	sÍ—m ÙA*

env/reward_std¥Åµ<eS¢À"       x=ý	çZ,£m ÙA*

objective/kl$$aB'o<'       »á±F	Q[,£m ÙA*

objective/kl_coef<èN>þø³Ü'       »á±F	o[,£m ÙA*

objective/entropyô?Ã7Á%öF/       m]P	„[,£m ÙA*"
 
ppo/mean_non_score_reward¨’¿q¥ìi%       ê¼6ó	›[,£m ÙA*

ppo/mean_scores–Ì>£µ$       B+€M	­[,£m ÙA*

ppo/std_scores¥Åµ<ä–v¤-       <AŠû	¾[,£m ÙA* 

tokens/queries_len_mean  CpóNh,       ô®ÌE	Ñ[,£m ÙA*

tokens/queries_len_std    ?®R/       m]P	ä[,£m ÙA*"
 
tokens/responses_len_mean   A‹zß..       ÅËWú	ö[,£m ÙA*!

tokens/responses_len_std    P»+%       ê¼6ó	\,£m ÙA*

ppo/loss/policyÍÌæ3€Ý¿$       B+€M	^,£m ÙA*

ppo/loss/valueè´`>÷úw¬$       B+€M	­^,£m ÙA*

ppo/loss/total&Ä³<mK	W(       ÿpJ	6a,£m ÙA*

ppo/policy/entropy4c¡7wÍ)       7ÿ_ 	ba,£m ÙA*

ppo/policy/approxkl
³*\js%)       7ÿ_ 	za,£m ÙA*

ppo/policy/policyklPÌì2fÆ)       7ÿ_ 	te,£m ÙA*

ppo/policy/clipfrac    …Öïç0       •õÐ_	£e,£m ÙA*#
!
ppo/policy/advantages_mean33ó2…É”&       sOã 	¼e,£m ÙA*

ppo/returns/mean\cÀqµŸa%       ê¼6ó	Ïe,£m ÙA*

ppo/returns/varÄˆù@°cÜ(#       °ŸwC	áe,£m ÙA*

ppo/val/vpredŽäÀí°#       °ŸwC	óe,£m ÙA*

ppo/val/errorJ
Ó>ÎP1&       sOã 	f,£m ÙA*

ppo/val/clipfracgf™>þR¿ú"       x=ý	f,£m ÙA*

ppo/val/meanóÀ~Eˆ$!       {ìö	'f,£m ÙA*

ppo/val/varè0Å@BÙ+       †ÃK	8f,£m ÙA*

ppo/val/var_explainedÝwr?:)p'       »á±F	h,£m ÙA*

ppo/learning_rateÀÏ¸:Qý9S+       †ÃK	«h,£m ÙA*

time/ppo/forward_pass f>ÒkÚ.       ÅËWú	Åh,£m ÙA*!

time/ppo/compute_rewards h-;6–©@1       ƒƒé	Øh,£m ÙA*$
"
time/ppo/compute_advantages Y;$ä×,       ô®ÌE	êh,£m ÙA*

time/ppo/optimize_step4 •?%‡²)       7ÿ_ 	ûh,£m ÙA*

time/ppo/calc_stats`gQ>×,q$       B+€M	oi,£m ÙA*

time/ppo/totaljÕÌ?7u~o%       ê¼6ó	Ëi,£m ÙA*

env/reward_mean–Ì>rP&Ø$       B+€M	#j,£m ÙA*

env/reward_std¥Åµ<êÊ÷ö"       x=ý	Št®m ÙA*

objective/kl#$aB»åå''       »á±F	ðt®m ÙA*

objective/kl_coef"
O>Ò–‘'       »á±F	
t®m ÙA*

objective/entropyô¿¸7þ‡ /       m]P	t®m ÙA*"
 
ppo/mean_non_score_reward‚ª¿»èÄ%       ê¼6ó	3t®m ÙA*

ppo/mean_scores¨%Ì>uÚí$       B+€M	Ft®m ÙA*

ppo/std_scoresþJ¿;ƒº±-       <AŠû	Xt®m ÙA* 

tokens/queries_len_mean  CÒ~ð,       ô®ÌE	mt®m ÙA*

tokens/queries_len_std    PÕ†/       m]P	t®m ÙA*"
 
tokens/responses_len_mean   A‚gÁR.       ÅËWú	t®m ÙA*!

tokens/responses_len_std    iü€%       ê¼6ó	 t®m ÙA*

ppo/loss/policyffý4«ùö#$       B+€M	Ót®m ÙA*

ppo/loss/value¦›>µX<$       B+€M	wt®m ÙA*

ppo/loss/totalûx<•œ¹Ä(       ÿpJ	¤t®m ÙA*

ppo/policy/entropy3C8ú
o)       7ÿ_ 	»t®m ÙA*

ppo/policy/approxklÆ¿É+H4j»)       7ÿ_ 	Ít®m ÙA*

ppo/policy/policykl|57T2)       7ÿ_ 	Þt®m ÙA*

ppo/policy/clipfrac    WZ×0       •õÐ_	ðt®m ÙA*#
!
ppo/policy/advantages_meanš™™1‹Dm&       sOã 	t®m ÙA*

ppo/returns/meanm
ÀDj¦%       ê¼6ó	t®m ÙA*

ppo/returns/var&ÿ@<|Ñþ#       °ŸwC	&t®m ÙA*

ppo/val/vpred‰!À² —#       °ŸwC	¥t®m ÙA*

ppo/val/error&·‡>9¶é’&       sOã 	Òt®m ÙA*

ppo/val/clipfracš™¬>öË©"       x=ý	æt®m ÙA*

ppo/val/mean¦ÛÀ&­øÞ!       {ìö	÷t®m ÙA*

ppo/val/var¯ö@†np+       †ÃK	J!t®m ÙA*

ppo/val/var_explainedS}w?ôÈnT'       »á±F	v!t®m ÙA*

ppo/learning_rateÀÏ¸:Ï‰Ú+       †ÃK	‹!t®m ÙA*

time/ppo/forward_passg\>=-³s.       ÅËWú	á#t®m ÙA*!

time/ppo/compute_rewards Ð:e„‹/1       ƒƒé		$t®m ÙA*$
"
time/ppo/compute_advantages @U;=B,       ô®ÌE	$t®m ÙA*

time/ppo/optimize_step°µ–?ãŠëZ)       7ÿ_ 	$t®m ÙA*

time/ppo/calc_stats@G>Þ"®$       B+€M	ç$t®m ÙA*

time/ppo/totalŒÓË?ðž=%       ê¼6ó	9%t®m ÙA*

env/reward_mean¨%Ì>È¸DS$       B+€M	Š%t®m ÙA*

env/reward_stdþJ¿;¢/š¾"       x=ý	…Ÿ¹m ÙA*

objective/kl%$aBVü)Ð'       »á±F	p…Ÿ¹m ÙA*

objective/kl_coef,O>N'       »á±F	…Ÿ¹m ÙA*

objective/entropyøÿ7ø¡–/       m]P	¦…Ÿ¹m ÙA*"
 
ppo/mean_non_score_reward`Â¿TJ#%       ê¼6ó	¹…Ÿ¹m ÙA*

ppo/mean_scores¨%Ì>‡YÐ*$       B+€M	Í…Ÿ¹m ÙA*

ppo/std_scoresþJ¿;ß-Ž»-       <AŠû	á…Ÿ¹m ÙA* 

tokens/queries_len_mean  C+å?X,       ô®ÌE	ò…Ÿ¹m ÙA*

tokens/queries_len_std    Ã´/       m]P	†Ÿ¹m ÙA*"
 
tokens/responses_len_mean   A]zý.       ÅËWú	†Ÿ¹m ÙA*!

tokens/responses_len_std    ìÍƒ¨%       ê¼6ó	&†Ÿ¹m ÙA*

ppo/loss/policy23•49hü$       B+€M	ÖˆŸ¹m ÙA*

ppo/loss/value²zó=}¾î"$       B+€M	(Ÿ¹m ÙA*

ppo/loss/total¸ÉB<­ØxS(       ÿpJ	TŸ¹m ÙA*

ppo/policy/entropy™U½7À!Ù)       7ÿ_ 	lŸ¹m ÙA*

ppo/policy/approxkl}ò0+
”Vš)       7ÿ_ 	~Ÿ¹m ÙA*

ppo/policy/policyklJæ5Ö7ç¼)       7ÿ_ 	Ÿ¹m ÙA*

ppo/policy/clipfrac    J¸“f0       •õÐ_	¢Ÿ¹m ÙA*#
!
ppo/policy/advantages_meanš™3¹»À/&       sOã 	µŸ¹m ÙA*

ppo/returns/mean+¦
Ààtˆ%       ê¼6ó	ÇŸ¹m ÙA*

ppo/returns/varŽo A,ŠVO#       °ŸwC	ØŸ¹m ÙA*

ppo/val/vpredHËÀê¶×Y#       °ŸwC	èŸ¹m ÙA*

ppo/val/errorƒˆ\>kš#@&       sOã 	)Ÿ¹m ÙA*

ppo/val/clipfracš™™>Š—Ôä"       x=ý	TŸ¹m ÙA*

ppo/val/meanZöÀÜ
G!       {ìö	”Ÿ¹m ÙA*

ppo/val/var{æA~"+       †ÃK	8”Ÿ¹m ÙA*

ppo/val/var_explained¸!y?¶Ã'       »á±F	O”Ÿ¹m ÙA*

ppo/learning_rateÀÏ¸:›…©Ÿ+       †ÃK	b”Ÿ¹m ÙA*

time/ppo/forward_passàßZ>ŒK¬Ã.       ÅËWú	u”Ÿ¹m ÙA*!

time/ppo/compute_rewards ˆÎ:JæÄÝ1       ƒƒé	ˆ”Ÿ¹m ÙA*$
"
time/ppo/compute_advantages 8P;ùpÈï,       ô®ÌE	˜”Ÿ¹m ÙA*

time/ppo/optimize_stepÈÆ“?¿åÑÐ)       7ÿ_ 	©”Ÿ¹m ÙA*

time/ppo/calc_stats`FO>÷p:$       B+€M	º”Ÿ¹m ÙA*

time/ppo/total¨©É?TÈu%       ê¼6ó	Ê”Ÿ¹m ÙA*

env/reward_mean¨%Ì>Ð#Â&$       B+€M	-–Ÿ¹m ÙA*

env/reward_stdþJ¿;ÉD,"       x=ý	]“ÉÄm ÙA*

objective/kl$$aBÙŽ¥^'       »á±F	¿“ÉÄm ÙA*

objective/kl_coefÿMO>3£ö…'       »á±F	Ù“ÉÄm ÙA*

objective/entropyô¿©7A³‚/       m]P	ë“ÉÄm ÙA*"
 
ppo/mean_non_score_reward@Ú¿‘ÙB%       ê¼6ó	ü“ÉÄm ÙA*

ppo/mean_scores–Ì>O+Ý$       B+€M	”ÉÄm ÙA*

ppo/std_scores¥Åµ<‰¯Sd-       <AŠû	”ÉÄm ÙA* 

tokens/queries_len_mean  CŒHí,       ô®ÌE	.”ÉÄm ÙA*

tokens/queries_len_std    ~Šø/       m]P	?”ÉÄm ÙA*"
 
tokens/responses_len_mean   As…°ø.       ÅËWú	O”ÉÄm ÙA*!

tokens/responses_len_std    ìƒTc%       ê¼6ó	`”ÉÄm ÙA*

ppo/loss/policyš™S5 BÛ:$       B+€M	‚–ÉÄm ÙA*

ppo/loss/valueÎÖÅ=hîD0$       B+€M	OšÉÄm ÙA*

ppo/loss/totalÀH<¨«E (       ÿpJ	yšÉÄm ÙA*

ppo/policy/entropyšß86Ä$u)       7ÿ_ 	šÉÄm ÙA*

ppo/policy/approxkl:Wí+òCA)       7ÿ_ 	¡šÉÄm ÙA*

ppo/policy/policyklÞ?…51˜)       7ÿ_ 	±šÉÄm ÙA*

ppo/policy/clipfrac    Ø.JÚ0       •õÐ_	ÄšÉÄm ÙA*#
!
ppo/policy/advantages_mean  3ÃÎZÒ&       sOã 	ÚšÉÄm ÙA*

ppo/returns/mean1Àœ '%       ê¼6ó	ëšÉÄm ÙA*

ppo/returns/varT<A$I!Ë#       °ŸwC	ûšÉÄm ÙA*

ppo/val/vpredK%ÀEŽ'#       °ŸwC	›ÉÄm ÙA*

ppo/val/error¦$>ÊÈÊe&       sOã 	wÉÄm ÙA*

ppo/val/clipfracš™Ó>|Y´"       x=ý	¡ÉÄm ÙA*

ppo/val/mean’y!À†`ß!       {ìö	¶ÉÄm ÙA*

ppo/val/varÄú@l…,+       †ÃK	 ÉÄm ÙA*

ppo/val/var_explained)èz?…[´™'       »á±F	; ÉÄm ÙA*

ppo/learning_rateÀÏ¸:§`Ìÿ+       †ÃK	P ÉÄm ÙA*

time/ppo/forward_passP£^>X=(.       ÅËWú	à¢ÉÄm ÙA*!

time/ppo/compute_rewards 8Ø:}R‘1       ƒƒé		£ÉÄm ÙA*$
"
time/ppo/compute_advantages U;_¤V”,       ô®ÌE	#£ÉÄm ÙA*

time/ppo/optimize_step6ÀŽ?Ã#Ôø)       7ÿ_ 	4£ÉÄm ÙA*

time/ppo/calc_stats€:J>Ú[›˜$       B+€M	Œ¥ÉÄm ÙA*

time/ppo/totalÊ~Ä?°ÇAŠ%       ê¼6ó	µ¥ÉÄm ÙA*

env/reward_mean–Ì>>¿1Y$       B+€M	Ê¥ÉÄm ÙA*

env/reward_std¥Åµ<÷KÖë"       x=ý	2ŸÐm ÙA*

objective/kl"$aBA›Äy'       »á±F	›ŸÐm ÙA*

objective/kl_coeföoO>Å»Õ'       »á±F	¸ŸÐm ÙA*

objective/entropyî?È7eJ)‡/       m]P	ÌŸÐm ÙA*"
 
ppo/mean_non_score_reward&ò¿ëÈ–‘%       ê¼6ó	ßŸÐm ÙA*

ppo/mean_scores–Ì>ã(|Å$       B+€M	ñŸÐm ÙA*

ppo/std_scores¥Åµ<jÕ^-       <AŠû	 Ðm ÙA* 

tokens/queries_len_mean  CÈú•,       ô®ÌE	 Ðm ÙA*

tokens/queries_len_std    *'0œ/       m]P	& Ðm ÙA*"
 
tokens/responses_len_mean   A­b.       ÅËWú	6 Ðm ÙA*!

tokens/responses_len_std    œÄä %       ê¼6ó	G Ðm ÙA*

ppo/loss/policyÍ<26\°ÐY$       B+€M	o¢Ðm ÙA*

ppo/loss/valueC;œ=ég	4$       B+€M	c¤Ðm ÙA*

ppo/loss/total³ú;Ðâ³é(       ÿpJ	¤Ðm ÙA*

ppo/policy/entropy­ºO8‚bÊ)       7ÿ_ 	§¤Ðm ÙA*

ppo/policy/approxkl/5g-ƒ
¤ø)       7ÿ_ 	¹¤Ðm ÙA*

ppo/policy/policyklf6c¦I)       7ÿ_ 	Ê¤Ðm ÙA*

ppo/policy/clipfrac    =nÓ•0       •õÐ_	õ¤Ðm ÙA*#
!
ppo/policy/advantages_mean™™±3á€Å4&       sOã 	E¨Ðm ÙA*

ppo/returns/meanØ¹À‹ð=ó%       ê¼6ó	u¨Ðm ÙA*

ppo/returns/varÜË AÁ¢:Š#       °ŸwC	‹¨Ðm ÙA*

ppo/val/vpredBBÀ¯ûL#       °ŸwC	¿¬Ðm ÙA*

ppo/val/error Ÿå=êà<W&       sOã 	ê¬Ðm ÙA*

ppo/val/clipfrac  ™>Ã "       x=ý	­Ðm ÙA*

ppo/val/meanË“ÀÏõÉ”!       {ìö	­Ðm ÙA*

ppo/val/varqá@ýÄ+       †ÃK	%­Ðm ÙA*

ppo/val/var_explained1o|?Ól='       »á±F	8­Ðm ÙA*

ppo/learning_rateÀÏ¸:$&~ˆ+       †ÃK	J­Ðm ÙA*

time/ppo/forward_pass Ìb>j«ÄÁ.       ÅËWú	[­Ðm ÙA*!

time/ppo/compute_rewards ÐÎ:_"51       ƒƒé	k­Ðm ÙA*$
"
time/ppo/compute_advantages Q;1l¬,       ô®ÌE	{­Ðm ÙA*

time/ppo/optimize_step*0–?ÁDa$)       7ÿ_ 	æ­Ðm ÙA*

time/ppo/calc_statsp×U>ò&~$       B+€M	F®Ðm ÙA*

time/ppo/total^ãÍ?•k%       ê¼6ó	(°Ðm ÙA*

env/reward_mean–Ì>(•÷$       B+€M	°Ðm ÙA*

env/reward_std¥Åµ<¨W¹ƒ"       x=ý	ïô.Ûm ÙA*

objective/kl$$aB59€''       »á±F	Uõ.Ûm ÙA*

objective/kl_coefó‘O>ÐõC>'       »á±F	rõ.Ûm ÙA*

objective/entropyò¿œ7Xpe/       m]P	‰õ.Ûm ÙA*"
 
ppo/mean_non_score_reward
¿ÁUã%       ê¼6ó	žõ.Ûm ÙA*

ppo/mean_scores¨%Ì>:[°$       B+€M	µõ.Ûm ÙA*

ppo/std_scoresþJ¿;Ä]õ-       <AŠû	Êõ.Ûm ÙA* 

tokens/queries_len_mean  C;#_,       ô®ÌE	ßõ.Ûm ÙA*

tokens/queries_len_std    ÀÎvÊ/       m]P	õõ.Ûm ÙA*"
 
tokens/responses_len_mean   AEŸâX.       ÅËWú	ö.Ûm ÙA*!

tokens/responses_len_std    CjY˜%       ê¼6ó	ö.Ûm ÙA*

ppo/loss/policyš97ÌÁ­4$       B+€M	±ù.Ûm ÙA*

ppo/loss/valueÅš=Ë8<´$       B+€M	àù.Ûm ÙA*

ppo/loss/totalsÅö;9@,%(       ÿpJ	ùù.Ûm ÙA*

ppo/policy/entropy0¸â8&jª)       7ÿ_ 	ú.Ûm ÙA*

ppo/policy/approxklÁÇ:/*ö‡Þ)       7ÿ_ 	 ú.Ûm ÙA*

ppo/policy/policykl)+ï6ò‘<)       7ÿ_ 	Nü.Ûm ÙA*

ppo/policy/clipfrac    ÊÚ£,0       •õÐ_	ü.Ûm ÙA*#
!
ppo/policy/advantages_meanffò²¬ƒÓ&       sOã 	ûý.Ûm ÙA*

ppo/returns/meanµËÀ+°™ã%       ê¼6ó	„þ.Ûm ÙA*

ppo/returns/varC¬A Óßy#       °ŸwC	p /Ûm ÙA*

ppo/val/vpred,€ÀÏp€û#       °ŸwC	æ /Ûm ÙA*

ppo/val/errorFê=T;‚&       sOã 	B/Ûm ÙA*

ppo/val/clipfracš™Y>ÿ}™"       x=ý	›/Ûm ÙA*

ppo/val/meanU ÀQ*'!       {ìö	ó/Ûm ÙA*

ppo/val/varj™Ý@X^¿I+       †ÃK	M/Ûm ÙA*

ppo/val/var_explainedk|?Tåâ'       »á±F	¥/Ûm ÙA*

ppo/learning_rateÀÏ¸:¤¸¼+       †ÃK	þ/Ûm ÙA*

time/ppo/forward_passPe\>:ðU.       ÅËWú	\/Ûm ÙA*!

time/ppo/compute_rewards 8Ç:ÂL¨™1       ƒƒé	´/Ûm ÙA*$
"
time/ppo/compute_advantages ØT;é™©,       ô®ÌE	
/Ûm ÙA*

time/ppo/optimize_step>5”?Qv)       7ÿ_ 	^/Ûm ÙA*

time/ppo/calc_stats oJ>`±¼$       B+€M	²/Ûm ÙA*

time/ppo/total®É?]ùåH%       ê¼6ó	/Ûm ÙA*

env/reward_mean¨%Ì>f©«ë$       B+€M	\/Ûm ÙA*

env/reward_stdþJ¿;aëìé"       x=ý	,»—æm ÙA*

objective/kl$aBè¾C'       »á±F	˜»—æm ÙA*

objective/kl_coefõ³O>»":y'       »á±F	°»—æm ÙA*

objective/entropyÄQ8‰³šO/       m]P	Â»—æm ÙA*"
 
ppo/mean_non_score_rewardø!¿a\B%       ê¼6ó	Ô»—æm ÙA*

ppo/mean_scores–Ì>æ2V$       B+€M	å»—æm ÙA*

ppo/std_scores¥Åµ<´~D‰-       <AŠû	÷»—æm ÙA* 

tokens/queries_len_mean  C²¾Ó‘,       ô®ÌE	¼—æm ÙA*

tokens/queries_len_std    C:ÇÅ/       m]P	¼—æm ÙA*"
 
tokens/responses_len_mean   A²Ç¦.       ÅËWú	*¼—æm ÙA*!

tokens/responses_len_std    ÙY	ã%       ê¼6ó	;¼—æm ÙA*

ppo/loss/policyÌ¦¿7Mu!º$       B+€M	«¾—æm ÙA*

ppo/loss/valueÏ‹“=Ù•ÖŸ$       B+€M	PÁ—æm ÙA*

ppo/loss/totalŒÒì;Õ¦ÌW(       ÿpJ	ƒÁ—æm ÙA*

ppo/policy/entropy•^ˆ9KÔ¥)       7ÿ_ 	Ä—æm ÙA*

ppo/policy/approxklÎN1NÕ”Q)       7ÿ_ 	CÄ—æm ÙA*

ppo/policy/policykl€ôŸ7`ßd)       7ÿ_ 	ZÄ—æm ÙA*

ppo/policy/clipfrac    ù¼u‚0       •õÐ_	ÒÄ—æm ÙA*#
!
ppo/policy/advantages_meanÍÌ3Ë¥³Î&       sOã 	«Æ—æm ÙA*

ppo/returns/mean¬U	À.ŽòŒ%       ê¼6ó	ØÆ—æm ÙA*

ppo/returns/var?lA½ÄXË#       °ŸwC	ñÆ—æm ÙA*

ppo/val/vpred¿hÀ¢÷Š‹#       °ŸwC	Ç—æm ÙA*

ppo/val/errorBV
>:«¹&       sOã 	Ç—æm ÙA*

ppo/val/clipfracff&>b‰ñ^"       x=ý	'Ç—æm ÙA*

ppo/val/mean¨~À~•“
!       {ìö	9Ç—æm ÙA*

ppo/val/varÞªñ@¸‡6I+       †ÃK	¡Ç—æm ÙA*

ppo/val/var_explainedÝÁ{?Ÿ@Ñ'       »á±F	ûÇ—æm ÙA*

ppo/learning_rateÀÏ¸:.€š|+       †ÃK	XÈ—æm ÙA*

time/ppo/forward_pass b>«ñ‡Œ.       ÅËWú	´È—æm ÙA*!

time/ppo/compute_rewards ˆÒ:dmy¢1       ƒƒé	
É—æm ÙA*$
"
time/ppo/compute_advantages _;Ð ,       ô®ÌE	rÉ—æm ÙA*

time/ppo/optimize_step^Éª?%W>—)       7ÿ_ 	ÂÉ—æm ÙA*

time/ppo/calc_statsàL>øéTL$       B+€M	Ê—æm ÙA*

time/ppo/totalJDá?‹Iõ%       ê¼6ó	rÊ—æm ÙA*

env/reward_mean–Ì>šó•$       B+€M	ÈÊ—æm ÙA*

env/reward_std¥Åµ<e}€"       x=ý	Ç)ûñm ÙA*

objective/kl$aB?£n›'       »á±F	2*ûñm ÙA*

objective/kl_coefýÕO>{åæ'       »á±F	K*ûñm ÙA*

objective/entropy g9˜rD/       m]P	^*ûñm ÙA*"
 
ppo/mean_non_score_rewardÝ9¿ó1+%       ê¼6ó	o*ûñm ÙA*

ppo/mean_scores–Ì>éô$       B+€M	€*ûñm ÙA*

ppo/std_scores¥Åµ<ûV	U-       <AŠû	*ûñm ÙA* 

tokens/queries_len_mean  Cé9·,       ô®ÌE	 *ûñm ÙA*

tokens/queries_len_std    äïVm/       m]P	±*ûñm ÙA*"
 
tokens/responses_len_mean   AåM".       ÅËWú	Á*ûñm ÙA*!

tokens/responses_len_std    Aó÷%       ê¼6ó	Ô*ûñm ÙA*

ppo/loss/policyÍ7xS±ò$       B+€M	7-ûñm ÙA*

ppo/loss/valueŽ]h=nŒÁ$       B+€M	’/ûñm ÙA*

ppo/loss/totalv3º;îUl(       ÿpJ	¾/ûñm ÙA*

ppo/policy/entropyy£h9”˜0M)       7ÿ_ 	#2ûñm ÙA*

ppo/policy/approxkl˜¤€0Ûòje)       7ÿ_ 	M2ûñm ÙA*

ppo/policy/policykl ?7@#()       7ÿ_ 	h2ûñm ÙA*

ppo/policy/clipfrac    rŠÒ0       •õÐ_	Ó5ûñm ÙA*#
!
ppo/policy/advantages_meanÍÌ@3&®&       sOã 	6ûñm ÙA*

ppo/returns/mean<"ÀRè\J%       ê¼6ó	6ûñm ÙA*

ppo/returns/var3ý@£]ÙÌ#       °ŸwC	*6ûñm ÙA*

ppo/val/vpredBÀÙž#       °ŸwC	<6ûñm ÙA*

ppo/val/errorà>è=–¤›¿&       sOã 	N6ûñm ÙA*

ppo/val/clipfracff=i @Œ"       x=ý	]6ûñm ÙA*

ppo/val/meanÀ?Þœ!       {ìö	m6ûñm ÙA*

ppo/val/varú$ A±ê4É+       †ÃK	}6ûñm ÙA*

ppo/val/var_explained*T|?-¢.Ä'       »á±F	Ž6ûñm ÙA*

ppo/learning_rateÀÏ¸:ýÕ+       †ÃK	ÿ6ûñm ÙA*

time/ppo/forward_passi[>Aª÷.       ÅËWú	a7ûñm ÙA*!

time/ppo/compute_rewards ÐÆ:@VŸ˜1       ƒƒé	¶7ûñm ÙA*$
"
time/ppo/compute_advantages LV;’,       ô®ÌE	8ûñm ÙA*

time/ppo/optimize_stepÎùŽ?aH Ð)       7ÿ_ 	_8ûñm ÙA*

time/ppo/calc_stats 6J>þl›®$       B+€M	·8ûñm ÙA*

time/ppo/totalÈLÄ?¨Í%       ê¼6ó	9ûñm ÙA*

env/reward_mean–Ì>!ÀQ$       B+€M	d9ûñm ÙA*

env/reward_std¥Åµ<¹cÀæ"       x=ý	úeaým ÙA*

objective/kl$aBñÈ2'       »á±F	[faým ÙA*

objective/kl_coef
øO>ú<8ë'       »á±F	wfaým ÙA*

objective/entropy„_Ú8Ø§ä/       m]P	Œfaým ÙA*"
 
ppo/mean_non_score_rewardÖQ¿¯¼®«%       ê¼6ó	 faým ÙA*

ppo/mean_scores¨%Ì>8ù}¤$       B+€M	³faým ÙA*

ppo/std_scoresþJ¿;ÌNäë-       <AŠû	Åfaým ÙA* 

tokens/queries_len_mean  Cœhû&,       ô®ÌE	Õfaým ÙA*

tokens/queries_len_std    * t@/       m]P	æfaým ÙA*"
 
tokens/responses_len_mean   A©ƒlÌ.       ÅËWú	öfaým ÙA*!

tokens/responses_len_std    Ìœ"Ò%       ê¼6ó	gaým ÙA*

ppo/loss/policy2sÉ6Y‘z$       B+€M	iaým ÙA*

ppo/loss/valueˆm= ¤%ô$       B+€M	&kaým ÙA*

ppo/loss/total,Gd;œ¬ßý(       ÿpJ	Rkaým ÙA*

ppo/policy/entropyf79Dq)       7ÿ_ 	“maým ÙA*

ppo/policy/approxkl˜&/Ya“œ)       7ÿ_ 	¿maým ÙA*

ppo/policy/policykl…—³6• ’Õ)       7ÿ_ 	Ömaým ÙA*

ppo/policy/clipfrac    ÉMf0       •õÐ_	êmaým ÙA*#
!
ppo/policy/advantages_mean  (3‹id|&       sOã 	þmaým ÙA*

ppo/returns/meandÀ £Çû%       ê¼6ó	naým ÙA*

ppo/returns/varÉ$ü@ƒš--#       °ŸwC	!naým ÙA*

ppo/val/vpredþû Àí÷ƒ˜#       °ŸwC	Žnaým ÙA*

ppo/val/errorãhŽ=Í-´l&       sOã 	Tpaým ÙA*

ppo/val/clipfracÍÌÌ<˜ý"       x=ý	€paým ÙA*

ppo/val/meanÞ<À^F¬!       {ìö	—paým ÙA*

ppo/val/var\nô@Ð¬+       †ÃK	ªpaým ÙA*

ppo/val/var_explained¦½}?þöko'       »á±F	»paým ÙA*

ppo/learning_rateÀÏ¸:áÉŒ+       †ÃK	Ìpaým ÙA*

time/ppo/forward_passp¡[>D©„8.       ÅËWú	Ýpaým ÙA*!

time/ppo/compute_rewards 0Æ:ªcš1       ƒƒé	9qaým ÙA*$
"
time/ppo/compute_advantages xO;Ò S,       ô®ÌE	qaým ÙA*

time/ppo/optimize_stepÊè?£sÄj)       7ÿ_ 	äqaým ÙA*

time/ppo/calc_statsÐúG>Èpæ—$       B+€M	9raým ÙA*

time/ppo/total~÷Å?öŒè%       ê¼6ó	raým ÙA*

env/reward_mean¨%Ì>×9®þ$       B+€M	ñraým ÙA*

env/reward_stdþJ¿;Y-Â"       x=ý	Á¿–n ÙA*

objective/kl$aBo Ÿ¨'       »á±F	)À–n ÙA*

objective/kl_coefP>6 ÿI'       »á±F	DÀ–n ÙA*

objective/entropyÀÏœ8Å´’R/       m]P	XÀ–n ÙA*"
 
ppo/mean_non_score_rewardÔi¿èæ%       ê¼6ó	lÀ–n ÙA*

ppo/mean_scores–Ì>½ÂÜL$       B+€M	À–n ÙA*

ppo/std_scores¥Åµ<|â<-       <AŠû	À–n ÙA* 

tokens/queries_len_mean  C£g,       ô®ÌE	¡À–n ÙA*

tokens/queries_len_std    Á¹1º/       m]P	µÀ–n ÙA*"
 
tokens/responses_len_mean   AÉcÜ«.       ÅËWú	ÇÀ–n ÙA*!

tokens/responses_len_std    {dxß%       ê¼6ó	ÙÀ–n ÙA*

ppo/loss/policy È6êv›$       B+€M	àÂ–n ÙA*

ppo/loss/valueÚí <¿Î!$       B+€M	•Ä–n ÙA*

ppo/loss/total,;µZ·(       ÿpJ	ÀÄ–n ÙA*

ppo/policy/entropyÎÝâ8_±<k)       7ÿ_ 	ÙÄ–n ÙA*

ppo/policy/approxkl†Ãl.·4‰,)       7ÿ_ 	ñÄ–n ÙA*

ppo/policy/policykl€åŠ6s§K)       7ÿ_ 	Å–n ÙA*

ppo/policy/clipfrac    õæŠ0       •õÐ_	½Æ–n ÙA*#
!
ppo/policy/advantages_meanÌÌÉ37¶µ&       sOã 	éÆ–n ÙA*

ppo/returns/meanŽ·À%Àä“%       ê¼6ó	 Ç–n ÙA*

ppo/returns/varØ: Aµ5â#       °ŸwC	Ç–n ÙA*

ppo/val/vpred†çÀ†‡5#       °ŸwC	#Ç–n ÙA*

ppo/val/errorJá=›ì¿A&       sOã 	3Ç–n ÙA*

ppo/val/clipfracš™±=•Z;#"       x=ý	‹Ç–n ÙA*

ppo/val/mean8Àó:q"!       {ìö	eÉ–n ÙA*

ppo/val/var~Ñò@²Â×+       †ÃK	É–n ÙA*

ppo/val/var_explainedÍÆ~?wA­'       »á±F	¢É–n ÙA*

ppo/learning_rateÀÏ¸:ÎÒü+       †ÃK	´É–n ÙA*

time/ppo/forward_pass 2Z>Š‰ÚÞ.       ÅËWú	ÅÉ–n ÙA*!

time/ppo/compute_rewards °Ó:í“W`1       ƒƒé	ÕÉ–n ÙA*$
"
time/ppo/compute_advantages ˆP;»éô,       ô®ÌE	åÉ–n ÙA*

time/ppo/optimize_step¼½Ž?«½|)       7ÿ_ 	ôÉ–n ÙA*

time/ppo/calc_stats`zH>o_ì$       B+€M	sÊ–n ÙA*

time/ppo/total®²Ã?ˆgë%       ê¼6ó	GÌ–n ÙA*

env/reward_mean–Ì>¥¡\$       B+€M	­Ì–n ÙA*

env/reward_std¥Åµ<èéÒL"       x=ý	í:Én ÙA*

objective/kl$aBi}Š}'       »á±F	Y;Én ÙA*

objective/kl_coef5<P>ë:ü'       »á±F	u;Én ÙA*

objective/entropyÌ¿Œ8‡ÕT"/       m]P	Š;Én ÙA*"
 
ppo/mean_non_score_rewardÒ¿UèÀÛ%       ê¼6ó	ž;Én ÙA*

ppo/mean_scores–Ì>”ƒý4$       B+€M	±;Én ÙA*

ppo/std_scores¥Åµ<D`8è-       <AŠû	Ã;Én ÙA* 

tokens/queries_len_mean  C/›Y,       ô®ÌE	Ö;Én ÙA*

tokens/queries_len_std    ½Û¨~/       m]P	è;Én ÙA*"
 
tokens/responses_len_mean   A! M.       ÅËWú	ú;Én ÙA*!

tokens/responses_len_std    …PY%       ê¼6ó	<Én ÙA*

ppo/loss/policy4£6±Nª#$       B+€M	<>Én ÙA*

ppo/loss/valueˆTJ<¼0¢$       B+€M	˜@Én ÙA*

ppo/loss/totalÜ^¢:™«É(       ÿpJ	È@Én ÙA*

ppo/policy/entropy]lË8¼R{;)       7ÿ_ 	CÉn ÙA*

ppo/policy/approxkltö$.-¹w)       7ÿ_ 	KCÉn ÙA*

ppo/policy/policykl<Xt6Ï-V‹)       7ÿ_ 	cCÉn ÙA*

ppo/policy/clipfrac    µt?a0       •õÐ_	¾EÉn ÙA*#
!
ppo/policy/advantages_meanffN3òi¨i&       sOã 	ëEÉn ÙA*

ppo/returns/mean8ÆÀ6»Õ%       ê¼6ó	FÉn ÙA*

ppo/returns/varû/Ak
ÇØ#       °ŸwC	ñGÉn ÙA*

ppo/val/vpred8"ÀPia¹#       °ŸwC	HÉn ÙA*

ppo/val/errorž@Â<À³¯&       sOã 	5HÉn ÙA*

ppo/val/clipfrac43K>n±;ö"       x=ý	GHÉn ÙA*

ppo/val/meanã—À€æãœ!       {ìö	YHÉn ÙA*

ppo/val/varõõõ@­7Ft+       †ÃK	iHÉn ÙA*

ppo/val/var_explainedˆ??%`Ñé'       »á±F	zHÉn ÙA*

ppo/learning_rateÀÏ¸:)»•+       †ÃK	ŠHÉn ÙA*

time/ppo/forward_pass ~[>bÇøå.       ÅËWú	öHÉn ÙA*!

time/ppo/compute_rewards ÐH;Aø¶ø1       ƒƒé	OIÉn ÙA*$
"
time/ppo/compute_advantages ¬Z;·e¢º,       ô®ÌE	£IÉn ÙA*

time/ppo/optimize_stepÚÁ?¶ÿAí)       7ÿ_ 	öIÉn ÙA*

time/ppo/calc_statsZM>þUè$       B+€M	EJÉn ÙA*

time/ppo/total
±Å?ô|Wâ%       ê¼6ó	œJÉn ÙA*

env/reward_mean–Ì>›^^$       B+€M	ðJÉn ÙA*

env/reward_std¥Åµ<Ês ¤"       x=ý	L÷n ÙA*

objective/kl$aBÏ:hé'       »á±F	©÷n ÙA*

objective/kl_coefS^P>b±²5'       »á±F	Ä÷n ÙA*

objective/entropy¤~8Í#ü/       m]P	Ù÷n ÙA*"
 
ppo/mean_non_score_rewardÔ™¿¥ßË%       ê¼6ó	í÷n ÙA*

ppo/mean_scores–Ì>È¡‚f$       B+€M	ÿ÷n ÙA*

ppo/std_scores¥Åµ<«R")-       <AŠû	÷n ÙA* 

tokens/queries_len_mean  C‘}_,       ô®ÌE	#÷n ÙA*

tokens/queries_len_std    8¥½/       m]P	6÷n ÙA*"
 
tokens/responses_len_mean   AOàYd.       ÅËWú	I÷n ÙA*!

tokens/responses_len_std    g£?%       ê¼6ó	Z÷n ÙA*

ppo/loss/policyfÆe6Nàòñ$       B+€M	c
÷n ÙA*

ppo/loss/valueyë<¸7 $       B+€M	Ä÷n ÙA*

ppo/loss/totalU+:,óé(       ÿpJ	ò÷n ÙA*

ppo/policy/entropyióÀ8Í7Ð)       7ÿ_ 	|÷n ÙA*

ppo/policy/approxklÒ‡%.'¾i4)       7ÿ_ 	©÷n ÙA*

ppo/policy/policyklÜ±q6XÞ @)       7ÿ_ 	¿÷n ÙA*

ppo/policy/clipfrac    €„kÝ0       •õÐ_	Ó÷n ÙA*#
!
ppo/policy/advantages_mean  Ø²g˜¡[&       sOã 	ë÷n ÙA*

ppo/returns/mean"/À»  6%       ê¼6ó	ý÷n ÙA*

ppo/returns/var½ÞAGÌj#       °ŸwC	÷n ÙA*

ppo/val/vpred”ZÀ‚Iû#       °ŸwC	÷n ÙA*

ppo/val/errorrß™<ÈFÓK&       sOã 	.÷n ÙA*

ppo/val/clipfrac433>ë uÏ"       x=ý	†÷n ÙA*

ppo/val/meanúÀ mý!       {ìö	¬÷n ÙA*

ppo/val/var/Ô÷@ÚS+       †ÃK	Â÷n ÙA*

ppo/val/var_explainedXh?,NÁŽ'       »á±F	÷n ÙA*

ppo/learning_rateÀÏ¸:Iˆ ß+       †ÃK	–÷n ÙA*

time/ppo/forward_passàˆ\>4´C~.       ÅËWú	÷n ÙA*!

time/ppo/compute_rewards ˜Ä:Äµø<1       ƒƒé	à÷n ÙA*$
"
time/ppo/compute_advantages  J;áº5@,       ô®ÌE	L÷n ÙA*

time/ppo/optimize_step¤Ž?J 4í)       7ÿ_ 	¡÷n ÙA*

time/ppo/calc_stats€OH>U‹`{$       B+€M	ó÷n ÙA*

time/ppo/total*×Ã?ˆ'Ñ7%       ê¼6ó	F÷n ÙA*

env/reward_mean–Ì>cÇÆ$       B+€M	™÷n ÙA*

env/reward_std¥Åµ<húœ"       x=ý	.Í *n ÙA*

objective/kl$aB^eN'       »á±F	˜Í *n ÙA*

objective/kl_coefw€P>´$Á'       »á±F	²Í *n ÙA*

objective/entropy¦¬8è^Ä/       m]P	ÇÍ *n ÙA*"
 
ppo/mean_non_score_rewardÖ±¿&$w%       ê¼6ó	ÙÍ *n ÙA*

ppo/mean_scores¨%Ì>>`æ$       B+€M	ëÍ *n ÙA*

ppo/std_scoresþJ¿;¯ø7-       <AŠû	þÍ *n ÙA* 

tokens/queries_len_mean  Cj•áÕ,       ô®ÌE	Î *n ÙA*

tokens/queries_len_std    »»d/       m]P	 Î *n ÙA*"
 
tokens/responses_len_mean   Al¦\#.       ÅËWú	1Î *n ÙA*!

tokens/responses_len_std    ŠÁ%       ê¼6ó	DÎ *n ÙA*

ppo/loss/policyefÎ²> !$       B+€M	ñÏ *n ÙA*

ppo/loss/valueÎë;¹Sñ$       B+€M	Ñ *n ÙA*

ppo/loss/total¤£<:^ì¿ý(       ÿpJ	öÔ *n ÙA*

ppo/policy/entropy‡má8;uÈV)       7ÿ_ 	*Õ *n ÙA*

ppo/policy/approxkl^ç:.‘"ði)       7ÿ_ 	EÕ *n ÙA*

ppo/policy/policyklB~z6Ì%^)       7ÿ_ 	[Õ *n ÙA*

ppo/policy/clipfrac    m+a0       •õÐ_	tÕ *n ÙA*#
!
ppo/policy/advantages_meanš™"4P…q›&       sOã 	‹Õ *n ÙA*

ppo/returns/meanã€À£í³%       ê¼6ó	¦Õ *n ÙA*

ppo/returns/varß×Aå{½²#       °ŸwC	Î× *n ÙA*

ppo/val/vpred3ºÀï£#       °ŸwC	Ø *n ÙA*

ppo/val/errorzj<¢>h'&       sOã 	iØ *n ÙA*

ppo/val/clipfrac33{=Àè"       x=ý	}Ø *n ÙA*

ppo/val/mean»†À¯Ð£¸!       {ìö	“Ø *n ÙA*

ppo/val/varŠþ@åƒ”Î+       †ÃK	¥Ø *n ÙA*

ppo/val/var_explainedmŒ?Ž…P,'       »á±F	5Ù *n ÙA*

ppo/learning_rateÀÏ¸:K-ï+       †ÃK	ÉÙ *n ÙA*

time/ppo/forward_passÐjZ>Ãg‡Ð.       ÅËWú	NÚ *n ÙA*!

time/ppo/compute_rewards hÒ:B=
1       ƒƒé	ÌÚ *n ÙA*$
"
time/ppo/compute_advantages xL;ix|,       ô®ÌE	RÛ *n ÙA*

time/ppo/optimize_stepªóŽ?ï×G)       7ÿ_ 	ÜÛ *n ÙA*

time/ppo/calc_stats ôG>öd¡	$       B+€M	cÜ *n ÙA*

time/ppo/totalŒÜÃ?¾±Mf%       ê¼6ó	áÜ *n ÙA*

env/reward_mean¨%Ì>H¦a$       B+€M	ZÝ *n ÙA*

env/reward_stdþJ¿;\ôÄI"       x=ý	 ¨C5n ÙA *

objective/kl$aB™„sž'       »á±F	¨C5n ÙA *

objective/kl_coef ¢P>¿ßª'       »á±F	©¨C5n ÙA *

objective/entropy˜?·8¡Ç8/       m]P	¿¨C5n ÙA *"
 
ppo/mean_non_score_rewardÞÉ¿è—(”%       ê¼6ó	Ò¨C5n ÙA *

ppo/mean_scores–Ì>Zn¬K$       B+€M	ã¨C5n ÙA *

ppo/std_scores¥Åµ<èek-       <AŠû	ó¨C5n ÙA * 

tokens/queries_len_mean  CÌâ.,       ô®ÌE	©C5n ÙA *

tokens/queries_len_std    ?÷ à/       m]P	©C5n ÙA *"
 
tokens/responses_len_mean   A¬w3ï.       ÅËWú	&©C5n ÙA *!

tokens/responses_len_std    ª•Í%       ê¼6ó	7©C5n ÙA *

ppo/loss/policy™™3» —$       B+€M	j«C5n ÙA *

ppo/loss/value7°;ñ£Á„$       B+€M	T¯C5n ÙA *

ppo/loss/total%û:ýð‘õ(       ÿpJ	¯C5n ÙA *

ppo/policy/entropy€.×8 ¥±o)       7ÿ_ 	–¯C5n ÙA *

ppo/policy/approxklF®ÿ-:®)       7ÿ_ 	¨¯C5n ÙA *

ppo/policy/policykl¥N6ÂÁ†+)       7ÿ_ 	¹¯C5n ÙA *

ppo/policy/clipfrac    ¿†_¿0       •õÐ_	Ì¯C5n ÙA *#
!
ppo/policy/advantages_mean  -´%W«Ä&       sOã 	â¯C5n ÙA *

ppo/returns/meanàèÀ
é?%       ê¼6ó	ø¯C5n ÙA *

ppo/returns/varUpAl&%#       °ŸwC	°C5n ÙA *

ppo/val/vpred‚-Àö´1m#       °ŸwC	°C5n ÙA *

ppo/val/errorŽå/<ÌÑÑM&       sOã 	:²C5n ÙA *

ppo/val/clipfracgfÖ<ºç<ý"       x=ý	b²C5n ÙA *

ppo/val/meanýtÀPY¯æ!       {ìö	'µC5n ÙA *

ppo/val/varRÌý@“à+       †ÃK	NµC5n ÙA *

ppo/val/var_explained©?× *'       »á±F	dµC5n ÙA *

ppo/learning_rateÀÏ¸:K†°*+       †ÃK	uµC5n ÙA *

time/ppo/forward_passPÂZ>orI.       ÅËWú	Ä·C5n ÙA *!

time/ppo/compute_rewards XË:ad1       ƒƒé	í·C5n ÙA *$
"
time/ppo/compute_advantages  N;«-[´,       ô®ÌE	¸C5n ÙA *

time/ppo/optimize_step?€f`•)       7ÿ_ 	Ð¹C5n ÙA *

time/ppo/calc_statsàþG>Vúé?$       B+€M	AºC5n ÙA *

time/ppo/totalBÄ?'4a%       ê¼6ó	ŸºC5n ÙA *

env/reward_mean–Ì>ÜÃÌ$       B+€M	òºC5n ÙA *

env/reward_std¥Åµ<‹SvQ"       x=ý	Â&e@n ÙA!*

objective/kl$aB^0O3'       »á±F	)'e@n ÙA!*

objective/kl_coefÏÄP>`•)¢'       »á±F	E'e@n ÙA!*

objective/entropy{ŸÏ8>m/       m]P	X'e@n ÙA!*"
 
ppo/mean_non_score_rewardèá¿Jp™,%       ê¼6ó	k'e@n ÙA!*

ppo/mean_scores–Ì>ž·1w$       B+€M	'e@n ÙA!*

ppo/std_scores¥Åµ<šŠWå-       <AŠû	‘'e@n ÙA!* 

tokens/queries_len_mean  C!7,       ô®ÌE	£'e@n ÙA!*

tokens/queries_len_std    +è\¸/       m]P	´'e@n ÙA!*"
 
tokens/responses_len_mean   AèkÃx.       ÅËWú	Å'e@n ÙA!*!

tokens/responses_len_std    ç8œ%       ê¼6ó	×'e@n ÙA!*

ppo/loss/policyÍl†µ‚S,°$       B+€M	#*e@n ÙA!*

ppo/loss/value¥ €;‰iÈ$       B+€M	˜,e@n ÙA!*

ppo/loss/totalhGÌ9³Ê\â(       ÿpJ	Â,e@n ÙA!*

ppo/policy/entropy@ØØ8hí;Ä)       7ÿ_ 	/e@n ÙA!*

ppo/policy/approxkl:è¬- ¿8ð)       7ÿ_ 	1/e@n ÙA!*

ppo/policy/policykl’*64à²á)       7ÿ_ 	3e@n ÙA!*

ppo/policy/clipfrac    oæ±Ñ0       •õÐ_	23e@n ÙA!*#
!
ppo/policy/advantages_mean43ç²ÅS&       sOã 	J3e@n ÙA!*

ppo/returns/mean<À3B-Æ%       ê¼6ó	\3e@n ÙA!*

ppo/returns/varRAAj=#       °ŸwC	l3e@n ÙA!*

ppo/val/vpred8CÀ\,«ç#       °ŸwC	}3e@n ÙA!*

ppo/val/error¹øÿ;7%£¬&       sOã 	Ž3e@n ÙA!*

ppo/val/clipfracš™™:²‚"'"       x=ý	Ÿ3e@n ÙA!*

ppo/val/meanFh
ÀwØ¶!       {ìö	°3e@n ÙA!*

ppo/val/varöx AØ&Y+       †ÃK	Ã3e@n ÙA!*

ppo/val/var_explainedÀ?~×rŽ'       »á±F	y5e@n ÙA!*

ppo/learning_rateÀÏ¸:-¨Í²+       †ÃK	h7e@n ÙA!*

time/ppo/forward_pass/a>dzm.       ÅËWú	’7e@n ÙA!*!

time/ppo/compute_rewards hÌ:é91       ƒƒé	©7e@n ÙA!*$
"
time/ppo/compute_advantages Q;k¦UÀ,       ô®ÌE	»7e@n ÙA!*

time/ppo/optimize_stepÜÝŽ?½-a|)       7ÿ_ 	Ì7e@n ÙA!*

time/ppo/calc_stats H>Ç3K^$       B+€M	à7e@n ÙA!*

time/ppo/total^¢Ä?™ûD%       ê¼6ó	ð7e@n ÙA!*

env/reward_mean–Ì>ø€Bj$       B+€M	J8e@n ÙA!*

env/reward_std¥Åµ<ÿãÞ"       x=ý	~¾œKn ÙA"*

objective/kl$aBfÕ¹Å'       »á±F	Þ¾œKn ÙA"*

objective/kl_coefçP>·kš'       »á±F	ø¾œKn ÙA"*

objective/entropyfoá8¢î[Â/       m]P	¿œKn ÙA"*"
 
ppo/mean_non_score_rewardöù¿í`€B%       ê¼6ó	¿œKn ÙA"*

ppo/mean_scores–Ì>§-ÜF$       B+€M	3¿œKn ÙA"*

ppo/std_scores¥Åµ<`°fÈ-       <AŠû	D¿œKn ÙA"* 

tokens/queries_len_mean  CyÔ“,       ô®ÌE	V¿œKn ÙA"*

tokens/queries_len_std    ?í½/       m]P	h¿œKn ÙA"*"
 
tokens/responses_len_mean   AƒŽw˜.       ÅËWú	z¿œKn ÙA"*!

tokens/responses_len_std    58G%       ê¼6ó	Ž¿œKn ÙA"*

ppo/loss/policyÍÌ5¹.?$       B+€M	œÁœKn ÙA"*

ppo/loss/value‘ø6;”x<$       B+€M	”ÆœKn ÙA"*

ppo/loss/totalÚ®’9gæ´F(       ÿpJ	¾ÆœKn ÙA"*

ppo/policy/entropyŒnÛ888ëÁ)       7ÿ_ 	ÖÆœKn ÙA"*

ppo/policy/approxklK°‡-‚EBJ)       7ÿ_ 	êÆœKn ÙA"*

ppo/policy/policykl*26žŠ—µ)       7ÿ_ 	þÆœKn ÙA"*

ppo/policy/clipfrac    kí©«0       •õÐ_	ÇœKn ÙA"*#
!
ppo/policy/advantages_meanffF3í
t&       sOã 	(ÇœKn ÙA"*

ppo/returns/meanH~Àÿ¶í%       ê¼6ó	;ÇœKn ÙA"*

ppo/returns/var{ Aé0éË#       °ŸwC	NÇœKn ÙA"*

ppo/val/vpred‘…Àoð=#       °ŸwC	_ÇœKn ÙA"*

ppo/val/error‘ø¶;>‰b˜&       sOã 	.ËœKn ÙA"*

ppo/val/clipfrac    ÖH1Ò"       x=ý	YËœKn ÙA"*

ppo/val/meanî²ÀH¦Yó!       {ìö	oËœKn ÙA"*

ppo/val/var)°ü@ã[%~+       †ÃK	ƒËœKn ÙA"*

ppo/val/var_explainednÒ?/ÿêm'       »á±F	•ËœKn ÙA"*

ppo/learning_rateÀÏ¸:®YôÝ+       †ÃK	¨ËœKn ÙA"*

time/ppo/forward_pass`^>A9iÑ.       ÅËWú	¼ËœKn ÙA"*!

time/ppo/compute_rewards ¨Ì:ÂGÉY1       ƒƒé	ÍËœKn ÙA"*$
"
time/ppo/compute_advantages ÌN;½à€“,       ô®ÌE	ßËœKn ÙA"*

time/ppo/optimize_stepšÈŽ?¸@)       7ÿ_ 	ðËœKn ÙA"*

time/ppo/calc_stats°lH>;À)ò$       B+€M	“ÌœKn ÙA"*

time/ppo/total<6Ä?ëS[|%       ê¼6ó	BÍœKn ÙA"*

env/reward_mean–Ì>Õ‰Ê$       B+€M	7ÏœKn ÙA"*

env/reward_std¥Åµ<¢ )8"       x=ý	1I¾Vn ÙA#*

objective/kl$aBó¿©]'       »á±F	J¾Vn ÙA#*

objective/kl_coef=	Q>‹rŒÙ'       »á±F	J¾Vn ÙA#*

objective/entropy’Ï90Éú/       m]P	1J¾Vn ÙA#*"
 
ppo/mean_non_score_reward¿º“%       ê¼6ó	EJ¾Vn ÙA#*

ppo/mean_scores–Ì>×‡ºc$       B+€M	WJ¾Vn ÙA#*

ppo/std_scores¥Åµ<¼ÜXm-       <AŠû	kJ¾Vn ÙA#* 

tokens/queries_len_mean  CÞBj_,       ô®ÌE	J¾Vn ÙA#*

tokens/queries_len_std    Ò N/       m]P	“J¾Vn ÙA#*"
 
tokens/responses_len_mean   A$bR—.       ÅËWú	§J¾Vn ÙA#*!

tokens/responses_len_std    WpæP%       ê¼6ó	¸J¾Vn ÙA#*

ppo/loss/policy €C4@ÊE$       B+€M		N¾Vn ÙA#*

ppo/loss/value€)ÿ:ÖÂóM$       B+€M	˜Q¾Vn ÙA#*

ppo/loss/totalRL9=¸(       ÿpJ	ÂQ¾Vn ÙA#*

ppo/policy/entropy™Ìå8buB)       7ÿ_ 	ØQ¾Vn ÙA#*

ppo/policy/approxkl“*-Ò‰Æ€)       7ÿ_ 	ëQ¾Vn ÙA#*

ppo/policy/policyklÞdÊ5E7ª))       7ÿ_ 	ûQ¾Vn ÙA#*

ppo/policy/clipfrac    qÅÙ}0       •õÐ_	R¾Vn ÙA#*#
!
ppo/policy/advantages_meangfž²!*1ù&       sOã 	!R¾Vn ÙA#*

ppo/returns/meanö©ÀFtí¶%       ê¼6ó	4R¾Vn ÙA#*

ppo/returns/varÊ, AË!©0#       °ŸwC	ER¾Vn ÙA#*

ppo/val/vpredÉÁÀnóD#       °ŸwC	VR¾Vn ÙA#*

ppo/val/error€);Ý&       sOã 	6T¾Vn ÙA#*

ppo/val/clipfrac    éÅÀ"       x=ý	aT¾Vn ÙA#*

ppo/val/meanë_ÀÆbŽ!       {ìö	xT¾Vn ÙA#*

ppo/val/varõvý@Fé+       †ÃK	‹T¾Vn ÙA#*

ppo/val/var_explained&à?É6±µ'       »á±F	žT¾Vn ÙA#*

ppo/learning_rateÀÏ¸:q¹ +       †ÃK	®T¾Vn ÙA#*

time/ppo/forward_pass ¨Z>íDg.       ÅËWú	¿T¾Vn ÙA#*!

time/ppo/compute_rewards xÌ:¾2D1       ƒƒé	ÐT¾Vn ÙA#*$
"
time/ppo/compute_advantages ¨S;­ÛUú,       ô®ÌE	$U¾Vn ÙA#*

time/ppo/optimize_stepXÈŽ?,Ôi)       7ÿ_ 	xU¾Vn ÙA#*

time/ppo/calc_stats7H>êï¢õ$       B+€M	ÊU¾Vn ÙA#*

time/ppo/totalZÃÃ?5Èò%       ê¼6ó	V¾Vn ÙA#*

env/reward_mean–Ì>ÝÉy$       B+€M	kV¾Vn ÙA#*

env/reward_std¥Åµ<Þü”Ñ"       x=ý	*•øan ÙA$*

objective/kl$aB(\Ú‚'       »á±F	’•øan ÙA$*

objective/kl_coef}+Q>¬‡'       »á±F	¯•øan ÙA$*

objective/entropy|9\>Ž/       m]P	Ä•øan ÙA$*"
 
ppo/mean_non_score_reward*¿ÂGtB%       ê¼6ó	Ø•øan ÙA$*

ppo/mean_scores¨%Ì>à}id$       B+€M	ê•øan ÙA$*

ppo/std_scoresþJ¿;&a-       <AŠû	ü•øan ÙA$* 

tokens/queries_len_mean  C¿{,       ô®ÌE	–øan ÙA$*

tokens/queries_len_std    f™Fi/       m]P	$–øan ÙA$*"
 
tokens/responses_len_mean   A*¼.       ÅËWú	7–øan ÙA$*!

tokens/responses_len_std    ¾Oàû%       ê¼6ó	L–øan ÙA$*

ppo/loss/policyšY5üY-þ$       B+€M	v˜øan ÙA$*

ppo/loss/value®äŽ:ž×!°$       B+€M	ìšøan ÙA$*

ppo/loss/totalÊ×å8¼U
é(       ÿpJ	›øan ÙA$*

ppo/policy/entropyGè89%+›)       7ÿ_ 	›øan ÙA$*

ppo/policy/approxkl@²˜,i~g)       7ÿ_ 	Èøan ÙA$*

ppo/policy/policyklûý|5Ï"D#)       7ÿ_ 	áøan ÙA$*

ppo/policy/clipfrac    ø"¦V0       •õÐ_	7 øan ÙA$*#
!
ppo/policy/advantages_mean33_³We‹&       sOã 	f øan ÙA$*

ppo/returns/mean$ÀpF?*%       ê¼6ó	ß¢øan ÙA$*

ppo/returns/varcÿ@Œ}h#       °ŸwC	£øan ÙA$*

ppo/val/vpredinÀÎs>#       °ŸwC	£øan ÙA$*

ppo/val/error®ä;úÝ:{&       sOã 	.£øan ÙA$*

ppo/val/clipfrac    ñqÆ“"       x=ý	@£øan ÙA$*

ppo/val/mean_À6	˜›!       {ìö	S£øan ÙA$*

ppo/val/varÒý@‹‹=+       †ÃK	d£øan ÙA$*

ppo/val/var_explainedî?HD¹¡'       »á±F	t£øan ÙA$*

ppo/learning_rateÀÏ¸:Li9Æ+       †ÃK	„£øan ÙA$*

time/ppo/forward_pass I_>E«ƒi.       ÅËWú	”£øan ÙA$*!

time/ppo/compute_rewards øÕ:V£$1       ƒƒé	
¤øan ÙA$*$
"
time/ppo/compute_advantages DX;ùu,       ô®ÌE	a¤øan ÙA$*

time/ppo/optimize_stepÜ—?X)ø)       7ÿ_ 	·¤øan ÙA$*

time/ppo/calc_stats@êS>¿E$       B+€M	¥øan ÙA$*

time/ppo/totalHÎ?ÐK …%       ê¼6ó	i¥øan ÙA$*

env/reward_mean¨%Ì>Í£x$       B+€M	¾¥øan ÙA$*

env/reward_stdþJ¿;½©~–"       x=ý	~R3mn ÙA%*

objective/kl $aBõ…w;'       »á±F	ãR3mn ÙA%*

objective/kl_coefÂMQ>h'       »á±F	ýR3mn ÙA%*

objective/entropyb#97FÕç/       m]P	S3mn ÙA%*"
 
ppo/mean_non_score_reward9B¿Á#÷%       ê¼6ó	"S3mn ÙA%*

ppo/mean_scores–Ì>ëOÕd$       B+€M	2S3mn ÙA%*

ppo/std_scores¥Åµ<Æ‰•-       <AŠû	BS3mn ÙA%* 

tokens/queries_len_mean  CÞ¥,       ô®ÌE	RS3mn ÙA%*

tokens/queries_len_std    ’Õo/       m]P	bS3mn ÙA%*"
 
tokens/responses_len_mean   AÇoúÍ.       ÅËWú	sS3mn ÙA%*!

tokens/responses_len_std    ›$ž%       ê¼6ó	…S3mn ÙA%*

ppo/loss/policy  -3Ïf†y$       B+€M	ªU3mn ÙA%*

ppo/loss/valueão@:vû|$       B+€M	-X3mn ÙA%*

ppo/loss/total¼š8k§®“(       ÿpJ	YX3mn ÙA%*

ppo/policy/entropy
uí8¦÷@¡)       7ÿ_ 	ÒX3mn ÙA%*

ppo/policy/approxklrÅï+¾éD)       7ÿ_ 	fZ3mn ÙA%*

ppo/policy/policyklÍÊê4k4)       7ÿ_ 	Z3mn ÙA%*

ppo/policy/clipfrac     ŠÏ0       •õÐ_	§Z3mn ÙA%*#
!
ppo/policy/advantages_meanš™73O°l&       sOã 	ºZ3mn ÙA%*

ppo/returns/mean”” À=%       ê¼6ó	ÌZ3mn ÙA%*

ppo/returns/varP
ÿ@¥¯ÖÊ#       °ŸwC	$[3mn ÙA%*

ppo/val/vpredEÝ Às™1¡#       °ŸwC	{[3mn ÙA%*

ppo/val/errorãoÀ:­Ù»&       sOã 	Î[3mn ÙA%*

ppo/val/clipfrac    »¤"       x=ý	"\3mn ÙA%*

ppo/val/mean.éÀÙ^k!       {ìö	w\3mn ÙA%*

ppo/val/varÁ¡ÿ@=Ÿ»+       †ÃK	Í\3mn ÙA%*

ppo/val/var_explainedíó?ÐF„'       »á±F	]3mn ÙA%*

ppo/learning_rateÀÏ¸:
ž5 +       †ÃK	s]3mn ÙA%*

time/ppo/forward_passP¦[>-Þ/l.       ÅËWú	Ê]3mn ÙA%*!

time/ppo/compute_rewards 0Î:Bq5£1       ƒƒé	^3mn ÙA%*$
"
time/ppo/compute_advantages XM;)Ôb,       ô®ÌE	o^3mn ÙA%*

time/ppo/optimize_stephƒ?wë1b)       7ÿ_ 	Á^3mn ÙA%*

time/ppo/calc_statsÀ	H>4óÙ-$       B+€M	_3mn ÙA%*

time/ppo/total®•Ä?cÍ•¯%       ê¼6ó	f_3mn ÙA%*

env/reward_mean–Ì>»Éè$       B+€M	¼a3mn ÙA%*

env/reward_std¥Åµ<£Lé@"       x=ý	-³fxn ÙA&*

objective/klþ#aBKT`'       »á±F	‘³fxn ÙA&*

objective/kl_coefpQ>#ýH'       »á±F	­³fxn ÙA&*

objective/entropyR·*9üŽnå/       m]P	¾³fxn ÙA&*"
 
ppo/mean_non_score_rewardXZ¿™þÝE%       ê¼6ó	Ï³fxn ÙA&*

ppo/mean_scores–Ì>Ë¯Cu$       B+€M	ß³fxn ÙA&*

ppo/std_scores¥Åµ<kvÈÌ-       <AŠû	ï³fxn ÙA&* 

tokens/queries_len_mean  C^vÐx,       ô®ÌE	ÿ³fxn ÙA&*

tokens/queries_len_std    ñß„Ï/       m]P	´fxn ÙA&*"
 
tokens/responses_len_mean   ATPkÿ.       ÅËWú	´fxn ÙA&*!

tokens/responses_len_std    ÛQéZ%       ê¼6ó	.´fxn ÙA&*

ppo/loss/policy  °²-*mÈ$       B+€M	²¶fxn ÙA&*

ppo/loss/valueJJø9Tº‡I$       B+€M	Þ¸fxn ÙA&*

ppo/loss/totalÔ‹F8i–RS(       ÿpJ	¹fxn ÙA&*

ppo/policy/entropy^¢î8œ!?m)       7ÿ_ 	I¼fxn ÙA&*

ppo/policy/approxklèY+'RA½)       7ÿ_ 	s¼fxn ÙA&*

ppo/policy/policykl(—õ3rñcÕ)       7ÿ_ 	Š¼fxn ÙA&*

ppo/policy/clipfrac    !
ªÁ0       •õÐ_	œ¼fxn ÙA&*#
!
ppo/policy/advantages_mean  3¥-‹â&       sOã 	³¼fxn ÙA&*

ppo/returns/meanÓJ À>ìQ%       ê¼6ó	Ã¼fxn ÙA&*

ppo/returns/var>Øþ@ñR#       °ŸwC	Ó¼fxn ÙA&*

ppo/val/vpred½u À<8«#       °ŸwC	â¼fxn ÙA&*

ppo/val/errorJJx:zËY¾&       sOã 	ñ¼fxn ÙA&*

ppo/val/clipfrac    ª³Ñö"       x=ý	b½fxn ÙA&*

ppo/val/meanÒ» À_\Ùk!       {ìö	¿fxn ÙA&*

ppo/val/varª·þ@Ð—¨+       †ÃK	*¿fxn ÙA&*

ppo/val/var_explained5ø?Mœgƒ'       »á±F	?¿fxn ÙA&*

ppo/learning_rateÀÏ¸:tXZ+       †ÃK	Q¿fxn ÙA&*

time/ppo/forward_passPï\>ûfCG.       ÅËWú	a¿fxn ÙA&*!

time/ppo/compute_rewards ÈÊ:	H`ï1       ƒƒé	p¿fxn ÙA&*$
"
time/ppo/compute_advantages ¤M;søº,       ô®ÌE	Ä¿fxn ÙA&*

time/ppo/optimize_step¾ÑŽ?í+xÉ)       7ÿ_ 	Àfxn ÙA&*

time/ppo/calc_statsÀþH>«Â”r$       B+€M	lÀfxn ÙA&*

time/ppo/total,+Ä?ÅãÀ×%       ê¼6ó	ÔÀfxn ÙA&*

env/reward_mean–Ì>ºˆ“¶$       B+€M	&Áfxn ÙA&*

env/reward_std¥Åµ<X§"       x=ý	¼ž¡ƒn ÙA'*

objective/klý#aBz`Ù'       »á±F	.Ÿ¡ƒn ÙA'*

objective/kl_coef^’Q>Ö o3'       »á±F	PŸ¡ƒn ÙA'*

objective/entropyK.9ê“`Œ/       m]P	hŸ¡ƒn ÙA'*"
 
ppo/mean_non_score_reward}r¿Æ¬%è%       ê¼6ó	|Ÿ¡ƒn ÙA'*

ppo/mean_scores–Ì>n_¡$       B+€M	Ÿ¡ƒn ÙA'*

ppo/std_scores¥Åµ<åºð˜-       <AŠû	 Ÿ¡ƒn ÙA'* 

tokens/queries_len_mean  CY%‰,       ô®ÌE	±Ÿ¡ƒn ÙA'*

tokens/queries_len_std    Ê7é/       m]P	ÄŸ¡ƒn ÙA'*"
 
tokens/responses_len_mean   A?:_ö.       ÅËWú	ÕŸ¡ƒn ÙA'*!

tokens/responses_len_std    Ð¯ª%       ê¼6ó	çŸ¡ƒn ÙA'*

ppo/loss/policyÐÌÌ0ÛYÆ$       B+€M	Ï ¡ƒn ÙA'*

ppo/loss/valueúY¢9E&£$       B+€M	à¡¡ƒn ÙA'*

ppo/loss/total/ã8N‘?(       ÿpJ	b¢¡ƒn ÙA'*

ppo/policy/entropyôßê8ö§X)       7ÿ_ 	Ï¢¡ƒn ÙA'*

ppo/policy/approxkl¶“á*Ç)Ç)       7ÿ_ 	:£¡ƒn ÙA'*

ppo/policy/policykl¼d`´>[e?)       7ÿ_ 	™£¡ƒn ÙA'*

ppo/policy/clipfrac    ‡AÑ0       •õÐ_	ÿ£¡ƒn ÙA'*#
!
ppo/policy/advantages_mean33±Ì’7—&       sOã 	b¤¡ƒn ÙA'*

ppo/returns/mean ÀþÀ¶ï%       ê¼6ó	È¤¡ƒn ÙA'*

ppo/returns/varUÛþ@ñ[-H#       °ŸwC	+¥¡ƒn ÙA'*

ppo/val/vpredš/ À‰t!#       °ŸwC	Š¥¡ƒn ÙA'*

ppo/val/errorúY":5}“=&       sOã 	è¥¡ƒn ÙA'*

ppo/val/clipfrac    Ëp´"       x=ý	D¦¡ƒn ÙA'*

ppo/val/meanË À+2S‚!       {ìö	Ÿ¦¡ƒn ÙA'*

ppo/val/var8Ñþ@ÅÙÄ+       †ÃK	 §¡ƒn ÙA'*

ppo/val/var_explainedçú?(C«'       »á±F	]§¡ƒn ÙA'*

ppo/learning_rateÀÏ¸:`õºU+       †ÃK	º§¡ƒn ÙA'*

time/ppo/forward_passPi>‘¨q.       ÅËWú	¨¡ƒn ÙA'*!

time/ppo/compute_rewards pÐ:»R1       ƒƒé	r¨¡ƒn ÙA'*$
"
time/ppo/compute_advantages ¨M;Qµpy,       ô®ÌE	Í¨¡ƒn ÙA'*

time/ppo/optimize_step\q“?¶ë‚()       7ÿ_ 	)©¡ƒn ÙA'*

time/ppo/calc_stats0aH>‰Ìû˜$       B+€M	‚©¡ƒn ÙA'*

time/ppo/total®=Ê?ŸV4%       ê¼6ó	Þ©¡ƒn ÙA'*

env/reward_mean–Ì>èñ€{$       B+€M	6ª¡ƒn ÙA'*

env/reward_std¥Åµ<KGµO"       x=ý	sÝŽn ÙA(*

objective/klþ#aBc>ê'       »á±F	ÞÝŽn ÙA(*

objective/kl_coef´´Q>dñˆ%'       »á±F	ûÝŽn ÙA(*

objective/entropyPç+9­[Ï/       m]P	ÝŽn ÙA(*"
 
ppo/mean_non_score_reward¥Š¿ûf6%       ê¼6ó	#ÝŽn ÙA(*

ppo/mean_scores¨%Ì>ïŠåµ$       B+€M	6ÝŽn ÙA(*

ppo/std_scoresþJ¿;@ `{-       <AŠû	IÝŽn ÙA(* 

tokens/queries_len_mean  Cç‘H-,       ô®ÌE	\ÝŽn ÙA(*

tokens/queries_len_std    ŸC…i/       m]P	oÝŽn ÙA(*"
 
tokens/responses_len_mean   A˜ÂØÉ.       ÅËWú	ÝŽn ÙA(*!

tokens/responses_len_std    ‹)jŠ%       ê¼6ó	“ÝŽn ÙA(*

ppo/loss/policy43´s
d$       B+€M	{ÝŽn ÙA(*

ppo/loss/value|\'9¥éN„$       B+€M	¨ÝŽn ÙA(*

ppo/loss/total0Ý„7ìE3(       ÿpJ	ÀÝŽn ÙA(*

ppo/policy/entropy´å8os•/)       7ÿ_ 	ÖÝŽn ÙA(*

ppo/policy/approxkl@á*ú¦Â)       7ÿ_ 	èÝŽn ÙA(*

ppo/policy/policykl2ž´oóW)       7ÿ_ 	úÝŽn ÙA(*

ppo/policy/clipfrac    6L¥>0       •õÐ_	ÝŽn ÙA(*#
!
ppo/policy/advantages_mean33³&Q®&       sOã 	#ÝŽn ÙA(*

ppo/returns/mean©  À9&6%       ê¼6ó	4ÝŽn ÙA(*

ppo/returns/varšÍþ@‘¼«#       °ŸwC	DÝŽn ÙA(*

ppo/val/vpredæ/ À4ú]#       °ŸwC	nÝŽn ÙA(*

ppo/val/error|\§9òåB&       sOã 	—ÝŽn ÙA(*

ppo/val/clipfrac    Ëî‡"       x=ý	ÝŽn ÙA(*

ppo/val/meanÞNÿ¿>µÎÂ!       {ìö	;ÝŽn ÙA(*

ppo/val/var£þ@Péç+       †ÃK	RÝŽn ÙA(*

ppo/val/var_explained_ý?&›+À'       »á±F	ºÝŽn ÙA(*

ppo/learning_rateÀÏ¸:$C;+       †ÃK	ÝŽn ÙA(*

time/ppo/forward_pass ýa>ª¼U.       ÅËWú	wÝŽn ÙA(*!

time/ppo/compute_rewards (Î:°±}^1       ƒƒé	ÎÝŽn ÙA(*$
"
time/ppo/compute_advantages ¬P;²ÎèÖ,       ô®ÌE	&ÝŽn ÙA(*

time/ppo/optimize_step®Ö?æ…Û)       7ÿ_ 	{ÝŽn ÙA(*

time/ppo/calc_statsà¥M>¦‡m$       B+€M	ÑÝŽn ÙA(*

time/ppo/totalLiÇ?wÑ–É%       ê¼6ó	' ÝŽn ÙA(*

env/reward_mean¨%Ì>üMw$       B+€M	y ÝŽn ÙA(*

env/reward_stdþJ¿;,ÅÍ¼"       x=ý	a\'šn ÙA)*

objective/klþ#aB:8'       »á±F	Õ\'šn ÙA)*

objective/kl_coef×Q>­ø}'       »á±F	÷\'šn ÙA)*

objective/entropyTw)9´ÔÚÖ/       m]P	]'šn ÙA)*"
 
ppo/mean_non_score_rewardÒ¢¿´á%       ê¼6ó	]'šn ÙA)*

ppo/mean_scores¨%Ì>3íÊ¢$       B+€M	2]'šn ÙA)*

ppo/std_scoresþJ¿;²_Æ-       <AŠû	F]'šn ÙA)* 

tokens/queries_len_mean  C´äi,       ô®ÌE	W]'šn ÙA)*

tokens/queries_len_std    KÑ [/       m]P	l]'šn ÙA)*"
 
tokens/responses_len_mean   A)æ.       ÅËWú	€]'šn ÙA)*!

tokens/responses_len_std    ûUÔ%       ê¼6ó	’]'šn ÙA)*

ppo/loss/policyÍÌˆ´´# $       B+€M	u^'šn ÙA)*

ppo/loss/valueH§î8ñW,$       B+€M	…_'šn ÙA)*

ppo/loss/totalÓ¥:7éJ¿Ø(       ÿpJ	`'šn ÙA)*

ppo/policy/entropy3Aà8w©r)       7ÿ_ 	r`'šn ÙA)*

ppo/policy/approxkl'Šé*¼Àj)       7ÿ_ 	Õ`'šn ÙA)*

ppo/policy/policyklŒþÂ´ÜhÕþ)       7ÿ_ 	5a'šn ÙA)*

ppo/policy/clipfrac    íÒ”+0       •õÐ_	—a'šn ÙA)*#
!
ppo/policy/advantages_mean™™a3ŠðŒ&       sOã 	öa'šn ÙA)*

ppo/returns/meanK% ÀV
º%       ê¼6ó	Wb'šn ÙA)*

ppo/returns/varâÿ@Î§¼M#       °ŸwC	´b'šn ÙA)*

ppo/val/vpred]+ ÀtZp>#       °ŸwC	c'šn ÙA)*

ppo/val/errorH§n9ÜY&       sOã 	hc'šn ÙA)*

ppo/val/clipfrac    †^\I"       x=ý	Äc'šn ÙA)*

ppo/val/meanƒÿ¿+eB*!       {ìö	 d'šn ÙA)*

ppo/val/varåþ@Û)a+       †ÃK	d'šn ÙA)*

ppo/val/var_explained!þ?ÙˆÞÿ'       »á±F	Ûd'šn ÙA)*

ppo/learning_rateÀÏ¸:'ãC+       †ÃK	5e'šn ÙA)*

time/ppo/forward_pass€]>¢dÕÊ.       ÅËWú	”e'šn ÙA)*!

time/ppo/compute_rewards Ã:åÂH…1       ƒƒé	ïe'šn ÙA)*$
"
time/ppo/compute_advantages  M;ºäI,       ô®ÌE	If'šn ÙA)*

time/ppo/optimize_stepLÐŽ?ØéÜ)       7ÿ_ 	¥f'šn ÙA)*

time/ppo/calc_statsÐG>½¥$       B+€M	ýf'šn ÙA)*

time/ppo/total*úÃ?'&;Ð%       ê¼6ó	Vg'šn ÙA)*

env/reward_mean¨%Ì>§zÖT$       B+€M	¯g'šn ÙA)*

env/reward_stdþJ¿;ý"       x=ý	ëf¥n ÙA**

objective/kl $aB:{zi'       »á±F	„ëf¥n ÙA**

objective/kl_coefqùQ>üÓq3'       »á±F	¡ëf¥n ÙA**

objective/entropy^ÿ$9Ö~æ/       m]P	¶ëf¥n ÙA**"
 
ppo/mean_non_score_reward»¿@øžâ%       ê¼6ó	Èëf¥n ÙA**

ppo/mean_scores¨%Ì>uÚ[ $       B+€M	Úëf¥n ÙA**

ppo/std_scoresþJ¿;
c=-       <AŠû	ëëf¥n ÙA** 

tokens/queries_len_mean  C6”#ƒ,       ô®ÌE	ýëf¥n ÙA**

tokens/queries_len_std    :’o¿/       m]P	ìf¥n ÙA**"
 
tokens/responses_len_mean   AK~I.       ÅËWú	"ìf¥n ÙA**!

tokens/responses_len_std    rô|<%       ê¼6ó	4ìf¥n ÙA**

ppo/loss/policyffÖ³ùƒ—m$       B+€M	ïïf¥n ÙA**

ppo/loss/valuee°¸8îË_$       B+€M	ðf¥n ÙA**

ppo/loss/total…7TÜ`Ó(       ÿpJ	3ðf¥n ÙA**

ppo/policy/entropy`îÙ8g,Â)       7ÿ_ 	Fðf¥n ÙA**

ppo/policy/approxkl¹æ*`@G)       7ÿ_ 	Yðf¥n ÙA**

ppo/policy/policyklèdÎ´™éÊ)       7ÿ_ 	Ãòf¥n ÙA**

ppo/policy/clipfrac    öÅH0       •õÐ_	òòf¥n ÙA**#
!
ppo/policy/advantages_meanff6³ f†Ì&       sOã 	sóf¥n ÙA**

ppo/returns/mean4 ÀNîñ%       ê¼6ó	Ûóf¥n ÙA**

ppo/returns/varDSÿ@?ùò#       °ŸwC	›õf¥n ÙA**

ppo/val/vpred; À }[#       °ŸwC	Äõf¥n ÙA**

ppo/val/errore°89ðÆƒ&       sOã 	Üõf¥n ÙA**

ppo/val/clipfrac    Au"       x=ý	íõf¥n ÙA**

ppo/val/mean0ÿ¿'H_þ!       {ìö	ÿõf¥n ÙA**

ppo/val/var¤hÿ@Ñge+       †ÃK	öf¥n ÙA**

ppo/val/var_explainedŽþ?|'       »á±F	!öf¥n ÙA**

ppo/learning_rateÀÏ¸:d‡	é+       †ÃK	{öf¥n ÙA**

time/ppo/forward_passÐIk>CCÓ.       ÅËWú	×öf¥n ÙA**!

time/ppo/compute_rewards Í:tëŠ1       ƒƒé	.÷f¥n ÙA**$
"
time/ppo/compute_advantages ˆV;]jg!,       ô®ÌE	€÷f¥n ÙA**

time/ppo/optimize_stepä™?JY·)       7ÿ_ 	Ö÷f¥n ÙA**

time/ppo/calc_stats°5V>‰8$       B+€M	)øf¥n ÙA**

time/ppo/totalÌÒÑ?†9M%       ê¼6ó	|øf¥n ÙA**

env/reward_mean¨%Ì>¥¦ˆ­$       B+€M	Ýøf¥n ÙA**

env/reward_stdþJ¿;@ëF"       x=ý	¡5£°n ÙA+*

objective/kl$aBf…d'       »á±F	
6£°n ÙA+*

objective/kl_coefØR>2K‹Ø'       »á±F	(6£°n ÙA+*

objective/entropyj9±/       m]P	<6£°n ÙA+*"
 
ppo/mean_non_score_reward8Ó¿ÎŽÈ%       ê¼6ó	N6£°n ÙA+*

ppo/mean_scores–Ì>æÌå$       B+€M	_6£°n ÙA+*

ppo/std_scores¥Åµ<AˆX-       <AŠû	q6£°n ÙA+* 

tokens/queries_len_mean  C§d×,       ô®ÌE	€6£°n ÙA+*

tokens/queries_len_std    |Ì—/       m]P	‘6£°n ÙA+*"
 
tokens/responses_len_mean   Apo¾.       ÅËWú	¡6£°n ÙA+*!

tokens/responses_len_std    ¶®¶Þ%       ê¼6ó	²6£°n ÙA+*

ppo/loss/policy43U³L˜Å$       B+€M	â8£°n ÙA+*

ppo/loss/valueªÊ/9rïT™$       B+€M	9£°n ÙA+*

ppo/loss/totalˆ7Œ7o#"e(       ÿpJ	º:£°n ÙA+*

ppo/policy/entropyô§Ò8'k)       7ÿ_ 	å:£°n ÙA+*

ppo/policy/approxkl:÷·*Nú;)       7ÿ_ 	ü:£°n ÙA+*

ppo/policy/policyklã1»´™`µo)       7ÿ_ 	;£°n ÙA+*

ppo/policy/clipfrac    9Ž’!0       •õÐ_	";£°n ÙA+*#
!
ppo/policy/advantages_mean   1$(&       sOã 	4;£°n ÙA+*

ppo/returns/mean‹B ÀŸ¦%       ê¼6ó	Ù;£°n ÙA+*

ppo/returns/varx¬ÿ@Ëüu‰#       °ŸwC	ê;£°n ÙA+*

ppo/val/vpredŠI ÀÀé^Ë#       °ŸwC	><£°n ÙA+*

ppo/val/errorªÊ¯9Ø©]ì&       sOã 	’<£°n ÙA+*

ppo/val/clipfrac    d*Ð¶"       x=ý	è<£°n ÙA+*

ppo/val/meanýGÿ¿îµ=¦!       {ìö	==£°n ÙA+*

ppo/val/varg Aâó+       †ÃK	”=£°n ÙA+*

ppo/val/var_explained@ý?û‡&Ì'       »á±F	í=£°n ÙA+*

ppo/learning_rateÀÏ¸:ÃìÄ+       †ÃK	B>£°n ÙA+*

time/ppo/forward_pass Î[> Åz7.       ÅËWú	™>£°n ÙA+*!

time/ppo/compute_rewards ˜Ä:|e¦1       ƒƒé	í>£°n ÙA+*$
"
time/ppo/compute_advantages ÜT;Pî$æ,       ô®ÌE	A?£°n ÙA+*

time/ppo/optimize_step\/?º7Á)       7ÿ_ 	œ?£°n ÙA+*

time/ppo/calc_stats@¾J>ÌD}$       B+€M	ñ?£°n ÙA+*

time/ppo/total´žÅ?ÝÝ S%       ê¼6ó	tB£°n ÙA+*

env/reward_mean–Ì>±È2X$       B+€M	ÛB£°n ÙA+*

env/reward_std¥Åµ<'Îê"       x=ý	aÂç»n ÙA,*

objective/kl$aBó"'       »á±F	ÇÂç»n ÙA,*

objective/kl_coefD>R>RoG˜'       »á±F	âÂç»n ÙA,*

objective/entropysO9Øbã/       m]P	öÂç»n ÙA,*"
 
ppo/mean_non_score_rewardqë¿ãË9U%       ê¼6ó	Ãç»n ÙA,*

ppo/mean_scores–Ì>$ÉI$       B+€M	Ãç»n ÙA,*

ppo/std_scores¥Åµ<4 }
-       <AŠû	*Ãç»n ÙA,* 

tokens/queries_len_mean  CÂÐ{,       ô®ÌE	<Ãç»n ÙA,*

tokens/queries_len_std    …ŠÅ/       m]P	NÃç»n ÙA,*"
 
tokens/responses_len_mean   AI.B.       ÅËWú	_Ãç»n ÙA,*!

tokens/responses_len_std    ê(Ï%       ê¼6ó	pÃç»n ÙA,*

ppo/loss/policy  ”²ì†{´$       B+€M	“Åç»n ÙA,*

ppo/loss/valueËX%9×[q”$       B+€M		Èç»n ÙA,*

ppo/loss/total	"„74v (       ÿpJ	5Èç»n ÙA,*

ppo/policy/entropyæËÍ8•fÀ)       7ÿ_ 	FÊç»n ÙA,*

ppo/policy/approxklÍv*y6†æ)       7ÿ_ 	sÊç»n ÙA,*

ppo/policy/policyklûþ–´×®W§)       7ÿ_ 	ÊÌç»n ÙA,*

ppo/policy/clipfrac    ²›¨0       •õÐ_	úÌç»n ÙA,*#
!
ppo/policy/advantages_mean33_²ÚÇÞ+&       sOã 	Íç»n ÙA,*

ppo/returns/mean`\ À…t¤ë%       ê¼6ó	÷Ïç»n ÙA,*

ppo/returns/varú A	Fm#       °ŸwC	!Ðç»n ÙA,*

ppo/val/vpred¤Z À¹2l[#       °ŸwC	7Ðç»n ÙA,*

ppo/val/errorËX¥9ü™Øº&       sOã 	IÐç»n ÙA,*

ppo/val/clipfrac    4ùT_"       x=ý	¾Ðç»n ÙA,*

ppo/val/mean&ÿ¿)9@Ž!       {ìö	#Ñç»n ÙA,*

ppo/val/varc) A§îðÄ+       †ÃK	€Ñç»n ÙA,*

ppo/val/var_explainedký?Õù¼é'       »á±F	×Ñç»n ÙA,*

ppo/learning_rateÀÏ¸:ÙkKÍ+       †ÃK	6Òç»n ÙA,*

time/ppo/forward_passÐH\>¥Ç-õ.       ÅËWú	ŽÒç»n ÙA,*!

time/ppo/compute_rewards  Ï:ýc }1       ƒƒé	àÒç»n ÙA,*$
"
time/ppo/compute_advantages ÈS;`ª-­,       ô®ÌE	5Óç»n ÙA,*

time/ppo/optimize_step€µŽ?Vö ^)       7ÿ_ 	†Óç»n ÙA,*

time/ppo/calc_statsðÂH>zc$ë$       B+€M	ÖÓç»n ÙA,*

time/ppo/totalÒöÃ?³7ì~%       ê¼6ó	(Ôç»n ÙA,*

env/reward_mean–Ì>qFF@$       B+€M	xÔç»n ÙA,*

env/reward_std¥Åµ<¦•"       x=ý	ßðJÇn ÙA-*

objective/kl$aBa´¦'       »á±F	CñJÇn ÙA-*

objective/kl_coef¶`R>E¦Ò£'       »á±F	^ñJÇn ÙA-*

objective/entropyy·9/—ÓJ/       m]P	sñJÇn ÙA-*"
 
ppo/mean_non_score_reward­¿O©Ê%       ê¼6ó	‡ñJÇn ÙA-*

ppo/mean_scores¨%Ì>yZ²$       B+€M	™ñJÇn ÙA-*

ppo/std_scoresþJ¿;\œ»e-       <AŠû	ªñJÇn ÙA-* 

tokens/queries_len_mean  CX–,       ô®ÌE	ºñJÇn ÙA-*

tokens/queries_len_std    ýT§Ö/       m]P	ÊñJÇn ÙA-*"
 
tokens/responses_len_mean   AH^.       ÅËWú	ÜñJÇn ÙA-*!

tokens/responses_len_std    ùÎ<%       ê¼6ó	íñJÇn ÙA-*

ppo/loss/policygff²RŠ²$       B+€M	nôJÇn ÙA-*

ppo/loss/value§Âw8^tu*$       B+€M	×øJÇn ÙA-*

ppo/loss/totalÂÅ6Hç(       ÿpJ	ùJÇn ÙA-*

ppo/policy/entropy0–É8œo!æ)       7ÿ_ 	ùJÇn ÙA-*

ppo/policy/approxkl8wo*áCk)       7ÿ_ 	.ùJÇn ÙA-*

ppo/policy/policyklÿ´…s2)       7ÿ_ 	@ùJÇn ÙA-*

ppo/policy/clipfrac    ™/ k0       •õÐ_	RùJÇn ÙA-*#
!
ppo/policy/advantages_mean  @²Îómõ&       sOã 	cùJÇn ÙA-*

ppo/returns/meanÆ Àls„Ù%       ê¼6ó	tùJÇn ÙA-*

ppo/returns/var}/ Aw°¿ä#       °ŸwC	„ùJÇn ÙA-*

ppo/val/vpredþw À3CÌK#       °ŸwC	”ùJÇn ÙA-*

ppo/val/error§Â÷8{Ÿm|&       sOã 	ýûJÇn ÙA-*

ppo/val/clipfrac    cX"       x=ý	+üJÇn ÙA-*

ppo/val/meanv³ÿ¿çø\!       {ìö	CüJÇn ÙA-*

ppo/val/var™" ASôý%+       †ÃK	ßüJÇn ÙA-*

ppo/val/var_explained	ÿ?/…=|'       »á±F	ôüJÇn ÙA-*

ppo/learning_rateÀÏ¸:¿f¥!+       †ÃK	ËþJÇn ÙA-*

time/ppo/forward_passàÁ`>Òñø&.       ÅËWú	=ÿJÇn ÙA-*!

time/ppo/compute_rewards øÐ:åT½1       ƒƒé	°ÿJÇn ÙA-*$
"
time/ppo/compute_advantages XU;Ì6‰š,       ô®ÌE		 KÇn ÙA-*

time/ppo/optimize_stepðÁ’?êÓfl)       7ÿ_ 	_ KÇn ÙA-*

time/ppo/calc_stats ~M>Ë÷	$       B+€M	´ KÇn ÙA-*

time/ppo/total+É?Câñš%       ê¼6ó	KÇn ÙA-*

env/reward_mean¨%Ì>’ÊÜ$       B+€M	YKÇn ÙA-*

env/reward_stdþJ¿;™M×ì"       x=ý	Ï›©Òn ÙA.*

objective/kl$aBê¸©'       »á±F	5œ©Òn ÙA.*

objective/kl_coef.ƒR>VUÙ'       »á±F	Pœ©Òn ÙA.*

objective/entropy~Ÿ9Ü•Â</       m]P	cœ©Òn ÙA.*"
 
ppo/mean_non_score_rewardî¿¾KtK%       ê¼6ó	uœ©Òn ÙA.*

ppo/mean_scores–Ì>‚ [$       B+€M	ˆœ©Òn ÙA.*

ppo/std_scores¥Åµ<r³†<-       <AŠû	šœ©Òn ÙA.* 

tokens/queries_len_mean  C*W®,       ô®ÌE	ªœ©Òn ÙA.*

tokens/queries_len_std    Ê¥ˆ¥/       m]P	¼œ©Òn ÙA.*"
 
tokens/responses_len_mean   AMˆ…5.       ÅËWú	Íœ©Òn ÙA.*!

tokens/responses_len_std    78Ô]%       ê¼6ó	áœ©Òn ÙA.*

ppo/loss/policyš™£²áÄ$       B+€M	Ÿ©Òn ÙA.*

ppo/loss/valueMÑ9¯zKe$       B+€M	€¡©Òn ÙA.*

ppo/loss/totalýx7­¼ŽÎ(       ÿpJ	¬¡©Òn ÙA.*

ppo/policy/entropyÆÆ8€¦î”)       7ÿ_ 	¤©Òn ÙA.*

ppo/policy/approxkl†Ã6*6UzT)       7ÿ_ 	A¤©Òn ÙA.*

ppo/policy/policyklü—y´¥€)       7ÿ_ 	X¤©Òn ÙA.*

ppo/policy/clipfrac    »0       •õÐ_	§©Òn ÙA.*#
!
ppo/policy/advantages_mean33Ë1ê Üý&       sOã 	?§©Òn ÙA.*

ppo/returns/mean8— À`dø%       ê¼6ó	V§©Òn ÙA.*

ppo/returns/varÄ` Aì©ce#       °ŸwC	n©©Òn ÙA.*

ppo/val/vpredä À¯á#       °ŸwC	—©©Òn ÙA.*

ppo/val/errorMÑ›9Jøc&       sOã 	H«©Òn ÙA.*

ppo/val/clipfrac    Ambv"       x=ý	ï®©Òn ÙA.*

ppo/val/meanv ÀÖcLœ!       {ìö	¯©Òn ÙA.*

ppo/val/varY A1M6+       †ÃK	-¯©Òn ÙA.*

ppo/val/var_explained“ý?|
‚:'       »á±F	@¯©Òn ÙA.*

ppo/learning_rateÀÏ¸:›T?ó+       †ÃK	P¯©Òn ÙA.*

time/ppo/forward_passÌ`>ÿð×.       ÅËWú	`¯©Òn ÙA.*!

time/ppo/compute_rewards Ò:­âd‘1       ƒƒé	q¯©Òn ÙA.*$
"
time/ppo/compute_advantages ÜM;ûIì,       ô®ÌE	¯©Òn ÙA.*

time/ppo/optimize_step$ç’?s&ü=)       7ÿ_ 	‘¯©Òn ÙA.*

time/ppo/calc_stats€G>‚ëÚø$       B+€M	¡¯©Òn ÙA.*

time/ppo/total<€È?Ö»QN%       ê¼6ó	÷¯©Òn ÙA.*

env/reward_mean–Ì>AËy#$       B+€M	L°©Òn ÙA.*

env/reward_std¥Åµ<d¡¾T"       x=ý	ÙÀÛÝn ÙA/*

objective/kl$aBû|'       »á±F	>ÁÛÝn ÙA/*

objective/kl_coef¬¥R>Øá<õ'       »á±F	YÁÛÝn ÙA/*

objective/entropy„Ï9°úÁÜ/       m]P	nÁÛÝn ÙA/*"
 
ppo/mean_non_score_reward24¿Â‡åã%       ê¼6ó	€ÁÛÝn ÙA/*

ppo/mean_scores–Ì>ñEÁó$       B+€M	‘ÁÛÝn ÙA/*

ppo/std_scores¥Åµ<‹a&-       <AŠû	¡ÁÛÝn ÙA/* 

tokens/queries_len_mean  C]Û®ý,       ô®ÌE	±ÁÛÝn ÙA/*

tokens/queries_len_std    S5ž¾/       m]P	ÁÁÛÝn ÙA/*"
 
tokens/responses_len_mean   AŒ­|.       ÅËWú	ÑÁÛÝn ÙA/*!

tokens/responses_len_std    ±À'Y%       ê¼6ó	ãÁÛÝn ÙA/*

ppo/loss/policy  @²óšÓ$       B+€M	ÿÃÛÝn ÙA/*

ppo/loss/value3õ9S³·ð$       B+€M	JÆÛÝn ÙA/*

ppo/loss/total%v7¤ðŠè(       ÿpJ	xÆÛÝn ÙA/*

ppo/policy/entropy
Ä8."Œ>)       7ÿ_ 	ÑÈÛÝn ÙA/*

ppo/policy/approxkl>_*oŽ)       7ÿ_ 	ýÈÛÝn ÙA/*

ppo/policy/policykl@˜Q´}v)       7ÿ_ 	ÉÛÝn ÙA/*

ppo/policy/clipfrac    ½%n0       •õÐ_	ËÛÝn ÙA/*#
!
ppo/policy/advantages_meanfff²šÿŸz&       sOã 	JËÛÝn ÙA/*

ppo/returns/meanb¸ Àw9Š‰%       ê¼6ó	ÍÛÝn ÙA/*

ppo/returns/var|Œ AJõ—#       °ŸwC	¸ÍÛÝn ÙA/*

ppo/val/vpredw´ ÀYÐ	?#       °ŸwC	ÍÍÛÝn ÙA/*

ppo/val/error3õ™9þt‘|&       sOã 	IÐÛÝn ÙA/*

ppo/val/clipfrac    vÇãÍ"       x=ý	rÐÛÝn ÙA/*

ppo/val/mean­4 ÀŠÓJ×!       {ìö	‰ÐÛÝn ÙA/*

ppo/val/var´‘ Ab‹*ù+       †ÃK	šÐÛÝn ÙA/*

ppo/val/var_explained›ý?
Œ›'       »á±F	ÑÛÝn ÙA/*

ppo/learning_rateÀÏ¸:J¨ +       †ÃK	”ÑÛÝn ÙA/*

time/ppo/forward_passÀ]Z>ÚŸ»‘.       ÅËWú	¦ÑÛÝn ÙA/*!

time/ppo/compute_rewards 0Ä:Ž=Ée1       ƒƒé	øÑÛÝn ÙA/*$
"
time/ppo/compute_advantages ,M;1™Ó,       ô®ÌE	KÒÛÝn ÙA/*

time/ppo/optimize_stepæ„Ž?Ê„¹G)       7ÿ_ 	œÒÛÝn ÙA/*

time/ppo/calc_statsàH>ìÊ:Š$       B+€M	íÒÛÝn ÙA/*

time/ppo/total jÃ?”ê¸%       ê¼6ó	CÓÛÝn ÙA/*

env/reward_mean–Ì>É.B®$       B+€M	•ÓÛÝn ÙA/*

env/reward_std¥Åµ<¢®Á€"       x=ý	þ²ýèn ÙA0*

objective/kl$aBåH['       »á±F	b³ýèn ÙA0*

objective/kl_coef/ÈR> ,§'       »á±F	|³ýèn ÙA0*

objective/entropy†¿9²*8F/       m]P	³ýèn ÙA0*"
 
ppo/mean_non_score_reward{L¿—£u
%       ê¼6ó	¡³ýèn ÙA0*

ppo/mean_scores–Ì>en¢$$       B+€M	´³ýèn ÙA0*

ppo/std_scores¥Åµ<¡<l-       <AŠû	Æ³ýèn ÙA0* 

tokens/queries_len_mean  C¦ †',       ô®ÌE	Ø³ýèn ÙA0*

tokens/queries_len_std    ÜŠo</       m]P	ë³ýèn ÙA0*"
 
tokens/responses_len_mean   Aö\Á‡.       ÅËWú	þ³ýèn ÙA0*!

tokens/responses_len_std    %#½¡%       ê¼6ó	´ýèn ÙA0*

ppo/loss/policyÌÌT²¦¨$       B+€M	>¶ýèn ÙA0*

ppo/loss/value~G94g^$       B+€M	Ž¸ýèn ÙA0*

ppo/loss/totalcps7¯¿À3(       ÿpJ	¼¸ýèn ÙA0*

ppo/policy/entropyõAÂ85Q‹²)       7ÿ_ 	¸ºýèn ÙA0*

ppo/policy/approxklf<é) N)       7ÿ_ 	ãºýèn ÙA0*

ppo/policy/policykl¶Ë,´h§D)       7ÿ_ 	H»ýèn ÙA0*

ppo/policy/clipfrac    ô>0       •õÐ_	
½ýèn ÙA0*#
!
ppo/policy/advantages_mean43ó1ãPóì&       sOã 	8½ýèn ÙA0*

ppo/returns/meanâØ ÀJxs%       ê¼6ó	U½ýèn ÙA0*

ppo/returns/vare¾ A$ÙOp#       °ŸwC	j½ýèn ÙA0*

ppo/val/vpredÔ Àf_ä~#       °ŸwC	{½ýèn ÙA0*

ppo/val/error~G˜9<þÐó&       sOã 	‹½ýèn ÙA0*

ppo/val/clipfrac    ^¢¥"       x=ý	›½ýèn ÙA0*

ppo/val/meanÊf ÀÚf–!       {ìö	ö½ýèn ÙA0*

ppo/val/varcÂ AÂŸÑo+       †ÃK	N¾ýèn ÙA0*

ppo/val/var_explained¢ý?¬Fú¢'       »á±F	¢¾ýèn ÙA0*

ppo/learning_rateÀÏ¸:îcî+       †ÃK	÷¾ýèn ÙA0*

time/ppo/forward_pass0TY>]B{Õ.       ÅËWú	Q¿ýèn ÙA0*!

time/ppo/compute_rewards  Ä:`œ1Ì1       ƒƒé	¤¿ýèn ÙA0*$
"
time/ppo/compute_advantages U;Gãê,       ô®ÌE	õ¿ýèn ÙA0*

time/ppo/optimize_stepî˜Ž?™çÓÅ)       7ÿ_ 	GÀýèn ÙA0*

time/ppo/calc_statspÈF>"ù$       B+€M	™Àýèn ÙA0*

time/ppo/total2:Ã?\_¶@%       ê¼6ó	èÀýèn ÙA0*

env/reward_mean–Ì>Òƒ$       B+€M	7Áýèn ÙA0*

env/reward_std¥Åµ<º‰Î"       x=ý	z],ôn ÙA1*

objective/kl$aBžÏ4P'       »á±F	Ù],ôn ÙA1*

objective/kl_coef¸êR>›h‹['       »á±F	ô],ôn ÙA1*

objective/entropyŠ_9 Î"i/       m]P	^,ôn ÙA1*"
 
ppo/mean_non_score_rewardÈd¿ùZt%       ê¼6ó	^,ôn ÙA1*

ppo/mean_scores¨%Ì>ª,]$       B+€M	+^,ôn ÙA1*

ppo/std_scoresþJ¿;1'…©-       <AŠû	<^,ôn ÙA1* 

tokens/queries_len_mean  CãZÒk,       ô®ÌE	L^,ôn ÙA1*

tokens/queries_len_std    ìfr/       m]P	]^,ôn ÙA1*"
 
tokens/responses_len_mean   Aéé‘.       ÅËWú	m^,ôn ÙA1*!

tokens/responses_len_std    ”`e½%       ê¼6ó	}^,ôn ÙA1*

ppo/loss/policyff†²¸t$C$       B+€M	£`,ôn ÙA1*

ppo/loss/valueóN8bN$       B+€M	êb,ôn ÙA1*

ppo/loss/totalÃX¤6÷9±Ñ(       ÿpJ	c,ôn ÙA1*

ppo/policy/entropy°¾¿8%Ót)       7ÿ_ 	e,ôn ÙA1*

ppo/policy/approxklíå)¿6Ð})       7ÿ_ 	Ke,ôn ÙA1*

ppo/policy/policykloe´d…ç)       7ÿ_ 	kg,ôn ÙA1*

ppo/policy/clipfrac    ‚íñb0       •õÐ_	˜g,ôn ÙA1*#
!
ppo/policy/advantages_meanÍÌL°Ä¾o†&       sOã 	¯g,ôn ÙA1*

ppo/returns/meandÀ(qî9%       ê¼6ó	Òi,ôn ÙA1*

ppo/returns/varnì A_t#       °ŸwC	 j,ôn ÙA1*

ppo/val/vpred$ÿ À*ZfÞ#       °ŸwC	j,ôn ÙA1*

ppo/val/erroróÎ8ôæáe&       sOã 	Il,ôn ÙA1*

ppo/val/clipfrac    šÁÙ¼"       x=ý	vl,ôn ÙA1*

ppo/val/meanÛ À¸:[¡!       {ìö	‹l,ôn ÙA1*

ppo/val/var®ë AA“++       †ÃK	úm,ôn ÙA1*

ppo/val/var_explained3ÿ?šíñ'       »á±F	hn,ôn ÙA1*

ppo/learning_rateÀÏ¸:¤O˜+       †ÃK	Án,ôn ÙA1*

time/ppo/forward_passð¬Y>B—¬.       ÅËWú	o,ôn ÙA1*!

time/ppo/compute_rewards °Ì:súä1       ƒƒé	lo,ôn ÙA1*$
"
time/ppo/compute_advantages ˜J;¬€Äj,       ô®ÌE	½o,ôn ÙA1*

time/ppo/optimize_stepðÓŽ?và9)       7ÿ_ 	p,ôn ÙA1*

time/ppo/calc_stats@G>ãW3-$       B+€M	]p,ôn ÙA1*

time/ppo/totalò†Ã?î×Sä%       ê¼6ó	­p,ôn ÙA1*

env/reward_mean¨%Ì>ŽDÛ«$       B+€M	üp,ôn ÙA1*

env/reward_stdþJ¿;A=”"       x=ý	ØÔRÿn ÙA2*

objective/kl$aB©9à¦'       »á±F	CÕRÿn ÙA2*

objective/kl_coefFS>A­h'       »á±F	_ÕRÿn ÙA2*

objective/entropy·9†4Ï‰/       m]P	tÕRÿn ÙA2*"
 
ppo/mean_non_score_reward}¿[Âè3%       ê¼6ó	ˆÕRÿn ÙA2*

ppo/mean_scores¨%Ì>ÏR4r$       B+€M	›ÕRÿn ÙA2*

ppo/std_scoresþJ¿;¢y-       <AŠû	­ÕRÿn ÙA2* 

tokens/queries_len_mean  C81d,       ô®ÌE	¿ÕRÿn ÙA2*

tokens/queries_len_std    nÚLˆ/       m]P	ÑÕRÿn ÙA2*"
 
tokens/responses_len_mean   A¥©.       ÅËWú	äÕRÿn ÙA2*!

tokens/responses_len_std    ÑÏ(Â%       ê¼6ó	÷ÕRÿn ÙA2*

ppo/loss/policy™™Å³ø“$       B+€M	<ØRÿn ÙA2*

ppo/loss/value$ÛM80õ<$       B+€M	vÚRÿn ÙA2*

ppo/loss/totalê˜¡6õ²û#(       ÿpJ	¤ÚRÿn ÙA2*

ppo/policy/entropyp‘½8›àÓ)       7ÿ_ 	3ÛRÿn ÙA2*

ppo/policy/approxkl'}½)@­8)       7ÿ_ 	ÆÛRÿn ÙA2*

ppo/policy/policyklÚ1Û³—nöÈ)       7ÿ_ 	ÙÛRÿn ÙA2*

ppo/policy/clipfrac    %`z0       •õÐ_	6ÜRÿn ÙA2*#
!
ppo/policy/advantages_mean33£3€‚®&       sOã 	–ÜRÿn ÙA2*

ppo/returns/mean‹-ÀŸ[Â‡%       ê¼6ó	ðÜRÿn ÙA2*

ppo/returns/var’Ah±Ë°#       °ŸwC	IÝRÿn ÙA2*

ppo/val/vpredz&À§#X1#       °ŸwC	›ÝRÿn ÙA2*

ppo/val/error$ÛÍ8ü¯žL&       sOã 	îÝRÿn ÙA2*

ppo/val/clipfrac    Dy %"       x=ý	@ÞRÿn ÙA2*

ppo/val/mean ß À#Äí!       {ìö	”ÞRÿn ÙA2*

ppo/val/varXAT í+       †ÃK	ëÞRÿn ÙA2*

ppo/val/var_explained4ÿ?–ùìÏ'       »á±F	EßRÿn ÙA2*

ppo/learning_rateÀÏ¸:ÉƒÕ+       †ÃK	™ßRÿn ÙA2*

time/ppo/forward_passðš[>=ª5.       ÅËWú	òßRÿn ÙA2*!

time/ppo/compute_rewards HÒ:a÷î}1       ƒƒé	EàRÿn ÙA2*$
"
time/ppo/compute_advantages `U;gå™#,       ô®ÌE	˜àRÿn ÙA2*

time/ppo/optimize_step6”?’xÓá)       7ÿ_ 	îàRÿn ÙA2*

time/ppo/calc_stats£E>‚7æo$       B+€M	>áRÿn ÙA2*

time/ppo/total”]Ä?¼G‘%       ê¼6ó	‘áRÿn ÙA2*

env/reward_mean¨%Ì>ÓqUÿ$       B+€M	ßáRÿn ÙA2*

env/reward_stdþJ¿;Vñª"       x=ý	b‰
o ÙA3*

objective/kl$aBó‚w'       »á±F	Ä‰
o ÙA3*

objective/kl_coefÛ/S>ò¼0'       »á±F	Þ‰
o ÙA3*

objective/entropy“/9œˆFY/       m]P	ñ‰
o ÙA3*"
 
ppo/mean_non_score_rewardm•¿TOôŽ%       ê¼6ó	‰
o ÙA3*

ppo/mean_scores–Ì> ¯X$       B+€M	‰
o ÙA3*

ppo/std_scores¥Åµ<»è>-       <AŠû	&‰
o ÙA3* 

tokens/queries_len_mean  CÄ8ì,       ô®ÌE	6‰
o ÙA3*

tokens/queries_len_std     ð†¸/       m]P	G‰
o ÙA3*"
 
tokens/responses_len_mean   AÊÆj.       ÅËWú	Y‰
o ÙA3*!

tokens/responses_len_std    NƒÁ~%       ê¼6ó	m‰
o ÙA3*

ppo/loss/policy43“°ùòGH$       B+€M	—‰
o ÙA3*

ppo/loss/valuex%9vmpN$       B+€M	ç
‰
o ÙA3*

ppo/loss/totalX7p7*¬(       ÿpJ	‰
o ÙA3*

ppo/policy/entropyè³»8¹Zwì)       7ÿ_ 	w‰
o ÙA3*

ppo/policy/approxklY”‰)Ü1h~)       7ÿ_ 	¤‰
o ÙA3*

ppo/policy/policykl×þG³v@Žj)       7ÿ_ 	º‰
o ÙA3*

ppo/policy/clipfrac    Ä0       •õÐ_	Ö‰
o ÙA3*#
!
ppo/policy/advantages_meanffV±Íã…&       sOã 	‰
o ÙA3*

ppo/returns/mean²NÀq†u%       ê¼6ó	y‰
o ÙA3*

ppo/returns/varÃYAW H5#       °ŸwC	×‰
o ÙA3*

ppo/val/vpred×GÀÒu#       °ŸwC	³‰
o ÙA3*

ppo/val/errorx%–9s›ú&       sOã 	‰
o ÙA3*

ppo/val/clipfrac    µïc"       x=ý	u‰
o ÙA3*

ppo/val/mean¢'ÀÒG!       {ìö	È‰
o ÙA3*

ppo/val/varã/A2I» +       †ÃK	‰
o ÙA3*

ppo/val/var_explained®ý?ùZi'       »á±F	p‰
o ÙA3*

ppo/learning_rateÀÏ¸:ŒØË+       †ÃK	Ä‰
o ÙA3*

time/ppo/forward_pass ®Y> ).       ÅËWú	‰
o ÙA3*!

time/ppo/compute_rewards (Ö:šSÃ¹1       ƒƒé	i‰
o ÙA3*$
"
time/ppo/compute_advantages À[;Qn2t,       ô®ÌE	¾‰
o ÙA3*

time/ppo/optimize_stepL™?úC°)       7ÿ_ 	‰
o ÙA3*

time/ppo/calc_stats`ªG>2 $       B+€M	a‰
o ÙA3*

time/ppo/totaljÎ?Í*%       ê¼6ó	³‰
o ÙA3*

env/reward_mean–Ì>`&]Œ$       B+€M	‰
o ÙA3*

env/reward_std¥Åµ<Î–Áò"       x=ý	x6²o ÙA4*

objective/kl$aB,Åë1'       »á±F	à6²o ÙA4*

objective/kl_coeftRS>ç±á'       »á±F	û6²o ÙA4*

objective/entropy˜W9Æ£/       m]P	7²o ÙA4*"
 
ppo/mean_non_score_rewardÅ­¿è þ%       ê¼6ó	!7²o ÙA4*

ppo/mean_scores¨%Ì>¼•åS$       B+€M	47²o ÙA4*

ppo/std_scoresþJ¿;I­:%-       <AŠû	F7²o ÙA4* 

tokens/queries_len_mean  C‘¤µ,       ô®ÌE	Y7²o ÙA4*

tokens/queries_len_std    0ÉZ/       m]P	m7²o ÙA4*"
 
tokens/responses_len_mean   A²|Ã].       ÅËWú	7²o ÙA4*!

tokens/responses_len_std    Z¿™*%       ê¼6ó	7²o ÙA4*

ppo/loss/policyÌÌL1ÂÈ$       B+€M	É9²o ÙA4*

ppo/loss/valuef~58U
f„$       B+€M	<²o ÙA4*

ppo/loss/total„K‘6õ¦“1(       ÿpJ	=<²o ÙA4*

ppo/policy/entropyÞú¸8ê‰˜m)       7ÿ_ 	z>²o ÙA4*

ppo/policy/approxklrÉa)‹.Ô)       7ÿ_ 	¨>²o ÙA4*

ppo/policy/policykl¬1S²þ˜ )       7ÿ_ 	¾>²o ÙA4*

ppo/policy/clipfrac    £­]Þ0       •õÐ_	óA²o ÙA4*#
!
ppo/policy/advantages_meanÍÌÌ°;[Tt&       sOã 	 B²o ÙA4*

ppo/returns/mean¶€Àãa¢K%       ê¼6ó	7B²o ÙA4*

ppo/returns/varòŒA)ê•#       °ŸwC	KB²o ÙA4*

ppo/val/vpred»{ÀÄV2#       °ŸwC	]B²o ÙA4*

ppo/val/errorf~µ8H®ÊN&       sOã 	oB²o ÙA4*

ppo/val/clipfrac    ÷péœ"       x=ý	€B²o ÙA4*

ppo/val/meanrÀÙ«È¿!       {ìö	“B²o ÙA4*

ppo/val/var¾bAµÈa¤+       †ÃK	¥B²o ÙA4*

ppo/val/var_explainedMÿ?ãÂ*÷'       »á±F	C²o ÙA4*

ppo/learning_rateÀÏ¸:©%J!+       †ÃK	_C²o ÙA4*

time/ppo/forward_pass0³^>Kn–’.       ÅËWú	»C²o ÙA4*!

time/ppo/compute_rewards Í:Ïw”‡1       ƒƒé	D²o ÙA4*$
"
time/ppo/compute_advantages 4Q;FE[Š,       ô®ÌE	aD²o ÙA4*

time/ppo/optimize_stepØä‘?E§9È)       7ÿ_ 	³D²o ÙA4*

time/ppo/calc_statsÅG>t‹"ö$       B+€M	E²o ÙA4*

time/ppo/totalRÇ?IyÓ%       ê¼6ó	TE²o ÙA4*

env/reward_mean¨%Ì>u–]$       B+€M	¤E²o ÙA4*

env/reward_stdþJ¿;†~®ð"       x=ý	¸å o ÙA5*

objective/kl	$aB2š6«'       »á±F	†¸å o ÙA5*

objective/kl_coefuS>N¼!m'       »á±F	¢¸å o ÙA5*

objective/entropyœG 9,X/       m]P	¶¸å o ÙA5*"
 
ppo/mean_non_score_reward"Æ¿8 ·C%       ê¼6ó	É¸å o ÙA5*

ppo/mean_scores–Ì>“ø o$       B+€M	Û¸å o ÙA5*

ppo/std_scores¥Åµ<â×æT-       <AŠû	î¸å o ÙA5* 

tokens/queries_len_mean  Cæ«¨!,       ô®ÌE	¹å o ÙA5*

tokens/queries_len_std    ‰ox
/       m]P	¹å o ÙA5*"
 
tokens/responses_len_mean   AÂ»L.       ÅËWú	%¹å o ÙA5*!

tokens/responses_len_std    £j¤M%       ê¼6ó	7¹å o ÙA5*

ppo/loss/policyÌÌÌ1`Ç†P$       B+€M	j¼å o ÙA5*

ppo/loss/valueS49±ï¬»$       B+€M	–¼å o ÙA5*

ppo/loss/total† c7ïbW(       ÿpJ	é¿å o ÙA5*

ppo/policy/entropye–¶8Šú¢)       7ÿ_ 	Àå o ÙA5*

ppo/policy/approxkl×ÉL)¸çô)       7ÿ_ 	)Àå o ÙA5*

ppo/policy/policykl²Ë43:Í=4)       7ÿ_ 	;Àå o ÙA5*

ppo/policy/clipfrac    ™v; 0       •õÐ_	MÀå o ÙA5*#
!
ppo/policy/advantages_mean  @1x+çç&       sOã 	_Àå o ÙA5*

ppo/returns/meanø£Àåð%       ê¼6ó	EÃå o ÙA5*

ppo/returns/varkÆA¹\#       °ŸwC	oÃå o ÙA5*

ppo/val/vpredÍ£Àä‘ï#       °ŸwC	†Ãå o ÙA5*

ppo/val/errorS4Ž9ežj†&       sOã 	˜Ãå o ÙA5*

ppo/val/clipfrac    ‘“ä/"       x=ý	©Ãå o ÙA5*

ppo/val/meanëÁÀ”
Õþ!       {ìö	&Åå o ÙA5*

ppo/val/varò”A”¿â+       †ÃK	šÅå o ÙA5*

ppo/val/var_explainedÏý?µ‡;¢'       »á±F	jÇå o ÙA5*

ppo/learning_rateÀÏ¸:JÕ!+       †ÃK	ÞÇå o ÙA5*

time/ppo/forward_passÀ§[>É(£.       ÅËWú	\Èå o ÙA5*!

time/ppo/compute_rewards °Ã:¯/CW1       ƒƒé	³Êå o ÙA5*$
"
time/ppo/compute_advantages äI;³NÈ•,       ô®ÌE	$Ëå o ÙA5*

time/ppo/optimize_stepT?y›Š')       7ÿ_ 	Ëå o ÙA5*

time/ppo/calc_statsÐùH>kÑ­$       B+€M	ÔËå o ÙA5*

time/ppo/totalt7Ä?ò2R=%       ê¼6ó	*Ìå o ÙA5*

env/reward_mean–Ì>£Ÿ¡_$       B+€M	€Ìå o ÙA5*

env/reward_std¥Åµ<¡™û<"       x=ý	‰õ,o ÙA6*

objective/kl
$aB¹jC!'       »á±F	íõ,o ÙA6*

objective/kl_coef¹—S>å,Ì'       »á±F	ö,o ÙA6*

objective/entropy@/ü8×—Û¾/       m]P	ö,o ÙA6*"
 
ppo/mean_non_score_reward‚Þ¿!3Z£%       ê¼6ó	-ö,o ÙA6*

ppo/mean_scores¨%Ì>¦ÄQ9$       B+€M	>ö,o ÙA6*

ppo/std_scoresþJ¿;ÌÝ3Ê-       <AŠû	Pö,o ÙA6* 

tokens/queries_len_mean  Ck¤7‡,       ô®ÌE	cö,o ÙA6*

tokens/queries_len_std    b”ºø/       m]P	tö,o ÙA6*"
 
tokens/responses_len_mean   A?5é.       ÅËWú	„ö,o ÙA6*!

tokens/responses_len_std    Ç¸%       ê¼6ó	”ö,o ÙA6*

ppo/loss/policyš™3j	é$       B+€M	éø,o ÙA6*

ppo/loss/valueÞA8*(­/$       B+€M	Xû,o ÙA6*

ppo/loss/totalciT6û/$Ó(       ÿpJ	ƒû,o ÙA6*

ppo/policy/entropyÉ³8 í·x)       7ÿ_ 	þ,o ÙA6*

ppo/policy/approxkl\$)Oƒ»)       7ÿ_ 	6þ,o ÙA6*

ppo/policy/policykleN3*Ð2K)       7ÿ_ 	Lþ,o ÙA6*

ppo/policy/clipfrac    ¢™}0       •õÐ_	¾ ,o ÙA6*#
!
ppo/policy/advantages_meanff&³Eß¥d&       sOã 	í ,o ÙA6*

ppo/returns/meanƒÓÀÆøÁz%       ê¼6ó	,o ÙA6*

ppo/returns/varÊ÷A"á^#       °ŸwC	D,o ÙA6*

ppo/val/vpredÖÓÀµægV#       °ŸwC	n,o ÙA6*

ppo/val/errorÞAƒ8ÿÜ¥&       sOã 	ã,o ÙA6*

ppo/val/clipfrac    ÷«ú£"       x=ý	,o ÙA6*

ppo/val/meanÀJó£ª!       {ìö	",o ÙA6*

ppo/val/var/ÄAK`<+       †ÃK	2,o ÙA6*

ppo/val/var_explainedÿ?¹#,'       »á±F	C,o ÙA6*

ppo/learning_rateÀÏ¸:OvÍ+       †ÃK	R,o ÙA6*

time/ppo/forward_pass÷[>ã^ÞÏ.       ÅËWú	c,o ÙA6*!

time/ppo/compute_rewards 8É:Nùÿ›1       ƒƒé	r,o ÙA6*$
"
time/ppo/compute_advantages ¼O;—\Ä‘,       ô®ÌE	,o ÙA6*

time/ppo/optimize_stepn?Ç‹ž7)       7ÿ_ 	æ,o ÙA6*

time/ppo/calc_stats ‚G>#6ø¹$       B+€M	A,o ÙA6*

time/ppo/totalœÄ?ªµŸ%       ê¼6ó	˜,o ÙA6*

env/reward_mean¨%Ì>ŒÀ@Q$       B+€M	ê,o ÙA6*

env/reward_stdþJ¿;Aßû¹"       x=ý	žÖV7o ÙA7*

objective/kl
$aBþ3Ù:'       »á±F	ùÖV7o ÙA7*

objective/kl_coefdºS>àî.È'       »á±F	×V7o ÙA7*

objective/entropyF?÷8áMÇ/       m]P	'×V7o ÙA7*"
 
ppo/mean_non_score_rewardæö¿­E>C%       ê¼6ó	:×V7o ÙA7*

ppo/mean_scores¨%Ì>\Ë $       B+€M	K×V7o ÙA7*

ppo/std_scoresþJ¿;šë°æ-       <AŠû	\×V7o ÙA7* 

tokens/queries_len_mean  Cöÿ3,       ô®ÌE	m×V7o ÙA7*

tokens/queries_len_std    £Ÿý¡/       m]P	×V7o ÙA7*"
 
tokens/responses_len_mean   AðàïB.       ÅËWú	×V7o ÙA7*!

tokens/responses_len_std    5hä%       ê¼6ó	¡×V7o ÙA7*

ppo/loss/policygfæ2§gín$       B+€M	¸ÙV7o ÙA7*

ppo/loss/valueÜ Ó7t´¸$       B+€M	ÜV7o ÙA7*

ppo/loss/totalä³*6n›º(       ÿpJ	-ÜV7o ÙA7*

ppo/policy/entropy0õ°8Sth)       7ÿ_ 	›ÞV7o ÙA7*

ppo/policy/approxklúIØ(Ÿ+Ô‰)       7ÿ_ 	ÆÞV7o ÙA7*

ppo/policy/policyklq23jvnx)       7ÿ_ 	ÞÞV7o ÙA7*

ppo/policy/clipfrac    ¾ÔÓ¾0       •õÐ_	5áV7o ÙA7*#
!
ppo/policy/advantages_mean43³²ïç`&       sOã 	`áV7o ÙA7*

ppo/returns/mean÷À üÊ%       ê¼6ó	wáV7o ÙA7*

ppo/returns/varŽ*AøÈ;n#       °ŸwC	£ãV7o ÙA7*

ppo/val/vpredÄúÀ6»»Ñ#       °ŸwC	ÌãV7o ÙA7*

ppo/val/errorÜ S8Œ±&       sOã 	æV7o ÙA7*

ppo/val/clipfrac    tðÉ"       x=ý	»æV7o ÙA7*

ppo/val/meanÑ<À”øà`!       {ìö	ÒæV7o ÙA7*

ppo/val/varÒíAËß‚ù+       †ÃK	åæV7o ÙA7*

ppo/val/var_explained˜ÿ?Oü'       »á±F	÷æV7o ÙA7*

ppo/learning_rateÀÏ¸:(µxv+       †ÃK	eçV7o ÙA7*

time/ppo/forward_pass0Æ\>É_Ð.       ÅËWú	ÉçV7o ÙA7*!

time/ppo/compute_rewards @Å:sæ›d1       ƒƒé	!èV7o ÙA7*$
"
time/ppo/compute_advantages ÔJ;âÈÅ_,       ô®ÌE	rèV7o ÙA7*

time/ppo/optimize_step‚o?Tï#)       7ÿ_ 	ÅèV7o ÙA7*

time/ppo/calc_stats0¥>ÊûÒ$       B+€M	éV7o ÙA7*

time/ppo/total0
Ï?1o3%       ê¼6ó	eéV7o ÙA7*

env/reward_mean¨%Ì>±€2$       B+€M	³éV7o ÙA7*

env/reward_stdþJ¿;•ë}I"       x=ý	+I—Bo ÙA8*

objective/kl
$aBT¿Ò '       »á±F	ŠI—Bo ÙA8*

objective/kl_coefÝS>&kº†'       »á±F	¤I—Bo ÙA8*

objective/entropyNò8Q´¨/       m]P	ºI—Bo ÙA8*"
 
ppo/mean_non_score_rewardN¿(AX%       ê¼6ó	ÌI—Bo ÙA8*

ppo/mean_scores¨%Ì>$Xn$       B+€M	ÝI—Bo ÙA8*

ppo/std_scoresþJ¿;¯ðñ0-       <AŠû	îI—Bo ÙA8* 

tokens/queries_len_mean  C&2Ò,       ô®ÌE	ýI—Bo ÙA8*

tokens/queries_len_std    ©Ðnß/       m]P	J—Bo ÙA8*"
 
tokens/responses_len_mean   A{@t.       ÅËWú	 J—Bo ÙA8*!

tokens/responses_len_std    ìàÏ%       ê¼6ó	0J—Bo ÙA8*

ppo/loss/policy   ²Û´°$       B+€M	uL—Bo ÙA8*

ppo/loss/valueŸÖ£7£T›¡$       B+€M	¤N—Bo ÙA8*

ppo/loss/total’6^§Rq(       ÿpJ	ÒN—Bo ÙA8*

ppo/policy/entropyî­8ˆª3²)       7ÿ_ 	"Q—Bo ÙA8*

ppo/policy/approxkl:JÀ(q=ê~)       7ÿ_ 	JQ—Bo ÙA8*

ppo/policy/policykl\2“3S)       7ÿ_ 	`Q—Bo ÙA8*

ppo/policy/clipfrac    S˜¨„0       •õÐ_	S—Bo ÙA8*#
!
ppo/policy/advantages_meanš™™2®×«&       sOã 	®S—Bo ÙA8*

ppo/returns/mean|Àrè„‘%       ê¼6ó	˜U—Bo ÙA8*

ppo/returns/varºWA÷9ž#       °ŸwC	¿U—Bo ÙA8*

ppo/val/vpredÀ:°#       °ŸwC	ÓU—Bo ÙA8*

ppo/val/errorŸÖ#8ø2&       sOã 	æU—Bo ÙA8*

ppo/val/clipfrac    \ "       x=ý	÷U—Bo ÙA8*

ppo/val/meanÎaÀø†¨D!       {ìö	V—Bo ÙA8*

ppo/val/var>A,P+£+       †ÃK	V—Bo ÙA8*

ppo/val/var_explained°ÿ?m¡Õ©'       »á±F	%V—Bo ÙA8*

ppo/learning_rateÀÏ¸:â+       †ÃK	V—Bo ÙA8*

time/ppo/forward_pass0[>wAý.       ÅËWú	éV—Bo ÙA8*!

time/ppo/compute_rewards ˆÐ:[’²j1       ƒƒé	>W—Bo ÙA8*$
"
time/ppo/compute_advantages  P;	{,       ô®ÌE	W—Bo ÙA8*

time/ppo/optimize_stepÄþ?Ò¯)       7ÿ_ 	ßW—Bo ÙA8*

time/ppo/calc_statsàÔH>•F$       B+€M	0X—Bo ÙA8*

time/ppo/totalÌÅ?ê¸t%       ê¼6ó	´X—Bo ÙA8*

env/reward_mean¨%Ì>{µR$       B+€M	ÄX—Bo ÙA8*

env/reward_stdþJ¿;ÖòÃˆ"       x=ý	¸ÄÌMo ÙA9*

objective/kl$aB3ñ×—'       »á±F	ÅÌMo ÙA9*

objective/kl_coefËÿS>Ã>Ç'       »á±F	7ÅÌMo ÙA9*

objective/entropyS/ï8dD-z/       m]P	LÅÌMo ÙA9*"
 
ppo/mean_non_score_reward¼'¿õt"‘%       ê¼6ó	]ÅÌMo ÙA9*

ppo/mean_scores–Ì>íßq$       B+€M	oÅÌMo ÙA9*

ppo/std_scores¥Åµ<9J ¸-       <AŠû	€ÅÌMo ÙA9* 

tokens/queries_len_mean  CèÆÓ,       ô®ÌE	’ÅÌMo ÙA9*

tokens/queries_len_std    ¨Î—_/       m]P	£ÅÌMo ÙA9*"
 
tokens/responses_len_mean   Aºò{.       ÅËWú	³ÅÌMo ÙA9*!

tokens/responses_len_std    	XÐ%       ê¼6ó	ÄÅÌMo ÙA9*

ppo/loss/policy  P²½Žr$       B+€M	ûÇÌMo ÙA9*

ppo/loss/value$,ó8¨²›P$       B+€M	êÊÌMo ÙA9*

ppo/loss/total·UB7+žk(       ÿpJ	ËÌMo ÙA9*

ppo/policy/entropydÊ«8Û|KÃ)       7ÿ_ 	øØÌMo ÙA9*

ppo/policy/approxklÌ½«(¥O/ )       7ÿ_ 	2ÙÌMo ÙA9*

ppo/policy/policyklÆ˜™3Bˆ)       7ÿ_ 	HÙÌMo ÙA9*

ppo/policy/clipfrac    'Ã¨0       •õÐ_	]ÙÌMo ÙA9*#
!
ppo/policy/advantages_meanÌÌ42àg~&       sOã 	oÙÌMo ÙA9*

ppo/returns/meanàÀ¥eéU%       ê¼6ó	ÙÌMo ÙA9*

ppo/returns/varóƒAæ¶œœ#       °ŸwC	ŽÙÌMo ÙA9*

ppo/val/vpred¯&Àç+¦(#       °ŸwC	žÙÌMo ÙA9*

ppo/val/error$,s9ÊŠ¾›&       sOã 	®ÙÌMo ÙA9*

ppo/val/clipfrac    $¨"       x=ý	½ÙÌMo ÙA9*

ppo/val/mean®mÀlä !       {ìö	ÍÜÌMo ÙA9*

ppo/val/var›QAÕ…+       †ÃK	ùÜÌMo ÙA9*

ppo/val/var_explained#þ?t/ë'       »á±F	pÝÌMo ÙA9*

ppo/learning_rateÀÏ¸:®¹ô+       †ÃK	ïÝÌMo ÙA9*

time/ppo/forward_passph\>3º°.       ÅËWú	PÞÌMo ÙA9*!

time/ppo/compute_rewards XÕ:·;Ún1       ƒƒé	¨ÞÌMo ÙA9*$
"
time/ppo/compute_advantages `O;Ü½-,       ô®ÌE	ýÞÌMo ÙA9*

time/ppo/optimize_stepd[?éXÓ°)       7ÿ_ 	UßÌMo ÙA9*

time/ppo/calc_statsà/L>zyTÄ$       B+€M	¨ßÌMo ÙA9*

time/ppo/totalÐÅ?¦3îò%       ê¼6ó	ÿßÌMo ÙA9*

env/reward_mean–Ì>¨%‹$       B+€M	TàÌMo ÙA9*

env/reward_std¥Åµ<t0oî"       x=ý	ç46Yo ÙA:*

objective/kl$aB,bòÄ'       »á±F	O56Yo ÙA:*

objective/kl_coef†"T>8Däí'       »á±F	n56Yo ÙA:*

objective/entropyToí8xeÅ/       m]P	ƒ56Yo ÙA:*"
 
ppo/mean_non_score_reward+@¿`ºÇU%       ê¼6ó	—56Yo ÙA:*

ppo/mean_scores¨%Ì>5¿Ð$       B+€M	©56Yo ÙA:*

ppo/std_scoresþJ¿;+H»à-       <AŠû	»56Yo ÙA:* 

tokens/queries_len_mean  CHù£Ò,       ô®ÌE	Ï56Yo ÙA:*

tokens/queries_len_std    ³‰L/       m]P	á56Yo ÙA:*"
 
tokens/responses_len_mean   AÄÌÉ..       ÅËWú	ñ56Yo ÙA:*!

tokens/responses_len_std    y«%´%       ê¼6ó	66Yo ÙA:*

ppo/loss/policy4332¶1FJ$       B+€M	h96Yo ÙA:*

ppo/loss/valueð/Q7ÔÌ9$       B+€M	”96Yo ÙA:*

ppo/loss/totalô¿¨5ÿ«gÅ(       ÿpJ	­96Yo ÙA:*

ppo/policy/entropyJµ©87«Ýø)       7ÿ_ 	¿96Yo ÙA:*

ppo/policy/approxkl¿cø'Ó?`+)       7ÿ_ 	Ô96Yo ÙA:*

ppo/policy/policyklŒ23Ó¿)       7ÿ_ 	ä96Yo ÙA:*

ppo/policy/clipfrac    Y)†0       •õÐ_	÷96Yo ÙA:*#
!
ppo/policy/advantages_meanÍÌÌ±(¯ùì&       sOã 	:6Yo ÙA:*

ppo/returns/mean*0ÀÈÔr%       ê¼6ó	¹:6Yo ÙA:*

ppo/returns/varX AÙäþ}#       °ŸwC	Ì:6Yo ÙA:*

ppo/val/vpredÌ4ÀYãCÅ#       °ŸwC	);6Yo ÙA:*

ppo/val/errorð/Ñ7«ðv3&       sOã 	…;6Yo ÙA:*

ppo/val/clipfrac    $™Tº"       x=ý	ß;6Yo ÙA:*

ppo/val/meanÒWÀJô†!       {ìö	:<6Yo ÙA:*

ppo/val/varÆAàÚüÛ+       †ÃK	”<6Yo ÙA:*

ppo/val/var_explainedÍÿ?µ¤æê'       »á±F	ë<6Yo ÙA:*

ppo/learning_rateÀÏ¸:î VT+       †ÃK	C=6Yo ÙA:*

time/ppo/forward_pass€æd>²"­.       ÅËWú	¡=6Yo ÙA:*!

time/ppo/compute_rewards 0Ö:æ…–1       ƒƒé	ø=6Yo ÙA:*$
"
time/ppo/compute_advantages TW;T„l,       ô®ÌE	O>6Yo ÙA:*

time/ppo/optimize_stepdú?è-àD)       7ÿ_ 	¤>6Yo ÙA:*

time/ppo/calc_statsN>IöÙþ$       B+€M	þ>6Yo ÙA:*

time/ppo/totaldýÔ?^(Ü#%       ê¼6ó	T?6Yo ÙA:*

env/reward_mean¨%Ì>?ßä‰$       B+€M	©?6Yo ÙA:*

env/reward_stdþJ¿;|'üD"       x=ý	%Ô®do ÙA;*

objective/kl$aBsÕ;“'       »á±F	ŒÔ®do ÙA;*

objective/kl_coefHET>Íô8n'       »á±F	¨Ô®do ÙA;*

objective/entropyToí8ús+¡/       m]P	½Ô®do ÙA;*"
 
ppo/mean_non_score_reward X¿-Ž– %       ê¼6ó	ÐÔ®do ÙA;*

ppo/mean_scores¨%Ì>uõs$       B+€M	äÔ®do ÙA;*

ppo/std_scoresþJ¿;CN-       <AŠû	üÔ®do ÙA;* 

tokens/queries_len_mean  CQ
=,       ô®ÌE	Õ®do ÙA;*

tokens/queries_len_std    *Š˜N/       m]P	 Õ®do ÙA;*"
 
tokens/responses_len_mean   A\cÉñ.       ÅËWú	1Õ®do ÙA;*!

tokens/responses_len_std    Ýã¾·%       ê¼6ó	AÕ®do ÙA;*

ppo/loss/policyÍÌÌ°éinÝ$       B+€M	¢×®do ÙA;*

ppo/loss/valueøñ27,[S$       B+€M	Û®do ÙA;*

ppo/loss/totalÇôŽ5Ç™‹â(       ÿpJ	»Û®do ÙA;*

ppo/policy/entropy†º¨8{ûia)       7ÿ_ 	ÐÛ®do ÙA;*

ppo/policy/approxklòdƒ'ôà¡)       7ÿ_ 	ãÛ®do ÙA;*

ppo/policy/policyklÐÀL°0HñA)       7ÿ_ 	óÛ®do ÙA;*

ppo/policy/clipfrac    ›÷t0       •õÐ_	Ü®do ÙA;*#
!
ppo/policy/advantages_mean4332÷™¶&       sOã 	Ü®do ÙA;*

ppo/returns/meanâ7Àüˆ÷b%       ê¼6ó	ˆÜ®do ÙA;*

ppo/returns/varú½A«$•¥#       °ŸwC	Þ®do ÙA;*

ppo/val/vpreda9ÀN€n¸#       °ŸwC	@Þ®do ÙA;*

ppo/val/errorøñ²7Ä¹Y&       sOã 	UÞ®do ÙA;*

ppo/val/clipfrac    Ï7æó"       x=ý	fÞ®do ÙA;*

ppo/val/mean=À×‰i¾!       {ìö	wÞ®do ÙA;*

ppo/val/varÄ¬A‹µ–„+       †ÃK	‡Þ®do ÙA;*

ppo/val/var_explainedÔÿ?¨³º·'       »á±F	ÚÞ®do ÙA;*

ppo/learning_rateÀÏ¸:ìÿã…+       †ÃK	1ß®do ÙA;*

time/ppo/forward_passðáZ>ç.       ÅËWú	‰ß®do ÙA;*!

time/ppo/compute_rewards 0Ñ:|+@1       ƒƒé	Üß®do ÙA;*$
"
time/ppo/compute_advantages ÐR;s.\ò,       ô®ÌE	Ià®do ÙA;*

time/ppo/optimize_step<!?Ä¦ )       7ÿ_ 	™à®do ÙA;*

time/ppo/calc_stats°mH>ÍPðÏ$       B+€M	èà®do ÙA;*

time/ppo/total+Ä?ä¢S%       ê¼6ó	;á®do ÙA;*

env/reward_mean¨%Ì>×AŠF$       B+€M	‰á®do ÙA;*

env/reward_stdþJ¿;¤zËø"       x=ý	Á)po ÙA<*

objective/kl$aBüâ³µ'       »á±F	'*po ÙA<*

objective/kl_coefhT>K±ªz'       »á±F	E*po ÙA<*

objective/entropyTŸí8I)Å&/       m]P	Y*po ÙA<*"
 
ppo/mean_non_score_rewardq¿ñÆTë%       ê¼6ó	l*po ÙA<*

ppo/mean_scores¨%Ì>ÎT$       B+€M	€*po ÙA<*

ppo/std_scoresþJ¿;×sÄo-       <AŠû	’*po ÙA<* 

tokens/queries_len_mean  C 5x,       ô®ÌE	¢*po ÙA<*

tokens/queries_len_std    Þô>/       m]P	³*po ÙA<*"
 
tokens/responses_len_mean   Ak´È.       ÅËWú	Ã*po ÙA<*!

tokens/responses_len_std    ð¹.Œ%       ê¼6ó	Õ*po ÙA<*

ppo/loss/policyÍÌ²â	qÛ$       B+€M	.-po ÙA<*

ppo/loss/valueày(7•uÝX$       B+€M	/po ÙA<*

ppo/loss/totalM®…5âÎ(       ÿpJ	¬/po ÙA<*

ppo/policy/entropyØ¨8ÜF®)       7ÿ_ 	70po ÙA<*

ppo/policy/approxklö0°'ýX	)       7ÿ_ 	Å0po ÙA<*

ppo/policy/policykl$Ëü²É°Ø)       7ÿ_ 	Ù0po ÙA<*

ppo/policy/clipfrac    `ñ [0       •õÐ_	41po ÙA<*#
!
ppo/policy/advantages_mean   2²æ&       sOã 	1po ÙA<*

ppo/returns/meanÞBÀqª!W%       ê¼6ó	å1po ÙA<*

ppo/returns/varùÜAˆ G½#       °ŸwC	:2po ÙA<*

ppo/val/vpred†?À×`Ã#       °ŸwC	2po ÙA<*

ppo/val/errorày¨7w‡¬&       sOã 	ß2po ÙA<*

ppo/val/clipfrac    b¬çÎ"       x=ý	13po ÙA<*

ppo/val/meanB(ÀÇ£!!       {ìö	…3po ÙA<*

ppo/val/var¼ÌAŠ*«ø+       †ÃK	Ú3po ÙA<*

ppo/val/var_explained×ÿ?äÊ_ê'       »á±F	-4po ÙA<*

ppo/learning_rateÀÏ¸:¤ë	“+       †ÃK	€4po ÙA<*

time/ppo/forward_passÐï`>,Õhí.       ÅËWú	Ù4po ÙA<*!

time/ppo/compute_rewards ðË:œ¨1       ƒƒé	,5po ÙA<*$
"
time/ppo/compute_advantages $R;;r,       ô®ÌE	€5po ÙA<*

time/ppo/optimize_stepŠl’?EÅ()       7ÿ_ 	Ó5po ÙA<*

time/ppo/calc_statsðÊM>h¨Æ$       B+€M	"6po ÙA<*

time/ppo/total0âÈ?çÀw%       ê¼6ó	u6po ÙA<*

env/reward_mean¨%Ì>…54$       B+€M	Â6po ÙA<*

env/reward_stdþJ¿;ƒ$@³"       x=ý	igê{o ÙA=*

objective/klš±B6}›'       »á±F	Ògê{o ÙA=*

objective/kl_coefÜŠT>c¾'       »á±F	ïgê{o ÙA=*

objective/entropyø7Ô ‘/       m]P	hê{o ÙA=*"
 
ppo/mean_non_score_rewardžÔ)¿ŒíÔõ%       ê¼6ó	-hê{o ÙA=*

ppo/mean_scoresÁ_?¸»(é$       B+€M	@hê{o ÙA=*

ppo/std_scoresÒj«<a„,¹-       <AŠû	Shê{o ÙA=* 

tokens/queries_len_mean  üBE Âï,       ô®ÌE	dhê{o ÙA=*

tokens/queries_len_std    ¦zÖ/       m]P	whê{o ÙA=*"
 
tokens/responses_len_mean   Aÿ3:.       ÅËWú	Šhê{o ÙA=*!

tokens/responses_len_std    +*·k%       ê¼6ó	 hê{o ÙA=*

ppo/loss/policyfªÿ7 §÷º$       B+€M	°lê{o ÙA=*

ppo/loss/value°i¾>ŠMvˆ$       B+€M	Ûlê{o ÙA=*

ppo/loss/total‚t=–…6>(       ÿpJ	õlê{o ÙA=*

ppo/policy/entropyËÄ9…·1ï)       7ÿ_ 	mê{o ÙA=*

ppo/policy/approxkl®&L1'à¦Á)       7ÿ_ 	mê{o ÙA=*

ppo/policy/policykl…åû7k’Gq)       7ÿ_ 	/mê{o ÙA=*

ppo/policy/clipfrac    ÙÂí˜0       •õÐ_	Bmê{o ÙA=*#
!
ppo/policy/advantages_mean333x,P½&       sOã 	.qê{o ÙA=*

ppo/returns/meanvÀàÇ¹%       ê¼6ó	Xqê{o ÙA=*

ppo/returns/varÉ.A¼À-#       °ŸwC	qqê{o ÙA=*

ppo/val/vpredè À¢f7#       °ŸwC	†qê{o ÙA=*

ppo/val/errorºa?©Ñ&       sOã 	˜qê{o ÙA=*

ppo/val/clipfrac  Œ>0ÙWÑ"       x=ý	¨qê{o ÙA=*

ppo/val/mean(ÀöÅ×ì!       {ìö	¸qê{o ÙA=*

ppo/val/varÀeà@ó²	+       †ÃK	Éqê{o ÙA=*

ppo/val/var_explainedZ£r?’ÝÓe'       »á±F	Ùqê{o ÙA=*

ppo/learning_rateÀÏ¸:kì²ª+       †ÃK	éqê{o ÙA=*

time/ppo/forward_pass GG>L#%(.       ÅËWú	”tê{o ÙA=*!

time/ppo/compute_rewards øØ:cÄe1       ƒƒé	¿tê{o ÙA=*$
"
time/ppo/compute_advantages €?;Ff¼,       ô®ÌE	×tê{o ÙA=*

time/ppo/optimize_stepÄIƒ?xV‡)       7ÿ_ 	6wê{o ÙA=*

time/ppo/calc_stats C7>Kòr•$       B+€M	awê{o ÙA=*

time/ppo/totalX³³?öHî%       ê¼6ó	iyê{o ÙA=*

env/reward_meanÁ_?S	×n$       B+€M	›{ê{o ÙA=*

env/reward_stdÒj«<Ô‚-"       x=ý	” L…o ÙA>*

objective/kl–±B,íÑç'       »á±F	!L…o ÙA>*

objective/kl_coef¯­T>kK'       »á±F	!L…o ÙA>*

objective/entropyÑ?Ù7¯7Ì/       m]P	4!L…o ÙA>*"
 
ppo/mean_non_score_rewardnð)¿ê&	³%       ê¼6ó	I!L…o ÙA>*

ppo/mean_scoresÁ_?ä©fË$       B+€M	[!L…o ÙA>*

ppo/std_scoresÒj«<|I-       <AŠû	l!L…o ÙA>* 

tokens/queries_len_mean  üBT°Éž,       ô®ÌE	|!L…o ÙA>*

tokens/queries_len_std    KÖÀ/       m]P	!L…o ÙA>*"
 
tokens/responses_len_mean   A„iD÷.       ÅËWú	Ÿ!L…o ÙA>*!

tokens/responses_len_std    ¨<÷%       ê¼6ó	¯!L…o ÙA>*

ppo/loss/policy™™•6š8n$       B+€M	&$L…o ÙA>*

ppo/loss/valueçÐ>MËA$       B+€M	(L…o ÙA>*

ppo/loss/total2z&=4vØ(       ÿpJ	8(L…o ÙA>*

ppo/policy/entropyBes9;½)       7ÿ_ 	M(L…o ÙA>*

ppo/policy/approxkl`&h0ûÊXA)       7ÿ_ 	^(L…o ÙA>*

ppo/policy/policykl0]Š7ÖÇ)       7ÿ_ 	o(L…o ÙA>*

ppo/policy/clipfrac    7²0       •õÐ_	(L…o ÙA>*#
!
ppo/policy/advantages_mean4335e¤E&       sOã 	—(L…o ÙA>*

ppo/returns/mean-#À¬xÓi%       ê¼6ó	¨(L…o ÙA>*

ppo/returns/varF9=Aë–Mv#       °ŸwC	·(L…o ÙA>*

ppo/val/vpredñm%ÀKÙZ#       °ŸwC	Æ(L…o ÙA>*

ppo/val/error]Ù>âŒa&       sOã 	W+L…o ÙA>*

ppo/val/clipfrac €?ü³6Q"       x=ý	‚+L…o ÙA>*

ppo/val/mean–`FÀ¾¯±!       {ìö	˜+L…o ÙA>*

ppo/val/varS$ù@MK^S+       †ÃK	©+L…o ÙA>*

ppo/val/var_explainedÒv?fä¯'       »á±F	.L…o ÙA>*

ppo/learning_rateÀÏ¸:r…/½+       †ÃK	D.L…o ÙA>*

time/ppo/forward_pass Ä?>ýj¢.       ÅËWú	X.L…o ÙA>*!

time/ppo/compute_rewards XÄ:SÃy31       ƒƒé	 1L…o ÙA>*$
"
time/ppo/compute_advantages °7;Ï#Dý,       ô®ÌE	(1L…o ÙA>*

time/ppo/optimize_stepè›|?ö)       7ÿ_ 	>1L…o ÙA>*

time/ppo/calc_stats0d0>0Æ)F$       B+€M	_3L…o ÙA>*

time/ppo/totalâá¬?§,Q%       ê¼6ó	‡3L…o ÙA>*

env/reward_meanÁ_?ãS[1$       B+€M	g5L…o ÙA>*

env/reward_stdÒj«<^lml"       x=ý	®eŸŽo ÙA?*

objective/kl·°BdäÒW'       »á±F	fŸŽo ÙA?*

objective/kl_coef‡ÐT>e®'       »á±F	'fŸŽo ÙA?*

objective/entropyFe:Kûj/       m]P	<fŸŽo ÙA?*"
 
ppo/mean_non_score_reward²*¿“_l(%       ê¼6ó	MfŸŽo ÙA?*

ppo/mean_scoresÁ_?Õ‡a$       B+€M	]fŸŽo ÙA?*

ppo/std_scoresÒj«<w<Øò-       <AŠû	nfŸŽo ÙA?* 

tokens/queries_len_mean  üBŒTc,       ô®ÌE	fŸŽo ÙA?*

tokens/queries_len_std    Ë¡k/       m]P	fŸŽo ÙA?*"
 
tokens/responses_len_mean   A[WÉ.       ÅËWú	ŸfŸŽo ÙA?*!

tokens/responses_len_std    UÍ%       ê¼6ó	²fŸŽo ÙA?*

ppo/loss/policy3¿¸ÚÌ¢7$       B+€M	[iŸŽo ÙA?*

ppo/loss/valueÂ7?=Âþ$       B+€M	KmŸŽo ÙA?*

ppo/loss/totalPb’=¯Ðwá(       ÿpJ	umŸŽo ÙA?*

ppo/policy/entropynè’: Æ²š)       7ÿ_ 	ŠmŸŽo ÙA?*

ppo/policy/approxklÆs3‹§€†)       7ÿ_ 	œmŸŽo ÙA?*

ppo/policy/policyklY`8/öh)       7ÿ_ 	¬mŸŽo ÙA?*

ppo/policy/clipfrac    ZU0       •õÐ_	¾mŸŽo ÙA?*#
!
ppo/policy/advantages_mean333ž„ìš&       sOã 	ÐmŸŽo ÙA?*

ppo/returns/meanJÒÀ£fFU%       ê¼6ó	àmŸŽo ÙA?*

ppo/returns/varˆ)7Aw $æ#       °ŸwC	ðmŸŽo ÙA?*

ppo/val/vpredgöÀÍ<	é#       °ŸwC	ÿmŸŽo ÙA?*

ppo/val/error,ü’?p~&       sOã 	unŸŽo ÙA?*

ppo/val/clipfracÍÌ@>Ê‚œ"       x=ý	ÕnŸŽo ÙA?*

ppo/val/meanš?+À(nŠñ!       {ìö	-oŸŽo ÙA?*

ppo/val/varìmrAYƒùr+       †ÃK	†oŸŽo ÙA?*

ppo/val/var_explained
Rf?HÄ'       »á±F	ÛoŸŽo ÙA?*

ppo/learning_rateÀÏ¸:|Ÿ…j+       †ÃK	1pŸŽo ÙA?*

time/ppo/forward_passðYH>÷jnf.       ÅËWú	…pŸŽo ÙA?*!

time/ppo/compute_rewards 0Ô:v›|1       ƒƒé	ÙpŸŽo ÙA?*$
"
time/ppo/compute_advantages \@;Ï#Z,       ô®ÌE	-qŸŽo ÙA?*

time/ppo/optimize_stepd¶?
u{)       7ÿ_ 	qŸŽo ÙA?*

time/ppo/calc_stats°ú4>ã²F$       B+€M	ÍqŸŽo ÙA?*

time/ppo/total`ø±?„Ãñ%       ê¼6ó	rŸŽo ÙA?*

env/reward_meanÁ_?Né}$       B+€M	nrŸŽo ÙA?*

env/reward_stdÒj«<&‡'"       x=ý	÷H,˜o ÙA@*

objective/kl|±BJAZ¦'       »á±F	ÀI,˜o ÙA@*

objective/kl_coefeóT>÷Q›‹'       »á±F	ÚI,˜o ÙA@*

objective/entropydü8ä¾ÿ/       m]P	îI,˜o ÙA@*"
 
ppo/mean_non_score_reward(*¿5–%       ê¼6ó	 J,˜o ÙA@*

ppo/mean_scoresÁ_?Ü,‘’$       B+€M	J,˜o ÙA@*

ppo/std_scoresÒj«<ŠgJ\-       <AŠû	&J,˜o ÙA@* 

tokens/queries_len_mean  üBÏÜíƒ,       ô®ÌE	7J,˜o ÙA@*

tokens/queries_len_std    øc²/       m]P	IJ,˜o ÙA@*"
 
tokens/responses_len_mean   AÊù°Ð.       ÅËWú	[J,˜o ÙA@*!

tokens/responses_len_std    WN@%       ê¼6ó	mJ,˜o ÙA@*

ppo/loss/policyMÎˆ8‚–m$       B+€M	YK,˜o ÙA@*

ppo/loss/valueæ_¤>[…®›$       B+€M	{M,˜o ÙA@*

ppo/loss/totalSÄ=‘tpº(       ÿpJ	§M,˜o ÙA@*

ppo/policy/entropyDF:Yq)       7ÿ_ 	¾M,˜o ÙA@*

ppo/policy/approxklÇ2Tmš)       7ÿ_ 	ÑM,˜o ÙA@*

ppo/policy/policykl8Kl8ô;j¡)       7ÿ_ 	äM,˜o ÙA@*

ppo/policy/clipfrac    TñS0       •õÐ_	LN,˜o ÙA@*#
!
ppo/policy/advantages_meanffæ±9­¯Ž&       sOã 	¬N,˜o ÙA@*

ppo/returns/mean 'À©å¢%       ê¼6ó		O,˜o ÙA@*

ppo/returns/var1N'Az<ä#       °ŸwC	cO,˜o ÙA@*

ppo/val/vpredš–ÀÌÆ¶	#       °ŸwC	ºO,˜o ÙA@*

ppo/val/errorØÊÍ>}xD&       sOã 	P,˜o ÙA@*

ppo/val/clipfrac  Ó>Õþi"       x=ý	hP,˜o ÙA@*

ppo/val/meanÎ¸Àå­’!       {ìö	ÂP,˜o ÙA@*

ppo/val/varEæ@®š/ê+       †ÃK	Q,˜o ÙA@*

ppo/val/var_explainedá(v?p:ðz'       »á±F	vQ,˜o ÙA@*

ppo/learning_rateÀÏ¸:—“á+       †ÃK	ÏQ,˜o ÙA@*

time/ppo/forward_pass&N>Ýw.       ÅËWú	4R,˜o ÙA@*!

time/ppo/compute_rewards ø;q=4§1       ƒƒé	•R,˜o ÙA@*$
"
time/ppo/compute_advantages B;BRÅï,       ô®ÌE	S,˜o ÙA@*

time/ppo/optimize_step¼â?Þùj()       7ÿ_ 	±S,˜o ÙA@*

time/ppo/calc_statsÐÚ;>Ý¤±Ð$       B+€M	ÅS,˜o ÙA@*

time/ppo/total6Ç³?~·qª%       ê¼6ó	«U,˜o ÙA@*

env/reward_meanÁ_?ÊVw$       B+€M	!V,˜o ÙA@*

env/reward_stdÒj«<§ìÉÜ"       x=ý	äÖ§¡o ÙAA*

objective/kl­BoBõ'       »á±F	M×§¡o ÙAA*

objective/kl_coefIU>yƒ'       »á±F	k×§¡o ÙAA*

objective/entropyžl‘;ÏXy›/       m]P	×§¡o ÙAA*"
 
ppo/mean_non_score_rewardA*¿+ÅJ%       ê¼6ó	”×§¡o ÙAA*

ppo/mean_scoresÁ_?7NÈ$       B+€M	¦×§¡o ÙAA*

ppo/std_scoresÒj«<óh4-       <AŠû	¸×§¡o ÙAA* 

tokens/queries_len_mean  üB´ª,       ô®ÌE	È×§¡o ÙAA*

tokens/queries_len_std    ˆÚ-/       m]P	Ø×§¡o ÙAA*"
 
tokens/responses_len_mean   Aˆ^Ý.       ÅËWú	ç×§¡o ÙAA*!

tokens/responses_len_std    ³ÕL8%       ê¼6ó	÷×§¡o ÙAA*

ppo/loss/policyÓ«s¹uU¬$       B+€M	„Ù§¡o ÙAA*

ppo/loss/valuepe >X=’$       B+€M	Ü§¡o ÙAA*

ppo/loss/totalj I<P#¸R(       ÿpJ	¡Ü§¡o ÙAA*

ppo/policy/entropyªä‚<Ì8})       7ÿ_ 	¼Þ§¡o ÙAA*

ppo/policy/approxkl‰D¿6È1)       7ÿ_ 	-ß§¡o ÙAA*

ppo/policy/policyklÙ–Á:)Û')       7ÿ_ 	Œß§¡o ÙAA*

ppo/policy/clipfrac    qÃØ0       •õÐ_	ìß§¡o ÙAA*#
!
ppo/policy/advantages_mean43ó0Õ_½&       sOã 	Eà§¡o ÙAA*

ppo/returns/meanºÀù¼%       ê¼6ó	¢à§¡o ÙAA*

ppo/returns/var‚+4Aþ:#       °ŸwC	þà§¡o ÙAA*

ppo/val/vpredÕTÀPKÀ#       °ŸwC	Uá§¡o ÙAA*

ppo/val/error¿’G>BhÞÊ&       sOã 	®á§¡o ÙAA*

ppo/val/clipfrac33¥>H}"       x=ý	â§¡o ÙAA*

ppo/val/meanî®(ÀlpÜé!       {ìö	aâ§¡o ÙAA*

ppo/val/var(•1A\Q+       †ÃK	½â§¡o ÙAA*

ppo/val/var_explained¹‘{?:g;'       »á±F	ã§¡o ÙAA*

ppo/learning_rateÀÏ¸:KÜÛI+       †ÃK	vã§¡o ÙAA*

time/ppo/forward_passÐ&A>}uŽ.       ÅËWú	Ñã§¡o ÙAA*!

time/ppo/compute_rewards @Ñ:žîÉ1       ƒƒé	/ä§¡o ÙAA*$
"
time/ppo/compute_advantages ¼9;×çŽ,       ô®ÌE	‡ä§¡o ÙAA*

time/ppo/optimize_stepÄ‚?
îªÔ)       7ÿ_ 	Þä§¡o ÙAA*

time/ppo/calc_stats°M.>ü@1Â$       B+€M	6å§¡o ÙAA*

time/ppo/totalž†°?4®Á»%       ê¼6ó	Žå§¡o ÙAA*

env/reward_meanÁ_?®Õ8i$       B+€M	ãå§¡o ÙAA*

env/reward_stdÒj«<db¯&"       x=ý	›žªo ÙAB*

objective/klënB„2Qb'       »á±F	t›žªo ÙAB*

objective/kl_coef39U>šõuà'       »á±F	Ž›žªo ÙAB*

objective/entropy–Ø>Äh&O/       m]P	¢›žªo ÙAB*"
 
ppo/mean_non_score_reward"},¿ëÍ‘%       ê¼6ó	´›žªo ÙAB*

ppo/mean_scoresœ÷?`	$$       B+€M	Å›žªo ÙAB*

ppo/std_scores(ñ >wU«–-       <AŠû	Ö›žªo ÙAB* 

tokens/queries_len_mean  üB*Ùc ,       ô®ÌE	æ›žªo ÙAB*

tokens/queries_len_std    
”?€/       m]P	ö›žªo ÙAB*"
 
tokens/responses_len_mean   A,¨cÚ.       ÅËWú	œžªo ÙAB*!

tokens/responses_len_std    ü^R%       ê¼6ó	œžªo ÙAB*

ppo/loss/policyZ¢ÝºŒ®.ß$       B+€M	džžªo ÙAB*

ppo/loss/value˜dü>Q1$       B+€M	¡žªo ÙAB*

ppo/loss/totalýB=`Lj(       ÿpJ	G¡žªo ÙAB*

ppo/policy/entropy´..;[õV<)       7ÿ_ 	Ä¡žªo ÙAB*

ppo/policy/approxklC:½<-7ðŸ)       7ÿ_ 	…£žªo ÙAB*

ppo/policy/policyklùê<ÒÌ&Ö)       7ÿ_ 	¯£žªo ÙAB*

ppo/policy/clipfracš™;?dØG0       •õÐ_	É£žªo ÙAB*#
!
ppo/policy/advantages_meanš™Y2ÓT
´&       sOã 	ß£žªo ÙAB*

ppo/returns/meanôà¿GYù%       ê¼6ó	ó£žªo ÙAB*

ppo/returns/vartÒEAŽèÅ¨#       °ŸwC	¤žªo ÙAB*

ppo/val/vpred~gõ¿5¡–«#       °ŸwC	¤žªo ÙAB*

ppo/val/errorN6?.ç‚&       sOã 	t¤žªo ÙAB*

ppo/val/clipfracff?ªõÁÆ"       x=ý	Ê¤žªo ÙAB*

ppo/val/meanª¨.À“A!       {ìö	#¥žªo ÙAB*

ppo/val/var^ô1AH§y+       †ÃK	{¥žªo ÙAB*

ppo/val/var_explained<Eq?O¯$Ë'       »á±F	Ñ¥žªo ÙAB*

ppo/learning_rateÀÏ¸:¹=mR+       †ÃK	&¦žªo ÙAB*

time/ppo/forward_pass@ÍC>À7au.       ÅËWú	„¦žªo ÙAB*!

time/ppo/compute_rewards 8Ä:íYÛÿ1       ƒƒé	Ù¦žªo ÙAB*$
"
time/ppo/compute_advantages X4;‡­±«,       ô®ÌE	,§žªo ÙAB*

time/ppo/optimize_step’ ‚?]s²)       7ÿ_ 	§žªo ÙAB*

time/ppo/calc_statsÙ.>‰Ò«I$       B+€M	Ô§žªo ÙAB*

time/ppo/total®â°?ëˆ’%       ê¼6ó	-¨žªo ÙAB*

env/reward_meanœ÷?åûD}$       B+€M	‚¨žªo ÙAB*

env/reward_std(ñ >Ó:RQ"       x=ý	•Öï³o ÙAC*

objective/klš±BçÌdJ'       »á±F	÷Öï³o ÙAC*

objective/kl_coef"\U>Ù
Ê'       »á±F	×ï³o ÙAC*

objective/entropyù(7‰k]ì/       m]P	$×ï³o ÙAC*"
 
ppo/mean_non_score_rewardÖ{*¿´²%       ê¼6ó	6×ï³o ÙAC*

ppo/mean_scoresÁ_?ô
¾Ä$       B+€M	G×ï³o ÙAC*

ppo/std_scoresÒj«<”!XÔ-       <AŠû	X×ï³o ÙAC* 

tokens/queries_len_mean  üBTOŸ,       ô®ÌE	j×ï³o ÙAC*

tokens/queries_len_std    e_â³/       m]P	{×ï³o ÙAC*"
 
tokens/responses_len_mean   A)Ï™.       ÅËWú	Œ×ï³o ÙAC*!

tokens/responses_len_std    ühKÀ%       ê¼6ó	×ï³o ÙAC*

ppo/loss/policyšÙ¤´á´üL$       B+€M	ÜÙï³o ÙAC*

ppo/loss/value˜[.>m´/$       B+€M	žÝï³o ÙAC*

ppo/loss/totalÔ{‹<£UŠ"(       ÿpJ	ÉÝï³o ÙAC*

ppo/policy/entropy3sF6LŽ£)       7ÿ_ 	äÝï³o ÙAC*

ppo/policy/approxkl‚!}*°Q)       7ÿ_ 	õÝï³o ÙAC*

ppo/policy/policyklÆÌÇ´uX)       7ÿ_ 	Þï³o ÙAC*

ppo/policy/clipfrac    š®þ0       •õÐ_	Þï³o ÙAC*#
!
ppo/policy/advantages_mean   2séö&       sOã 	&Þï³o ÙAC*

ppo/returns/mean®ÔÀ!<xi%       ê¼6ó	8Þï³o ÙAC*

ppo/returns/var2…AÉûœË#       °ŸwC	HÞï³o ÙAC*

ppo/val/vpredcqÀ`¨.¶#       °ŸwC	Šàï³o ÙAC*

ppo/val/error–=Š>jáÕï&       sOã 	´àï³o ÙAC*

ppo/val/clipfracš™‡>RLî"       x=ý	Ëàï³o ÙAC*

ppo/val/mean±Ø¿È{î!       {ìö	Nãï³o ÙAC*

ppo/val/varŒy#A¶ÚŸ+       †ÃK	yãï³o ÙAC*

ppo/val/var_explainedªúx?‚t'       »á±F	‘ãï³o ÙAC*

ppo/learning_rateÀÏ¸:´Õ¼×+       †ÃK	–åï³o ÙAC*

time/ppo/forward_pass0šB>RýË.       ÅËWú	¿åï³o ÙAC*!

time/ppo/compute_rewards PÕ:Ý«ˆ¾1       ƒƒé	Õåï³o ÙAC*$
"
time/ppo/compute_advantages €;;TK´B,       ô®ÌE	çåï³o ÙAC*

time/ppo/optimize_step€V|?Êr‚E)       7ÿ_ 	øåï³o ÙAC*

time/ppo/calc_stats€p0>Üw¦$       B+€M		æï³o ÙAC*

time/ppo/totalÖ!­?Àcç%       ê¼6ó	æï³o ÙAC*

env/reward_meanÁ_?Ô^€$       B+€M	)æï³o ÙAC*

env/reward_stdÒj«<ÈÍ.{"       x=ý	É©6½o ÙAD*

objective/klœ±Bº†F'       »á±F	(ª6½o ÙAD*

objective/kl_coefU>ÈIŠ”'       »á±F	Aª6½o ÙAD*

objective/entropy    ÚøÆˆ/       m]P	Tª6½o ÙAD*"
 
ppo/mean_non_score_rewardÅ—*¿0!%       ê¼6ó	fª6½o ÙAD*

ppo/mean_scoresÁ_?ŸU¡O$       B+€M	xª6½o ÙAD*

ppo/std_scoresÒj«<âaeu-       <AŠû	‰ª6½o ÙAD* 

tokens/queries_len_mean  üB]ScÃ,       ô®ÌE	™ª6½o ÙAD*

tokens/queries_len_std    èßA/       m]P	©ª6½o ÙAD*"
 
tokens/responses_len_mean   AAJô.       ÅËWú	»ª6½o ÙAD*!

tokens/responses_len_std    ÅZÞ%       ê¼6ó	Ëª6½o ÙAD*

ppo/loss/policyÍÌ‘³úM¹Ô$       B+€M	Õ¬6½o ÙAD*

ppo/loss/valueD-æ=lÔîà$       B+€M	Q¯6½o ÙAD*

ppo/loss/totalí#8<+©oÂ(       ÿpJ	~¯6½o ÙAD*

ppo/policy/entropy    7õä)       7ÿ_ 	“¯6½o ÙAD*

ppo/policy/approxkl    Ò>ýá)       7ÿ_ 	ÿ±6½o ÙAD*

ppo/policy/policykl    iïà‹)       7ÿ_ 	,²6½o ÙAD*

ppo/policy/clipfrac    ËÅ0       •õÐ_	C²6½o ÙAD*#
!
ppo/policy/advantages_meanÍÌ‘3‡õ`&       sOã 	 ´6½o ÙAD*

ppo/returns/meanÄ	ÀðŸ%       ê¼6ó	Ë´6½o ÙAD*

ppo/returns/var†êAéìë #       °ŸwC	á´6½o ÙAD*

ppo/val/vpred‚=ú¿ûü…#       °ŸwC	ð¶6½o ÙAD*

ppo/val/error€‚F>V‚ñ_&       sOã 	·6½o ÙAD*

ppo/val/clipfracÌÌh>À°ž"       x=ý	·6½o ÙAD*

ppo/val/meanxÕ¿J1)?!       {ìö	À¹6½o ÙAD*

ppo/val/var£{A£Íàî+       †ÃK	è¹6½o ÙAD*

ppo/val/var_explainedÆøz?báo'       »á±F	Rº6½o ÙAD*

ppo/learning_rateÀÏ¸:3¯Ö+       †ÃK	®º6½o ÙAD*

time/ppo/forward_passpB>	«.       ÅËWú	»6½o ÙAD*!

time/ppo/compute_rewards À×:ˆÄµ1       ƒƒé	^»6½o ÙAD*$
"
time/ppo/compute_advantages T>;ds5×,       ô®ÌE	µ»6½o ÙAD*

time/ppo/optimize_stepÜÃ|?­”TB)       7ÿ_ 	¼6½o ÙAD*

time/ppo/calc_stats°)0>%4§*$       B+€M	U¼6½o ÙAD*

time/ppo/totalfA­?Ó÷ÀÏ%       ê¼6ó	¥¼6½o ÙAD*

env/reward_meanÁ_?óf	é$       B+€M	÷¼6½o ÙAD*

env/reward_stdÒj«<	=ÓÜ"       x=ý	HxhÆo ÙAE*

objective/klœ±Bô¹Ü#'       »á±F	´xhÆo ÙAE*

objective/kl_coef¢U>Y·­Ò'       »á±F	ÐxhÆo ÙAE*

objective/entropy    èû|/       m]P	äxhÆo ÙAE*"
 
ppo/mean_non_score_reward¹³*¿qŸ« %       ê¼6ó	øxhÆo ÙAE*

ppo/mean_scoresÁ_?«]ÒI$       B+€M	
yhÆo ÙAE*

ppo/std_scoresÒj«<5€²‡-       <AŠû	yhÆo ÙAE* 

tokens/queries_len_mean  üBâÛã,       ô®ÌE	.yhÆo ÙAE*

tokens/queries_len_std    %É(“/       m]P	?yhÆo ÙAE*"
 
tokens/responses_len_mean   A“Ð¿©.       ÅËWú	RyhÆo ÙAE*!

tokens/responses_len_std    ð>%       ê¼6ó	dyhÆo ÙAE*

ppo/loss/policy43³¯Øê§V$       B+€M	àzhÆo ÙAE*

ppo/loss/valuežƒ,=Î ÷q$       B+€M	Ë{hÆo ÙAE*

ppo/loss/totaläŠ;„R“J(       ÿpJ	¯~hÆo ÙAE*

ppo/policy/entropy    {åL0)       7ÿ_ 	Û~hÆo ÙAE*

ppo/policy/approxkl    @!)       7ÿ_ 	õ~hÆo ÙAE*

ppo/policy/policykl    áj#)       7ÿ_ 		hÆo ÙAE*

ppo/policy/clipfrac    ½¤‹Á0       •õÐ_	hÆo ÙAE*#
!
ppo/policy/advantages_mean43³/SÔû&       sOã 	3hÆo ÙAE*

ppo/returns/mean²zÀ‚=H½%       ê¼6ó	EhÆo ÙAE*

ppo/returns/varÓq.A bÊ #       °ŸwC	XhÆo ÙAE*

ppo/val/vpred¨ºÀs¼a#       °ŸwC	hhÆo ÙAE*

ppo/val/error‚V=?|"U&       sOã 	yhÆo ÙAE*

ppo/val/clipfrac43?>›W¶t"       x=ý	ÔhÆo ÙAE*

ppo/val/mean¹{À $±O!       {ìö	5€hÆo ÙAE*

ppo/val/var¦ÓA¼mb\+       †ÃK	˜€hÆo ÙAE*

ppo/val/var_explainedM[~?Ç>˜'       »á±F	ø€hÆo ÙAE*

ppo/learning_rateÀÏ¸:Ëc¤+       †ÃK	NhÆo ÙAE*

time/ppo/forward_passP„@>“9±Ù.       ÅËWú	§hÆo ÙAE*!

time/ppo/compute_rewards pÑ:9RK(1       ƒƒé	ýhÆo ÙAE*$
"
time/ppo/compute_advantages ì=;œÍ‡,       ô®ÌE	R‚hÆo ÙAE*

time/ppo/optimize_stepL;|?ÀùÎ)       7ÿ_ 	§‚hÆo ÙAE*

time/ppo/calc_stats€=0>Ù×ä$       B+€M	þ‚hÆo ÙAE*

time/ppo/total\Ë¬?5 kü%       ê¼6ó	SƒhÆo ÙAE*

env/reward_meanÁ_?¸ØÓ$       B+€M	«ƒhÆo ÙAE*

env/reward_stdÒj«<6Et–"       x=ý	kîÂÏo ÙAF*

objective/klœ±BÂF'       »á±F	ÚîÂÏo ÙAF*

objective/kl_coefÅU>Á.’o'       »á±F	ôîÂÏo ÙAF*

objective/entropy    ÉKvÚ/       m]P	ïÂÏo ÙAF*"
 
ppo/mean_non_score_reward±Ï*¿{R+q%       ê¼6ó	ïÂÏo ÙAF*

ppo/mean_scoresÁ_?ášZ$       B+€M	-ïÂÏo ÙAF*

ppo/std_scoresÒj«<†Æë.-       <AŠû	>ïÂÏo ÙAF* 

tokens/queries_len_mean  üB¬Z0Z,       ô®ÌE	OïÂÏo ÙAF*

tokens/queries_len_std    Y_ô\/       m]P	aïÂÏo ÙAF*"
 
tokens/responses_len_mean   AQT«.       ÅËWú	sïÂÏo ÙAF*!

tokens/responses_len_std     §j?%       ê¼6ó	…ïÂÏo ÙAF*

ppo/loss/policygfª3”ðŠ$       B+€M	ïñÂÏo ÙAF*

ppo/loss/valuer© =á‰¤q$       B+€M	vöÂÏo ÙAF*

ppo/loss/total@ÝM;‰ ×Ð(       ÿpJ	£öÂÏo ÙAF*

ppo/policy/entropy    oøøÂ)       7ÿ_ 	·öÂÏo ÙAF*

ppo/policy/approxkl    €¡#ã)       7ÿ_ 	ÈöÂÏo ÙAF*

ppo/policy/policykl    |W8)       7ÿ_ 	ØöÂÏo ÙAF*

ppo/policy/clipfrac    £<¡0       •õÐ_	êöÂÏo ÙAF*#
!
ppo/policy/advantages_meangfª³¢Ð@Œ&       sOã 	ÿöÂÏo ÙAF*

ppo/returns/meanÔÀŒZ<Z%       ê¼6ó	÷ÂÏo ÙAF*

ppo/returns/varFù0Ajƒåã#       °ŸwC	÷ÂÏo ÙAF*

ppo/val/vpred"zÀcZ¢#       °ŸwC	CùÂÏo ÙAF*

ppo/val/errorsþS=;ç^&       sOã 	kùÂÏo ÙAF*

ppo/val/clipfrac  f>ïÝÛu"       x=ý	ÛüÂÏo ÙAF*

ppo/val/meanr¤Àe‹?D!       {ìö	ýÂÏo ÙAF*

ppo/val/varÿz<A Ò[+       †ÃK	ýÂÏo ÙAF*

ppo/val/var_explainedWÍ~?²‰¾'       »á±F	&ýÂÏo ÙAF*

ppo/learning_rateÀÏ¸:ãŠŒ-+       †ÃK	5ýÂÏo ÙAF*

time/ppo/forward_passpqA>¾Øá.       ÅËWú	FýÂÏo ÙAF*!

time/ppo/compute_rewards  Ö:•Ì]1       ƒƒé	UýÂÏo ÙAF*$
"
time/ppo/compute_advantages <=;píó,       ô®ÌE	eýÂÏo ÙAF*

time/ppo/optimize_step|?±ù³¸)       7ÿ_ 	sýÂÏo ÙAF*

time/ppo/calc_statsÐß1>ca'Ç$       B+€M	ôþÂÏo ÙAF*

time/ppo/totalp
­?B~¿ò%       ê¼6ó	`ÿÂÏo ÙAF*

env/reward_meanÁ_?1Hû[$       B+€M	ÏÿÂÏo ÙAF*

env/reward_stdÒj«<Q+$N"       x=ý	“ŠÙo ÙAG*

objective/klœ±B-=g'       »á±F	ýŠÙo ÙAG*

objective/kl_coefèU>$N '       »á±F	‹Ùo ÙAG*

objective/entropy    ¯‰SH/       m]P	/‹Ùo ÙAG*"
 
ppo/mean_non_score_reward®ë*¿X@%       ê¼6ó	A‹Ùo ÙAG*

ppo/mean_scoresÁ_?ñ{N$       B+€M	S‹Ùo ÙAG*

ppo/std_scoresÒj«<Ý>-       <AŠû	d‹Ùo ÙAG* 

tokens/queries_len_mean  üBg´c,       ô®ÌE	w‹Ùo ÙAG*

tokens/queries_len_std    ÈKh/       m]P	Š‹Ùo ÙAG*"
 
tokens/responses_len_mean   AU¥±.       ÅËWú	œ‹Ùo ÙAG*!

tokens/responses_len_std    3€¹´%       ê¼6ó	­‹Ùo ÙAG*

ppo/loss/policy  01ÛyÙy$       B+€M	Ùo ÙAG*

ppo/loss/value†w<<]Ë$       B+€M	CÙo ÙAG*

ppo/loss/totalNÅ:ª¦×(       ÿpJ	]Ùo ÙAG*

ppo/policy/entropy    +4{])       7ÿ_ 	pÙo ÙAG*

ppo/policy/approxkl    ^zvâ)       7ÿ_ 	Ùo ÙAG*

ppo/policy/policykl    î	ì•)       7ÿ_ 	’Ùo ÙAG*

ppo/policy/clipfrac    „÷Â­0       •õÐ_	¦Ùo ÙAG*#
!
ppo/policy/advantages_mean  0±¬ŠMg&       sOã 	¹Ùo ÙAG*

ppo/returns/mean«¿À(Å	%       ê¼6ó	ÌÙo ÙAG*

ppo/returns/varèÇ*A´Ææ#       °ŸwC	ßÙo ÙAG*

ppo/val/vpred(»À¡'#       °ŸwC	N‘Ùo ÙAG*

ppo/val/error«Oõ<Ð€ùa&       sOã 	Þ‘Ùo ÙAG*

ppo/val/clipfracš™±=ËZ2Ü"       x=ý	ò‘Ùo ÙAG*

ppo/val/meanºBÀ¥¦è!       {ìö	L’Ùo ÙAG*

ppo/val/var[-$A”2¦q+       †ÃK	°’Ùo ÙAG*

ppo/val/var_explained$H?JÄ:O'       »á±F	4“Ùo ÙAG*

ppo/learning_rateÀÏ¸:r¸9·+       †ÃK	‘“Ùo ÙAG*

time/ppo/forward_passóH>[Ù.       ÅËWú	î“Ùo ÙAG*!

time/ppo/compute_rewards ˆÙ:¼þ <1       ƒƒé	G”Ùo ÙAG*$
"
time/ppo/compute_advantages „@;Ó,       ô®ÌE	¢”Ùo ÙAG*

time/ppo/optimize_steph¿†?RñŽ)       7ÿ_ 	ø”Ùo ÙAG*

time/ppo/calc_statsPª0>TÀZ$       B+€M	P•Ùo ÙAG*

time/ppo/total
Œ¶?
&á%       ê¼6ó	°•Ùo ÙAG*

env/reward_meanÁ_?d+†$       B+€M	–Ùo ÙAG*

env/reward_stdÒj«<zÓì"       x=ý	¦Ofâo ÙAH*

objective/klœ±BeTŠ‡'       »á±F	Pfâo ÙAH*

objective/kl_coef$V>¨MŸß'       »á±F	#Pfâo ÙAH*

objective/entropy    ÈòêÍ/       m]P	6Pfâo ÙAH*"
 
ppo/mean_non_score_reward®+¿ÖB¡ê%       ê¼6ó	IPfâo ÙAH*

ppo/mean_scoresÁ_?>q	‚$       B+€M	ZPfâo ÙAH*

ppo/std_scoresÒj«<ªz£e-       <AŠû	lPfâo ÙAH* 

tokens/queries_len_mean  üBJ,Z,,       ô®ÌE	|Pfâo ÙAH*

tokens/queries_len_std    k(³Œ/       m]P	Pfâo ÙAH*"
 
tokens/responses_len_mean   AGær.       ÅËWú	¢Pfâo ÙAH*!

tokens/responses_len_std    %Œ÷[%       ê¼6ó	´Pfâo ÙAH*

ppo/loss/policy™™¹²õ!a$       B+€M	ÍRfâo ÙAH*

ppo/loss/valueÒnà;O"óõ$       B+€M	ðVfâo ÙAH*

ppo/loss/totaljŠ3:ƒ§(       ÿpJ	Wfâo ÙAH*

ppo/policy/entropy    ò˜L¬)       7ÿ_ 	0Wfâo ÙAH*

ppo/policy/approxkl    ‹vÖ)       7ÿ_ 	AWfâo ÙAH*

ppo/policy/policykl    µ&ö )       7ÿ_ 	RWfâo ÙAH*

ppo/policy/clipfrac    ?Ý¨0       •õÐ_	eWfâo ÙAH*#
!
ppo/policy/advantages_mean™™¹2õD£	&       sOã 	xWfâo ÙAH*

ppo/returns/mean@ÁÀSx7»%       ê¼6ó	‰Wfâo ÙAH*

ppo/returns/varAU+A¢#Žæ#       °ŸwC	›Wfâo ÙAH*

ppo/val/vpredt¡À^¾Ê#       °ŸwC	Xfâo ÙAH*

ppo/val/errorÒn`<³‘´8&       sOã 	ZXfâo ÙAH*

ppo/val/clipfrac    –YÕñ"       x=ý	¬Xfâo ÙAH*

ppo/val/meanâz	Àc1×J!       {ìö	þXfâo ÙAH*

ppo/val/varä6AT&>ë+       †ÃK	RYfâo ÙAH*

ppo/val/var_explained*¬?ŽXü'       »á±F	¤Yfâo ÙAH*

ppo/learning_rateÀÏ¸:â«Ï+       †ÃK	Zfâo ÙAH*

time/ppo/forward_passàBC>IauV.       ÅËWú	oZfâo ÙAH*!

time/ppo/compute_rewards  Ó:¢ãj¹1       ƒƒé	âZfâo ÙAH*$
"
time/ppo/compute_advantages ¼;;ú•¶e,       ô®ÌE	6[fâo ÙAH*

time/ppo/optimize_step(}?AÃ£;)       7ÿ_ 	†[fâo ÙAH*

time/ppo/calc_statsò0>@
cD$       B+€M	Ú[fâo ÙAH*

time/ppo/total–ž­?¯åO¢%       ê¼6ó	,\fâo ÙAH*

env/reward_meanÁ_?Ë|íN$       B+€M	}\fâo ÙAH*

env/reward_stdÒj«<ÆhWÜ"       x=ý	C±²ëo ÙAI*

objective/klœ±B.Ï4”'       »á±F	ª±²ëo ÙAI*

objective/kl_coef6.V> ß¨'       »á±F	Å±²ëo ÙAI*

objective/entropy    óô//       m]P	Ù±²ëo ÙAI*"
 
ppo/mean_non_score_reward³#+¿@}%       ê¼6ó	ì±²ëo ÙAI*

ppo/mean_scoresÁ_?cþ²ó$       B+€M	 ²²ëo ÙAI*

ppo/std_scoresÒj«<©¥¯'-       <AŠû	²²ëo ÙAI* 

tokens/queries_len_mean  üB¡î©h,       ô®ÌE	#²²ëo ÙAI*

tokens/queries_len_std    0sŒ/       m]P	6²²ëo ÙAI*"
 
tokens/responses_len_mean   AÀ[4k.       ÅËWú	G²²ëo ÙAI*!

tokens/responses_len_std    9][%       ê¼6ó	Z²²ëo ÙAI*

ppo/loss/policy  €0ÄÃÍ$       B+€M	‘´²ëo ÙAI*

ppo/loss/valuen¥Â;§$½)$       B+€M	@·²ëo ÙAI*

ppo/loss/totalœ·:n/±(       ÿpJ	l·²ëo ÙAI*

ppo/policy/entropy    |/Ú)       7ÿ_ 	C¹²ëo ÙAI*

ppo/policy/approxkl    @Ë‰`)       7ÿ_ 	r¹²ëo ÙAI*

ppo/policy/policykl    m00¨)       7ÿ_ 	‰¹²ëo ÙAI*

ppo/policy/clipfrac    Œó!0       •õÐ_	Ÿ¹²ëo ÙAI*#
!
ppo/policy/advantages_mean  €°vW&       sOã 	°¹²ëo ÙAI*

ppo/returns/meanb²
Àê ¿ã%       ê¼6ó	Á¹²ëo ÙAI*

ppo/returns/var^*Aœ²•£#       °ŸwC	 ¾²ëo ÙAI*

ppo/val/vpred‚Ö
Àr#ÀT#       °ŸwC	I¾²ëo ÙAI*

ppo/val/errorr)B<“1& &       sOã 	`¾²ëo ÙAI*

ppo/val/clipfracš™=öîH‘"       x=ý	q¾²ëo ÙAI*

ppo/val/meanmîÀŸÜ­Œ!       {ìö	ƒ¾²ëo ÙAI*

ppo/val/varñ!A;Nº`+       †ÃK	ÌÀ²ëo ÙAI*

ppo/val/var_explainedô¶?EëM'       »á±F	õÀ²ëo ÙAI*

ppo/learning_rateÀÏ¸:ÿ³é+       †ÃK	Á²ëo ÙAI*

time/ppo/forward_passà:A>ÏÀ!S.       ÅËWú	RÃ²ëo ÙAI*!

time/ppo/compute_rewards (Ì:*¤«K1       ƒƒé	|Ã²ëo ÙAI*$
"
time/ppo/compute_advantages 4;K„Äe,       ô®ÌE	ÔÅ²ëo ÙAI*

time/ppo/optimize_stept7}?¾ó~)       7ÿ_ 	ýÅ²ëo ÙAI*

time/ppo/calc_stats€Ä0>*æ| $       B+€M	Æ²ëo ÙAI*

time/ppo/totalÌj­?‰«ÆØ%       ê¼6ó	¯Ç²ëo ÙAI*

env/reward_meanÁ_?­&¾$       B+€M	?È²ëo ÙAI*

env/reward_stdÒj«<»Ërí"       x=ý	¾§õo ÙAJ*

objective/klœ±Bó}0Â'       »á±F	¨õo ÙAJ*

objective/kl_coefMQV>…O]ˆ'       »á±F	8¨õo ÙAJ*

objective/entropy    b{D/       m]P	J¨õo ÙAJ*"
 
ppo/mean_non_score_reward¾?+¿8x¦%       ê¼6ó	]¨õo ÙAJ*

ppo/mean_scoresÁ_?ÄBÕ$       B+€M	l¨õo ÙAJ*

ppo/std_scoresÒj«<]ïXÙ-       <AŠû	|¨õo ÙAJ* 

tokens/queries_len_mean  üBgöÍ,       ô®ÌE	Œ¨õo ÙAJ*

tokens/queries_len_std    ØêÖ/       m]P	œ¨õo ÙAJ*"
 
tokens/responses_len_mean   A“½Q.       ÅËWú	«¨õo ÙAJ*!

tokens/responses_len_std    u¤	r%       ê¼6ó	»¨õo ÙAJ*

ppo/loss/policyš™²Õv•$       B+€M	Äªõo ÙAJ*

ppo/loss/valuewš=;Õù§$       B+€M	é¬õo ÙAJ*

ppo/loss/total¢­—9|ØÛ
(       ÿpJ	­õo ÙAJ*

ppo/policy/entropy    ;i4·)       7ÿ_ 	¨°õo ÙAJ*

ppo/policy/approxkl    :+Ü)       7ÿ_ 	Ð°õo ÙAJ*

ppo/policy/policykl    7«iƒ)       7ÿ_ 	å°õo ÙAJ*

ppo/policy/clipfrac    I½¬•0       •õÐ_	÷°õo ÙAJ*#
!
ppo/policy/advantages_meanš™2SÑ³&       sOã 	±õo ÙAJ*

ppo/returns/meanÀœ	ÀU‰Z%       ê¼6ó	±õo ÙAJ*

ppo/returns/var0+A0°,¤#       °ŸwC	/±õo ÙAJ*

ppo/val/vpredÅL	À*f<#       °ŸwC	>±õo ÙAJ*

ppo/val/errorwš½;oTØ&       sOã 	N±õo ÙAJ*

ppo/val/clipfrac    c("       x=ý	]±õo ÙAJ*

ppo/val/mean“ÊÀ¼(R!       {ìö	˜³õo ÙAJ*

ppo/val/varl-Aÿ¹qÿ+       †ÃK	¾³õo ÙAJ*

ppo/val/var_explainedÜ?D™>"'       »á±F	Ó³õo ÙAJ*

ppo/learning_rateÀÏ¸:™Éun+       †ÃK	;´õo ÙAJ*

time/ppo/forward_passPøH>pÙGh.       ÅËWú	•´õo ÙAJ*!

time/ppo/compute_rewards €É:2ïy"1       ƒƒé	ç´õo ÙAJ*$
"
time/ppo/compute_advantages :;: «,       ô®ÌE	9µõo ÙAJ*

time/ppo/optimize_step¼Y…?X%ã)       7ÿ_ 	ˆµõo ÙAJ*

time/ppo/calc_stats€«7>ÈÌ×Y$       B+€M	Õµõo ÙAJ*

time/ppo/total¦ÿµ?¤lµ%       ê¼6ó	$¶õo ÙAJ*

env/reward_meanÁ_?`u6$       B+€M	q¶õo ÙAJ*

env/reward_stdÒj«<ÖìÜ‘"       x=ý	
¹|þo ÙAK*

objective/klœ±BuAíô'       »á±F	o¹|þo ÙAK*

objective/kl_coefjtV>ŒŸ1·'       »á±F	¹|þo ÙAK*

objective/entropy    Éæod/       m]P	£¹|þo ÙAK*"
 
ppo/mean_non_score_rewardÍ[+¿Q}õ‡%       ê¼6ó	¸¹|þo ÙAK*

ppo/mean_scoresÁ_?Û®ã$       B+€M	Ê¹|þo ÙAK*

ppo/std_scoresÒj«<«!æ*-       <AŠû	Û¹|þo ÙAK* 

tokens/queries_len_mean  üB¨@ ã,       ô®ÌE	í¹|þo ÙAK*

tokens/queries_len_std    Ý-t/       m]P	ÿ¹|þo ÙAK*"
 
tokens/responses_len_mean   A5e.       ÅËWú	º|þo ÙAK*!

tokens/responses_len_std    [yÜK%       ê¼6ó	#º|þo ÙAK*

ppo/loss/policyš™Ù±9rm.$       B+€M	»|þo ÙAK*

ppo/loss/valuex+:;ðTq$       B+€M	Ð¼|þo ÙAK*

ppo/loss/totalºî”9B‘ž¾(       ÿpJ	û¼|þo ÙAK*

ppo/policy/entropy    +ëT)       7ÿ_ 	½|þo ÙAK*

ppo/policy/approxkl    @-ë)       7ÿ_ 	%½|þo ÙAK*

ppo/policy/policykl    üSu‘)       7ÿ_ 	Œ½|þo ÙAK*

ppo/policy/clipfrac    z^p0       •õÐ_	B¿|þo ÙAK*#
!
ppo/policy/advantages_meanš™Ù1µNç&       sOã 	m¿|þo ÙAK*

ppo/returns/meanšÀL±˜¤%       ê¼6ó	…¿|þo ÙAK*

ppo/returns/varóg+AÛO¼#       °ŸwC	–¿|þo ÙAK*

ppo/val/vpred%0À’Ï†#       °ŸwC	¦¿|þo ÙAK*

ppo/val/errorx+º;ÄLûO&       sOã 	¶¿|þo ÙAK*

ppo/val/clipfrac    ¶¦Ï"       x=ý	Æ¿|þo ÙAK*

ppo/val/meanªÀro1!       {ìö	wÀ|þo ÙAK*

ppo/val/var<*Ašžo+       †ÃK	ùÀ|þo ÙAK*

ppo/val/var_explained>Ý?<âp'       »á±F	TÁ|þo ÙAK*

ppo/learning_rateÀÏ¸:+öÔ+       †ÃK	¯Á|þo ÙAK*

time/ppo/forward_pass€L>Ï+”µ.       ÅËWú	Â|þo ÙAK*!

time/ppo/compute_rewards HÕ:_«Ó´1       ƒƒé	fÂ|þo ÙAK*$
"
time/ppo/compute_advantages @;Ag¨Ç,       ô®ÌE	½Â|þo ÙAK*

time/ppo/optimize_step|}€?ÿrŠq)       7ÿ_ 	Ã|þo ÙAK*

time/ppo/calc_stats 1>1~ $       B+€M	oÃ|þo ÙAK*

time/ppo/totalÔ¶°?@I¢~%       ê¼6ó	ÆÃ|þo ÙAK*

env/reward_meanÁ_?¯Ÿ¦­$       B+€M	Ä|þo ÙAK*

env/reward_stdÒj«<7‰J"       x=ý	õÔÛp ÙAL*

objective/klœ±B2W; '       »á±F	XÕÛp ÙAL*

objective/kl_coef—V>þFd'       »á±F	qÕÛp ÙAL*

objective/entropy    ýº/       m]P	„ÕÛp ÙAL*"
 
ppo/mean_non_score_rewardßw+¿Ó±%       ê¼6ó	”ÕÛp ÙAL*

ppo/mean_scoresÁ_?¶Ã‘ø$       B+€M	¤ÕÛp ÙAL*

ppo/std_scoresÒj«<²¦àô-       <AŠû	µÕÛp ÙAL* 

tokens/queries_len_mean  üB'9,       ô®ÌE	ÄÕÛp ÙAL*

tokens/queries_len_std    z©F]/       m]P	ÖÕÛp ÙAL*"
 
tokens/responses_len_mean   AU.       ÅËWú	åÕÛp ÙAL*!

tokens/responses_len_std     ƒu¡%       ê¼6ó	÷ÕÛp ÙAL*

ppo/loss/policyš™2äqè$       B+€M	]ØÛp ÙAL*

ppo/loss/value	ê:nc’l$       B+€M	‰ØÛp ÙAL*

ppo/loss/totalH;9ß•kõ(       ÿpJ	žØÛp ÙAL*

ppo/policy/entropy    ªñ)       7ÿ_ 	ÙÛp ÙAL*

ppo/policy/approxkl    øÊW)       7ÿ_ 	&ÜÛp ÙAL*

ppo/policy/policykl    ";)       7ÿ_ 	PÜÛp ÙAL*

ppo/policy/clipfrac    5ÍŠ0       •õÐ_	gÜÛp ÙAL*#
!
ppo/policy/advantages_meanš™²Œ/’4&       sOã 	~ÜÛp ÙAL*

ppo/returns/mean$¼
ÀgY-ã%       ê¼6ó	‘ÜÛp ÙAL*

ppo/returns/varå4,Ao¨ø #       °ŸwC	¡ÜÛp ÙAL*

ppo/val/vpredü€
ÀŠß‹W#       °ŸwC	±ÜÛp ÙAL*

ppo/val/error	j;„úË&       sOã 	ÀÜÛp ÙAL*

ppo/val/clipfrac    MâVp"       x=ý	ÐÜÛp ÙAL*

ppo/val/meanø(À†Æõ”!       {ìö	àÜÛp ÙAL*

ppo/val/var%F-A¦ÌðH+       †ÃK	3ÝÛp ÙAL*

ppo/val/var_explained@ê?´jñÅ'       »á±F	ÝÛp ÙAL*

ppo/learning_rateÀÏ¸:qÂ\+       †ÃK	àÝÛp ÙAL*

time/ppo/forward_pass@ÑE>«^°Æ.       ÅËWú	:ÞÛp ÙAL*!

time/ppo/compute_rewards ¸ ;Àæv1       ƒƒé	ÞÛp ÙAL*$
"
time/ppo/compute_advantages ÐZ;ºÉö©,       ô®ÌE	àÞÛp ÙAL*

time/ppo/optimize_stepÕ~?ëq›
)       7ÿ_ 	7ßÛp ÙAL*

time/ppo/calc_stats ›,>L´WÃ$       B+€M	‡ßÛp ÙAL*

time/ppo/totalrh®?pôfš%       ê¼6ó	ØßÛp ÙAL*

env/reward_meanÁ_?ëÇã$       B+€M	*àÛp ÙAL*

env/reward_stdÒj«<ö3W"       x=ý	†V]p ÙAM*

objective/klœ±Bvíðå'       »á±F	õV]p ÙAM*

objective/kl_coef¶ºV>â!]¾'       »á±F	W]p ÙAM*

objective/entropy    %T7/       m]P	&W]p ÙAM*"
 
ppo/mean_non_score_rewardø“+¿ô¯$s%       ê¼6ó	:W]p ÙAM*

ppo/mean_scoresÁ_?û‚–Ø$       B+€M	KW]p ÙAM*

ppo/std_scoresÒj«<9#’,-       <AŠû	\W]p ÙAM* 

tokens/queries_len_mean  üB…éÁ,       ô®ÌE	oW]p ÙAM*

tokens/queries_len_std    (</       m]P	€W]p ÙAM*"
 
tokens/responses_len_mean   A¯	¿a.       ÅËWú	‘W]p ÙAM*!

tokens/responses_len_std    çZÿÝ%       ê¼6ó	£W]p ÙAM*

ppo/loss/policyÍÌL2™¡œÊ$       B+€M	…X]p ÙAM*

ppo/loss/value~µ:õíò $       B+€M	hY]p ÙAM*

ppo/loss/total˜ç9EãzÒ(       ÿpJ	ÓY]p ÙAM*

ppo/policy/entropy    &¹))       7ÿ_ 	5Z]p ÙAM*

ppo/policy/approxkl    »€)       7ÿ_ 	Z]p ÙAM*

ppo/policy/policykl    ÏlÐ|)       7ÿ_ 	çZ]p ÙAM*

ppo/policy/clipfrac    jå©0       •õÐ_	B[]p ÙAM*#
!
ppo/policy/advantages_meanÍÌL²ÔÂV&       sOã 	¤[]p ÙAM*

ppo/returns/meanjü
ÀwðÃò%       ê¼6ó	ÿ[]p ÙAM*

ppo/returns/var<o,A©Db#       °ŸwC	Z\]p ÙAM*

ppo/val/vpredGé
À2|#       °ŸwC	´\]p ÙAM*

ppo/val/error~5;Xªò&       sOã 	]]p ÙAM*

ppo/val/clipfrac    öùI-"       x=ý	b]]p ÙAM*

ppo/val/mean>'À`¹ê!       {ìö	º]]p ÙAM*

ppo/val/varãE+A9s«+       †ÃK	^]p ÙAM*

ppo/val/var_explained2ï?5'       »á±F	m^]p ÙAM*

ppo/learning_rateÀÏ¸:Ó½C+       †ÃK	Æ^]p ÙAM*

time/ppo/forward_pass@·A>ã¢ßË.       ÅËWú	!_]p ÙAM*!

time/ppo/compute_rewards HÔ:LŸù~1       ƒƒé	x_]p ÙAM*$
"
time/ppo/compute_advantages @>;N'[œ,       ô®ÌE	Ð_]p ÙAM*

time/ppo/optimize_stepþ÷‚?"×†)       7ÿ_ 	+`]p ÙAM*

time/ppo/calc_statsÀ¿4>DÑ©µ$       B+€M	`]p ÙAM*

time/ppo/totalp]²?Þeë!%       ê¼6ó	Ù`]p ÙAM*

env/reward_meanÁ_? CLð$       B+€M	.a]p ÙAM*

env/reward_stdÒj«<$°h¶"       x=ý	Ìíp ÙAN*

objective/klœ±BKÖ‘ù'       »á±F	2íp ÙAN*

objective/kl_coefäÝV>û)'       »á±F	Líp ÙAN*

objective/entropy    ·¶Ð6/       m]P	bíp ÙAN*"
 
ppo/mean_non_score_reward°+¿dbª+%       ê¼6ó	uíp ÙAN*

ppo/mean_scoresÁ_?U½5$       B+€M	…íp ÙAN*

ppo/std_scoresÒj«<Ñ
ßÎ-       <AŠû	—íp ÙAN* 

tokens/queries_len_mean  üB,wæŽ,       ô®ÌE	§íp ÙAN*

tokens/queries_len_std    „}/       m]P	»íp ÙAN*"
 
tokens/responses_len_mean   Aè&T.       ÅËWú	Ííp ÙAN*!

tokens/responses_len_std    ©%       ê¼6ó	àíp ÙAN*

ppo/loss/policyÍÌ³Ýœ$       B+€M	Ð!íp ÙAN*

ppo/loss/value"(‰:6zLq$       B+€M	%íp ÙAN*

ppo/loss/totalÏaÛ86T‹(       ÿpJ	=%íp ÙAN*

ppo/policy/entropy    ÞV)       7ÿ_ 	S%íp ÙAN*

ppo/policy/approxkl    Ž)       7ÿ_ 	Ç%íp ÙAN*

ppo/policy/policykl    >D£a)       7ÿ_ 	¢'íp ÙAN*

ppo/policy/clipfrac    5
Æñ0       •õÐ_	Ð'íp ÙAN*#
!
ppo/policy/advantages_meanÍÌ3Ó&Æ&       sOã 	ë'íp ÙAN*

ppo/returns/meanl(Àµ`cþ%       ê¼6ó	þ'íp ÙAN*

ppo/returns/varø),AÈÖ î#       °ŸwC	(íp ÙAN*

ppo/val/vpredË}À
—B#       °ŸwC	(íp ÙAN*

ppo/val/error"(	;Ó»9C&       sOã 	-(íp ÙAN*

ppo/val/clipfrac    ãÙ«7"       x=ý	©(íp ÙAN*

ppo/val/meanÀ9LxL!       {ìö	 )íp ÙAN*

ppo/val/var†t+A¬L–Ì+       †ÃK	\)íp ÙAN*

ppo/val/var_explainedAó?+†-'       »á±F	´)íp ÙAN*

ppo/learning_rateÀÏ¸:Àr¹+       †ÃK	*íp ÙAN*

time/ppo/forward_pass ðK>ù}ûð.       ÅËWú	l*íp ÙAN*!

time/ppo/compute_rewards ;;?Æ¯1       ƒƒé	Å*íp ÙAN*$
"
time/ppo/compute_advantages ”:;rßÒD,       ô®ÌE	+íp ÙAN*

time/ppo/optimize_step*1†?Y|f)       7ÿ_ 	w+íp ÙAN*

time/ppo/calc_stats`ñ:>z¨¼d$       B+€M	Ñ+íp ÙAN*

time/ppo/total€Ê·?L¥WÐ%       ê¼6ó	(,íp ÙAN*

env/reward_meanÁ_?r3uÁ$       B+€M	|,íp ÙAN*

env/reward_stdÒj«<—™´o"       x=ý	P‚$p ÙAO*

objective/klœ±BQÇ-ø'       »á±F	‚$p ÙAO*

objective/kl_coefW>2G'       »á±F	7‚$p ÙAO*

objective/entropy    RõKÍ/       m]P	K‚$p ÙAO*"
 
ppo/mean_non_score_reward5Ì+¿™fB‡%       ê¼6ó	\‚$p ÙAO*

ppo/mean_scoresÁ_??Œ¹Í$       B+€M	m‚$p ÙAO*

ppo/std_scoresÒj«<õàfŸ-       <AŠû	}‚$p ÙAO* 

tokens/queries_len_mean  üBG¾N,       ô®ÌE	Ž‚$p ÙAO*

tokens/queries_len_std    _…/       m]P	ž‚$p ÙAO*"
 
tokens/responses_len_mean   Aº1.Ž.       ÅËWú	®‚$p ÙAO*!

tokens/responses_len_std    H¢¼U%       ê¼6ó	À‚$p ÙAO*

ppo/loss/policy43s2h­ë®$       B+€M	|‚$p ÙAO*

ppo/loss/valueÃÍ/:tøPÙ$       B+€M	è‚$p ÙAO*

ppo/loss/total6¬Œ8‡ É(       ÿpJ		‚$p ÙAO*

ppo/policy/entropy    à¥Þ)       7ÿ_ 	À‚$p ÙAO*

ppo/policy/approxkl    `œ)       7ÿ_ 	ê‚$p ÙAO*

ppo/policy/policykl    Xà­Ÿ)       7ÿ_ 	ÿ‚$p ÙAO*

ppo/policy/clipfrac    cSµÅ0       •õÐ_	‚$p ÙAO*#
!
ppo/policy/advantages_mean43s²ü'º&       sOã 	%‚$p ÙAO*

ppo/returns/meanÀŸ°+%       ê¼6ó	6‚$p ÙAO*

ppo/returns/varRZ,Aí;B#       °ŸwC	F‚$p ÙAO*

ppo/val/vpredð*ÀÞ?ão#       °ŸwC	V‚$p ÙAO*

ppo/val/errorÃÍ¯:Êô@Í&       sOã 	f‚$p ÙAO*

ppo/val/clipfrac    —¥Þû"       x=ý	v‚$p ÙAO*

ppo/val/mean ÷
ÀIÇt !       {ìö	×‚$p ÙAO*

ppo/val/var_-AÄ’<É+       †ÃK	1‚$p ÙAO*

ppo/val/var_explained×÷?:¬Ì'       »á±F	‰‚$p ÙAO*

ppo/learning_rateÀÏ¸:K‹}+       †ÃK	á‚$p ÙAO*

time/ppo/forward_passP…A>ŒÉR.       ÅËWú	;‚$p ÙAO*!

time/ppo/compute_rewards àÈ:]exe1       ƒƒé	‚$p ÙAO*$
"
time/ppo/compute_advantages x9;L¢¥ù,       ô®ÌE	å‚$p ÙAO*

time/ppo/optimize_stepŠ?¡q‡)       7ÿ_ 	8‚$p ÙAO*

time/ppo/calc_statsÀê0>ˆ1(Ë$       B+€M	Œ‚$p ÙAO*

time/ppo/totalšö¯?›@Q5%       ê¼6ó	ä‚$p ÙAO*

env/reward_meanÁ_?G¬ø$       B+€M	6‚$p ÙAO*

env/reward_stdÒj«<q³¹,