H       þ’H	½Û‚ ÙAbrain.Event:2R.
,tensorboard.summary.writer.event_file_writer08<‚"       x=ý	ët‚ ÙA*

objective/kl    -W+'       »á±F	eu‚ ÙA*

objective/kl_coefÍÌL>L~°Œ'       »á±F	Œu‚ ÙA*

objective/entropy½B•ù>Ô/       m]P	¤u‚ ÙA*"
 
ppo/mean_non_score_reward    à^Ì%       ê¼6ó	»u‚ ÙA*

ppo/mean_scores^îu=˜ÈXm$       B+€M	Îu‚ ÙA*

ppo/std_scores­Â²=_2Õ-       <AŠû	Þu‚ ÙA* 

tokens/queries_len_mean  CV $\,       ô®ÌE	ñu‚ ÙA*

tokens/queries_len_std    Ä3C/       m]P	v‚ ÙA*"
 
tokens/responses_len_mean   AûGŠ.       ÅËWú	v‚ ÙA*!

tokens/responses_len_std    [p<Õ%       ê¼6ó	&v‚ ÙA*

ppo/loss/policyü•Ò=†ðX$       B+€M	yx‚ ÙA*

ppo/loss/valueÊÄÝ@„–ô$       B+€M	Y{‚ ÙA*

ppo/loss/totalû¼K?û'EÜ(       ÿpJ	€‚ ÙA*

ppo/policy/entropyX@ÐŽ¯Y)       7ÿ_ 	¯€‚ ÙA*

ppo/policy/approxklï2ñ@^ ó©)       7ÿ_ 	Ç€‚ ÙA*

ppo/policy/policyklj<@ž–5ö)       7ÿ_ 	Ú€‚ ÙA*

ppo/policy/clipfracš™Û>(±N"0       •õÐ_	ï€‚ ÙA*#
!
ppo/policy/advantages_mean  €³œÍ"z&       sOã 	‚ ÙA*

ppo/returns/meanPùœ?¼«”ô%       ê¼6ó	‚ ÙA*

ppo/returns/var…³Þ>¤šßN#       °ŸwC	 „‚ ÙA*

ppo/val/vpredþßß>3„#       °ŸwC	ø…‚ ÙA*

ppo/val/errorÌÀ,A«·OÐ&       sOã 	ˆ‚ ÙA*

ppo/val/clipfracš™Ú>®Äµ="       x=ý	Úˆ‚ ÙA*

ppo/val/mean­åO@B-¥t!       {ìö	‰‚ ÙA*

ppo/val/var€è5@jBé.+       †ÃK	8Š‚ ÙA*

ppo/val/var_explaineda•¾Áµz‘'       »á±F	åŠ‚ ÙA*

ppo/learning_rateoƒ:rù¡´+       †ÃK	Š‹‚ ÙA*

time/ppo/forward_pass0gG>˜f+.       ÅËWú	5Œ‚ ÙA*!

time/ppo/compute_rewards ¦ª;vN‘1       ƒƒé	ØŒ‚ ÙA*$
"
time/ppo/compute_advantages |;¤ÂE¹,       ô®ÌE	z‚ ÙA*

time/ppo/optimize_stepJ=‰?Ó/À)       7ÿ_ 	Ž‚ ÙA*

time/ppo/calc_statsP®;>\*‹$       B+€M	ºŽ‚ ÙA*

time/ppo/totalŠÍº?ŒW%%       ê¼6ó	_‚ ÙA*

env/reward_mean^îu=Ñ¢Ý$       B+€M	‚ ÙA*

env/reward_std­Â²=„ü©\"       x=ý	GÅô‚ ÙA*

objective/klê'LBÌÞ'       »á±F	³Åô‚ ÙA*

objective/kl_coef?«L>Å™`Ö'       »á±F	5Æô‚ ÙA*

objective/entropyŠ»ÝB’ö;¿/       m]P	JÆô‚ ÙA*"
 
ppo/mean_non_score_reward“¿QŠö9%       ê¼6ó	]Æô‚ ÙA*

ppo/mean_scores‚‘!>XÒOS$       B+€M	rÆô‚ ÙA*

ppo/std_scoresÍ1u>„È€„-       <AŠû	…Æô‚ ÙA* 

tokens/queries_len_mean  C–ƒ—á,       ô®ÌE	–Æô‚ ÙA*

tokens/queries_len_std    ŸFN/       m]P	©Æô‚ ÙA*"
 
tokens/responses_len_mean   A$ús.       ÅËWú	¹Æô‚ ÙA*!

tokens/responses_len_std    Ê~Mž%       ê¼6ó	ÉÆô‚ ÙA*

ppo/loss/policyÌaî»®˜º[$       B+€M	
Éô‚ ÙA*

ppo/loss/valueëm—AFób$       B+€M	ìÌô‚ ÙA*

ppo/loss/total[ñ?.Ÿ©©(       ÿpJ	Íô‚ ÙA*

ppo/policy/entropy<»¹@±JPÊ)       7ÿ_ 	èÏô‚ ÙA*

ppo/policy/approxkløå?l)       7ÿ_ 	Ðô‚ ÙA*

ppo/policy/policyklXË?«ÉM)       7ÿ_ 	Öô‚ ÙA*

ppo/policy/clipfrac  ë>Ô÷Y0       •õÐ_	1Öô‚ ÙA*#
!
ppo/policy/advantages_meanÍÌL1oi¯Ä&       sOã 	KÖô‚ ÙA*

ppo/returns/mean½^AÀÜË%       ê¼6ó	_Öô‚ ÙA*

ppo/returns/var-ÃA+"+h#       °ŸwC	pÖô‚ ÙA*

ppo/val/vpred ´k½™uš#       °ŸwC	[Øô‚ ÙA*

ppo/val/errornÅ¢A‚uâN&       sOã 	ŠØô‚ ÙA*

ppo/val/clipfracÍÌ:?ÿ-é:"       x=ý	¢Øô‚ ÙA*

ppo/val/meanŽV@lŽ§º!       {ìö	‘Úô‚ ÙA*

ppo/val/varëã†>)±:,+       †ÃK	¼Úô‚ ÙA*

ppo/val/var_explained\Ý¹¿§À'       »á±F	ÒÚô‚ ÙA*

ppo/learning_rateoƒ:·åZ–+       †ÃK	Ûô‚ ÙA*

time/ppo/forward_passPòG>iÔ´.       ÅËWú	*Üô‚ ÙA*!

time/ppo/compute_rewards xß:Ýö 1       ƒƒé	ËÜô‚ ÙA*$
"
time/ppo/compute_advantages j;ÿÃŽŽ,       ô®ÌE	kÝô‚ ÙA*

time/ppo/optimize_step˜Ç…?ÃŸþ)       7ÿ_ 		Þô‚ ÙA*

time/ppo/calc_statsð³<>ÇÍ^$       B+€M	¥Þô‚ ÙA*

time/ppo/total·?Õ×Ö%       ê¼6ó	Eßô‚ ÙA*

env/reward_mean‚‘!>³P•$       B+€M	ãßô‚ ÙA*

env/reward_stdÍ1u>å*š"       x=ý	é‡N‚ ÙA*

objective/kl{#B´\$'       »á±F	KˆN‚ ÙA*

objective/kl_coefÇÌL>îé×w'       »á±F	gˆN‚ ÙA*

objective/entropy¶¶îBµi/       m]P	yˆN‚ ÙA*"
 
ppo/mean_non_score_rewardý¦Ð¾ßBºz%       ê¼6ó	ˆN‚ ÙA*

ppo/mean_scoresàü>>ò»°$       B+€M	 ˆN‚ ÙA*

ppo/std_scoresRŸ»>¹0©ž-       <AŠû	°ˆN‚ ÙA* 

tokens/queries_len_mean  CðAg
,       ô®ÌE	ÁˆN‚ ÙA*

tokens/queries_len_std    ™:‰/       m]P	ÒˆN‚ ÙA*"
 
tokens/responses_len_mean   A#*.       ÅËWú	äˆN‚ ÙA*!

tokens/responses_len_std    kä¢%       ê¼6ó	õˆN‚ ÙA*

ppo/loss/policyÆ=¢ˆû$       B+€M	#ŽN‚ ÙA*

ppo/loss/value:(@y#Å#$       B+€M	TŽN‚ ÙA*

ppo/loss/totalÏ{ò>:ˆ±(       ÿpJ	kŽN‚ ÙA*

ppo/policy/entropy ¨À@An]Ö)       7ÿ_ 	}ŽN‚ ÙA*

ppo/policy/approxklªû ?Ú›)       7ÿ_ 	÷’N‚ ÙA*

ppo/policy/policykl×8z>˜Ä)       7ÿ_ 	$“N‚ ÙA*

ppo/policy/clipfrac33é>¬<Ê0       •õÐ_	?“N‚ ÙA*#
!
ppo/policy/advantages_meanÍÌ³c¡zÛ&       sOã 	S“N‚ ÙA*

ppo/returns/mean­TÀÀ‰”+%       ê¼6ó	f“N‚ ÙA*

ppo/returns/vare¥’@]WV(#       °ŸwC	»—N‚ ÙA*

ppo/val/vpred‚Ý	ÀvÌdø#       °ŸwC	è—N‚ ÙA*

ppo/val/errorÈÑÊ@W>È’&       sOã 	 ˜N‚ ÙA*

ppo/val/clipfracÍÌ?áÛ¼™"       x=ý	˜N‚ ÙA*

ppo/val/meanh÷¦¿!       {ìö	ÏœN‚ ÙA*

ppo/val/varC3>Ã˜‚ý+       †ÃK	ýœN‚ ÙA*

ppo/val/var_explained¬Ä¾ÚÍÏà'       »á±F	N‚ ÙA*

ppo/learning_rateoƒ:±îž<+       †ÃK	*N‚ ÙA*

time/ppo/forward_passúD>Ÿ¨~.       ÅËWú	:N‚ ÙA*!

time/ppo/compute_rewards P×:biƒÖ1       ƒƒé	1ŸN‚ ÙA*$
"
time/ppo/compute_advantages ˆk;‡ÌÆM,       ô®ÌE	]ŸN‚ ÙA*

time/ppo/optimize_step2†?»µsÔ)       7ÿ_ 	rŸN‚ ÙA*

time/ppo/calc_stats`Z;>É®~$       B+€M	þŸN‚ ÙA*

time/ppo/totalªÐ¶?€QŒO%       ê¼6ó	š N‚ ÙA*

env/reward_meanàü>>ŒK–*$       B+€M	4¡N‚ ÙA*

env/reward_stdRŸ»>e“f´"       x=ý	Í¯#‚ ÙA*

objective/klÑC.BW±(Z'       »á±F	F¯#‚ ÙA*

objective/kl_coefUîL>È;ßê'       »á±F	Ö¯#‚ ÙA*

objective/entropyÈÌC[¹‘/       m]P	ø¯#‚ ÙA*"
 
ppo/mean_non_score_reward¦3ß¾ï°j&%       ê¼6ó	¯#‚ ÙA*

ppo/mean_scores³@&="šZò$       B+€M	/¯#‚ ÙA*

ppo/std_scoresX”à=1îþx-       <AŠû	H¯#‚ ÙA* 

tokens/queries_len_mean  úBà¡†÷,       ô®ÌE	d¯#‚ ÙA*

tokens/queries_len_std    ¼Éùi/       m]P	}¯#‚ ÙA*"
 
tokens/responses_len_mean   APÜz.       ÅËWú	’¯#‚ ÙA*!

tokens/responses_len_std    öm¸%       ê¼6ó	«¯#‚ ÙA*

ppo/loss/policyÂm½½GÀj;$       B+€M	¬ ¯#‚ ÙA*

ppo/loss/value÷z‚@×
t$       B+€M	¹$¯#‚ ÙA*

ppo/loss/totalNi¡>š² (       ÿpJ	æ$¯#‚ ÙA*

ppo/policy/entropy‰óÉ@J°a)       7ÿ_ 	ü$¯#‚ ÙA*

ppo/policy/approxklö>WAÝl)       7ÿ_ 	)¯#‚ ÙA*

ppo/policy/policyklU›9=:Ÿk)       7ÿ_ 	4)¯#‚ ÙA*

ppo/policy/clipfracÍÌó>Y/þU0       •õÐ_	F-¯#‚ ÙA*#
!
ppo/policy/advantages_meanÍÌ±˜òXp&       sOã 	r-¯#‚ ÙA*

ppo/returns/mean0€À2˜J%       ê¼6ó	è/¯#‚ ÙA*

ppo/returns/varo]¤@#ûù6#       °ŸwC	0¯#‚ ÙA*

ppo/val/vpredR8À£·ú»#       °ŸwC	4¯#‚ ÙA*

ppo/val/errorv,ñ@aP&P&       sOã 	º4¯#‚ ÙA*

ppo/val/clipfracfæ	?›ÛŽ"       x=ý	Ï4¯#‚ ÙA*

ppo/val/mean
ÀŠVýÓ!       {ìö	ß4¯#‚ ÙA*

ppo/val/var/Â=Ù+O+       †ÃK	ð4¯#‚ ÙA*

ppo/val/var_explained´Bï¾ ãû“'       »á±F	5¯#‚ ÙA*

ppo/learning_rateoƒ:R@4¬+       †ÃK	6¯#‚ ÙA*

time/ppo/forward_passpÞ5>8Ô þ.       ÅËWú	R7¯#‚ ÙA*!

time/ppo/compute_rewards ¸Û:Ùþ¬z1       ƒƒé	ý7¯#‚ ÙA*$
"
time/ppo/compute_advantages TP;íBÌ,       ô®ÌE	ž8¯#‚ ÙA*

time/ppo/optimize_step¼u?9eî)       7ÿ_ 	;9¯#‚ ÙA*

time/ppo/calc_stats@+>Š—­$       B+€M	Ø9¯#‚ ÙA*

time/ppo/totalö›§?G.ó%       ê¼6ó	s:¯#‚ ÙA*

env/reward_mean³@&=€Ü$/$       B+€M	;¯#‚ ÙA*

env/reward_stdX”à=ÓM@Ú"       x=ý	V`1(‚ ÙA*

objective/kl­3B$3"'       »á±F	³`1(‚ ÙA*

objective/kl_coeféM>ï‡ì'       »á±F	Ô`1(‚ ÙA*

objective/entropyô“Cõ6ÕŠ/       m]P	Pa1(‚ ÙA*"
 
ppo/mean_non_score_reward:#æ¾>Ju%       ê¼6ó	ea1(‚ ÙA*

ppo/mean_scoresª/<=Êòl$       B+€M	ya1(‚ ÙA*

ppo/std_scoresõ;1=÷Ul-       <AŠû	‹a1(‚ ÙA* 

tokens/queries_len_mean  ŽBãeª,       ô®ÌE	ža1(‚ ÙA*

tokens/queries_len_std    Oîro/       m]P	°a1(‚ ÙA*"
 
tokens/responses_len_mean   A&ÙP.       ÅËWú	Âa1(‚ ÙA*!

tokens/responses_len_std    ld$%       ê¼6ó	Óa1(‚ ÙA*

ppo/loss/policy¤n¶½Z™ $       B+€M	e1(‚ ÙA*

ppo/loss/valueÌq@58$       B+€M	:m1(‚ ÙA*

ppo/loss/totalkÔ“>ƒŽˆ(       ÿpJ	hm1(‚ ÙA*

ppo/policy/entropyb!Ï@×1õû)       7ÿ_ 	‚m1(‚ ÙA*

ppo/policy/approxkl±Þý=ùØÑ¯)       7ÿ_ 	•m1(‚ ÙA*

ppo/policy/policykld¾(=K‘í\)       7ÿ_ 	¨m1(‚ ÙA*

ppo/policy/clipfracffë>½LT0       •õÐ_	½m1(‚ ÙA*#
!
ppo/policy/advantages_mean  ”2­¨¶&       sOã 	Ïm1(‚ ÙA*

ppo/returns/meanRÛ…ÀD•'%       ê¼6ó	ám1(‚ ÙA*

ppo/returns/varÌœ½@É‚#E#       °ŸwC	õm1(‚ ÙA*

ppo/val/vpredµñ=ÀÖ&ý#       °ŸwC	n1(‚ ÙA*

ppo/val/error_´ç@fìL‘&       sOã 	›n1(‚ ÙA*

ppo/val/clipfracÍÌÙ>úÕÙø"       x=ý	Ao1(‚ ÙA*

ppo/val/mean>x0À©ãi4!       {ìö	áo1(‚ ÙA*

ppo/val/var42Š=iSj+       †ÃK	ƒp1(‚ ÙA*

ppo/val/var_explained`Qc¾1±n'       »á±F	!q1(‚ ÙA*

ppo/learning_rateoƒ:ÈøÞÃ+       †ÃK	¿q1(‚ ÙA*

time/ppo/forward_pass€‹ê=Â3Òø.       ÅËWú	ar1(‚ ÙA*!

time/ppo/compute_rewards ØÍ:·ºH1       ƒƒé	ür1(‚ ÙA*$
"
time/ppo/compute_advantages ;+$Ê,       ô®ÌE	•s1(‚ ÙA*

time/ppo/optimize_stepìË?0Ê«)       7ÿ_ 	/t1(‚ ÙA*

time/ppo/calc_stats`YØ=8	ÒÊ$       B+€M	Åt1(‚ ÙA*

time/ppo/total”W?|’»%       ê¼6ó	_u1(‚ ÙA*

env/reward_meanª/<Ðî$       B+€M	öu1(‚ ÙA*

env/reward_stdõ;1=Î û°"       x=ý	ÙL)‚ ÙA*

objective/kll'KBÙßÇ'       »á±F	>L)‚ ÙA*

objective/kl_coef‚1M>
þ'       »á±F	ZL)‚ ÙA*

objective/entropy@€CíÑ˜²/       m]P	oL)‚ ÙA*"
 
ppo/mean_non_score_reward¯D¿]úÈ¹%       ê¼6ó	‚L)‚ ÙA*

ppo/mean_scores‡öE<æÂÒ‹$       B+€M	•L)‚ ÙA*

ppo/std_scores¹	=Š©-       <AŠû	§L)‚ ÙA* 

tokens/queries_len_mean  ŽBË>0,       ô®ÌE	¹L)‚ ÙA*

tokens/queries_len_std    ðÆ3/       m]P	ËL)‚ ÙA*"
 
tokens/responses_len_mean   A©ü­ .       ÅËWú	ÞL)‚ ÙA*!

tokens/responses_len_std    ²¬ ñ%       ê¼6ó	ïL)‚ ÙA*

ppo/loss/policy^ È½È¯µ_$       B+€M	L)‚ ÙA*

ppo/loss/valueµf£@¤è;$       B+€M	ç
L)‚ ÙA*

ppo/loss/total
iÓ>^IõÈ(       ÿpJ	L)‚ ÙA*

ppo/policy/entropyÉÉ@;l†®)       7ÿ_ 	2L)‚ ÙA*

ppo/policy/approxkl8ø=k Ø·)       7ÿ_ 	GL)‚ ÙA*

ppo/policy/policykl¨íà<·Â€¹)       7ÿ_ 	\L)‚ ÙA*

ppo/policy/clipfrac3³ ?{þ	i0       •õÐ_	pL)‚ ÙA*#
!
ppo/policy/advantages_meanÍÌL±L.|&       sOã 	‚L)‚ ÙA*

ppo/returns/mean$5›À¬ã—a%       ê¼6ó	•L)‚ ÙA*

ppo/returns/var~Áì@žã¸#       °ŸwC	§L)‚ ÙA*

ppo/val/vpred9OÀøò{#       °ŸwC	¸L)‚ ÙA*

ppo/val/errorûýAËITñ&       sOã 	ÐL)‚ ÙA*

ppo/val/clipfrac  ?œÀ­¸"       x=ý	þL)‚ ÙA*

ppo/val/mean2#=À=LlÄ!       {ìö	SL)‚ ÙA*

ppo/val/varÛ6U=lo8à+       †ÃK	L)‚ ÙA*

ppo/val/var_explained ¶•¾ØQþ['       »á±F	šL)‚ ÙA*

ppo/learning_rateoƒ:ÅÁ×Ú+       †ÃK	L)‚ ÙA*

time/ppo/forward_pass@­ê=0»¼.       ÅËWú	`L)‚ ÙA*!

time/ppo/compute_rewards 0â:ãC1       ƒƒé	»L)‚ ÙA*$
"
time/ppo/compute_advantages ü;`g,       ô®ÌE	L)‚ ÙA*

time/ppo/optimize_step8.?/`)       7ÿ_ 	dL)‚ ÙA*

time/ppo/calc_stats@jÙ=å@$       B+€M	ºL)‚ ÙA*

time/ppo/total¯W?:‚]d%       ê¼6ó	L)‚ ÙA*

env/reward_mean‡öE<ºg½ï$       B+€M	hL)‚ ÙA*

env/reward_std¹	=z÷HÉ"       x=ý	ÞÙZ*‚ ÙA*

objective/klú»EB¡ü‡À'       »á±F	=ÚZ*‚ ÙA*

objective/kl_coef SM>°>«F'       »á±F	[ÚZ*‚ ÙA*

objective/entropy>CåúA!/       m]P	qÚZ*‚ ÙA*"
 
ppo/mean_non_score_reward“¿ý¾†ºˆ4%       ê¼6ó	†ÚZ*‚ ÙA*

ppo/mean_scoresãbÁ;¨}Ä$       B+€M	—ÚZ*‚ ÙA*

ppo/std_scoresû2<O¿‚F-       <AŠû	¨ÚZ*‚ ÙA* 

tokens/queries_len_mean  ŽBÁ(á,       ô®ÌE	¹ÚZ*‚ ÙA*

tokens/queries_len_std    q¹6í/       m]P	ËÚZ*‚ ÙA*"
 
tokens/responses_len_mean   A©&.       ÅËWú	ÜÚZ*‚ ÙA*!

tokens/responses_len_std    Pºö%       ê¼6ó	íÚZ*‚ ÙA*

ppo/loss/policy$Å½Ë”½$       B+€M	ŸÝZ*‚ ÙA*

ppo/loss/value w@sÇ±ˆ$       B+€M	ÏÝZ*‚ ÙA*

ppo/loss/total·m”>ª§`s(       ÿpJ	ýáZ*‚ ÙA*

ppo/policy/entropyŠ•È@(oˆ¨)       7ÿ_ 	+âZ*‚ ÙA*

ppo/policy/approxklÒA>^§¦)       7ÿ_ 	EâZ*‚ ÙA*

ppo/policy/policykl T¢=Ö‰“Ö)       7ÿ_ 	WâZ*‚ ÙA*

ppo/policy/clipfracffò>6H0       •õÐ_	oâZ*‚ ÙA*#
!
ppo/policy/advantages_mean™™Ù²–*Á6&       sOã 	€âZ*‚ ÙA*

ppo/returns/meaníó–ÀÉÈ/c%       ê¼6ó	âZ*‚ ÙA*

ppo/returns/varÑ(Ô@h>—#       °ŸwC	 âZ*‚ ÙA*

ppo/val/vpreddo^À5®¢#       °ŸwC	¯âZ*‚ ÙA*

ppo/val/errorYdä@e•…"&       sOã 	¾âZ*‚ ÙA*

ppo/val/clipfrac33Ñ>N·ËÞ"       x=ý	CåZ*‚ ÙA*

ppo/val/mean§MÀ?Ð˜!       {ìö	tåZ*‚ ÙA*

ppo/val/var;\Ò=Åûí«+       †ÃK	ŒåZ*‚ ÙA*

ppo/val/var_explainedÐ±œ½¤ÀT'       »á±F	žåZ*‚ ÙA*

ppo/learning_rateoƒ:÷Oó+       †ÃK	òçZ*‚ ÙA*

time/ppo/forward_pass@†è=ëï„M.       ÅËWú	èZ*‚ ÙA*!

time/ppo/compute_rewards À;,hj£1       ƒƒé	4èZ*‚ ÙA*$
"
time/ppo/compute_advantages X;æ`È:,       ô®ÌE	ëZ*‚ ÙA*

time/ppo/optimize_step,–?ì/€Œ)       7ÿ_ 	<ëZ*‚ ÙA*

time/ppo/calc_stats Œ×=Ö^¬ä$       B+€M	WëZ*‚ ÙA*

time/ppo/totalp¿W?‰e,÷%       ê¼6ó	#îZ*‚ ÙA*

env/reward_meanãbÁ;Ujå½$       B+€M	OîZ*‚ ÙA*

env/reward_stdû2<m“|"       x=ý	ÞIÑ.‚ ÙA*

objective/klŠØUB³Îö|'       »á±F	?JÑ.‚ ÙA*

objective/kl_coefÄtM>\÷~,'       »á±F	_JÑ.‚ ÙA*

objective/entropy«êBmHJ/       m]P	tJÑ.‚ ÙA*"
 
ppo/mean_non_score_reward¬	¿Ë»0%       ê¼6ó	‰JÑ.‚ ÙA*

ppo/mean_scores… ‚<!øÀ$       B+€M	œJÑ.‚ ÙA*

ppo/std_scoresî¯¶<ÂÈ½=-       <AŠû	°JÑ.‚ ÙA* 

tokens/queries_len_mean  ÖB %,       ô®ÌE	ÂJÑ.‚ ÙA*

tokens/queries_len_std    (<ìµ/       m]P	ÔJÑ.‚ ÙA*"
 
tokens/responses_len_mean  žAøJÓ.       ÅËWú	åJÑ.‚ ÙA*!

tokens/responses_len_stdóµ?ÙÅð%       ê¼6ó	öJÑ.‚ ÙA*

ppo/loss/policyÃ¼š½h+P‘$       B+€M	%MÑ.‚ ÙA*

ppo/loss/valueÌ—@¼íf$       B+€M	ÒNÑ.‚ ÙA*

ppo/loss/totalIõÊ>iÏd(       ÿpJ	ÈPÑ.‚ ÙA*

ppo/policy/entropy¤a²@ÿÖO)       7ÿ_ 	?QÑ.‚ ÙA*

ppo/policy/approxkl¥jŽ>û’<)       7ÿ_ 	¢TÑ.‚ ÙA*

ppo/policy/policyklñb°=2©™É)       7ÿ_ 	ÍTÑ.‚ ÙA*

ppo/policy/clipfrac•Žì>Óæã0       •õÐ_	æTÑ.‚ ÙA*#
!
ppo/policy/advantages_meanZÜ„3\¡ª&       sOã 	øTÑ.‚ ÙA*

ppo/returns/meanÙ£ÀGp¡W%       ê¼6ó	UÑ.‚ ÙA*

ppo/returns/varlEù@(Â¶}#       °ŸwC	UÑ.‚ ÙA*

ppo/val/vpred´ójÀHÁí}#       °ŸwC	™VÑ.‚ ÙA*

ppo/val/error¦‘A»“\&       sOã 	WÑ.‚ ÙA*

ppo/val/clipfrac•þ>¥‹c"       x=ý	bWÑ.‚ ÙA*

ppo/val/meanëVÀ™¬…!       {ìö	¸WÑ.‚ ÙA*

ppo/val/varÈ­>Ñ+¾+       †ÃK	XÑ.‚ ÙA*

ppo/val/var_explainedà§³½Ê!ãà'       »á±F	`XÑ.‚ ÙA*

ppo/learning_rateoƒ:fCl+       †ÃK	²XÑ.‚ ÙA*

time/ppo/forward_passP">ç°Ç.       ÅËWú	YÑ.‚ ÙA*!

time/ppo/compute_rewards ÈÓ:ÏpL1       ƒƒé	aYÑ.‚ ÙA*$
"
time/ppo/compute_advantages ˜2;	Öÿi,       ô®ÌE	´YÑ.‚ ÙA*

time/ppo/optimize_stepäíU?·¾×¢)       7ÿ_ 	ZÑ.‚ ÙA*

time/ppo/calc_stats°p>¾ò•$       B+€M	WZÑ.‚ ÙA*

time/ppo/total°9’?"èo%       ê¼6ó	§ZÑ.‚ ÙA*

env/reward_mean… ‚<S˜$       B+€M	[Ñ.‚ ÙA*

env/reward_stdî¯¶<³¸°"       x=ý	Zå/‚ ÙA	*

objective/klN#\BìþTE'       »á±F	ïZå/‚ ÙA	*

objective/kl_coefm–M>¤>_'       »á±F	[å/‚ ÙA	*

objective/entropy^šëBÌ— Ã/       m]P	$[å/‚ ÙA	*"
 
ppo/mean_non_score_rewardn¿n\%       ê¼6ó	6[å/‚ ÙA	*

ppo/mean_scoresy/2¾¬‰r$       B+€M	H[å/‚ ÙA	*

ppo/std_scores\†?v¯q±-       <AŠû	Z[å/‚ ÙA	* 

tokens/queries_len_mean  ÖBNrT,       ô®ÌE	j[å/‚ ÙA	*

tokens/queries_len_std    ¡\Õè/       m]P	[å/‚ ÙA	*"
 
tokens/responses_len_mean   A[P£.       ÅËWú	‘[å/‚ ÙA	*!

tokens/responses_len_std    h€¥%       ê¼6ó	¢[å/‚ ÙA	*

ppo/loss/policyás§½”C0¦$       B+€M	_å/‚ ÙA	*

ppo/loss/value'ß’@û²dˆ$       B+€M	5_å/‚ ÙA	*

ppo/loss/total¬!Á>SoÆ(       ÿpJ	M_å/‚ ÙA	*

ppo/policy/entropyŠ±@qð4«)       7ÿ_ 	^_å/‚ ÙA	*

ppo/policy/approxklžÍ»>ð‹*Þ)       7ÿ_ 	n_å/‚ ÙA	*

ppo/policy/policyklÙY>:áF)       7ÿ_ 	_å/‚ ÙA	*

ppo/policy/clipfracÍL ?ø÷²0       •õÐ_	‘_å/‚ ÙA	*#
!
ppo/policy/advantages_mean4332®j*_&       sOã 	¢_å/‚ ÙA	*

ppo/returns/mean¬À«z’;%       ê¼6ó	²_å/‚ ÙA	*

ppo/returns/varˆÁAP®r1#       °ŸwC	Á_å/‚ ÙA	*

ppo/val/vpred¼‰À*‚Ù¦#       °ŸwC	0`å/‚ ÙA	*

ppo/val/errorì@ÜØe&       sOã 	Ž`å/‚ ÙA	*

ppo/val/clipfrac43ù>?ú”»"       x=ý	Ô`å/‚ ÙA	*

ppo/val/meanßˆtÀ‘!       {ìö	&aå/‚ ÙA	*

ppo/val/varHZñ>áú²þ+       †ÃK	{aå/‚ ÙA	*

ppo/val/var_explainedà=7>¤öª '       »á±F	Ëaå/‚ ÙA	*

ppo/learning_rateoƒ:ðåÞ;+       †ÃK	 bå/‚ ÙA	*

time/ppo/forward_pass¶>Væ¢Ù.       ÅËWú	~bå/‚ ÙA	*!

time/ppo/compute_rewards 8á:Ì_£1       ƒƒé	úbå/‚ ÙA	*$
"
time/ppo/compute_advantages ”9;ï,ˆ,       ô®ÌE	cå/‚ ÙA	*

time/ppo/optimize_step0`U?Ñø¨ì)       7ÿ_ 	fcå/‚ ÙA	*

time/ppo/calc_statsh>Q63$       B+€M	¬cå/‚ ÙA	*

time/ppo/totallk‘?äGÐ¯%       ê¼6ó	ÿcå/‚ ÙA	*

env/reward_meany/2¾H›.$       B+€M	Ndå/‚ ÙA	*

env/reward_std\†?~ûá"       x=ý	qªñ0‚ ÙA
*

objective/kl²ãiBæ%Ä„'       »á±F	Ëªñ0‚ ÙA
*

objective/kl_coef¸M>ÎÔ¯{'       »á±F	çªñ0‚ ÙA
*

objective/entropyú*àBÀ´ˆ7/       m]P	þªñ0‚ ÙA
*"
 
ppo/mean_non_score_rewardn\¿­fpJ%       ê¼6ó	«ñ0‚ ÙA
*

ppo/mean_scores§^U<]y¥$       B+€M	&«ñ0‚ ÙA
*

ppo/std_scores«ó|<œ®ì-       <AŠû	8«ñ0‚ ÙA
* 

tokens/queries_len_mean  ÖBiàƒ,       ô®ÌE	I«ñ0‚ ÙA
*

tokens/queries_len_std    ‡0//       m]P	Z«ñ0‚ ÙA
*"
 
tokens/responses_len_mean   A6n‰{.       ÅËWú	j«ñ0‚ ÙA
*!

tokens/responses_len_std    ¢Li%       ê¼6ó	z«ñ0‚ ÙA
*

ppo/loss/policyEÇ¡½Þ<b$       B+€M	|­ñ0‚ ÙA
*

ppo/loss/value ›e@ô2¿$       B+€M	2°ñ0‚ ÙA
*

ppo/loss/totalâ=>Y’ª(       ÿpJ	a°ñ0‚ ÙA
*

ppo/policy/entropyaê¥@Èå½)       7ÿ_ 	T³ñ0‚ ÙA
*

ppo/policy/approxkl×F«>÷_ìÈ)       7ÿ_ 	†³ñ0‚ ÙA
*

ppo/policy/policykl Ru>è<<R)       7ÿ_ 	œ³ñ0‚ ÙA
*

ppo/policy/clipfracÍÌû>ÚÂ™„0       •õÐ_	¶ñ0‚ ÙA
*#
!
ppo/policy/advantages_meanš™™±Æ‹"Ê&       sOã 	<¶ñ0‚ ÙA
*

ppo/returns/meanÖÐ±À2‡%       ê¼6ó	[¶ñ0‚ ÙA
*

ppo/returns/var‘AFF#       °ŸwC	P¹ñ0‚ ÙA
*

ppo/val/vpred`…’Àè‚®#       °ŸwC	€¹ñ0‚ ÙA
*

ppo/val/error—–°@>Ž›Ä&       sOã 	˜¹ñ0‚ ÙA
*

ppo/val/clipfracš™è>·Ê¿"       x=ý	¼ñ0‚ ÙA
*

ppo/val/meanÒ†À|é²d!       {ìö	E¼ñ0‚ ÙA
*

ppo/val/varì’Æ?ûpGÕ+       †ÃK	]¼ñ0‚ ÙA
*

ppo/val/var_explainedDhÝ>Oi+Ž'       »á±F	p¼ñ0‚ ÙA
*

ppo/learning_rateoƒ:±ï\ç+       †ÃK	Ì½ñ0‚ ÙA
*

time/ppo/forward_pass3>XÙ¾y.       ÅËWú	C¾ñ0‚ ÙA
*!

time/ppo/compute_rewards 8Ï:\L¹A1       ƒƒé	¾ñ0‚ ÙA
*$
"
time/ppo/compute_advantages H9;/,       ô®ÌE	õ¾ñ0‚ ÙA
*

time/ppo/optimize_step„~U?S„a()       7ÿ_ 	M¿ñ0‚ ÙA
*

time/ppo/calc_stats ‚>+Þ<$       B+€M	§¿ñ0‚ ÙA
*

time/ppo/totalI‘?@ˆ'-%       ê¼6ó	ü¿ñ0‚ ÙA
*

env/reward_mean§^U<¡hš[$       B+€M	HÀñ0‚ ÙA
*

env/reward_std«ó|<¾C—É"       x=ý	ië2‚ ÙA*

objective/klÐ©€Bo	¹'       »á±F	Òë2‚ ÙA*

objective/kl_coefÑÙM>´#é'       »á±F	óë2‚ ÙA*

objective/entropyoÕB›£­/       m]P	ì2‚ ÙA*"
 
ppo/mean_non_score_reward¹ˆ%¿”ªTË%       ê¼6ó	ì2‚ ÙA*

ppo/mean_scoresgÄ<Æmi$       B+€M	)ì2‚ ÙA*

ppo/std_scoresÜ¥7<èNó-       <AŠû	9ì2‚ ÙA* 

tokens/queries_len_mean  ÖBø}2­,       ô®ÌE	Hì2‚ ÙA*

tokens/queries_len_std    ¾6e¤/       m]P	Yì2‚ ÙA*"
 
tokens/responses_len_mean   AQ…†P.       ÅËWú	hì2‚ ÙA*!

tokens/responses_len_std    Öü¦%       ê¼6ó	xì2‚ ÙA*

ppo/loss/policy‰ð½ŽéÌµ$       B+€M	Wí2‚ ÙA*

ppo/loss/valueôWT@{«x[$       B+€M	Vî2‚ ÙA*

ppo/loss/totalæ!˜>QÎ¬x(       ÿpJ	Ýî2‚ ÙA*

ppo/policy/entropyn@kÖðê)       7ÿ_ 	Pï2‚ ÙA*

ppo/policy/approxkl¾k“?œáçÌ)       7ÿ_ 	¼ï2‚ ÙA*

ppo/policy/policykl>?|Z)       7ÿ_ 	ð2‚ ÙA*

ppo/policy/clipfracffâ>óùdq0       •õÐ_	~ð2‚ ÙA*#
!
ppo/policy/advantages_meanÍÌÌ²]uhì&       sOã 	Þð2‚ ÙA*

ppo/returns/mean»E¾À„ªq0%       ê¼6ó	@ñ2‚ ÙA*

ppo/returns/var(<LA+Tå*#       °ŸwC	¢ñ2‚ ÙA*

ppo/val/vpredV «ÀÛu#       °ŸwC	üñ2‚ ÙA*

ppo/val/errorD°@÷#l&       sOã 	Tò2‚ ÙA*

ppo/val/clipfrac33‹>	Æ"       x=ý	®ò2‚ ÙA*

ppo/val/mean	œÀ†¯¤!       {ìö	ó2‚ ÙA*

ppo/val/varoNn@D}èÅ+       †ÃK	dó2‚ ÙA*

ppo/val/var_explainedÁŸ?8c‰Û'       »á±F	×ó2‚ ÙA*

ppo/learning_rateoƒ:ÿ;r+       †ÃK	1ô2‚ ÙA*

time/ppo/forward_passZ>¥Œ‘è.       ÅËWú	Œô2‚ ÙA*!

time/ppo/compute_rewards ¨Ò:47íÄ1       ƒƒé	äô2‚ ÙA*$
"
time/ppo/compute_advantages ð3;Õtx,       ô®ÌE	:õ2‚ ÙA*

time/ppo/optimize_stepàáV?9?w0)       7ÿ_ 	Žõ2‚ ÙA*

time/ppo/calc_statsàœ>/óŸ$       B+€M	ãõ2‚ ÙA*

time/ppo/totalf€’?5öPi%       ê¼6ó	:ö2‚ ÙA*

env/reward_meangÄ<Ù|NO$       B+€M	ö2‚ ÙA*

env/reward_stdÜ¥7<È|¿"       x=ý	*b3‚ ÙA*

objective/klÐaBØ¸Þ'       »á±F	b3‚ ÙA*

objective/kl_coef‹ûM>Ø©¼Í'       »á±F	­b3‚ ÙA*

objective/entropyjUÅB3›vQ/       m]P	Äb3‚ ÙA*"
 
ppo/mean_non_score_rewardQà9¿´šT%       ê¼6ó	Õb3‚ ÙA*

ppo/mean_scoresõ3=Ý¼Ÿf$       B+€M	çb3‚ ÙA*

ppo/std_scoreså!>`XÝß-       <AŠû	øb3‚ ÙA* 

tokens/queries_len_mean  ÖBIßÉÊ,       ô®ÌE	c3‚ ÙA*

tokens/queries_len_std    Xù/       m]P	c3‚ ÙA*"
 
tokens/responses_len_mean   AVp$
.       ÅËWú	-c3‚ ÙA*!

tokens/responses_len_std    ²‘| %       ê¼6ó	>c3‚ ÙA*

ppo/loss/policy4& ½“C$       B+€M	g3‚ ÙA*

ppo/loss/value™Ù;@Œaùj$       B+€M	Ag3‚ ÙA*

ppo/loss/totalçB†>ä‹;§(       ÿpJ	Xg3‚ ÙA*

ppo/policy/entropyÙ›’@è@)       7ÿ_ 	lg3‚ ÙA*

ppo/policy/approxklH;?¾`‰‹)       7ÿ_ 	}g3‚ ÙA*

ppo/policy/policyklÎÚå>»
uî)       7ÿ_ 	g3‚ ÙA*

ppo/policy/clipfracgfÕ>¿vã0       •õÐ_	Ÿg3‚ ÙA*#
!
ppo/policy/advantages_meanš™²Ë–Ú&       sOã 	°g3‚ ÙA*

ppo/returns/meanÕÐÀù¦ýÑ%       ê¼6ó	Àg3‚ ÙA*

ppo/returns/varê'nAhAà#       °ŸwC	Ñg3‚ ÙA*

ppo/val/vpredîtÉÀfÙéº#       °ŸwC	øi3‚ ÙA*

ppo/val/errorî¤x@­ï*&       sOã 	&j3‚ ÙA*

ppo/val/clipfracÍÌÔ>Ÿ3çi"       x=ý	>j3‚ ÙA*

ppo/val/meanbÐ¯Àêà”!       {ìö	Rj3‚ ÙA*

ppo/val/var<@O‰w+       †ÃK	dj3‚ ÙA*

ppo/val/var_explainedt.=?w¨0'       »á±F	uj3‚ ÙA*

ppo/learning_rateoƒ:ÐÊ‹+       †ÃK	†j3‚ ÙA*

time/ppo/forward_passpé>Jq¡t.       ÅËWú	–j3‚ ÙA*!

time/ppo/compute_rewards xÙ:•~‰¯1       ƒƒé	§j3‚ ÙA*$
"
time/ppo/compute_advantages L4;]rpQ,       ô®ÌE	k3‚ ÙA*

time/ppo/optimize_step³U?ÂÙ¥)       7ÿ_ 	]k3‚ ÙA*

time/ppo/calc_statsð>R]`F$       B+€M	¶k3‚ ÙA*

time/ppo/totalL¬‘?wõ¨?%       ê¼6ó	l3‚ ÙA*

env/reward_meanõ3=W´’$       B+€M	el3‚ ÙA*

env/reward_stdå!>Ùö_Z"       x=ý	þ74‚ ÙA*

objective/kl2ï™B“‹‰Ï'       »á±F	mŽ74‚ ÙA*

objective/kl_coefJN>Ù$c'       »á±F	‘Ž74‚ ÙA*

objective/entropyúÛÊBˆ“^]/       m]P	¦Ž74‚ ÙA*"
 
ppo/mean_non_score_rewardºÄI¿ßÙ%       ê¼6ó	ºŽ74‚ ÙA*

ppo/mean_scoresoÔ<{-RÀ$       B+€M	ËŽ74‚ ÙA*

ppo/std_scoresçkÄ=Ò¸Ê -       <AŠû	ÜŽ74‚ ÙA* 

tokens/queries_len_mean  ÖBM!Ž,       ô®ÌE	ìŽ74‚ ÙA*

tokens/queries_len_std    Xá¹/       m]P	üŽ74‚ ÙA*"
 
tokens/responses_len_mean @AèßÁ.       ÅËWú	74‚ ÙA*!

tokens/responses_len_stdvD¿?ÁÆÒ%       ê¼6ó	74‚ ÙA*

ppo/loss/policy ¡½¾(}]$       B+€M	74‚ ÙA*

ppo/loss/valueq,@R³eŽ$       B+€M	
‘74‚ ÙA*

ppo/loss/totalxÕB>È¿<(       ÿpJ	•‘74‚ ÙA*

ppo/policy/entropyai@¾ñh)       7ÿ_ 	’74‚ ÙA*

ppo/policy/approxklû–÷>¹©çü)       7ÿ_ 	f’74‚ ÙA*

ppo/policy/policykl¼¾]>Ô‹¤¦)       7ÿ_ 	Æ’74‚ ÙA*

ppo/policy/clipfracä³î>ÖTá[0       •õÐ_	*“74‚ ÙA*#
!
ppo/policy/advantages_mean®aÐ±¹¢dÎ&       sOã 	Ž“74‚ ÙA*

ppo/returns/mean¬ˆÒÀ×áÆ]%       ê¼6ó	î“74‚ ÙA*

ppo/returns/varÇÌ‘A?¥pô#       °ŸwC	N”74‚ ÙA*

ppo/val/vpred;Ç¹Àˆð€º#       °ŸwC	«”74‚ ÙA*

ppo/val/errorÈÊ•@)ú&       sOã 	•74‚ ÙA*

ppo/val/clipfrac¨w²>ôÓµw"       x=ý	[•74‚ ÙA*

ppo/val/mean9ƒ²Àñƒ¡!       {ìö	¸•74‚ ÙA*

ppo/val/varzˆù@ããˆ?+       †ÃK	–74‚ ÙA*

ppo/val/var_explainedb?>?ÕoX,'       »á±F	Õ–74‚ ÙA*

ppo/learning_rateoƒ:ùƒÃì+       †ÃK	3—74‚ ÙA*

time/ppo/forward_pass°¦>cŸÑ.       ÅËWú	‘—74‚ ÙA*!

time/ppo/compute_rewards  æ:Y®Ëð1       ƒƒé	˜74‚ ÙA*$
"
time/ppo/compute_advantages <B;Ö^Äu,       ô®ÌE	a˜74‚ ÙA*

time/ppo/optimize_step”áU?GÎ&)       7ÿ_ 	¼˜74‚ ÙA*

time/ppo/calc_statsÀ`>R‘a$       B+€M	™74‚ ÙA*

time/ppo/totalòî‘?Vmá%       ê¼6ó	n™74‚ ÙA*

env/reward_meanoÔ<š/a‚$       B+€M	È™74‚ ÙA*

env/reward_stdçkÄ=b@"       x=ý	z^5‚ ÙA*

objective/klÆ›B>$œ'       »á±F	Ú^5‚ ÙA*

objective/kl_coef?N>Sº_¯'       »á±F	ö^5‚ ÙA*

objective/entropy.ÀB&MOT/       m]P	^5‚ ÙA*"
 
ppo/mean_non_score_rewardµâG¿ëð%       ê¼6ó	#^5‚ ÙA*

ppo/mean_scoresqŠ<ÃÞä_$       B+€M	6^5‚ ÙA*

ppo/std_scoresí¢<‡õN-       <AŠû	I^5‚ ÙA* 

tokens/queries_len_mean  ÖBšO&C,       ô®ÌE	\^5‚ ÙA*

tokens/queries_len_std    ¼ûø¨/       m]P	m^5‚ ÙA*"
 
tokens/responses_len_mean   Aƒ),P.       ÅËWú	}^5‚ ÙA*!

tokens/responses_len_std    L‚~µ%       ê¼6ó	Ž^5‚ ÙA*

ppo/loss/policyWj{½IÈ<$       B+€M	©^5‚ ÙA*

ppo/loss/valueŠcû?tW)Ž$       B+€M	ý^5‚ ÙA*

ppo/loss/totalØA
>M" …(       ÿpJ	-^5‚ ÙA*

ppo/policy/entropy5ƒ@,HD^)       7ÿ_ 	ß^5‚ ÙA*

ppo/policy/approxklqý@?{A')       7ÿ_ 	^5‚ ÙA*

ppo/policy/policyklÜe >Æô+Û)       7ÿ_ 	'^5‚ ÙA*

ppo/policy/clipfrac  ×>pê"0       •õÐ_	<^5‚ ÙA*#
!
ppo/policy/advantages_meanš™)3ƒÅ½ß&       sOã 	N^5‚ ÙA*

ppo/returns/mean\ä×Àr,&}%       ê¼6ó	`^5‚ ÙA*

ppo/returns/var¨<’A·šÿ9#       °ŸwC	p^5‚ ÙA*

ppo/val/vpred¾ÈÀ…mü#       °ŸwC	^5‚ ÙA*

ppo/val/error;@t¼Ô&       sOã 	^5‚ ÙA*

ppo/val/clipfracff×>	S¼"       x=ý	 ^5‚ ÙA*

ppo/val/mean²*½À÷Ÿð!       {ìö	µ^5‚ ÙA*

ppo/val/varÚˆA¦w)V+       †ÃK	æ^5‚ ÙA*

ppo/val/var_explained¶W?ŸH32'       »á±F	d ^5‚ ÙA*

ppo/learning_rateoƒ:6ÇQ|+       †ÃK	4"^5‚ ÙA*

time/ppo/forward_pass€¿>É`”.       ÅËWú	b"^5‚ ÙA*!

time/ppo/compute_rewards øß:
ØÝ†1       ƒƒé	y"^5‚ ÙA*$
"
time/ppo/compute_advantages È6;TQ™”,       ô®ÌE	Œ"^5‚ ÙA*

time/ppo/optimize_step|TV?Üw ‡)       7ÿ_ 	œ"^5‚ ÙA*

time/ppo/calc_stats l>)†_X$       B+€M	­"^5‚ ÙA*

time/ppo/totalHe’?½F¦ë%       ê¼6ó	%$^5‚ ÙA*

env/reward_meanqŠ<+§«$       B+€M	›$^5‚ ÙA*

env/reward_stdí¢<µ8ÜÐ"       x=ý	>Cd6‚ ÙA*

objective/klj,¦B9VCœ'       »á±F	¬Cd6‚ ÙA*

objective/kl_coefÚ`N>d¹ûR'       »á±F	ÍCd6‚ ÙA*

objective/entropy3^µB.)´³/       m]P	ãCd6‚ ÙA*"
 
ppo/mean_non_score_reward`WV¿ËNø%       ê¼6ó	ôCd6‚ ÙA*

ppo/mean_scores`¥|< ’$       B+€M	Dd6‚ ÙA*

ppo/std_scoresÙ‹<Ù<ý-       <AŠû	Dd6‚ ÙA* 

tokens/queries_len_mean  ÖB"Rl†,       ô®ÌE	'Dd6‚ ÙA*

tokens/queries_len_std    º j/       m]P	9Dd6‚ ÙA*"
 
tokens/responses_len_mean   Aè©ý–.       ÅËWú	IDd6‚ ÙA*!

tokens/responses_len_std    &.t\%       ê¼6ó	[Dd6‚ ÙA*

ppo/loss/policy,®™¼0ð—$       B+€M	®Ed6‚ ÙA*

ppo/loss/valueóï?dÙK/$       B+€M	±Fd6‚ ÙA*

ppo/loss/totalØ¿,>³ì¥(       ÿpJ	2Gd6‚ ÙA*

ppo/policy/entropyp~v@X¶Ù )       7ÿ_ 	£Gd6‚ ÙA*

ppo/policy/approxklX„Q?ã(¨)       7ÿ_ 	Hd6‚ ÙA*

ppo/policy/policykl¾Ä>]Ô4w)       7ÿ_ 	sHd6‚ ÙA*

ppo/policy/clipfracÎÌÇ>Þ,0       •õÐ_	ÖHd6‚ ÙA*#
!
ppo/policy/advantages_mean  À2"å¾&       sOã 	:Id6‚ ÙA*

ppo/returns/meanÝ?ÜÀù³%       ê¼6ó	˜Id6‚ ÙA*

ppo/returns/varQYµAòÑ[#       °ŸwC	õId6‚ ÙA*

ppo/val/vpredà£ÊÀ*Ëº#       °ŸwC	OJd6‚ ÙA*

ppo/val/errorRÃ@@¡Ë‰¾&       sOã 	ªJd6‚ ÙA*

ppo/val/clipfrac33Ÿ>íWõO"       x=ý	Kd6‚ ÙA*

ppo/val/meanPÊÅÀ“@ùx!       {ìö	aKd6‚ ÙA*

ppo/val/var~¨AA†Æù+       †ÃK	¼Kd6‚ ÙA*

ppo/val/var_explainedfü]?ÒFÈ'       »á±F	Ld6‚ ÙA*

ppo/learning_rateoƒ:Tnú`+       †ÃK	sLd6‚ ÙA*

time/ppo/forward_pass`­> ¯ù.       ÅËWú	ÓLd6‚ ÙA*!

time/ppo/compute_rewards ÈÎ:åõå1       ƒƒé	+Md6‚ ÙA*$
"
time/ppo/compute_advantages 4;Àaª+,       ô®ÌE	ƒMd6‚ ÙA*

time/ppo/optimize_stepJV?Ø¹)       7ÿ_ 	ÝMd6‚ ÙA*

time/ppo/calc_statsP>C¿$       B+€M	GNd6‚ ÙA*

time/ppo/total¶ë‘?*°”%       ê¼6ó	 Nd6‚ ÙA*

env/reward_mean`¥|<““º1$       B+€M	øNd6‚ ÙA*

env/reward_stdÙ‹<§É"       x=ý	ÿ´7‚ ÙA*

objective/kl½­BÇÏ¿¶'       »á±F	b´7‚ ÙA*

objective/kl_coefª‚N>ÂÉ$!'       »á±F	|´7‚ ÙA*

objective/entropyÊºB@‚ð/       m]P	’´7‚ ÙA*"
 
ppo/mean_non_score_reward%>`¿ä=|%       ê¼6ó	¥´7‚ ÙA*

ppo/mean_scoresšY<Í$       B+€M	¸´7‚ ÙA*

ppo/std_scores»®K<tïƒ"-       <AŠû	Ê´7‚ ÙA* 

tokens/queries_len_mean  ÖB[Ù{ú,       ô®ÌE	Û´7‚ ÙA*

tokens/queries_len_std    ¼ázá/       m]P	ë´7‚ ÙA*"
 
tokens/responses_len_mean   AÎÓnl.       ÅËWú	ü´7‚ ÙA*!

tokens/responses_len_std    Q¥Õ%       ê¼6ó	´7‚ ÙA*

ppo/loss/policyØôÑº¬5f$       B+€M	®´7‚ ÙA*

ppo/loss/valuep¸'@è~ó$       B+€M	Ú´7‚ ÙA*

ppo/loss/total2[…>ÐŸ—°(       ÿpJ	ó´7‚ ÙA*

ppo/policy/entropyN6x@#\)       7ÿ_ 	´7‚ ÙA*

ppo/policy/approxklBÝ¸@àÂ…])       7ÿ_ 	´7‚ ÙA*

ppo/policy/policyklÏaŒ?¬¸6ñ)       7ÿ_ 	)´7‚ ÙA*

ppo/policy/clipfrac  ¸>C2û0       •õÐ_	<´7‚ ÙA*#
!
ppo/policy/advantages_meangf¦2•¶¶&       sOã 	M´7‚ ÙA*

ppo/returns/mean‰-íÀL•¡%       ê¼6ó	`´7‚ ÙA*

ppo/returns/var’ÆÓA”þÓ#       °ŸwC	r´7‚ ÙA*

ppo/val/vpredHãÀëèÿ#       °ŸwC	o´7‚ ÙA*

ppo/val/error+nv@/ìbA&       sOã 	š´7‚ ÙA*

ppo/val/clipfracff²>PN¸ä"       x=ý	°´7‚ ÙA*

ppo/val/meanJdÞÀÀ?X¸!       {ìö	Ã´7‚ ÙA*

ppo/val/var >JAÎæ}O+       †ÃK	Ö´7‚ ÙA*

ppo/val/var_explainedyÃZ?Šß{'       »á±F	é´7‚ ÙA*

ppo/learning_rateoƒ:ˆyQ +       †ÃK	ú´7‚ ÙA*

time/ppo/forward_passj>hg	.       ÅËWú	
´7‚ ÙA*!

time/ppo/compute_rewards è:}ƒvZ1       ƒƒé	´7‚ ÙA*$
"
time/ppo/compute_advantages Ð;;àxaÏ,       ô®ÌE	~´7‚ ÙA*

time/ppo/optimize_step8øV?Ìd\2)       7ÿ_ 	Ø´7‚ ÙA*

time/ppo/calc_statsÀI>é=9$       B+€M	*´7‚ ÙA*

time/ppo/total’?»œ™®%       ê¼6ó	|´7‚ ÙA*

env/reward_meanšY<q¾e$       B+€M	Î´7‚ ÙA*

env/reward_std»®K<Ñã±"       x=ý	7ÑÙ8‚ ÙA*

objective/klærŸB¤ëuä'       »á±F	¤ÑÙ8‚ ÙA*

objective/kl_coef€¤N>\N5'       »á±F	ÆÑÙ8‚ ÙA*

objective/entropy¥D¨B%’ƒ./       m]P	ÚÑÙ8‚ ÙA*"
 
ppo/mean_non_score_rewardÍŒS¿œÞÏ%       ê¼6ó	ìÑÙ8‚ ÙA*

ppo/mean_scoresSÐî<ÀþúK$       B+€M	üÑÙ8‚ ÙA*

ppo/std_scores@Ê‹=[ÑüÉ-       <AŠû	ÒÙ8‚ ÙA* 

tokens/queries_len_mean  ÖB†ÞÏD,       ô®ÌE	ÒÙ8‚ ÙA*

tokens/queries_len_std    Ü§-,/       m]P	-ÒÙ8‚ ÙA*"
 
tokens/responses_len_mean À›A‰û&œ.       ÅËWú	=ÒÙ8‚ ÙA*!

tokens/responses_len_std>{@
`vt%       ê¼6ó	NÒÙ8‚ ÙA*

ppo/loss/policy¸± ‰‚$       B+€M	*ÓÙ8‚ ÙA*

ppo/loss/valueÁ¾>?b2"$       B+€M	)ÔÙ8‚ ÙA*

ppo/loss/totalš˜˜=²ÝX(       ÿpJ	²ÔÙ8‚ ÙA*

ppo/policy/entropyaˆ~@fâï¯)       7ÿ_ 	&ÕÙ8‚ ÙA*

ppo/policy/approxklˆh(A…MÕ)       7ÿ_ 	ŽÕÙ8‚ ÙA*

ppo/policy/policykléC¸?
j§)       7ÿ_ 	ôÕÙ8‚ ÙA*

ppo/policy/clipfracNÞÍ>œ–d0       •õÐ_	TÖÙ8‚ ÙA*#
!
ppo/policy/advantages_mean:=Å1]_Fa&       sOã 	³ÖÙ8‚ ÙA*

ppo/returns/meann|èÀË±%       ê¼6ó	×Ù8‚ ÙA*

ppo/returns/var.èÄA+Ùë[#       °ŸwC	n×Ù8‚ ÙA*

ppo/val/vpredDŸÐÀi:#       °ŸwC	È×Ù8‚ ÙA*

ppo/val/errorÌù7ACáßW&       sOã 	(ØÙ8‚ ÙA*

ppo/val/clipfrac]ÂI>e¬Kü"       x=ý	ØÙ8‚ ÙA*

ppo/val/meanßþÀŒˆÀ!       {ìö	ÜØÙ8‚ ÙA*

ppo/val/var“AYÑø+       †ÃK	9ÙÙ8‚ ÙA*

ppo/val/var_explainedíg?äšp'       »á±F	”ÙÙ8‚ ÙA*

ppo/learning_rateoƒ:û;+       †ÃK	îÙÙ8‚ ÙA*

time/ppo/forward_passÐÆ>YµFr.       ÅËWú	IÚÙ8‚ ÙA*!

time/ppo/compute_rewards `Ï:Í?n1       ƒƒé	 ÚÙ8‚ ÙA*$
"
time/ppo/compute_advantages 2;Éñæ,       ô®ÌE	öÚÙ8‚ ÙA*

time/ppo/optimize_stepl¨T?XÛ8æ)       7ÿ_ 	IÛÙ8‚ ÙA*

time/ppo/calc_stats ¡>4WC$       B+€M	ÛÙ8‚ ÙA*

time/ppo/total*Ð?é×°ñ%       ê¼6ó	öÛÙ8‚ ÙA*

env/reward_meanSÐî<M »‡$       B+€M	LÜÙ8‚ ÙA*

env/reward_std@Ê‹=fbü"       x=ý	˜×ñ9‚ ÙA*

objective/klØ²‚Bp8÷'       »á±F	ô×ñ9‚ ÙA*

objective/kl_coef[ÆN>ó)Ÿ'       »á±F	Øñ9‚ ÙA*

objective/entropyx¶B´%é™/       m]P	'Øñ9‚ ÙA*"
 
ppo/mean_non_score_rewardÅ<*¿ðóÀ%       ê¼6ó	;Øñ9‚ ÙA*

ppo/mean_scoreseŠý<Š‚3b$       B+€M	MØñ9‚ ÙA*

ppo/std_scoresÍ¬=üóiÔ-       <AŠû	^Øñ9‚ ÙA* 

tokens/queries_len_mean  ÖB$—þ,       ô®ÌE	pØñ9‚ ÙA*

tokens/queries_len_std    9M¬/       m]P	‚Øñ9‚ ÙA*"
 
tokens/responses_len_mean ÀžA .       ÅËWú	’Øñ9‚ ÙA*!

tokens/responses_len_std0Fb?ºÂh­%       ê¼6ó	¢Øñ9‚ ÙA*

ppo/loss/policy4EB½?	D$       B+€M	ŽÚñ9‚ ÙA*

ppo/loss/valueãây@`c`$       B+€M	ÂÜñ9‚ ÙA*

ppo/loss/total ¯>àN.(       ÿpJ	ïÜñ9‚ ÙA*

ppo/policy/entropyÀ}@;[&e)       7ÿ_ 	dÝñ9‚ ÙA*

ppo/policy/approxklÀÿ>ûpOR)       7ÿ_ 	ßñ9‚ ÙA*

ppo/policy/policyklA>z)       7ÿ_ 	Fßñ9‚ ÙA*

ppo/policy/clipfrac¦Ÿœ>:{z0       •õÐ_	^ßñ9‚ ÙA*#
!
ppo/policy/advantages_meanlœ42Ý*‡K&       sOã 	qßñ9‚ ÙA*

ppo/returns/mean¸ÄÀ–7g%       ê¼6ó	ßñ9‚ ÙA*

ppo/returns/varR÷ZAC#       °ŸwC	‘ßñ9‚ ÙA*

ppo/val/vpredÊ[¬ÀQ^È-#       °ŸwC	 ßñ9‚ ÙA*

ppo/val/errorpþ×@ÑXGV&       sOã 	øßñ9‚ ÙA*

ppo/val/clipfracF	ë>-šlI"       x=ý	Yàñ9‚ ÙA*

ppo/val/meanŽW«À¢Ø—ë!       {ìö	§àñ9‚ ÙA*

ppo/val/varêC•?1zb+       †ÃK	ûàñ9‚ ÙA*

ppo/val/var_explainedÉ¼?¦¨æ<'       »á±F	Káñ9‚ ÙA*

ppo/learning_rateoƒ:=tqz+       †ÃK	áñ9‚ ÙA*

time/ppo/forward_passPß>Á .       ÅËWú	ôáñ9‚ ÙA*!

time/ppo/compute_rewards  Ý:³x€¤1       ƒƒé	Dâñ9‚ ÙA*$
"
time/ppo/compute_advantages @:;zWAR,       ô®ÌE	•âñ9‚ ÙA*

time/ppo/optimize_stepÄ¾V?¼ç*‰)       7ÿ_ 	éâñ9‚ ÙA*

time/ppo/calc_statsP¯>ð²@$       B+€M	:ãñ9‚ ÙA*

time/ppo/totalö‡’?‘»r{%       ê¼6ó	‹ãñ9‚ ÙA*

env/reward_meaneŠý<Èÿ˜Æ$       B+€M	Øãñ9‚ ÙA*

env/reward_stdÍ¬=dœ1Ç"       x=ý	.¸;‚ ÙA*

objective/klšCÁBOaçe'       »á±F	¸;‚ ÙA*

objective/kl_coef<èN>s…†^'       »á±F	¨¸;‚ ÙA*

objective/entropy2Ó´B_$ ¹/       m]P	½¸;‚ ÙA*"
 
ppo/mean_non_score_rewardZìy¿ÍæÕ÷%       ê¼6ó	Ï¸;‚ ÙA*

ppo/mean_scores\§=ë£$       B+€M	à¸;‚ ÙA*

ppo/std_scoresæË=ƒp¶™-       <AŠû	ò¸;‚ ÙA* 

tokens/queries_len_mean  ÖBNÌ
T,       ô®ÌE	¹;‚ ÙA*

tokens/queries_len_std    ÷¨f¸/       m]P	¹;‚ ÙA*"
 
tokens/responses_len_mean   AÞOe .       ÅËWú	#¹;‚ ÙA*!

tokens/responses_len_std    Ï	Â„%       ê¼6ó	3¹;‚ ÙA*

ppo/loss/policy*kR<Zø¬$       B+€M	•»;‚ ÙA*

ppo/loss/valueæ,AtˆUø$       B+€M	.¿;‚ ÙA*

ppo/loss/totaltö‹?ƒIÃ[(       ÿpJ	\¿;‚ ÙA*

ppo/policy/entropyê„†@ïRÂÓ)       7ÿ_ 	t¿;‚ ÙA*

ppo/policy/approxkl|ÏT?ø
“™)       7ÿ_ 	…¿;‚ ÙA*

ppo/policy/policykl¥®?µ›Í)       7ÿ_ 	–¿;‚ ÙA*

ppo/policy/clipfrac43×>Þ~Tq0       •õÐ_	¨¿;‚ ÙA*#
!
ppo/policy/advantages_meanÍÌÌ0Wvù•&       sOã 	¸¿;‚ ÙA*

ppo/returns/mean&•Á"·µ%       ê¼6ó	É¿;‚ ÙA*

ppo/returns/var²ßôAù.#       °ŸwC	Ø¿;‚ ÙA*

ppo/val/vpredÏÕÀlÛ¶#       °ŸwC	è¿;‚ ÙA*

ppo/val/error|Ê}A4ý·&       sOã 	›Ã;‚ ÙA*

ppo/val/clipfrac  æ>/Ç=ë"       x=ý	ÆÃ;‚ ÙA*

ppo/val/mean—ÝÇÀºøÂW!       {ìö	ÝÃ;‚ ÙA*

ppo/val/varˆÜR@(]ÿù+       †ÃK	ðÃ;‚ ÙA*

ppo/val/var_explained~­ö>MC£r'       »á±F	Ä;‚ ÙA*

ppo/learning_rateoƒ:Cll‘+       †ÃK	Ä;‚ ÙA*

time/ppo/forward_passPø>åÇt%.       ÅËWú	!Ä;‚ ÙA*!

time/ppo/compute_rewards  Û:R?ü1       ƒƒé	1Ä;‚ ÙA*$
"
time/ppo/compute_advantages 9;1h,       ô®ÌE	BÄ;‚ ÙA*

time/ppo/optimize_stepìV?•.8)       7ÿ_ 	RÄ;‚ ÙA*

time/ppo/calc_stats° >j)^'$       B+€M	«Ä;‚ ÙA*

time/ppo/total¦è‘?í[~%       ê¼6ó	Å;‚ ÙA*

env/reward_mean\§=¿CÍâ$       B+€M	RÅ;‚ ÙA*

env/reward_stdæË=¦ïRÿ"       x=ý	6K<‚ ÙA*

objective/kl^ Cu2·ô'       »á±F	•K<‚ ÙA*

objective/kl_coef"
O>cuö'       »á±F	¯K<‚ ÙA*

objective/entropyÐÀB[z/       m]P	ÂK<‚ ÙA*"
 
ppo/mean_non_score_rewardr¦¿Ý°N%       ê¼6ó	ÔK<‚ ÙA*

ppo/mean_scores~ «=Zê~Œ$       B+€M	äK<‚ ÙA*

ppo/std_scores*q>”5O-       <AŠû	ôK<‚ ÙA* 

tokens/queries_len_mean  ÖB	¦,       ô®ÌE	L<‚ ÙA*

tokens/queries_len_std    ÷—€Á/       m]P	L<‚ ÙA*"
 
tokens/responses_len_mean   A³Þâ.       ÅËWú	(L<‚ ÙA*!

tokens/responses_len_std    
Œxú%       ê¼6ó	8L<‚ ÙA*

ppo/loss/policyþR=,‰5$       B+€M	®M<‚ ÙA*

ppo/loss/valueÊ“A)Ÿ÷Ê$       B+€M	†N<‚ ÙA*

ppo/loss/total¦ô?.FN(       ÿpJ	èN<‚ ÙA*

ppo/policy/entropyÎö‰@
d%)       7ÿ_ 	XO<‚ ÙA*

ppo/policy/approxkl[Ä ?Šõ¨	)       7ÿ_ 	¯O<‚ ÙA*

ppo/policy/policykl«´A?¹ÑQ)       7ÿ_ 	#P<‚ ÙA*

ppo/policy/clipfrac33É>+-u÷0       •õÐ_	™P<‚ ÙA*#
!
ppo/policy/advantages_meanfff2”½&       sOã 	Q<‚ ÙA*

ppo/returns/mean<<9ÁªWÁ%       ê¼6ó	mQ<‚ ÙA*

ppo/returns/varòZB2:6Â#       °ŸwC	ÈQ<‚ ÙA*

ppo/val/vpredŒÍ Á¤¤>g#       °ŸwC	$R<‚ ÙA*

ppo/val/error·%ËAzê8&       sOã 	wR<‚ ÙA*

ppo/val/clipfrac43¾>¹×›"       x=ý	ÉR<‚ ÙA*

ppo/val/meanÐ’ÁL°Î!       {ìö	(S<‚ ÙA*

ppo/val/var…AZíHc+       †ÃK	{S<‚ ÙA*

ppo/val/var_explainedn<	?UL¡'       »á±F	ÕS<‚ ÙA*

ppo/learning_rateoƒ:!yÜ+       †ÃK	 T<‚ ÙA*

time/ppo/forward_pass0,>Â÷Z
.       ÅËWú	vT<‚ ÙA*!

time/ppo/compute_rewards °æ:£YtÖ1       ƒƒé	ÇT<‚ ÙA*$
"
time/ppo/compute_advantages $8;£–;,       ô®ÌE	U<‚ ÙA*

time/ppo/optimize_step´yV?1òÓ)       7ÿ_ 	bU<‚ ÙA*

time/ppo/calc_statsÀÎ>§Q$       B+€M	®U<‚ ÙA*

time/ppo/totalPt’?†ä#‡%       ê¼6ó	üU<‚ ÙA*

env/reward_mean~ «=PŸÉ$       B+€M	KV<‚ ÙA*

env/reward_std*q>3¯iÀ"       x=ý	êd?=‚ ÙA*

objective/kl`)CO<}'       »á±F	Le?=‚ ÙA*

objective/kl_coef,O>Yÿ%'       »á±F	ke?=‚ ÙA*

objective/entropy¾ÈBT§äf/       m]P	€e?=‚ ÙA*"
 
ppo/mean_non_score_reward|µ¿É¨%       ê¼6ó	’e?=‚ ÙA*

ppo/mean_scoreskék>ãþd$       B+€M	¢e?=‚ ÙA*

ppo/std_scoresŠÃœ> ’šå-       <AŠû	²e?=‚ ÙA* 

tokens/queries_len_mean  ÖB©cøU,       ô®ÌE	Ãe?=‚ ÙA*

tokens/queries_len_std    l/       m]P	Ôe?=‚ ÙA*"
 
tokens/responses_len_mean   A\ÅyZ.       ÅËWú	åe?=‚ ÙA*!

tokens/responses_len_std    W#½%       ê¼6ó	õe?=‚ ÙA*

ppo/loss/policy,œË=V¢#$       B+€M	Íf?=‚ ÙA*

ppo/loss/value¦«lAÃZ$       B+€M	×g?=‚ ÙA*

ppo/loss/totalâÊ?^‰1›(       ÿpJ	eh?=‚ ÙA*

ppo/policy/entropy_Ž@û>)       7ÿ_ 	Ûh?=‚ ÙA*

ppo/policy/approxkl™†@tŸ¦)       7ÿ_ 	Di?=‚ ÙA*

ppo/policy/policykl]lŠ?p¤)       7ÿ_ 	¹i?=‚ ÙA*

ppo/policy/clipfracš™Ð>ÜÝ.©0       •õÐ_	j?=‚ ÙA*#
!
ppo/policy/advantages_meanš™²ÏJT&       sOã 	€j?=‚ ÙA*

ppo/returns/meanÂÁVÁÙÉ­"%       ê¼6ó	áj?=‚ ÙA*

ppo/returns/varÂÕƒBÔ'á›#       °ŸwC	Fk?=‚ ÙA*

ppo/val/vpred‚öTÁã›úz#       °ŸwC	¡k?=‚ ÙA*

ppo/val/errorÔ>Aúål¹&       sOã 	úk?=‚ ÙA*

ppo/val/clipfrac33ð>š¤ô"       x=ý	Pl?=‚ ÙA*

ppo/val/meanÎÍGÁ$vx!       {ìö	«l?=‚ ÙA*

ppo/val/var¦~gA@Àl++       †ÃK	m?=‚ ÙA*

ppo/val/var_explainedn;?üõù'       »á±F	bm?=‚ ÙA*

ppo/learning_rateoƒ:±º¯Z+       †ÃK	¿m?=‚ ÙA*

time/ppo/forward_pass4>ÂæÖæ.       ÅËWú	n?=‚ ÙA*!

time/ppo/compute_rewards (Ü:Ê¥GÏ1       ƒƒé	{n?=‚ ÙA*$
"
time/ppo/compute_advantages €4;é-=Ñ,       ô®ÌE	Õn?=‚ ÙA*

time/ppo/optimize_stepèÔV?}ü›Ô)       7ÿ_ 	.o?=‚ ÙA*

time/ppo/calc_stats Ã>º™$       B+€M	‡o?=‚ ÙA*

time/ppo/total¸œ’?YW÷%       ê¼6ó	ão?=‚ ÙA*

env/reward_meankék><ˆÈf$       B+€M	;p?=‚ ÙA*

env/reward_stdŠÃœ>=ö"       x=ý	­X>‚ ÙA*

objective/klvCßåË'       »á±F	`­X>‚ ÙA*

objective/kl_coefÿMO>sŽ©P'       »á±F	}­X>‚ ÙA*

objective/entropyŠ`®BŒ­/       m]P	•­X>‚ ÙA*"
 
ppo/mean_non_score_rewardþ¿¿d·(H%       ê¼6ó	¬­X>‚ ÙA*

ppo/mean_scoresXßG>²Ò1$       B+€M	¾­X>‚ ÙA*

ppo/std_scoresÂ¢>H¾èR-       <AŠû	Ð­X>‚ ÙA* 

tokens/queries_len_mean  ÖBßIJ,       ô®ÌE	á­X>‚ ÙA*

tokens/queries_len_std    d–HD/       m]P	ò­X>‚ ÙA*"
 
tokens/responses_len_mean   Ay{*.       ÅËWú	®X>‚ ÙA*!

tokens/responses_len_std    ¸í%       ê¼6ó	®X>‚ ÙA*

ppo/loss/policy|Ç“=ü¡ì$       B+€M	°X>‚ ÙA*

ppo/loss/value¿ÆAŽí}$       B+€M	²X>‚ ÙA*

ppo/loss/total!êv?Cp(       ÿpJ	2²X>‚ ÙA*

ppo/policy/entropyËpS@ö>)       7ÿ_ 	J²X>‚ ÙA*

ppo/policy/approxklÔà?‘—)       7ÿ_ 	\²X>‚ ÙA*

ppo/policy/policykl€@?ê!t)       7ÿ_ 	l²X>‚ ÙA*

ppo/policy/clipfrac  Ð>—v)Â0       •õÐ_	}²X>‚ ÙA*#
!
ppo/policy/advantages_meanÍÌÌ°wL•‹&       sOã 	ê²X>‚ ÙA*

ppo/returns/mean.ÐUÁú[¤#%       ê¼6ó	B³X>‚ ÙA*

ppo/returns/varI€B‡F7`#       °ŸwC	˜³X>‚ ÙA*

ppo/val/vpred„GAÁUïÓ#       °ŸwC	í³X>‚ ÙA*

ppo/val/error“0lA{'‚ø&       sOã 	>´X>‚ ÙA*

ppo/val/clipfrac  ë>j)cÓ"       x=ý	´X>‚ ÙA*

ppo/val/meanžy:Á’ÊX!       {ìö	â´X>‚ ÙA*

ppo/val/var§ÄA¯++       †ÃK	7µX>‚ ÙA*

ppo/val/var_explainedE?¡Å¡'       »á±F	‹µX>‚ ÙA*

ppo/learning_rateoƒ:©æ^+       †ÃK	áµX>‚ ÙA*

time/ppo/forward_pass >eÓ™+.       ÅËWú	8¶X>‚ ÙA*!

time/ppo/compute_rewards Èà:üpŠJ1       ƒƒé	Š¶X>‚ ÙA*$
"
time/ppo/compute_advantages L5;4ßäô,       ô®ÌE	Û¶X>‚ ÙA*

time/ppo/optimize_stepÌrV?>l²)       7ÿ_ 	.·X>‚ ÙA*

time/ppo/calc_statsðH><Þ¢$       B+€M	|·X>‚ ÙA*

time/ppo/totaly’?lª?ô%       ê¼6ó	Ú·X>‚ ÙA*

env/reward_meanXßG>/P?u$       B+€M	#¸X>‚ ÙA*

env/reward_stdÂ¢>áB›É"       x=ý	¯Hl?‚ ÙA*

objective/klŒH	CÇ«þ'       »á±F	Il?‚ ÙA*

objective/kl_coeföoO>ÛRßv'       »á±F	-Il?‚ ÙA*

objective/entropylÞoB•¬²n/       m]P	BIl?‚ ÙA*"
 
ppo/mean_non_score_rewardSü±¿»Rf%       ê¼6ó	SIl?‚ ÙA*

ppo/mean_scores={>\¹qÂ$       B+€M	fIl?‚ ÙA*

ppo/std_scoresŠÁ>Äã,7-       <AŠû	yIl?‚ ÙA* 

tokens/queries_len_mean  ÖBÁ·m6,       ô®ÌE	ŒIl?‚ ÙA*

tokens/queries_len_std    ¯ˆÞ/       m]P	¡Il?‚ ÙA*"
 
tokens/responses_len_mean   A\¶÷.       ÅËWú	²Il?‚ ÙA*!

tokens/responses_len_std    Ø@Ò%       ê¼6ó	ÃIl?‚ ÙA*

ppo/loss/policyô-‘<$çáï$       B+€M	úKl?‚ ÙA*

ppo/loss/valuedÅŠ@#ó}o$       B+€M	*Ol?‚ ÙA*

ppo/loss/total€ç>ðà€`(       ÿpJ	XOl?‚ ÙA*

ppo/policy/entropyL’@5ì)       7ÿ_ 	pOl?‚ ÙA*

ppo/policy/approxklªè‰?"ýÀ)       7ÿ_ 	Ol?‚ ÙA*

ppo/policy/policykl¯á>T‘.)       7ÿ_ 	‘Ol?‚ ÙA*

ppo/policy/clipfracÍÌ>@Œé0       •õÐ_	¤Ol?‚ ÙA*#
!
ppo/policy/advantages_meanš™™1éýh&       sOã 	·Ol?‚ ÙA*

ppo/returns/mean!	]Á7r)”%       ê¼6ó	ÇOl?‚ ÙA*

ppo/returns/varXViB),*ô#       °ŸwC	×Ol?‚ ÙA*

ppo/val/vpred\ÁŠBý#       °ŸwC	çOl?‚ ÙA*

ppo/val/error
ç@êiI&       sOã 	<Pl?‚ ÙA*

ppo/val/clipfrac  Ù>¨"       x=ý	³Pl?‚ ÙA*

ppo/val/meaný9ZÁ¿(É¬!       {ìö	Ql?‚ ÙA*

ppo/val/varÎBßà–+       †ÃK	mQl?‚ ÙA*

ppo/val/var_explained N`?¾gÅ¶'       »á±F	¹Ql?‚ ÙA*

ppo/learning_rateoƒ:Uü¸ê+       †ÃK	Rl?‚ ÙA*

time/ppo/forward_pass`e>¤Øã¾.       ÅËWú	iRl?‚ ÙA*!

time/ppo/compute_rewards €Ó:³ñåj1       ƒƒé	¾Rl?‚ ÙA*$
"
time/ppo/compute_advantages ø3;ü!¥½,       ô®ÌE	Sl?‚ ÙA*

time/ppo/optimize_stepŠV?ã#Sé)       7ÿ_ 	bSl?‚ ÙA*

time/ppo/calc_statsÐò>Wo¨$       B+€M	µSl?‚ ÙA*

time/ppo/totalü`’?€„µ%       ê¼6ó	Tl?‚ ÙA*

env/reward_mean={><gõŒ$       B+€M	\Tl?‚ ÙA*

env/reward_stdŠÁ>¡ZÜ1"       x=ý	Ox%D‚ ÙA*

objective/klÄ½ CÌ!Ù'       »á±F	³x%D‚ ÙA*

objective/kl_coefó‘O>½é^R'       »á±F	Îx%D‚ ÙA*

objective/entropyàšzB:«¸õ/       m]P	ãx%D‚ ÙA*"
 
ppo/mean_non_score_rewardŠ§¿ÎMLÿ%       ê¼6ó	öx%D‚ ÙA*

ppo/mean_scoresîÿ0<)€õÚ$       B+€M	y%D‚ ÙA*

ppo/std_scores_°Š< n‹-       <AŠû	y%D‚ ÙA* 

tokens/queries_len_mean  èB’2"ì,       ô®ÌE	.y%D‚ ÙA*

tokens/queries_len_std    ê¢ô/       m]P	Ay%D‚ ÙA*"
 
tokens/responses_len_mean   Aï^ê.       ÅËWú	Ry%D‚ ÙA*!

tokens/responses_len_std    0þù›%       ê¼6ó	cy%D‚ ÙA*

ppo/loss/policyèJX>éÓ$       B+€M	A}%D‚ ÙA*

ppo/loss/valueb…AïŒ®$       B+€M	l}%D‚ ÙA*

ppo/loss/totalÇöï?§%Û(       ÿpJ	…}%D‚ ÙA*

ppo/policy/entropyJŽß?¯àêj)       7ÿ_ 	™}%D‚ ÙA*

ppo/policy/approxklÑÈ@ÙÑ½É)       7ÿ_ 	«}%D‚ ÙA*

ppo/policy/policykl–id?–ršÅ)       7ÿ_ 	½}%D‚ ÙA*

ppo/policy/clipfrac33²>ˆEÈ 0       •õÐ_	Ï}%D‚ ÙA*#
!
ppo/policy/advantages_mean™™3¡wï&       sOã 	à}%D‚ ÙA*

ppo/returns/meanÊ@7Á/UÙ‰%       ê¼6ó	ð}%D‚ ÙA*

ppo/returns/varÎŠ.B	É #       °ŸwC	a~%D‚ ÙA*

ppo/val/vpredÂ-ÁŽ7È#       °ŸwC	·~%D‚ ÙA*

ppo/val/errorDÓËAäÇŒó&       sOã 	%D‚ ÙA*

ppo/val/clipfracff¼>¢ú”A"       x=ý	”%D‚ ÙA*

ppo/val/mean¯ÁSý†!       {ìö	¤%D‚ ÙA*

ppo/val/var«gAZæ×±+       †ÃK	÷%D‚ ÙA*

ppo/val/var_explainedüÕ>+®&š'       »á±F	I€%D‚ ÙA*

ppo/learning_rateoƒ:Ø"+       †ÃK	›€%D‚ ÙA*

time/ppo/forward_passù%>y	J.       ÅËWú	ñ€%D‚ ÙA*!

time/ppo/compute_rewards @í:êf‚ú1       ƒƒé	D%D‚ ÙA*$
"
time/ppo/compute_advantages HI;Ûš©,       ô®ÌE	“%D‚ ÙA*

time/ppo/optimize_stepÈCd?Tã)       7ÿ_ 	å%D‚ ÙA*

time/ppo/calc_stats0©>'Š%$       B+€M	3‚%D‚ ÙA*

time/ppo/totalŠx›?ØcŸ%       ê¼6ó	†‚%D‚ ÙA*

env/reward_meanîÿ0<±ìŒ$       B+€M	×‚%D‚ ÙA*

env/reward_std_°Š<¼@/t"       x=ý	qCE‚ ÙA*

objective/kl…öòBÝŠÆ'       »á±F	ÒCE‚ ÙA*

objective/kl_coefõ³O>r	~E'       »á±F	ïCE‚ ÙA*

objective/entropyrãOB
Ðt/       m]P	CE‚ ÙA*"
 
ppo/mean_non_score_rewardN³¿SÌ %       ê¼6ó	CE‚ ÙA*

ppo/mean_scores:RÇ=­—$       B+€M	*CE‚ ÙA*

ppo/std_scoresÂ¿>Ž2-       <AŠû	:CE‚ ÙA* 

tokens/queries_len_mean  èBóSÎ,       ô®ÌE	LCE‚ ÙA*

tokens/queries_len_std    nÖ*/       m]P	^CE‚ ÙA*"
 
tokens/responses_len_mean   A^™&.       ÅËWú	mCE‚ ÙA*!

tokens/responses_len_std    èi=‡%       ê¼6ó	~CE‚ ÙA*

ppo/loss/policy¸d"=§f¤Ï$       B+€M	CE‚ ÙA*

ppo/loss/valuedÜ@«$ê$       B+€M	§CE‚ ÙA*

ppo/loss/total´v:?W‘Æã(       ÿpJ	ÚCE‚ ÙA*

ppo/policy/entropy6·@¹û:&)       7ÿ_ 	ñCE‚ ÙA*

ppo/policy/approxkl÷×>Âž!S)       7ÿ_ 	CE‚ ÙA*

ppo/policy/policykl×”>y‘E)       7ÿ_ 	CE‚ ÙA*

ppo/policy/clipfrac33…>Ì÷Êë0       •õÐ_	'CE‚ ÙA*#
!
ppo/policy/advantages_mean33s2ž8Ê3&       sOã 	9CE‚ ÙA*

ppo/returns/mean¢sÁS<4¯%       ê¼6ó	JCE‚ ÙA*

ppo/returns/varÚgB~â_´#       °ŸwC	ZCE‚ ÙA*

ppo/val/vpredlÁãÄbP#       °ŸwC	jCE‚ ÙA*

ppo/val/error~Ó#ApÿuD&       sOã 	ñCE‚ ÙA*

ppo/val/clipfracÍÌÎ>£4gQ"       x=ý	 CE‚ ÙA*

ppo/val/meanXˆÁ›6!       {ìö	¯CE‚ ÙA*

ppo/val/vard§ÐA‰ ²+       †ÃK	CE‚ ÙA*

ppo/val/var_explainedJ:?édØ'       »á±F	êCE‚ ÙA*

ppo/learning_rateoƒ:Ö8h+       †ÃK	ZCE‚ ÙA*

time/ppo/forward_passƒ)>-¶U.       ÅËWú	¿CE‚ ÙA*!

time/ppo/compute_rewards Àâ:oÀÓÁ1       ƒƒé	 CE‚ ÙA*$
"
time/ppo/compute_advantages ˜K;y_æ,       ô®ÌE	t CE‚ ÙA*

time/ppo/optimize_step\zd?R¦Sh)       7ÿ_ 	Í CE‚ ÙA*

time/ppo/calc_statspÐ>âêh$       B+€M	"!CE‚ ÙA*

time/ppo/total¢œ?+Öâ%       ê¼6ó	y!CE‚ ÙA*

env/reward_mean:RÇ=ÄL$       B+€M	Ú!CE‚ ÙA*

env/reward_stdÂ¿>Î±˜Œ"       x=ý	ÁXI‚ ÙA*

objective/klAóB;•%•'       »á±F	lÁXI‚ ÙA*

objective/kl_coefýÕO>V¥¿ø'       »á±F	ÁXI‚ ÙA*

objective/entropyëözBØî/       m]P	§ÁXI‚ ÙA*"
 
ppo/mean_non_score_rewardÖ¿º9'ö%       ê¼6ó	¼ÁXI‚ ÙA*

ppo/mean_scores‰†=¢ú”š$       B+€M	ÍÁXI‚ ÙA*

ppo/std_scores)úè=ÝDrÔ-       <AŠû	ÞÁXI‚ ÙA* 

tokens/queries_len_mean  ìB‹·EÁ,       ô®ÌE	îÁXI‚ ÙA*

tokens/queries_len_std    ’É#å/       m]P	ÿÁXI‚ ÙA*"
 
tokens/responses_len_mean   Aáª¯.       ÅËWú	ÂXI‚ ÙA*!

tokens/responses_len_std    ¦Àæ‹%       ê¼6ó	!ÂXI‚ ÙA*

ppo/loss/policyìÀ=êï%f$       B+€M	ÃXI‚ ÙA*

ppo/loss/valueˆ¶%AfÔS$       B+€M	ÿÃXI‚ ÙA*

ppo/loss/totalŽ?nØ.%(       ÿpJ	ˆÄXI‚ ÙA*

ppo/policy/entropy¤35@Oì~")       7ÿ_ 	ÅXI‚ ÙA*

ppo/policy/approxkl†#f>KÁÍ«)       7ÿ_ 	wÅXI‚ ÙA*

ppo/policy/policyklk7ç=¬Ú¯V)       7ÿ_ 	ÛÅXI‚ ÙA*

ppo/policy/clipfrac  >Vbq¯0       •õÐ_	=ÆXI‚ ÙA*#
!
ppo/policy/advantages_meanÍÌ²A•t&       sOã 	ÆXI‚ ÙA*

ppo/returns/meanUgÁ'Ç·Ž%       ê¼6ó	üÆXI‚ ÙA*

ppo/returns/varØB«¦#       °ŸwC	XÇXI‚ ÙA*

ppo/val/vpredÓû÷À©>ê„#       °ŸwC	±ÇXI‚ ÙA*

ppo/val/errorÀß€AïÎ‚1&       sOã 	
ÈXI‚ ÙA*

ppo/val/clipfracffì>t¯«F"       x=ý	aÈXI‚ ÙA*

ppo/val/mean#µßÀi²`!       {ìö	¼ÈXI‚ ÙA*

ppo/val/varæøŽAb9øƒ+       †ÃK	ÉXI‚ ÙA*

ppo/val/var_explainedÎä?ƒá| '       »á±F	tÉXI‚ ÙA*

ppo/learning_rateoƒ:kÉ¼+       †ÃK	ÍÉXI‚ ÙA*

time/ppo/forward_pass o1>ù˜%.       ÅËWú	*ÊXI‚ ÙA*!

time/ppo/compute_rewards XÛ:éý¯k1       ƒƒé	‚ÊXI‚ ÙA*$
"
time/ppo/compute_advantages ŒC;^ý0,       ô®ÌE	ÝÊXI‚ ÙA*

time/ppo/optimize_stepl?%`)       7ÿ_ 	3ËXI‚ ÙA*

time/ppo/calc_statsP$>¼BF$       B+€M	ËXI‚ ÙA*

time/ppo/totalêP¡?;Wy%       ê¼6ó	èËXI‚ ÙA*

env/reward_mean‰†=ÂC|z$       B+€M	AÌXI‚ ÙA*

env/reward_std)úè= ŽKˆ"       x=ý	ìþƒJ‚ ÙA*

objective/kl"uõBMõí'       »á±F	cÿƒJ‚ ÙA*

objective/kl_coef
øO>ˆ7ò'       »á±F	„ÿƒJ‚ ÙA*

objective/entropy6sBªÔµ*/       m]P	›ÿƒJ‚ ÙA*"
 
ppo/mean_non_score_reward†Ÿ¿.ÝÒ%       ê¼6ó	°ÿƒJ‚ ÙA*

ppo/mean_scoress…Ž='1öy$       B+€M	ÂÿƒJ‚ ÙA*

ppo/std_scoresÉMÒ=¬1PG-       <AŠû	ÓÿƒJ‚ ÙA* 

tokens/queries_len_mean  ìB»Ûí2,       ô®ÌE	äÿƒJ‚ ÙA*

tokens/queries_len_std    ¡˜F/       m]P	÷ÿƒJ‚ ÙA*"
 
tokens/responses_len_mean   Axg±Ô.       ÅËWú		 „J‚ ÙA*!

tokens/responses_len_std    ˆ}G%       ê¼6ó	 „J‚ ÙA*

ppo/loss/policyü=—aÒ‘$       B+€M	
„J‚ ÙA*

ppo/loss/value~_ö@Ÿ·$       B+€M		„J‚ ÙA*

ppo/loss/totalôØM?wmu’(       ÿpJ	“„J‚ ÙA*

ppo/policy/entropy•ÂC@×®¦)       7ÿ_ 	
„J‚ ÙA*

ppo/policy/approxkl(ÑÅ>i3W1)       7ÿ_ 	u„J‚ ÙA*

ppo/policy/policyklý?L>ˆˆøŠ)       7ÿ_ 	Ø„J‚ ÙA*

ppo/policy/clipfracš™>HÏa<0       •õÐ_	>„J‚ ÙA*#
!
ppo/policy/advantages_mean   3vNøø&       sOã 	¤„J‚ ÙA*

ppo/returns/meanzvÁV%       ê¼6ó	„J‚ ÙA*

ppo/returns/varWBo_Ê]#       °ŸwC	k„J‚ ÙA*

ppo/val/vpredRÀÁ^7§#       °ŸwC	È„J‚ ÙA*

ppo/val/error„ï*A0=¾£&       sOã 	%„J‚ ÙA*

ppo/val/clipfracš™? b„"       x=ý	ƒ„J‚ ÙA*

ppo/val/mean@ºîÀÈŠ!       {ìö	é„J‚ ÙA*

ppo/val/varh]¾AaŠT^+       †ÃK	O„J‚ ÙA*

ppo/val/var_explainedV>5?ÌÖ!'       »á±F	Ê„J‚ ÙA*

ppo/learning_rateoƒ:u•HÌ+       †ÃK	=„J‚ ÙA*

time/ppo/forward_pass€=0>×Ê{ª.       ÅËWú	¨„J‚ ÙA*!

time/ppo/compute_rewards PÏ:ŽÇ¡(1       ƒƒé		„J‚ ÙA*$
"
time/ppo/compute_advantages TE;*Ýè,       ô®ÌE	t	„J‚ ÙA*

time/ppo/optimize_stepÔ×l?ªk¡)       7ÿ_ 	Ð	„J‚ ÙA*

time/ppo/calc_statsðÄ#>Ä+P$       B+€M	+
„J‚ ÙA*

time/ppo/totalê„¡?C\Sƒ%       ê¼6ó	Š
„J‚ ÙA*

env/reward_means…Ž="¦2$       B+€M	æ
„J‚ ÙA*

env/reward_stdÉMÒ=o›2?"       x=ý	»¦K‚ ÙA*

objective/klÆòÝBÒ#–'       »á±F	õ»¦K‚ ÙA*

objective/kl_coefP>üa '       »á±F	¼¦K‚ ÙA*

objective/entropyVë…Böt¸/       m]P	$¼¦K‚ ÙA*"
 
ppo/mean_non_score_rewardRV¿öa©%       ê¼6ó	8¼¦K‚ ÙA*

ppo/mean_scores–ïu=‚
™¤$       B+€M	L¼¦K‚ ÙA*

ppo/std_scores×ß>—`ƒÜ-       <AŠû	^¼¦K‚ ÙA* 

tokens/queries_len_mean  ìBE@6,       ô®ÌE	o¼¦K‚ ÙA*

tokens/queries_len_std    ã2•//       m]P	‚¼¦K‚ ÙA*"
 
tokens/responses_len_mean   AÂm2z.       ÅËWú	•¼¦K‚ ÙA*!

tokens/responses_len_std    'Ó¬ñ%       ê¼6ó	§¼¦K‚ ÙA*

ppo/loss/policyRû»*Oh$       B+€M		¿¦K‚ ÙA*

ppo/loss/value™@è°$       B+€M	?Ã¦K‚ ÙA*

ppo/loss/totalþÈ>Þøî§(       ÿpJ	lÃ¦K‚ ÙA*

ppo/policy/entropy§?@4¦²)       7ÿ_ 	†Ã¦K‚ ÙA*

ppo/policy/approxklt§>Ëª$)       7ÿ_ 	›Ã¦K‚ ÙA*

ppo/policy/policyklïøq=ö.ËÂ)       7ÿ_ 	¬Ã¦K‚ ÙA*

ppo/policy/clipfrac43]>èJD
0       •õÐ_	ÀÃ¦K‚ ÙA*#
!
ppo/policy/advantages_meanÌÌÌ/Yœûó&       sOã 	ÒÃ¦K‚ ÙA*

ppo/returns/meanÜ{ÁdáT%       ê¼6ó	ãÃ¦K‚ ÙA*

ppo/returns/varqBfÔ‚#       °ŸwC	ôÃ¦K‚ ÙA*

ppo/val/vpredÎÁ¢þCì#       °ŸwC	Ä¦K‚ ÙA*

ppo/val/error[=è@ÏºÜŒ&       sOã 	cÄ¦K‚ ÙA*

ppo/val/clipfracff…>÷ý¨"       x=ý	ÈÄ¦K‚ ÙA*

ppo/val/mean^$	ÁÛÛüò!       {ìö	Å¦K‚ ÙA*

ppo/val/varTu BÎB;E+       †ÃK	mÅ¦K‚ ÙA*

ppo/val/var_explained³0L?‰³?R'       »á±F	ÃÅ¦K‚ ÙA*

ppo/learning_rateoƒ:2ë§+       †ÃK	Æ¦K‚ ÙA*

time/ppo/forward_pass@q2>Ïò6.       ÅËWú	qÆ¦K‚ ÙA*!

time/ppo/compute_rewards °Ó:…ì1       ƒƒé	ÏÆ¦K‚ ÙA*$
"
time/ppo/compute_advantages  D;!`!,       ô®ÌE	Ç¦K‚ ÙA*

time/ppo/optimize_step$l?cÅDÞ)       7ÿ_ 	sÇ¦K‚ ÙA*

time/ppo/calc_statsÀª$>ÿ7qa$       B+€M	ÏÇ¦K‚ ÙA*

time/ppo/totalž„¡?MP%       ê¼6ó	È¦K‚ ÙA*

env/reward_mean–ïu=Ÿ8t$       B+€M	qÈ¦K‚ ÙA*

env/reward_std×ß>ðFÙ\"       x=ý	É&ÃL‚ ÙA*

objective/klÊÎBÐ>µ'       »á±F	*'ÃL‚ ÙA*

objective/kl_coef5<P>
…ï'       »á±F	G'ÃL‚ ÙA*

objective/entropyÊÖlB"ðË/       m]P	]'ÃL‚ ÙA*"
 
ppo/mean_non_score_rewardå†¿b¶L(%       ê¼6ó	r'ÃL‚ ÙA*

ppo/mean_scoresÖ¼A=—²c.$       B+€M	„'ÃL‚ ÙA*

ppo/std_scores	9y=MäV=-       <AŠû	”'ÃL‚ ÙA* 

tokens/queries_len_mean  ìB÷]§,       ô®ÌE	¥'ÃL‚ ÙA*

tokens/queries_len_std    bè°/       m]P	¶'ÃL‚ ÙA*"
 
tokens/responses_len_mean   AÜƒZË.       ÅËWú	Ç'ÃL‚ ÙA*!

tokens/responses_len_std    j»Ó@%       ê¼6ó	Ø'ÃL‚ ÙA*

ppo/loss/policyŒ û»JÐW$       B+€M	 *ÃL‚ ÙA*

ppo/loss/valuei€4@	zû$       B+€M	%,ÃL‚ ÙA*

ppo/loss/total8xŒ>…3—E(       ÿpJ	S,ÃL‚ ÙA*

ppo/policy/entropyÄØ!@gôæ)       7ÿ_ 	k,ÃL‚ ÙA*

ppo/policy/approxklE×O>ýz#)       7ÿ_ 	~,ÃL‚ ÙA*

ppo/policy/policyklò>CLš()       7ÿ_ 	,ÃL‚ ÙA*

ppo/policy/clipfracff“>‡¼éR0       •õÐ_	¢,ÃL‚ ÙA*#
!
ppo/policy/advantages_mean  À±s°s&       sOã 	³,ÃL‚ ÙA*

ppo/returns/meanþuÁù”ÄÛ%       ê¼6ó	1-ÃL‚ ÙA*

ppo/returns/var¡žBaJ‹#       °ŸwC	•1ÃL‚ ÙA*

ppo/val/vpredNÁ„nQr#       °ŸwC	Â1ÃL‚ ÙA*

ppo/val/errorµ¤@Cõx&       sOã 	Ú1ÃL‚ ÙA*

ppo/val/clipfrac43Ÿ>P{D$"       x=ý	ì1ÃL‚ ÙA*

ppo/val/meand+Á/Š!o!       {ìö	ü1ÃL‚ ÙA*

ppo/val/var4QõA'8Ë¢+       †ÃK	2ÃL‚ ÙA*

ppo/val/var_explained& Y?L%—'       »á±F	2ÃL‚ ÙA*

ppo/learning_rateoƒ:Q”&¹+       †ÃK	/2ÃL‚ ÙA*

time/ppo/forward_pass §/>8µV.       ÅËWú	?2ÃL‚ ÙA*!

time/ppo/compute_rewards °â:þˆ{1       ƒƒé	¸4ÃL‚ ÙA*$
"
time/ppo/compute_advantages K;yåeÌ,       ô®ÌE	æ4ÃL‚ ÙA*

time/ppo/optimize_step†l?Ö‚\))       7ÿ_ 	ÿ4ÃL‚ ÙA*

time/ppo/calc_stats€”#>>Äé$       B+€M	5ÃL‚ ÙA*

time/ppo/totalðJ¡?G¨êÊ%       ê¼6ó	6ÃL‚ ÙA*

env/reward_meanÖ¼A=„â#…$       B+€M	~6ÃL‚ ÙA*

env/reward_std	9y=q’QÝ"       x=ý	â§âM‚ ÙA*

objective/klã½ÁBÝ;N¸'       »á±F	F¨âM‚ ÙA*

objective/kl_coefS^P>Ù©O'       »á±F	b¨âM‚ ÙA*

objective/entropyàÈ`B¯7d[/       m]P	u¨âM‚ ÙA*"
 
ppo/mean_non_score_rewardvO|¿~’em%       ê¼6ó	ˆ¨âM‚ ÙA*

ppo/mean_scoresÖ^=O`ë$       B+€M	™¨âM‚ ÙA*

ppo/std_scores)F‡=ô¸--       <AŠû	ª¨âM‚ ÙA* 

tokens/queries_len_mean  ìB£™,d,       ô®ÌE	»¨âM‚ ÙA*

tokens/queries_len_std    ‚säÝ/       m]P	Ì¨âM‚ ÙA*"
 
tokens/responses_len_mean   AE7/„.       ÅËWú	Þ¨âM‚ ÙA*!

tokens/responses_len_std    nëð%       ê¼6ó	î¨âM‚ ÙA*

ppo/loss/policyø(x¼=P$       B+€M	«âM‚ ÙA*

ppo/loss/value§d @îŒÎ$       B+€M	v­âM‚ ÙA*

ppo/loss/total|q>ˆ O(       ÿpJ	§­âM‚ ÙA*

ppo/policy/entropyé³@4)       7ÿ_ 	½­âM‚ ÙA*

ppo/policy/approxkljœ=œÊ2º)       7ÿ_ 	#°âM‚ ÙA*

ppo/policy/policyklÿ‘p=—Pè)       7ÿ_ 	R°âM‚ ÙA*

ppo/policy/clipfrac  @>°€º>0       •õÐ_	i°âM‚ ÙA*#
!
ppo/policy/advantages_mean  €±@õð‚&       sOã 	´âM‚ ÙA*

ppo/returns/meanêÁ/”|#%       ê¼6ó	9´âM‚ ÙA*

ppo/returns/varæ	òA•@C#       °ŸwC	P´âM‚ ÙA*

ppo/val/vpredûuÁWxœl#       °ŸwC	a´âM‚ ÙA*

ppo/val/errorp-“@hú?×&       sOã 	q´âM‚ ÙA*

ppo/val/clipfracÌÌƒ>òïvœ"       x=ý	´âM‚ ÙA*

ppo/val/meanfÁ!à!       {ìö	‘´âM‚ ÙA*

ppo/val/var<ÄéAúÞ€ø+       †ÃK	£´âM‚ ÙA*

ppo/val/var_explainedPY?Š‚AÝ'       »á±F	´´âM‚ ÙA*

ppo/learning_rateoƒ:E'} +       †ÃK	Ã´âM‚ ÙA*

time/ppo/forward_passÐ›1>Àû.       ÅËWú	µâM‚ ÙA*!

time/ppo/compute_rewards 8Ø:ÖÛ‹1       ƒƒé	oµâM‚ ÙA*$
"
time/ppo/compute_advantages @C;íådð,       ô®ÌE	ÂµâM‚ ÙA*

time/ppo/optimize_step@öl?“yK‡)       7ÿ_ 	¶âM‚ ÙA*

time/ppo/calc_stats@Ò#><°$       B+€M	v¶âM‚ ÙA*

time/ppo/totalÒÂ¡?šÃ¢7%       ê¼6ó	Á¶âM‚ ÙA*

env/reward_meanÖ^=é’¥$       B+€M	·âM‚ ÙA*

env/reward_std)F‡=$á‘"       x=ý	€O‚ ÙA*

objective/kl¶ÐB<!<'       »á±F	e€O‚ ÙA*

objective/kl_coefw€P>º¬Wb'       »á±F	‚€O‚ ÙA*

objective/entropy?ì2BOíµ/       m]P	™€O‚ ÙA*"
 
ppo/mean_non_score_reward¢§M¿S“öW%       ê¼6ó	ª€O‚ ÙA*

ppo/mean_scorespâµ=•îq$       B+€M	»€O‚ ÙA*

ppo/std_scores³9>}ä
N-       <AŠû	Ë€O‚ ÙA* 

tokens/queries_len_mean  ìB5©­,       ô®ÌE	Ú€O‚ ÙA*

tokens/queries_len_std    Íú„s/       m]P	ë€O‚ ÙA*"
 
tokens/responses_len_mean   A+;ÑÛ.       ÅËWú	û€O‚ ÙA*!

tokens/responses_len_std    –Ltà%       ê¼6ó	O‚ ÙA*

ppo/loss/policyU–Š=wÔÈ$       B+€M	LƒO‚ ÙA*

ppo/loss/valueXwg@~#”$       B+€M	É…O‚ ÙA*

ppo/loss/totalÜÑÛ>qÅÀ(       ÿpJ	û…O‚ ÙA*

ppo/policy/entropy›@»ur)       7ÿ_ 	†O‚ ÙA*

ppo/policy/approxkl(Z²>!ó)       7ÿ_ 	â‰O‚ ÙA*

ppo/policy/policyklð´Ê=¥+·4)       7ÿ_ 	ŠO‚ ÙA*

ppo/policy/clipfracff$>ë)0       •õÐ_	&ŠO‚ ÙA*#
!
ppo/policy/advantages_meanffn³}!©´&       sOã 	9ŠO‚ ÙA*

ppo/returns/meanžèóÀÇ®%       ê¼6ó	JŠO‚ ÙA*

ppo/returns/varF»£A#Ž—#       °ŸwC	ZŠO‚ ÙA*

ppo/val/vpredSúøÀ­Î]o#       °ŸwC	kŠO‚ ÙA*

ppo/val/error`‡@µ:`&       sOã 	zŠO‚ ÙA*

ppo/val/clipfrac23ø>g˜"       x=ý	ŠŠO‚ ÙA*

ppo/val/meanÝ§ÁÐ­Lå!       {ìö	šŠO‚ ÙA*

ppo/val/var5RËA£g¾+       †ÃK	¶ŒO‚ ÙA*

ppo/val/var_explained„K?8˜éÏ'       »á±F	æŒO‚ ÙA*

ppo/learning_rateoƒ:ò„+       †ÃK	üŒO‚ ÙA*

time/ppo/forward_pass€ˆ1>„°.       ÅËWú	O‚ ÙA*!

time/ppo/compute_rewards Èß:­'GÛ1       ƒƒé	O‚ ÙA*$
"
time/ppo/compute_advantages ðE;.¾û&,       ô®ÌE	0O‚ ÙA*

time/ppo/optimize_stepìm?sEÏ,)       7ÿ_ 	“O‚ ÙA*

time/ppo/calc_stats0T%>äÈÝì$       B+€M	ùO‚ ÙA*

time/ppo/totalN¢?FÚû%       ê¼6ó	HŽO‚ ÙA*

env/reward_meanpâµ=«4ã$       B+€M	œŽO‚ ÙA*

env/reward_std³9>#Û¹ "       x=ý	l^P‚ ÙA *

objective/kl3Bˆ–‹v'       »á±F	È^P‚ ÙA *

objective/kl_coef ¢P>—W€'       »á±F	ä^P‚ ÙA *

objective/entropyÕù@Ý6ç /       m]P	û^P‚ ÙA *"
 
ppo/mean_non_score_rewardC…é¾Ã9¥'%       ê¼6ó	^P‚ ÙA *

ppo/mean_scores,q<>j4¨$       B+€M	^P‚ ÙA *

ppo/std_scores²Îª>BÐ©-       <AŠû	0^P‚ ÙA * 

tokens/queries_len_mean  ìB5ö,       ô®ÌE	@^P‚ ÙA *

tokens/queries_len_std    nÄ//       m]P	Q^P‚ ÙA *"
 
tokens/responses_len_mean   A kõ}.       ÅËWú	a^P‚ ÙA *!

tokens/responses_len_std    è|%       ê¼6ó	q^P‚ ÙA *

ppo/loss/policy*ŸRºŒ{ÍS$       B+€M	¬^P‚ ÙA *

ppo/loss/value3&jAßkWk$       B+€M	t"^P‚ ÙA *

ppo/loss/totaln7»?hã<|(       ÿpJ	¡"^P‚ ÙA *

ppo/policy/entropy`i,>ˆ°„')       7ÿ_ 	º"^P‚ ÙA *

ppo/policy/approxkl×§=ïë-)       7ÿ_ 	Ì"^P‚ ÙA *

ppo/policy/policykl*‡¼†¨ÌM)       7ÿ_ 	Ý"^P‚ ÙA *

ppo/policy/clipfrac33£<]	ÒF0       •õÐ_	ð"^P‚ ÙA *#
!
ppo/policy/advantages_meanff*4šÆý!&       sOã 	#^P‚ ÙA *

ppo/returns/mean
í™Àa&¹%       ê¼6ó	#^P‚ ÙA *

ppo/returns/varž¸IA,z_Ø#       °ŸwC	##^P‚ ÙA *

ppo/val/vpredTÑ¾À˜»¡#       °ŸwC	3#^P‚ ÙA *

ppo/val/error±w_ABô7z&       sOã 	¡#^P‚ ÙA *

ppo/val/clipfracš™ ?(Ãc"       x=ý	'^P‚ ÙA *

ppo/val/meanÐÈÁp7!       {ìö	­'^P‚ ÙA *

ppo/val/varrë±@0À¼+       †ÃK	Ä'^P‚ ÙA *

ppo/val/var_explainedpÈÜ½W©.Š'       »á±F	Ø'^P‚ ÙA *

ppo/learning_rateoƒ:\—y+       †ÃK	é'^P‚ ÙA *

time/ppo/forward_passp¶/>x÷>.       ÅËWú	ú'^P‚ ÙA *!

time/ppo/compute_rewards X×:;õŠê1       ƒƒé	
(^P‚ ÙA *$
"
time/ppo/compute_advantages üE;…r,       ô®ÌE	(^P‚ ÙA *

time/ppo/optimize_steph®l?
¤U)       7ÿ_ 	*(^P‚ ÙA *

time/ppo/calc_statspË$>[‚)<$       B+€M	;(^P‚ ÙA *

time/ppo/total@‚¡?Èú—%       ê¼6ó	Œ(^P‚ ÙA *

env/reward_mean,q<>.+š$       B+€M	à(^P‚ ÙA *

env/reward_std²Îª>Ü¼&"       x=ý	Ëƒ™Q‚ ÙA!*

objective/klö¢7BbbÐ'       »á±F	0„™Q‚ ÙA!*

objective/kl_coefÏÄP>‡Gh'       »á±F	K„™Q‚ ÙA!*

objective/entropyå`NAVACy/       m]P	`„™Q‚ ÙA!*"
 
ppo/mean_non_score_reward üï¾"6­Ü%       ê¼6ó	r„™Q‚ ÙA!*

ppo/mean_scores¾Ý=RLËc$       B+€M	ƒ„™Q‚ ÙA!*

ppo/std_scoresN§=’¼œØ-       <AŠû	“„™Q‚ ÙA!* 

tokens/queries_len_mean  ìB+Uê,       ô®ÌE	¤„™Q‚ ÙA!*

tokens/queries_len_std    TeKÅ/       m]P	µ„™Q‚ ÙA!*"
 
tokens/responses_len_mean ÀŸAúWæ±.       ÅËWú	Æ„™Q‚ ÙA!*!

tokens/responses_len_stdó5>‰ø%       ê¼6ó	×„™Q‚ ÙA!*

ppo/loss/policyŽ™;ü•<ð$       B+€M	û†™Q‚ ÙA!*

ppo/loss/value¯œÿ?ï
$       B+€M	ÉŠ™Q‚ ÙA!*

ppo/loss/total¿ûN>%¶×y(       ÿpJ	øŠ™Q‚ ÙA!*

ppo/policy/entropyé¢>ÍB)       7ÿ_ 	‹™Q‚ ÙA!*

ppo/policy/approxkl @¤=¹‹à`)       7ÿ_ 	#‹™Q‚ ÙA!*

ppo/policy/policykl“°,=<÷ý)       7ÿ_ 	3‹™Q‚ ÙA!*

ppo/policy/clipfrac´Âæ<¡Ùÿ0       •õÐ_	F‹™Q‚ ÙA!*#
!
ppo/policy/advantages_meanþz³±õUÝ¯&       sOã 	W‹™Q‚ ÙA!*

ppo/returns/mean8›HÀÒ”ÀŸ%       ê¼6ó	h‹™Q‚ ÙA!*

ppo/returns/var`¥Æ@d•¼’#       °ŸwC	x‹™Q‚ ÙA!*

ppo/val/vpred2nÀfB,’#       °ŸwC	ˆ‹™Q‚ ÙA!*

ppo/val/errorø&c@"Ö`&       sOã 	ú‹™Q‚ ÙA!*

ppo/val/clipfracÖ¹>Ü=;$"       x=ý	«™Q‚ ÙA!*

ppo/val/mean•åtÀ« †!       {ìö	Ù™Q‚ ÙA!*

ppo/val/varîÎm?XÈL8+       †ÃK	ô™Q‚ ÙA!*

ppo/val/var_explainedjCÛ>¡Ïâ'       »á±F	Ž™Q‚ ÙA!*

ppo/learning_rateoƒ:sT ÷+       †ÃK	Ž™Q‚ ÙA!*

time/ppo/forward_pass ¤0> ®¤.       ÅËWú	(Ž™Q‚ ÙA!*!

time/ppo/compute_rewards ÀÖ:LÕY‘1       ƒƒé	”Ž™Q‚ ÙA!*$
"
time/ppo/compute_advantages TE;*j‘},       ô®ÌE	îŽ™Q‚ ÙA!*

time/ppo/optimize_stepÌhl?? í0)       7ÿ_ 	C™Q‚ ÙA!*

time/ppo/calc_statsÀŒ$>YHv$       B+€M	™™Q‚ ÙA!*

time/ppo/totalòt¡?RËÏŸ%       ê¼6ó	î™Q‚ ÙA!*

env/reward_mean¾Ý=ïÛ$       B+€M	A™Q‚ ÙA!*

env/reward_stdN§=¯Óv@"       x=ý	BOðR‚ ÙA"*

objective/klRó(B"„@–'       »á±F	§OðR‚ ÙA"*

objective/kl_coefçP>”4¥ˆ'       »á±F	ÆOðR‚ ÙA"*

objective/entropy‰—Î>É¹/       m]P	ÜOðR‚ ÙA"*"
 
ppo/mean_non_score_reward¦–Ü¾ú_1%       ê¼6ó	ðOðR‚ ÙA"*

ppo/mean_scoresdƒî=¤ˆg$       B+€M	PðR‚ ÙA"*

ppo/std_scores¾"}=]ã~>-       <AŠû	PðR‚ ÙA"* 

tokens/queries_len_mean  ìBËÛ,       ô®ÌE	*PðR‚ ÙA"*

tokens/queries_len_std    ™_é/       m]P	?PðR‚ ÙA"*"
 
tokens/responses_len_mean   AƒFŠ.       ÅËWú	SPðR‚ ÙA"*!

tokens/responses_len_std    q+†.%       ê¼6ó	iPðR‚ ÙA"*

ppo/loss/policyMî@¹±!$       B+€M	€RðR‚ ÙA"*

ppo/loss/value’É±?d(ë‰$       B+€M	rVðR‚ ÙA"*

ppo/loss/total 
>(þ(       ÿpJ	¡VðR‚ ÙA"*

ppo/policy/entropyb¢.:~ªÊ)       7ÿ_ 	ºVðR‚ ÙA"*

ppo/policy/approxklc:¨µÒì)       7ÿ_ 	ÎVðR‚ ÙA"*

ppo/policy/policyklUª:h¤ý)       7ÿ_ 	àVðR‚ ÙA"*

ppo/policy/clipfracš™™:œiäý0       •õÐ_	óVðR‚ ÙA"*#
!
ppo/policy/advantages_mean43k3;¤Þ&       sOã 	WðR‚ ÙA"*

ppo/returns/meanMY!À8ç‰%       ê¼6ó	WðR‚ ÙA"*

ppo/returns/var¤aµ@TÊÌ#       °ŸwC	&WðR‚ ÙA"*

ppo/val/vpredÝ<À:äù$#       °ŸwC	6WðR‚ ÙA"*

ppo/val/erroraGÑ?ÞßÊÈ&       sOã 	¨YðR‚ ÙA"*

ppo/val/clipfracš?ƒ±·U"       x=ý	ÖYðR‚ ÙA"*

ppo/val/mean\jÀap}‹!       {ìö	ïYðR‚ ÙA"*

ppo/val/var—¶?‡x7æ+       †ÃK	ZðR‚ ÙA"*

ppo/val/var_explained(6?&û¹£'       »á±F	ZðR‚ ÙA"*

ppo/learning_rateoƒ:ùpI	+       †ÃK	%ZðR‚ ÙA"*

time/ppo/forward_passP×1>mñ'A.       ÅËWú	6ZðR‚ ÙA"*!

time/ppo/compute_rewards hÞ:„Ï¿1       ƒƒé	GZðR‚ ÙA"*$
"
time/ppo/compute_advantages J;$ðï,       ô®ÌE	WZðR‚ ÙA"*

time/ppo/optimize_step°½l?››$ã)       7ÿ_ 	hZðR‚ ÙA"*

time/ppo/calc_statsp‹$>¼•=7$       B+€M	·ZðR‚ ÙA"*

time/ppo/totalJÊ¡?“Êp%       ê¼6ó	[ðR‚ ÙA"*

env/reward_meandƒî=¥Íš‰$       B+€M	l[ðR‚ ÙA"*

env/reward_std¾"}=&
Ú"       x=ý	_ò5T‚ ÙA#*

objective/kl\x(B®¬˜'       »á±F	¼ò5T‚ ÙA#*

objective/kl_coef=	Q>s7”7'       »á±F	Úò5T‚ ÙA#*

objective/entropyXà	:Œ…,/       m]P	ó5T‚ ÙA#*"
 
ppo/mean_non_score_reward&Ü¾…„M%       ê¼6ó	ó5T‚ ÙA#*

ppo/mean_scores, ô=ÉÖ$       B+€M	+ó5T‚ ÙA#*

ppo/std_scoresïE…=·È[-       <AŠû	<ó5T‚ ÙA#* 

tokens/queries_len_mean  ìB 1Îl,       ô®ÌE	Oó5T‚ ÙA#*

tokens/queries_len_std    ð‚#›/       m]P	có5T‚ ÙA#*"
 
tokens/responses_len_mean   AXØE.       ÅËWú	vó5T‚ ÙA#*!

tokens/responses_len_std    ÙoÃó%       ê¼6ó	ˆó5T‚ ÙA#*

ppo/loss/policyÿ?Î5ÕÓw$       B+€M	‚õ5T‚ ÙA#*

ppo/loss/valueL{ƒ>yp1$       B+€M	Ï÷5T‚ ÙA#*

ppo/loss/totalbÒ<vo’e(       ÿpJ	ù÷5T‚ ÙA#*

ppo/policy/entropy3Ò²9>p®)       7ÿ_ 	ø5T‚ ÙA#*

ppo/policy/approxklººž-R»)       7ÿ_ 	~û5T‚ ÙA#*

ppo/policy/policyklh4ÒµæN)       7ÿ_ 	®û5T‚ ÙA#*

ppo/policy/clipfrac    Ùt50       •õÐ_	Çû5T‚ ÙA#*#
!
ppo/policy/advantages_meanš™926‹½c&       sOã 	Üû5T‚ ÙA#*

ppo/returns/meanš¶ú¿ØðòÔ%       ê¼6ó	îû5T‚ ÙA#*

ppo/returns/var¯ñ™@žŸ·›#       °ŸwC	ÿû5T‚ ÙA#*

ppo/val/vpredjÀÚ®GX#       °ŸwC	ü5T‚ ÙA#*

ppo/val/error¡Å>ÙÝ&       sOã 	 ü5T‚ ÙA#*

ppo/val/clipfracš?¬Þº"       x=ý	2ü5T‚ ÙA#*

ppo/val/mean:Àgµ™!       {ìö	Aü5T‚ ÙA#*

ppo/val/vareƒ.@ÙÒE¸+       †ÃK	:ÿ5T‚ ÙA#*

ppo/val/var_explained¬uk?KÛÊç'       »á±F	kÿ5T‚ ÙA#*

ppo/learning_rateoƒ:½ŒÇ£+       †ÃK	‚ÿ5T‚ ÙA#*

time/ppo/forward_pass@>1>ô3&à.       ÅËWú	”ÿ5T‚ ÙA#*!

time/ppo/compute_rewards ˆß:ÄOœ–1       ƒƒé	¥ÿ5T‚ ÙA#*$
"
time/ppo/compute_advantages J;ÈÇõG,       ô®ÌE	µÿ5T‚ ÙA#*

time/ppo/optimize_stepìul?r$˜)       7ÿ_ 	,6T‚ ÙA#*

time/ppo/calc_stats@F%>†ÃRG$       B+€M	[6T‚ ÙA#*

time/ppo/totalêª¡?÷è”ò%       ê¼6ó	t6T‚ ÙA#*

env/reward_mean, ô= .|$       B+€M	†6T‚ ÙA#*

env/reward_stdïE…=­B|"       x=ý	gx‡U‚ ÙA$*

objective/kltx(B¨çgR'       »á±F	Èx‡U‚ ÙA$*

objective/kl_coef}+Q>AÕÿ'       »á±F	çx‡U‚ ÙA$*

objective/entropyØŽæ9h­ä/       m]P	ýx‡U‚ ÙA$*"
 
ppo/mean_non_score_rewardU>Ü¾Ó6à%       ê¼6ó	y‡U‚ ÙA$*

ppo/mean_scoresºcë=ÀþÔ8$       B+€M	$y‡U‚ ÙA$*

ppo/std_scoresÃr‹=Õ¯Hû-       <AŠû	6y‡U‚ ÙA$* 

tokens/queries_len_mean  ìBõ‚ï_,       ô®ÌE	Hy‡U‚ ÙA$*

tokens/queries_len_std    lá‘/       m]P	]y‡U‚ ÙA$*"
 
tokens/responses_len_mean   Aý‘o˜.       ÅËWú	oy‡U‚ ÙA$*!

tokens/responses_len_std    qõ½\%       ê¼6ó	‚y‡U‚ ÙA$*

ppo/loss/policyš™e4áD™Ä$       B+€M	i}‡U‚ ÙA$*

ppo/loss/valueòÇ®=‘åè$       B+€M	˜}‡U‚ ÙA$*

ppo/loss/totalÔ<ê¢f(       ÿpJ	°}‡U‚ ÙA$*

ppo/policy/entropy¦ 9îO]š)       7ÿ_ 	Â}‡U‚ ÙA$*

ppo/policy/approxkl3GÜ,åîST)       7ÿ_ 	Ò}‡U‚ ÙA$*

ppo/policy/policykl g´HâY­)       7ÿ_ 	â}‡U‚ ÙA$*

ppo/policy/clipfrac    uÑ)0       •õÐ_	ó}‡U‚ ÙA$*#
!
ppo/policy/advantages_meanff–2g…~&       sOã 	~‡U‚ ÙA$*

ppo/returns/mean¶íá¿B¤Þv%       ê¼6ó	~‡U‚ ÙA$*

ppo/returns/var)–@|Ù­$#       °ŸwC	8€‡U‚ ÙA$*

ppo/val/vpred'ã¿E˜:M#       °ŸwC	g€‡U‚ ÙA$*

ppo/val/errorõV%>ñSWA&       sOã 	~€‡U‚ ÙA$*

ppo/val/clipfrac  „>áæ¬ß"       x=ý	Ê‚‡U‚ ÙA$*

ppo/val/meanCþ¿ÃÐ|µ!       {ìö	ü‚‡U‚ ÙA$*

ppo/val/varõ›x@O½wê+       †ÃK	ƒ‡U‚ ÙA$*

ppo/val/var_explainedù0w?At~'       »á±F	'ƒ‡U‚ ÙA$*

ppo/learning_rateoƒ:Èºü+       †ÃK	„…‡U‚ ÙA$*

time/ppo/forward_pass°e1>P¨ž.       ÅËWú	´…‡U‚ ÙA$*!

time/ppo/compute_rewards €Ü:^Ð€Î1       ƒƒé	Ê…‡U‚ ÙA$*$
"
time/ppo/compute_advantages xE;(1Kï,       ô®ÌE	Qˆ‡U‚ ÙA$*

time/ppo/optimize_step€l?ONŒ¯)       7ÿ_ 	€ˆ‡U‚ ÙA$*

time/ppo/calc_statsp¡$>jàl3$       B+€M	—ˆ‡U‚ ÙA$*

time/ppo/totalD¡?hö?ð%       ê¼6ó	ªˆ‡U‚ ÙA$*

env/reward_meanºcë=D39$       B+€M	Š‡U‚ ÙA$*

env/reward_stdÃr‹=òZ9A"       x=ý	wüèV‚ ÙA%*

objective/klzx(BüÏœÄ'       »á±F	àüèV‚ ÙA%*

objective/kl_coefÂMQ>yp…'       »á±F	ýèV‚ ÙA%*

objective/entropyÊë×9w¤Œ­/       m]P	ýèV‚ ÙA%*"
 
ppo/mean_non_score_rewardsbÜ¾Žh3‘%       ê¼6ó	+ýèV‚ ÙA%*

ppo/mean_scoresæ=>¤¾$       B+€M	<ýèV‚ ÙA%*

ppo/std_scoresº““==1û-       <AŠû	MýèV‚ ÙA%* 

tokens/queries_len_mean  ìB¶­',       ô®ÌE	^ýèV‚ ÙA%*

tokens/queries_len_std    §¹(A/       m]P	qýèV‚ ÙA%*"
 
tokens/responses_len_mean   A˜ˆ‹U.       ÅËWú	‚ýèV‚ ÙA%*!

tokens/responses_len_std    ZÞ%       ê¼6ó	’ýèV‚ ÙA%*

ppo/loss/policy33«³C]ÕÛ$       B+€M	†þèV‚ ÙA%*

ppo/loss/valueÂ’Ÿ=Öÿ?ä$       B+€M	‰ÿèV‚ ÙA%*

ppo/loss/total‹Pÿ;™ßM(       ÿpJ	 éV‚ ÙA%*

ppo/policy/entropyØ9LMÕ)       7ÿ_ 	† éV‚ ÙA%*

ppo/policy/approxkló	‰,äî-ö)       7ÿ_ 	ð éV‚ ÙA%*

ppo/policy/policykl&o™µž”÷þ)       7ÿ_ 	VéV‚ ÙA%*

ppo/policy/clipfrac    |¡R0       •õÐ_	»éV‚ ÙA%*#
!
ppo/policy/advantages_meanÍÌŒ1X„š2&       sOã 	 éV‚ ÙA%*

ppo/returns/meanò¤É¿>²Õi%       ê¼6ó	‚éV‚ ÙA%*

ppo/returns/var}ø’@*S]K#       °ŸwC	çéV‚ ÙA%*

ppo/val/vpred™‚Ê¿šR1#       °ŸwC	NéV‚ ÙA%*

ppo/val/error`¿>#¥<œ&       sOã 	©éV‚ ÙA%*

ppo/val/clipfrac  €=L›:É"       x=ý	éV‚ ÙA%*

ppo/val/meanÐ¿s(µÏ!       {ìö	béV‚ ÙA%*

ppo/val/vari£@Ž øu+       †ÃK	ÁéV‚ ÙA%*

ppo/val/var_explainedä[w?´'ÇT'       »á±F	 éV‚ ÙA%*

ppo/learning_rateoƒ:®M_{+       †ÃK	~éV‚ ÙA%*

time/ppo/forward_passÐ¢.>Dt
.       ÅËWú	àéV‚ ÙA%*!

time/ppo/compute_rewards @Ô:[)°81       ƒƒé	FéV‚ ÙA%*$
"
time/ppo/compute_advantages lB;« ,       ô®ÌE	¢éV‚ ÙA%*

time/ppo/optimize_step”^l?­í°)       7ÿ_ 	ýéV‚ ÙA%*

time/ppo/calc_stats°·$>uf@î$       B+€M	YéV‚ ÙA%*

time/ppo/totalþ2¡?1q+Ð%       ê¼6ó	¸éV‚ ÙA%*

env/reward_meanæ= ¶™Ç$       B+€M	éV‚ ÙA%*

env/reward_stdº““=: ro"       x=ý	‘]X‚ ÙA&*

objective/klŒx(B•¯_a'       »á±F	ï]X‚ ÙA&*

objective/kl_coefpQ>¾ê©'       »á±F	]X‚ ÙA&*

objective/entropy¨€µ9Ñ6,|/       m]P	#]X‚ ÙA&*"
 
ppo/mean_non_score_reward¦†Ü¾©úq6%       ê¼6ó	7]X‚ ÙA&*

ppo/mean_scoresÐ¬ô=ÄoA$       B+€M	G]X‚ ÙA&*

ppo/std_scores}=Lwä®-       <AŠû	X]X‚ ÙA&* 

tokens/queries_len_mean  ìBù‰|,       ô®ÌE	i]X‚ ÙA&*

tokens/queries_len_std    
â/       m]P	{]X‚ ÙA&*"
 
tokens/responses_len_mean   AØxx{.       ÅËWú	‹]X‚ ÙA&*!

tokens/responses_len_std    )M¡%       ê¼6ó	œ]X‚ ÙA&*

ppo/loss/policy33o´öƒ¯$       B+€M	¢]X‚ ÙA&*

ppo/loss/value£U=Có%í$       B+€M	¤!]X‚ ÙA&*

ppo/loss/total¯ën;†éóê(       ÿpJ	Õ!]X‚ ÙA&*

ppo/policy/entropyÍ•m9J†|›)       7ÿ_ 	í!]X‚ ÙA&*

ppo/policy/approxkl…¡“,·NÁ)       7ÿ_ 	þ!]X‚ ÙA&*

ppo/policy/policyklq/’µÃ;w)       7ÿ_ 	"]X‚ ÙA&*

ppo/policy/clipfrac    \†Ñü0       •õÐ_	#"]X‚ ÙA&*#
!
ppo/policy/advantages_meanÍÌŒ°'èwV&       sOã 	3"]X‚ ÙA&*

ppo/returns/meanÀ$É¿¶‘4»%       ê¼6ó	D"]X‚ ÙA&*

ppo/returns/var¬K@_¨gî#       °ŸwC	S"]X‚ ÙA&*

ppo/val/vpredbÌ¿ã³àn#       °ŸwC	c"]X‚ ÙA&*

ppo/val/errorÛi’=slîì&       sOã 	&]X‚ ÙA&*

ppo/val/clipfracffò=–As"       x=ý	I&]X‚ ÙA&*

ppo/val/mean|¢Ê¿íQÐš!       {ìö	`&]X‚ ÙA&*

ppo/val/varg*œ@T½àY+       †ÃK	x&]X‚ ÙA&*

ppo/val/var_explainedøð{?|­¦'       »á±F	Í&]X‚ ÙA&*

ppo/learning_rateoƒ:Q@>Î+       †ÃK	Þ&]X‚ ÙA&*

time/ppo/forward_passp¯0>ç«j.       ÅËWú	ï&]X‚ ÙA&*!

time/ppo/compute_rewards ÈÙ:Ì2'1       ƒƒé	ÿ&]X‚ ÙA&*$
"
time/ppo/compute_advantages ÈF;4
,       ô®ÌE	']X‚ ÙA&*

time/ppo/optimize_step´Ûk?Á{,‡)       7ÿ_ 	 ']X‚ ÙA&*

time/ppo/calc_statsð¥$>\ÕÎ$       B+€M	{']X‚ ÙA&*

time/ppo/totalÈ4¡?¶pó%       ê¼6ó	ö']X‚ ÙA&*

env/reward_meanÐ¬ô=G~n$       B+€M	M(]X‚ ÙA&*

env/reward_std}=l9Ý"       x=ý	Ð, Y‚ ÙA'*

objective/kl˜x(B×µ'       »á±F	:- Y‚ ÙA'*

objective/kl_coef^’Q>mðcé'       »á±F	_- Y‚ ÙA'*

objective/entropybÉœ9”!Í2/       m]P	t- Y‚ ÙA'*"
 
ppo/mean_non_score_rewardÚªÜ¾n=éØ%       ê¼6ó	†- Y‚ ÙA'*

ppo/mean_scores§¡Ç=£??}$       B+€M	˜- Y‚ ÙA'*

ppo/std_scores$5|=yî<-       <AŠû	©- Y‚ ÙA'* 

tokens/queries_len_mean  ìB{’},       ô®ÌE	º- Y‚ ÙA'*

tokens/queries_len_std    yal/       m]P	Ë- Y‚ ÙA'*"
 
tokens/responses_len_mean   AÍMçÉ.       ÅËWú	Ü- Y‚ ÙA'*!

tokens/responses_len_std    à!rû%       ê¼6ó	ì- Y‚ ÙA'*

ppo/loss/policy43`µ.]¡Í$       B+€M	Ë. Y‚ ÙA'*

ppo/loss/valueXPÈ<â[í$       B+€M	¹/ Y‚ ÙA'*

ppo/loss/totalD2 ;é•C(       ÿpJ	90 Y‚ ÙA'*

ppo/policy/entropy3¢O9¡{°y)       7ÿ_ 	ä0 Y‚ ÙA'*

ppo/policy/approxklnïo,VÖ<)       7ÿ_ 	L1 Y‚ ÙA'*

ppo/policy/policyklÉFeµ¯°ª))       7ÿ_ 	°1 Y‚ ÙA'*

ppo/policy/clipfrac    ˜k•s0       •õÐ_	2 Y‚ ÙA'*#
!
ppo/policy/advantages_meanff’2u/-&&       sOã 	2 Y‚ ÙA'*

ppo/returns/mean«’Ë¿_¾˜x%       ê¼6ó	ß2 Y‚ ÙA'*

ppo/returns/varÐÛŠ@žýä#       °ŸwC	<3 Y‚ ÙA'*

ppo/val/vpred.È¿[ã©#       °ŸwC	•3 Y‚ ÙA'*

ppo/val/errorÊH=Ê[&       sOã 	î3 Y‚ ÙA'*

ppo/val/clipfracš™<7½Ôï"       x=ý	G4 Y‚ ÙA'*

ppo/val/mean»9¿¿üO®!       {ìö	ž4 Y‚ ÙA'*

ppo/val/varmŠ@’^³+       †ÃK	ø4 Y‚ ÙA'*

ppo/val/var_explained;}?²âÞ>'       »á±F	P5 Y‚ ÙA'*

ppo/learning_rateoƒ:r¨´Ž+       †ÃK	©5 Y‚ ÙA'*

time/ppo/forward_passÀž/>äæÄ.       ÅËWú	6 Y‚ ÙA'*!

time/ppo/compute_rewards `×:ƒ²D1       ƒƒé	^6 Y‚ ÙA'*$
"
time/ppo/compute_advantages ˜D;$J_,       ô®ÌE	·6 Y‚ ÙA'*

time/ppo/optimize_stepÜm?Yyç)       7ÿ_ 	7 Y‚ ÙA'*

time/ppo/calc_stats í">O{C$       B+€M	d7 Y‚ ÙA'*

time/ppo/totalª¬¡?ÕDZî%       ê¼6ó	»7 Y‚ ÙA'*

env/reward_mean§¡Ç=ß
 ñ$       B+€M	8 Y‚ ÙA'*

env/reward_std$5|=K]"       x=ý	¿LçZ‚ ÙA(*

objective/kl£x(B+póÍ'       »á±F	*MçZ‚ ÙA(*

objective/kl_coef´´Q>‰A³õ'       »á±F	LMçZ‚ ÙA(*

objective/entropyø!‡97‹¬œ/       m]P	_MçZ‚ ÙA(*"
 
ppo/mean_non_score_rewardÏÜ¾oü®(%       ê¼6ó	qMçZ‚ ÙA(*

ppo/mean_scoresüWá=(.ùx$       B+€M	ƒMçZ‚ ÙA(*

ppo/std_scores(•¡=>é^5-       <AŠû	“MçZ‚ ÙA(* 

tokens/queries_len_mean  ìB}+s,       ô®ÌE	¤MçZ‚ ÙA(*

tokens/queries_len_std    ¦¢Œ/       m]P	¶MçZ‚ ÙA(*"
 
tokens/responses_len_mean   A^†ä–.       ÅËWú	ÇMçZ‚ ÙA(*!

tokens/responses_len_std    nD5h%       ê¼6ó	×MçZ‚ ÙA(*

ppo/loss/policyš™í³dtí¡$       B+€M	ÈNçZ‚ ÙA(*

ppo/loss/valueÝ{”<Ò}$       B+€M	µOçZ‚ ÙA(*

ppo/loss/totalDí:6¿1(       ÿpJ	,PçZ‚ ÙA(*

ppo/policy/entropy 99æ‘% )       7ÿ_ 	šPçZ‚ ÙA(*

ppo/policy/approxklbG˜+(ŠŒ)       7ÿ_ 	QçZ‚ ÙA(*

ppo/policy/policyklÍù®´D³ü•)       7ÿ_ 	eQçZ‚ ÙA(*

ppo/policy/clipfrac    D“ù§0       •õÐ_	ÍQçZ‚ ÙA(*#
!
ppo/policy/advantages_meanÍÌÌ0ù¡Oz&       sOã 	1RçZ‚ ÙA(*

ppo/returns/mean|BÔ¿ØD.,%       ê¼6ó	“RçZ‚ ÙA(*

ppo/returns/var™;Ž@ÛØ<Ù#       °ŸwC	óRçZ‚ ÙA(*

ppo/val/vpred¢Ô¿Éµ»r#       °ŸwC	OSçZ‚ ÙA(*

ppo/val/errorÝ{=ÍOM¹&       sOã 	ªSçZ‚ ÙA(*

ppo/val/clipfrac    Ê`0"       x=ý	TçZ‚ ÙA(*

ppo/val/mean@ªÕ¿S’kå!       {ìö	cTçZ‚ ÙA(*

ppo/val/varž~€@ˆÄU÷+       †ÃK	ÂTçZ‚ ÙA(*

ppo/val/var_explainedé}?¤¥±'       »á±F	$UçZ‚ ÙA(*

ppo/learning_rateoƒ:Y|àÄ+       †ÃK	„UçZ‚ ÙA(*

time/ppo/forward_passà-.>¹„ãš.       ÅËWú	éUçZ‚ ÙA(*!

time/ppo/compute_rewards PÏ:a˜t˜1       ƒƒé	HVçZ‚ ÙA(*$
"
time/ppo/compute_advantages È?;9û,       ô®ÌE	§VçZ‚ ÙA(*

time/ppo/optimize_step“m?MvWì)       7ÿ_ 	WçZ‚ ÙA(*

time/ppo/calc_stats#>AŠi$       B+€M	\WçZ‚ ÙA(*

time/ppo/totalü‡¡?Xþj%       ê¼6ó	·WçZ‚ ÙA(*

env/reward_meanüWá=Í ?L$       B+€M	XçZ‚ ÙA(*

env/reward_std(•¡=ï®¹