Qwen2.5-Coder-7B-Instruct-Solver-RFT / trainer_state.json

Model save

156a661 verified 4 months ago

129 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 615,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008146639511201629,
	"grad_norm": 0.4904627755196518,
	"learning_rate": 0.0,
	"loss": 0.0296,
	"num_tokens": 468319.0,
	"step": 1
	},
	{
	"epoch": 0.016293279022403257,
	"grad_norm": 0.44639106202217055,
	"learning_rate": 5.263157894736843e-07,
	"loss": 0.0278,
	"num_tokens": 931744.0,
	"step": 2
	},
	{
	"epoch": 0.024439918533604887,
	"grad_norm": 0.5235906052705608,
	"learning_rate": 1.0526315789473685e-06,
	"loss": 0.0346,
	"num_tokens": 1382492.0,
	"step": 3
	},
	{
	"epoch": 0.032586558044806514,
	"grad_norm": 0.48829378532794426,
	"learning_rate": 1.5789473684210526e-06,
	"loss": 0.0298,
	"num_tokens": 1822837.0,
	"step": 4
	},
	{
	"epoch": 0.04073319755600815,
	"grad_norm": 0.46192310755459265,
	"learning_rate": 2.105263157894737e-06,
	"loss": 0.0282,
	"num_tokens": 2324341.0,
	"step": 5
	},
	{
	"epoch": 0.048879837067209775,
	"grad_norm": 0.42590423154372875,
	"learning_rate": 2.631578947368421e-06,
	"loss": 0.0259,
	"num_tokens": 2786402.0,
	"step": 6
	},
	{
	"epoch": 0.05702647657841141,
	"grad_norm": 0.3780878258784539,
	"learning_rate": 3.157894736842105e-06,
	"loss": 0.0257,
	"num_tokens": 3249490.0,
	"step": 7
	},
	{
	"epoch": 0.06517311608961303,
	"grad_norm": 0.3621520375009199,
	"learning_rate": 3.6842105263157896e-06,
	"loss": 0.0244,
	"num_tokens": 3691588.0,
	"step": 8
	},
	{
	"epoch": 0.07331975560081466,
	"grad_norm": 0.34785014992590463,
	"learning_rate": 4.210526315789474e-06,
	"loss": 0.0243,
	"num_tokens": 4145266.0,
	"step": 9
	},
	{
	"epoch": 0.0814663951120163,
	"grad_norm": 0.4866514034362246,
	"learning_rate": 4.736842105263158e-06,
	"loss": 0.0283,
	"num_tokens": 4589804.0,
	"step": 10
	},
	{
	"epoch": 0.08961303462321792,
	"grad_norm": 0.6175459481284201,
	"learning_rate": 5.263157894736842e-06,
	"loss": 0.0314,
	"num_tokens": 5028241.0,
	"step": 11
	},
	{
	"epoch": 0.09775967413441955,
	"grad_norm": 0.6496287922379511,
	"learning_rate": 5.789473684210527e-06,
	"loss": 0.0345,
	"num_tokens": 5485301.0,
	"step": 12
	},
	{
	"epoch": 0.10590631364562118,
	"grad_norm": 0.6359630764639106,
	"learning_rate": 6.31578947368421e-06,
	"loss": 0.0325,
	"num_tokens": 5919605.0,
	"step": 13
	},
	{
	"epoch": 0.11405295315682282,
	"grad_norm": 0.5165849518665486,
	"learning_rate": 6.842105263157896e-06,
	"loss": 0.027,
	"num_tokens": 6397578.0,
	"step": 14
	},
	{
	"epoch": 0.12219959266802444,
	"grad_norm": 0.5201523052382824,
	"learning_rate": 7.368421052631579e-06,
	"loss": 0.034,
	"num_tokens": 6859276.0,
	"step": 15
	},
	{
	"epoch": 0.13034623217922606,
	"grad_norm": 0.46155792727423955,
	"learning_rate": 7.894736842105265e-06,
	"loss": 0.0301,
	"num_tokens": 7339093.0,
	"step": 16
	},
	{
	"epoch": 0.1384928716904277,
	"grad_norm": 0.42614925852564395,
	"learning_rate": 8.421052631578948e-06,
	"loss": 0.03,
	"num_tokens": 7829130.0,
	"step": 17
	},
	{
	"epoch": 0.14663951120162932,
	"grad_norm": 0.4234114672689651,
	"learning_rate": 8.947368421052632e-06,
	"loss": 0.0318,
	"num_tokens": 8284433.0,
	"step": 18
	},
	{
	"epoch": 0.15478615071283094,
	"grad_norm": 0.4251114371201452,
	"learning_rate": 9.473684210526315e-06,
	"loss": 0.0303,
	"num_tokens": 8720891.0,
	"step": 19
	},
	{
	"epoch": 0.1629327902240326,
	"grad_norm": 0.40955870197241373,
	"learning_rate": 1e-05,
	"loss": 0.0297,
	"num_tokens": 9262899.0,
	"step": 20
	},
	{
	"epoch": 0.1710794297352342,
	"grad_norm": 0.4087963920152161,
	"learning_rate": 9.999937484351817e-06,
	"loss": 0.0306,
	"num_tokens": 9716643.0,
	"step": 21
	},
	{
	"epoch": 0.17922606924643583,
	"grad_norm": 0.3693398530680141,
	"learning_rate": 9.999749939144244e-06,
	"loss": 0.0298,
	"num_tokens": 10180183.0,
	"step": 22
	},
	{
	"epoch": 0.18737270875763748,
	"grad_norm": 0.41806848178827605,
	"learning_rate": 9.99943736958818e-06,
	"loss": 0.0321,
	"num_tokens": 10631870.0,
	"step": 23
	},
	{
	"epoch": 0.1955193482688391,
	"grad_norm": 0.3809861049653307,
	"learning_rate": 9.998999784368282e-06,
	"loss": 0.0309,
	"num_tokens": 11100352.0,
	"step": 24
	},
	{
	"epoch": 0.20366598778004075,
	"grad_norm": 0.39880645680339244,
	"learning_rate": 9.99843719564274e-06,
	"loss": 0.0352,
	"num_tokens": 11561399.0,
	"step": 25
	},
	{
	"epoch": 0.21181262729124237,
	"grad_norm": 0.35747673914837313,
	"learning_rate": 9.997749619042932e-06,
	"loss": 0.0302,
	"num_tokens": 12052978.0,
	"step": 26
	},
	{
	"epoch": 0.219959266802444,
	"grad_norm": 0.3646974156800663,
	"learning_rate": 9.996937073672988e-06,
	"loss": 0.0326,
	"num_tokens": 12510505.0,
	"step": 27
	},
	{
	"epoch": 0.22810590631364563,
	"grad_norm": 0.37781095340314147,
	"learning_rate": 9.995999582109266e-06,
	"loss": 0.0329,
	"num_tokens": 12972726.0,
	"step": 28
	},
	{
	"epoch": 0.23625254582484725,
	"grad_norm": 0.32601449306874525,
	"learning_rate": 9.994937170399715e-06,
	"loss": 0.0338,
	"num_tokens": 13415015.0,
	"step": 29
	},
	{
	"epoch": 0.24439918533604887,
	"grad_norm": 0.3124719848123855,
	"learning_rate": 9.993749868063162e-06,
	"loss": 0.0321,
	"num_tokens": 13862924.0,
	"step": 30
	},
	{
	"epoch": 0.2525458248472505,
	"grad_norm": 0.33624412669801873,
	"learning_rate": 9.992437708088487e-06,
	"loss": 0.0343,
	"num_tokens": 14336744.0,
	"step": 31
	},
	{
	"epoch": 0.2606924643584521,
	"grad_norm": 0.2822892406548645,
	"learning_rate": 9.991000726933702e-06,
	"loss": 0.0317,
	"num_tokens": 14787461.0,
	"step": 32
	},
	{
	"epoch": 0.26883910386965376,
	"grad_norm": 0.3141509965138737,
	"learning_rate": 9.989438964524943e-06,
	"loss": 0.0348,
	"num_tokens": 15260166.0,
	"step": 33
	},
	{
	"epoch": 0.2769857433808554,
	"grad_norm": 0.28289872142233236,
	"learning_rate": 9.987752464255365e-06,
	"loss": 0.0328,
	"num_tokens": 15716455.0,
	"step": 34
	},
	{
	"epoch": 0.285132382892057,
	"grad_norm": 0.2988023355786341,
	"learning_rate": 9.98594127298392e-06,
	"loss": 0.0327,
	"num_tokens": 16208303.0,
	"step": 35
	},
	{
	"epoch": 0.29327902240325865,
	"grad_norm": 0.2827377533678326,
	"learning_rate": 9.984005441034079e-06,
	"loss": 0.0316,
	"num_tokens": 16661734.0,
	"step": 36
	},
	{
	"epoch": 0.3014256619144603,
	"grad_norm": 0.3277891610784485,
	"learning_rate": 9.981945022192412e-06,
	"loss": 0.0363,
	"num_tokens": 17117668.0,
	"step": 37
	},
	{
	"epoch": 0.3095723014256619,
	"grad_norm": 0.29741031623668746,
	"learning_rate": 9.979760073707106e-06,
	"loss": 0.0322,
	"num_tokens": 17568922.0,
	"step": 38
	},
	{
	"epoch": 0.31771894093686354,
	"grad_norm": 0.28575184625841077,
	"learning_rate": 9.977450656286371e-06,
	"loss": 0.0317,
	"num_tokens": 18032936.0,
	"step": 39
	},
	{
	"epoch": 0.3258655804480652,
	"grad_norm": 0.28459652313484274,
	"learning_rate": 9.97501683409675e-06,
	"loss": 0.0334,
	"num_tokens": 18462483.0,
	"step": 40
	},
	{
	"epoch": 0.3340122199592668,
	"grad_norm": 0.2853320257498706,
	"learning_rate": 9.972458674761347e-06,
	"loss": 0.0325,
	"num_tokens": 18918154.0,
	"step": 41
	},
	{
	"epoch": 0.3421588594704684,
	"grad_norm": 0.31245376505929573,
	"learning_rate": 9.96977624935793e-06,
	"loss": 0.0356,
	"num_tokens": 19392456.0,
	"step": 42
	},
	{
	"epoch": 0.35030549898167007,
	"grad_norm": 0.29339121491288905,
	"learning_rate": 9.96696963241697e-06,
	"loss": 0.0358,
	"num_tokens": 19864410.0,
	"step": 43
	},
	{
	"epoch": 0.35845213849287166,
	"grad_norm": 0.308001575808903,
	"learning_rate": 9.964038901919573e-06,
	"loss": 0.0344,
	"num_tokens": 20325616.0,
	"step": 44
	},
	{
	"epoch": 0.3665987780040733,
	"grad_norm": 0.29777121599268264,
	"learning_rate": 9.9609841392953e-06,
	"loss": 0.0361,
	"num_tokens": 20754956.0,
	"step": 45
	},
	{
	"epoch": 0.37474541751527496,
	"grad_norm": 0.27446985734348617,
	"learning_rate": 9.95780542941991e-06,
	"loss": 0.0367,
	"num_tokens": 21197697.0,
	"step": 46
	},
	{
	"epoch": 0.38289205702647655,
	"grad_norm": 0.2723208448567585,
	"learning_rate": 9.954502860613011e-06,
	"loss": 0.0355,
	"num_tokens": 21644714.0,
	"step": 47
	},
	{
	"epoch": 0.3910386965376782,
	"grad_norm": 0.34829072831093,
	"learning_rate": 9.951076524635593e-06,
	"loss": 0.0343,
	"num_tokens": 22094029.0,
	"step": 48
	},
	{
	"epoch": 0.39918533604887985,
	"grad_norm": 0.2633667374393046,
	"learning_rate": 9.947526516687484e-06,
	"loss": 0.0342,
	"num_tokens": 22577438.0,
	"step": 49
	},
	{
	"epoch": 0.4073319755600815,
	"grad_norm": 0.2781504189612014,
	"learning_rate": 9.943852935404706e-06,
	"loss": 0.0356,
	"num_tokens": 23046436.0,
	"step": 50
	},
	{
	"epoch": 0.4154786150712831,
	"grad_norm": 0.29581469873784194,
	"learning_rate": 9.940055882856734e-06,
	"loss": 0.038,
	"num_tokens": 23498243.0,
	"step": 51
	},
	{
	"epoch": 0.42362525458248473,
	"grad_norm": 0.2656899667965322,
	"learning_rate": 9.936135464543652e-06,
	"loss": 0.0347,
	"num_tokens": 23972330.0,
	"step": 52
	},
	{
	"epoch": 0.4317718940936864,
	"grad_norm": 0.2543418233162407,
	"learning_rate": 9.93209178939324e-06,
	"loss": 0.0341,
	"num_tokens": 24453685.0,
	"step": 53
	},
	{
	"epoch": 0.439918533604888,
	"grad_norm": 0.25163009959008703,
	"learning_rate": 9.927924969757926e-06,
	"loss": 0.034,
	"num_tokens": 24926242.0,
	"step": 54
	},
	{
	"epoch": 0.4480651731160896,
	"grad_norm": 0.2530048416696052,
	"learning_rate": 9.923635121411683e-06,
	"loss": 0.0341,
	"num_tokens": 25365241.0,
	"step": 55
	},
	{
	"epoch": 0.45621181262729127,
	"grad_norm": 0.2591530319599859,
	"learning_rate": 9.919222363546797e-06,
	"loss": 0.0353,
	"num_tokens": 25833971.0,
	"step": 56
	},
	{
	"epoch": 0.46435845213849286,
	"grad_norm": 0.23005642120058867,
	"learning_rate": 9.914686818770567e-06,
	"loss": 0.0328,
	"num_tokens": 26279628.0,
	"step": 57
	},
	{
	"epoch": 0.4725050916496945,
	"grad_norm": 0.2612401425726277,
	"learning_rate": 9.910028613101888e-06,
	"loss": 0.0343,
	"num_tokens": 26734776.0,
	"step": 58
	},
	{
	"epoch": 0.48065173116089616,
	"grad_norm": 0.25501336518012946,
	"learning_rate": 9.905247875967764e-06,
	"loss": 0.035,
	"num_tokens": 27206001.0,
	"step": 59
	},
	{
	"epoch": 0.48879837067209775,
	"grad_norm": 0.25907516477795234,
	"learning_rate": 9.900344740199691e-06,
	"loss": 0.0342,
	"num_tokens": 27647448.0,
	"step": 60
	},
	{
	"epoch": 0.4969450101832994,
	"grad_norm": 0.2627756492187737,
	"learning_rate": 9.895319342029992e-06,
	"loss": 0.0352,
	"num_tokens": 28116087.0,
	"step": 61
	},
	{
	"epoch": 0.505091649694501,
	"grad_norm": 0.2520744974011735,
	"learning_rate": 9.890171821088006e-06,
	"loss": 0.034,
	"num_tokens": 28556029.0,
	"step": 62
	},
	{
	"epoch": 0.5132382892057027,
	"grad_norm": 0.25566988242695377,
	"learning_rate": 9.884902320396228e-06,
	"loss": 0.0345,
	"num_tokens": 29003546.0,
	"step": 63
	},
	{
	"epoch": 0.5213849287169042,
	"grad_norm": 0.26761657061201327,
	"learning_rate": 9.879510986366321e-06,
	"loss": 0.0386,
	"num_tokens": 29464833.0,
	"step": 64
	},
	{
	"epoch": 0.5295315682281059,
	"grad_norm": 0.25151679573138824,
	"learning_rate": 9.873997968795066e-06,
	"loss": 0.0361,
	"num_tokens": 29908906.0,
	"step": 65
	},
	{
	"epoch": 0.5376782077393075,
	"grad_norm": 0.25192725491977325,
	"learning_rate": 9.868363420860176e-06,
	"loss": 0.0363,
	"num_tokens": 30339618.0,
	"step": 66
	},
	{
	"epoch": 0.5458248472505092,
	"grad_norm": 0.2558097074022343,
	"learning_rate": 9.86260749911606e-06,
	"loss": 0.0359,
	"num_tokens": 30798302.0,
	"step": 67
	},
	{
	"epoch": 0.5539714867617108,
	"grad_norm": 0.23903896250926235,
	"learning_rate": 9.856730363489465e-06,
	"loss": 0.0321,
	"num_tokens": 31270382.0,
	"step": 68
	},
	{
	"epoch": 0.5621181262729125,
	"grad_norm": 0.23678636099022307,
	"learning_rate": 9.85073217727503e-06,
	"loss": 0.0332,
	"num_tokens": 31743990.0,
	"step": 69
	},
	{
	"epoch": 0.570264765784114,
	"grad_norm": 0.2718182538363666,
	"learning_rate": 9.844613107130758e-06,
	"loss": 0.0377,
	"num_tokens": 32188589.0,
	"step": 70
	},
	{
	"epoch": 0.5784114052953157,
	"grad_norm": 0.2447806090135222,
	"learning_rate": 9.838373323073376e-06,
	"loss": 0.0335,
	"num_tokens": 32654341.0,
	"step": 71
	},
	{
	"epoch": 0.5865580448065173,
	"grad_norm": 0.24791886655928558,
	"learning_rate": 9.832012998473612e-06,
	"loss": 0.0357,
	"num_tokens": 33133443.0,
	"step": 72
	},
	{
	"epoch": 0.594704684317719,
	"grad_norm": 0.2602111918495323,
	"learning_rate": 9.825532310051383e-06,
	"loss": 0.0369,
	"num_tokens": 33600590.0,
	"step": 73
	},
	{
	"epoch": 0.6028513238289206,
	"grad_norm": 0.23958876317959238,
	"learning_rate": 9.818931437870888e-06,
	"loss": 0.0347,
	"num_tokens": 34081907.0,
	"step": 74
	},
	{
	"epoch": 0.6109979633401222,
	"grad_norm": 0.24528240723597736,
	"learning_rate": 9.812210565335591e-06,
	"loss": 0.0347,
	"num_tokens": 34528542.0,
	"step": 75
	},
	{
	"epoch": 0.6191446028513238,
	"grad_norm": 0.2511113811601625,
	"learning_rate": 9.805369879183143e-06,
	"loss": 0.0358,
	"num_tokens": 34984490.0,
	"step": 76
	},
	{
	"epoch": 0.6272912423625254,
	"grad_norm": 0.23964291648975655,
	"learning_rate": 9.798409569480171e-06,
	"loss": 0.0368,
	"num_tokens": 35438413.0,
	"step": 77
	},
	{
	"epoch": 0.6354378818737271,
	"grad_norm": 0.22854430928208863,
	"learning_rate": 9.791329829617025e-06,
	"loss": 0.0329,
	"num_tokens": 35861862.0,
	"step": 78
	},
	{
	"epoch": 0.6435845213849287,
	"grad_norm": 0.25934229180134305,
	"learning_rate": 9.784130856302383e-06,
	"loss": 0.0352,
	"num_tokens": 36334726.0,
	"step": 79
	},
	{
	"epoch": 0.6517311608961304,
	"grad_norm": 0.249853867356781,
	"learning_rate": 9.77681284955779e-06,
	"loss": 0.0334,
	"num_tokens": 36806966.0,
	"step": 80
	},
	{
	"epoch": 0.659877800407332,
	"grad_norm": 0.24228111972158922,
	"learning_rate": 9.769376012712107e-06,
	"loss": 0.0355,
	"num_tokens": 37255978.0,
	"step": 81
	},
	{
	"epoch": 0.6680244399185336,
	"grad_norm": 0.24656941383849604,
	"learning_rate": 9.761820552395857e-06,
	"loss": 0.0372,
	"num_tokens": 37695349.0,
	"step": 82
	},
	{
	"epoch": 0.6761710794297352,
	"grad_norm": 0.24557463844035055,
	"learning_rate": 9.754146678535483e-06,
	"loss": 0.0364,
	"num_tokens": 38137196.0,
	"step": 83
	},
	{
	"epoch": 0.6843177189409368,
	"grad_norm": 0.25045832824836683,
	"learning_rate": 9.74635460434752e-06,
	"loss": 0.036,
	"num_tokens": 38601156.0,
	"step": 84
	},
	{
	"epoch": 0.6924643584521385,
	"grad_norm": 0.23961222253413397,
	"learning_rate": 9.738444546332663e-06,
	"loss": 0.0348,
	"num_tokens": 39098917.0,
	"step": 85
	},
	{
	"epoch": 0.7006109979633401,
	"grad_norm": 0.21623543203559747,
	"learning_rate": 9.73041672426976e-06,
	"loss": 0.0313,
	"num_tokens": 39589476.0,
	"step": 86
	},
	{
	"epoch": 0.7087576374745418,
	"grad_norm": 0.2454384444263673,
	"learning_rate": 9.722271361209698e-06,
	"loss": 0.035,
	"num_tokens": 40040757.0,
	"step": 87
	},
	{
	"epoch": 0.7169042769857433,
	"grad_norm": 0.2514790044121715,
	"learning_rate": 9.714008683469212e-06,
	"loss": 0.035,
	"num_tokens": 40503981.0,
	"step": 88
	},
	{
	"epoch": 0.725050916496945,
	"grad_norm": 0.2574428715510541,
	"learning_rate": 9.705628920624592e-06,
	"loss": 0.0365,
	"num_tokens": 40969365.0,
	"step": 89
	},
	{
	"epoch": 0.7331975560081466,
	"grad_norm": 0.25017040048121353,
	"learning_rate": 9.69713230550531e-06,
	"loss": 0.0349,
	"num_tokens": 41427533.0,
	"step": 90
	},
	{
	"epoch": 0.7413441955193483,
	"grad_norm": 0.2526246003424556,
	"learning_rate": 9.68851907418754e-06,
	"loss": 0.0385,
	"num_tokens": 41894302.0,
	"step": 91
	},
	{
	"epoch": 0.7494908350305499,
	"grad_norm": 0.2461082056251613,
	"learning_rate": 9.679789465987614e-06,
	"loss": 0.0357,
	"num_tokens": 42349463.0,
	"step": 92
	},
	{
	"epoch": 0.7576374745417516,
	"grad_norm": 0.2617726018040813,
	"learning_rate": 9.67094372345536e-06,
	"loss": 0.0389,
	"num_tokens": 42774515.0,
	"step": 93
	},
	{
	"epoch": 0.7657841140529531,
	"grad_norm": 0.24705231631404728,
	"learning_rate": 9.661982092367366e-06,
	"loss": 0.036,
	"num_tokens": 43230624.0,
	"step": 94
	},
	{
	"epoch": 0.7739307535641547,
	"grad_norm": 0.235679439367168,
	"learning_rate": 9.652904821720158e-06,
	"loss": 0.0365,
	"num_tokens": 43672523.0,
	"step": 95
	},
	{
	"epoch": 0.7820773930753564,
	"grad_norm": 0.2510768490849978,
	"learning_rate": 9.643712163723271e-06,
	"loss": 0.0377,
	"num_tokens": 44158995.0,
	"step": 96
	},
	{
	"epoch": 0.790224032586558,
	"grad_norm": 0.2533074838565773,
	"learning_rate": 9.63440437379225e-06,
	"loss": 0.0376,
	"num_tokens": 44636347.0,
	"step": 97
	},
	{
	"epoch": 0.7983706720977597,
	"grad_norm": 0.23715260979777855,
	"learning_rate": 9.624981710541548e-06,
	"loss": 0.0356,
	"num_tokens": 45086574.0,
	"step": 98
	},
	{
	"epoch": 0.8065173116089613,
	"grad_norm": 0.23369067636824356,
	"learning_rate": 9.615444435777343e-06,
	"loss": 0.0357,
	"num_tokens": 45541713.0,
	"step": 99
	},
	{
	"epoch": 0.814663951120163,
	"grad_norm": 0.22571635640078413,
	"learning_rate": 9.605792814490263e-06,
	"loss": 0.0348,
	"num_tokens": 46007566.0,
	"step": 100
	},
	{
	"epoch": 0.8228105906313645,
	"grad_norm": 0.23077275204681233,
	"learning_rate": 9.596027114848025e-06,
	"loss": 0.0345,
	"num_tokens": 46477746.0,
	"step": 101
	},
	{
	"epoch": 0.8309572301425662,
	"grad_norm": 0.22566558819394333,
	"learning_rate": 9.58614760818798e-06,
	"loss": 0.0338,
	"num_tokens": 46929999.0,
	"step": 102
	},
	{
	"epoch": 0.8391038696537678,
	"grad_norm": 0.21695625400644095,
	"learning_rate": 9.57615456900958e-06,
	"loss": 0.0347,
	"num_tokens": 47395766.0,
	"step": 103
	},
	{
	"epoch": 0.8472505091649695,
	"grad_norm": 0.2620473147070263,
	"learning_rate": 9.566048274966745e-06,
	"loss": 0.0383,
	"num_tokens": 47845971.0,
	"step": 104
	},
	{
	"epoch": 0.8553971486761711,
	"grad_norm": 0.2410799135804227,
	"learning_rate": 9.55582900686015e-06,
	"loss": 0.0365,
	"num_tokens": 48287919.0,
	"step": 105
	},
	{
	"epoch": 0.8635437881873728,
	"grad_norm": 0.2396885428184001,
	"learning_rate": 9.545497048629427e-06,
	"loss": 0.0348,
	"num_tokens": 48749479.0,
	"step": 106
	},
	{
	"epoch": 0.8716904276985743,
	"grad_norm": 0.24688227687368633,
	"learning_rate": 9.535052687345273e-06,
	"loss": 0.0387,
	"num_tokens": 49192411.0,
	"step": 107
	},
	{
	"epoch": 0.879837067209776,
	"grad_norm": 0.24294158661413467,
	"learning_rate": 9.524496213201473e-06,
	"loss": 0.0378,
	"num_tokens": 49653484.0,
	"step": 108
	},
	{
	"epoch": 0.8879837067209776,
	"grad_norm": 0.2405101629778957,
	"learning_rate": 9.513827919506835e-06,
	"loss": 0.0363,
	"num_tokens": 50112406.0,
	"step": 109
	},
	{
	"epoch": 0.8961303462321792,
	"grad_norm": 0.23181354337095814,
	"learning_rate": 9.503048102677048e-06,
	"loss": 0.0349,
	"num_tokens": 50574830.0,
	"step": 110
	},
	{
	"epoch": 0.9042769857433809,
	"grad_norm": 0.23382747597194983,
	"learning_rate": 9.492157062226438e-06,
	"loss": 0.0341,
	"num_tokens": 51043765.0,
	"step": 111
	},
	{
	"epoch": 0.9124236252545825,
	"grad_norm": 0.22729966362083456,
	"learning_rate": 9.481155100759651e-06,
	"loss": 0.0345,
	"num_tokens": 51491061.0,
	"step": 112
	},
	{
	"epoch": 0.9205702647657841,
	"grad_norm": 0.24513175538240015,
	"learning_rate": 9.470042523963243e-06,
	"loss": 0.039,
	"num_tokens": 51927088.0,
	"step": 113
	},
	{
	"epoch": 0.9287169042769857,
	"grad_norm": 0.24880865741998745,
	"learning_rate": 9.458819640597193e-06,
	"loss": 0.0379,
	"num_tokens": 52372997.0,
	"step": 114
	},
	{
	"epoch": 0.9368635437881874,
	"grad_norm": 0.2220343898509789,
	"learning_rate": 9.447486762486307e-06,
	"loss": 0.034,
	"num_tokens": 52812484.0,
	"step": 115
	},
	{
	"epoch": 0.945010183299389,
	"grad_norm": 0.22431667653715365,
	"learning_rate": 9.436044204511575e-06,
	"loss": 0.0346,
	"num_tokens": 53269746.0,
	"step": 116
	},
	{
	"epoch": 0.9531568228105907,
	"grad_norm": 0.2278604942336719,
	"learning_rate": 9.42449228460141e-06,
	"loss": 0.0364,
	"num_tokens": 53715464.0,
	"step": 117
	},
	{
	"epoch": 0.9613034623217923,
	"grad_norm": 0.2233927678176066,
	"learning_rate": 9.412831323722813e-06,
	"loss": 0.0354,
	"num_tokens": 54163779.0,
	"step": 118
	},
	{
	"epoch": 0.9694501018329938,
	"grad_norm": 0.2258095576824266,
	"learning_rate": 9.401061645872469e-06,
	"loss": 0.0356,
	"num_tokens": 54622927.0,
	"step": 119
	},
	{
	"epoch": 0.9775967413441955,
	"grad_norm": 0.21843742724066828,
	"learning_rate": 9.389183578067725e-06,
	"loss": 0.0332,
	"num_tokens": 55117094.0,
	"step": 120
	},
	{
	"epoch": 0.9857433808553971,
	"grad_norm": 0.23443623658924626,
	"learning_rate": 9.37719745033752e-06,
	"loss": 0.0372,
	"num_tokens": 55571058.0,
	"step": 121
	},
	{
	"epoch": 0.9938900203665988,
	"grad_norm": 0.22544218766750995,
	"learning_rate": 9.365103595713206e-06,
	"loss": 0.0347,
	"num_tokens": 56023909.0,
	"step": 122
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.23694297938614514,
	"learning_rate": 9.352902350219298e-06,
	"loss": 0.0325,
	"num_tokens": 56069607.0,
	"step": 123
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.041923802345991135,
	"eval_num_tokens": 56069607.0,
	"eval_runtime": 59.8807,
	"eval_samples_per_second": 40.731,
	"eval_steps_per_second": 5.093,
	"step": 123
	},
	{
	"epoch": 1.0081466395112015,
	"grad_norm": 0.18235571925323477,
	"learning_rate": 9.34059405286414e-06,
	"loss": 0.0242,
	"num_tokens": 56508815.0,
	"step": 124
	},
	{
	"epoch": 1.0162932790224033,
	"grad_norm": 0.19439769536061022,
	"learning_rate": 9.32817904563048e-06,
	"loss": 0.0234,
	"num_tokens": 56965411.0,
	"step": 125
	},
	{
	"epoch": 1.0244399185336048,
	"grad_norm": 0.1736558218986549,
	"learning_rate": 9.315657673465978e-06,
	"loss": 0.0225,
	"num_tokens": 57414294.0,
	"step": 126
	},
	{
	"epoch": 1.0325865580448066,
	"grad_norm": 0.19113275019426793,
	"learning_rate": 9.303030284273606e-06,
	"loss": 0.0225,
	"num_tokens": 57877954.0,
	"step": 127
	},
	{
	"epoch": 1.0407331975560081,
	"grad_norm": 0.19036081030160895,
	"learning_rate": 9.290297228901994e-06,
	"loss": 0.022,
	"num_tokens": 58325030.0,
	"step": 128
	},
	{
	"epoch": 1.0488798370672097,
	"grad_norm": 0.1984639840701536,
	"learning_rate": 9.277458861135684e-06,
	"loss": 0.0219,
	"num_tokens": 58808552.0,
	"step": 129
	},
	{
	"epoch": 1.0570264765784114,
	"grad_norm": 0.2043532515942055,
	"learning_rate": 9.264515537685289e-06,
	"loss": 0.0217,
	"num_tokens": 59306149.0,
	"step": 130
	},
	{
	"epoch": 1.065173116089613,
	"grad_norm": 0.24055798224631966,
	"learning_rate": 9.251467618177588e-06,
	"loss": 0.0238,
	"num_tokens": 59747428.0,
	"step": 131
	},
	{
	"epoch": 1.0733197556008147,
	"grad_norm": 0.1995629506004207,
	"learning_rate": 9.238315465145536e-06,
	"loss": 0.0204,
	"num_tokens": 60204616.0,
	"step": 132
	},
	{
	"epoch": 1.0814663951120163,
	"grad_norm": 0.2525900691277178,
	"learning_rate": 9.225059444018185e-06,
	"loss": 0.0239,
	"num_tokens": 60656969.0,
	"step": 133
	},
	{
	"epoch": 1.089613034623218,
	"grad_norm": 0.2318763327290573,
	"learning_rate": 9.21169992311054e-06,
	"loss": 0.0218,
	"num_tokens": 61138427.0,
	"step": 134
	},
	{
	"epoch": 1.0977596741344195,
	"grad_norm": 0.24997426536385803,
	"learning_rate": 9.198237273613311e-06,
	"loss": 0.0249,
	"num_tokens": 61577876.0,
	"step": 135
	},
	{
	"epoch": 1.105906313645621,
	"grad_norm": 0.2271197177471986,
	"learning_rate": 9.184671869582617e-06,
	"loss": 0.0229,
	"num_tokens": 62045028.0,
	"step": 136
	},
	{
	"epoch": 1.1140529531568228,
	"grad_norm": 0.22400406233634754,
	"learning_rate": 9.17100408792958e-06,
	"loss": 0.0207,
	"num_tokens": 62486192.0,
	"step": 137
	},
	{
	"epoch": 1.1221995926680244,
	"grad_norm": 0.23845965068678432,
	"learning_rate": 9.157234308409859e-06,
	"loss": 0.0225,
	"num_tokens": 62956027.0,
	"step": 138
	},
	{
	"epoch": 1.1303462321792261,
	"grad_norm": 0.2106619550266949,
	"learning_rate": 9.14336291361309e-06,
	"loss": 0.0213,
	"num_tokens": 63414690.0,
	"step": 139
	},
	{
	"epoch": 1.1384928716904277,
	"grad_norm": 0.2187838784331104,
	"learning_rate": 9.129390288952273e-06,
	"loss": 0.0228,
	"num_tokens": 63863726.0,
	"step": 140
	},
	{
	"epoch": 1.1466395112016294,
	"grad_norm": 0.19858994365963545,
	"learning_rate": 9.115316822653043e-06,
	"loss": 0.0203,
	"num_tokens": 64339457.0,
	"step": 141
	},
	{
	"epoch": 1.154786150712831,
	"grad_norm": 0.2091640165384244,
	"learning_rate": 9.101142905742898e-06,
	"loss": 0.0224,
	"num_tokens": 64797748.0,
	"step": 142
	},
	{
	"epoch": 1.1629327902240325,
	"grad_norm": 0.21848028557367125,
	"learning_rate": 9.086868932040327e-06,
	"loss": 0.0237,
	"num_tokens": 65261816.0,
	"step": 143
	},
	{
	"epoch": 1.1710794297352343,
	"grad_norm": 0.21024580943693202,
	"learning_rate": 9.072495298143876e-06,
	"loss": 0.0222,
	"num_tokens": 65710096.0,
	"step": 144
	},
	{
	"epoch": 1.1792260692464358,
	"grad_norm": 0.21112539693299767,
	"learning_rate": 9.058022403421112e-06,
	"loss": 0.0234,
	"num_tokens": 66180522.0,
	"step": 145
	},
	{
	"epoch": 1.1873727087576376,
	"grad_norm": 0.20089428024021022,
	"learning_rate": 9.043450649997546e-06,
	"loss": 0.0221,
	"num_tokens": 66643220.0,
	"step": 146
	},
	{
	"epoch": 1.195519348268839,
	"grad_norm": 0.21269472349968574,
	"learning_rate": 9.028780442745452e-06,
	"loss": 0.0236,
	"num_tokens": 67103696.0,
	"step": 147
	},
	{
	"epoch": 1.2036659877800409,
	"grad_norm": 0.19919608780198533,
	"learning_rate": 9.014012189272612e-06,
	"loss": 0.0215,
	"num_tokens": 67578752.0,
	"step": 148
	},
	{
	"epoch": 1.2118126272912424,
	"grad_norm": 0.19516667942695456,
	"learning_rate": 8.999146299911001e-06,
	"loss": 0.0226,
	"num_tokens": 68024730.0,
	"step": 149
	},
	{
	"epoch": 1.219959266802444,
	"grad_norm": 0.21431471881204775,
	"learning_rate": 8.984183187705376e-06,
	"loss": 0.0237,
	"num_tokens": 68513599.0,
	"step": 150
	},
	{
	"epoch": 1.2281059063136457,
	"grad_norm": 0.19529826679401555,
	"learning_rate": 8.969123268401807e-06,
	"loss": 0.0207,
	"num_tokens": 68988237.0,
	"step": 151
	},
	{
	"epoch": 1.2362525458248472,
	"grad_norm": 0.2014146714986417,
	"learning_rate": 8.953966960436125e-06,
	"loss": 0.0231,
	"num_tokens": 69430574.0,
	"step": 152
	},
	{
	"epoch": 1.2443991853360488,
	"grad_norm": 0.21239498172005217,
	"learning_rate": 8.938714684922294e-06,
	"loss": 0.0233,
	"num_tokens": 69884264.0,
	"step": 153
	},
	{
	"epoch": 1.2525458248472505,
	"grad_norm": 0.213004792751643,
	"learning_rate": 8.923366865640708e-06,
	"loss": 0.0237,
	"num_tokens": 70361322.0,
	"step": 154
	},
	{
	"epoch": 1.260692464358452,
	"grad_norm": 0.21940926870270266,
	"learning_rate": 8.90792392902642e-06,
	"loss": 0.0224,
	"num_tokens": 70825081.0,
	"step": 155
	},
	{
	"epoch": 1.2688391038696538,
	"grad_norm": 0.21496750501528322,
	"learning_rate": 8.892386304157297e-06,
	"loss": 0.0221,
	"num_tokens": 71283936.0,
	"step": 156
	},
	{
	"epoch": 1.2769857433808554,
	"grad_norm": 0.21230254367904663,
	"learning_rate": 8.876754422742084e-06,
	"loss": 0.0246,
	"num_tokens": 71732305.0,
	"step": 157
	},
	{
	"epoch": 1.2851323828920571,
	"grad_norm": 0.2188832765541447,
	"learning_rate": 8.861028719108431e-06,
	"loss": 0.0224,
	"num_tokens": 72199220.0,
	"step": 158
	},
	{
	"epoch": 1.2932790224032586,
	"grad_norm": 0.215744449219536,
	"learning_rate": 8.845209630190804e-06,
	"loss": 0.0232,
	"num_tokens": 72686777.0,
	"step": 159
	},
	{
	"epoch": 1.3014256619144602,
	"grad_norm": 0.2027419921199597,
	"learning_rate": 8.829297595518357e-06,
	"loss": 0.0217,
	"num_tokens": 73141281.0,
	"step": 160
	},
	{
	"epoch": 1.309572301425662,
	"grad_norm": 0.1999503892860215,
	"learning_rate": 8.81329305720272e-06,
	"loss": 0.0236,
	"num_tokens": 73601661.0,
	"step": 161
	},
	{
	"epoch": 1.3177189409368635,
	"grad_norm": 0.17428881801329021,
	"learning_rate": 8.797196459925707e-06,
	"loss": 0.0205,
	"num_tokens": 74058631.0,
	"step": 162
	},
	{
	"epoch": 1.3258655804480652,
	"grad_norm": 0.18566703149612335,
	"learning_rate": 8.78100825092697e-06,
	"loss": 0.0218,
	"num_tokens": 74506287.0,
	"step": 163
	},
	{
	"epoch": 1.3340122199592668,
	"grad_norm": 0.21095321978269194,
	"learning_rate": 8.764728879991563e-06,
	"loss": 0.0233,
	"num_tokens": 74961649.0,
	"step": 164
	},
	{
	"epoch": 1.3421588594704685,
	"grad_norm": 0.19297708933381486,
	"learning_rate": 8.748358799437454e-06,
	"loss": 0.0218,
	"num_tokens": 75451492.0,
	"step": 165
	},
	{
	"epoch": 1.35030549898167,
	"grad_norm": 0.21567434563638074,
	"learning_rate": 8.731898464102955e-06,
	"loss": 0.0233,
	"num_tokens": 75906898.0,
	"step": 166
	},
	{
	"epoch": 1.3584521384928716,
	"grad_norm": 0.20493170237350014,
	"learning_rate": 8.715348331334079e-06,
	"loss": 0.0225,
	"num_tokens": 76352518.0,
	"step": 167
	},
	{
	"epoch": 1.3665987780040734,
	"grad_norm": 0.20033609244286213,
	"learning_rate": 8.698708860971837e-06,
	"loss": 0.0217,
	"num_tokens": 76833416.0,
	"step": 168
	},
	{
	"epoch": 1.374745417515275,
	"grad_norm": 0.19488013729722037,
	"learning_rate": 8.681980515339464e-06,
	"loss": 0.0228,
	"num_tokens": 77274089.0,
	"step": 169
	},
	{
	"epoch": 1.3828920570264764,
	"grad_norm": 0.23159956916525645,
	"learning_rate": 8.66516375922957e-06,
	"loss": 0.026,
	"num_tokens": 77722945.0,
	"step": 170
	},
	{
	"epoch": 1.3910386965376782,
	"grad_norm": 0.20950731710653633,
	"learning_rate": 8.648259059891222e-06,
	"loss": 0.0238,
	"num_tokens": 78165800.0,
	"step": 171
	},
	{
	"epoch": 1.39918533604888,
	"grad_norm": 0.20384280771126798,
	"learning_rate": 8.631266887016973e-06,
	"loss": 0.0234,
	"num_tokens": 78606210.0,
	"step": 172
	},
	{
	"epoch": 1.4073319755600815,
	"grad_norm": 0.2174107340618266,
	"learning_rate": 8.614187712729801e-06,
	"loss": 0.025,
	"num_tokens": 79049600.0,
	"step": 173
	},
	{
	"epoch": 1.415478615071283,
	"grad_norm": 0.21419711356536544,
	"learning_rate": 8.597022011569993e-06,
	"loss": 0.0236,
	"num_tokens": 79519022.0,
	"step": 174
	},
	{
	"epoch": 1.4236252545824848,
	"grad_norm": 0.19839711735747953,
	"learning_rate": 8.579770260481967e-06,
	"loss": 0.0233,
	"num_tokens": 79988589.0,
	"step": 175
	},
	{
	"epoch": 1.4317718940936863,
	"grad_norm": 0.20080459279151233,
	"learning_rate": 8.56243293880101e-06,
	"loss": 0.0222,
	"num_tokens": 80468185.0,
	"step": 176
	},
	{
	"epoch": 1.4399185336048879,
	"grad_norm": 0.1934313717220866,
	"learning_rate": 8.545010528239969e-06,
	"loss": 0.0236,
	"num_tokens": 80915153.0,
	"step": 177
	},
	{
	"epoch": 1.4480651731160896,
	"grad_norm": 0.20353533737845392,
	"learning_rate": 8.527503512875862e-06,
	"loss": 0.023,
	"num_tokens": 81406072.0,
	"step": 178
	},
	{
	"epoch": 1.4562118126272914,
	"grad_norm": 0.1913760568401795,
	"learning_rate": 8.509912379136429e-06,
	"loss": 0.0213,
	"num_tokens": 81861174.0,
	"step": 179
	},
	{
	"epoch": 1.464358452138493,
	"grad_norm": 0.18760725003184955,
	"learning_rate": 8.492237615786613e-06,
	"loss": 0.0232,
	"num_tokens": 82291515.0,
	"step": 180
	},
	{
	"epoch": 1.4725050916496945,
	"grad_norm": 0.2073497810013695,
	"learning_rate": 8.474479713914985e-06,
	"loss": 0.0241,
	"num_tokens": 82746207.0,
	"step": 181
	},
	{
	"epoch": 1.4806517311608962,
	"grad_norm": 0.20252547578412558,
	"learning_rate": 8.456639166920104e-06,
	"loss": 0.023,
	"num_tokens": 83217896.0,
	"step": 182
	},
	{
	"epoch": 1.4887983706720977,
	"grad_norm": 0.19100843841767107,
	"learning_rate": 8.438716470496793e-06,
	"loss": 0.0234,
	"num_tokens": 83673415.0,
	"step": 183
	},
	{
	"epoch": 1.4969450101832993,
	"grad_norm": 0.18768759409970084,
	"learning_rate": 8.42071212262238e-06,
	"loss": 0.0217,
	"num_tokens": 84165622.0,
	"step": 184
	},
	{
	"epoch": 1.505091649694501,
	"grad_norm": 0.21146877851004245,
	"learning_rate": 8.402626623542853e-06,
	"loss": 0.0236,
	"num_tokens": 84623691.0,
	"step": 185
	},
	{
	"epoch": 1.5132382892057028,
	"grad_norm": 0.209209778931465,
	"learning_rate": 8.384460475758967e-06,
	"loss": 0.0244,
	"num_tokens": 85066604.0,
	"step": 186
	},
	{
	"epoch": 1.5213849287169041,
	"grad_norm": 0.20794230796465518,
	"learning_rate": 8.36621418401228e-06,
	"loss": 0.0245,
	"num_tokens": 85500800.0,
	"step": 187
	},
	{
	"epoch": 1.5295315682281059,
	"grad_norm": 0.19401787928805586,
	"learning_rate": 8.347888255271126e-06,
	"loss": 0.0227,
	"num_tokens": 85950718.0,
	"step": 188
	},
	{
	"epoch": 1.5376782077393076,
	"grad_norm": 0.19358587269712685,
	"learning_rate": 8.329483198716536e-06,
	"loss": 0.0216,
	"num_tokens": 86425214.0,
	"step": 189
	},
	{
	"epoch": 1.5458248472505092,
	"grad_norm": 0.19988901116993596,
	"learning_rate": 8.310999525728083e-06,
	"loss": 0.0237,
	"num_tokens": 86872612.0,
	"step": 190
	},
	{
	"epoch": 1.5539714867617107,
	"grad_norm": 0.21347868715899784,
	"learning_rate": 8.292437749869676e-06,
	"loss": 0.0237,
	"num_tokens": 87321247.0,
	"step": 191
	},
	{
	"epoch": 1.5621181262729125,
	"grad_norm": 0.21370368402938023,
	"learning_rate": 8.273798386875292e-06,
	"loss": 0.0247,
	"num_tokens": 87762936.0,
	"step": 192
	},
	{
	"epoch": 1.570264765784114,
	"grad_norm": 0.20394116229065584,
	"learning_rate": 8.255081954634646e-06,
	"loss": 0.0224,
	"num_tokens": 88233384.0,
	"step": 193
	},
	{
	"epoch": 1.5784114052953155,
	"grad_norm": 0.21271701085924696,
	"learning_rate": 8.236288973178806e-06,
	"loss": 0.024,
	"num_tokens": 88702888.0,
	"step": 194
	},
	{
	"epoch": 1.5865580448065173,
	"grad_norm": 0.20525261813526166,
	"learning_rate": 8.217419964665728e-06,
	"loss": 0.0228,
	"num_tokens": 89157902.0,
	"step": 195
	},
	{
	"epoch": 1.594704684317719,
	"grad_norm": 0.20518578666067122,
	"learning_rate": 8.198475453365772e-06,
	"loss": 0.0239,
	"num_tokens": 89596892.0,
	"step": 196
	},
	{
	"epoch": 1.6028513238289206,
	"grad_norm": 0.20424504177429212,
	"learning_rate": 8.179455965647117e-06,
	"loss": 0.024,
	"num_tokens": 90043689.0,
	"step": 197
	},
	{
	"epoch": 1.6109979633401221,
	"grad_norm": 0.21550795243608867,
	"learning_rate": 8.16036202996114e-06,
	"loss": 0.0255,
	"num_tokens": 90493255.0,
	"step": 198
	},
	{
	"epoch": 1.6191446028513239,
	"grad_norm": 0.21505565048112654,
	"learning_rate": 8.141194176827738e-06,
	"loss": 0.0246,
	"num_tokens": 90933700.0,
	"step": 199
	},
	{
	"epoch": 1.6272912423625254,
	"grad_norm": 0.18057787414765422,
	"learning_rate": 8.12195293882058e-06,
	"loss": 0.0205,
	"num_tokens": 91402906.0,
	"step": 200
	},
	{
	"epoch": 1.635437881873727,
	"grad_norm": 0.2128757560225609,
	"learning_rate": 8.102638850552323e-06,
	"loss": 0.0236,
	"num_tokens": 91854715.0,
	"step": 201
	},
	{
	"epoch": 1.6435845213849287,
	"grad_norm": 0.1977918829414763,
	"learning_rate": 8.083252448659742e-06,
	"loss": 0.022,
	"num_tokens": 92317914.0,
	"step": 202
	},
	{
	"epoch": 1.6517311608961305,
	"grad_norm": 0.22533293918121253,
	"learning_rate": 8.063794271788826e-06,
	"loss": 0.0256,
	"num_tokens": 92775730.0,
	"step": 203
	},
	{
	"epoch": 1.659877800407332,
	"grad_norm": 0.21714220334981602,
	"learning_rate": 8.044264860579816e-06,
	"loss": 0.0255,
	"num_tokens": 93222261.0,
	"step": 204
	},
	{
	"epoch": 1.6680244399185336,
	"grad_norm": 0.2061132581627763,
	"learning_rate": 8.02466475765218e-06,
	"loss": 0.0229,
	"num_tokens": 93713195.0,
	"step": 205
	},
	{
	"epoch": 1.6761710794297353,
	"grad_norm": 0.21189634915409705,
	"learning_rate": 8.004994507589532e-06,
	"loss": 0.0244,
	"num_tokens": 94167787.0,
	"step": 206
	},
	{
	"epoch": 1.6843177189409368,
	"grad_norm": 0.2049250916068622,
	"learning_rate": 7.985254656924512e-06,
	"loss": 0.0227,
	"num_tokens": 94634140.0,
	"step": 207
	},
	{
	"epoch": 1.6924643584521384,
	"grad_norm": 0.21854416704059987,
	"learning_rate": 7.965445754123592e-06,
	"loss": 0.0252,
	"num_tokens": 95093967.0,
	"step": 208
	},
	{
	"epoch": 1.7006109979633401,
	"grad_norm": 0.20098034036974133,
	"learning_rate": 7.945568349571834e-06,
	"loss": 0.0233,
	"num_tokens": 95578447.0,
	"step": 209
	},
	{
	"epoch": 1.708757637474542,
	"grad_norm": 0.19707920391781453,
	"learning_rate": 7.925622995557609e-06,
	"loss": 0.0234,
	"num_tokens": 96028708.0,
	"step": 210
	},
	{
	"epoch": 1.7169042769857432,
	"grad_norm": 0.183646916505621,
	"learning_rate": 7.905610246257243e-06,
	"loss": 0.0219,
	"num_tokens": 96490579.0,
	"step": 211
	},
	{
	"epoch": 1.725050916496945,
	"grad_norm": 0.21800938479643353,
	"learning_rate": 7.885530657719623e-06,
	"loss": 0.0245,
	"num_tokens": 96939215.0,
	"step": 212
	},
	{
	"epoch": 1.7331975560081467,
	"grad_norm": 0.17805921063304794,
	"learning_rate": 7.865384787850742e-06,
	"loss": 0.0207,
	"num_tokens": 97416826.0,
	"step": 213
	},
	{
	"epoch": 1.7413441955193483,
	"grad_norm": 0.20335070394293855,
	"learning_rate": 7.845173196398213e-06,
	"loss": 0.023,
	"num_tokens": 97870409.0,
	"step": 214
	},
	{
	"epoch": 1.7494908350305498,
	"grad_norm": 0.2014363721260783,
	"learning_rate": 7.824896444935692e-06,
	"loss": 0.023,
	"num_tokens": 98303923.0,
	"step": 215
	},
	{
	"epoch": 1.7576374745417516,
	"grad_norm": 0.19767917831916373,
	"learning_rate": 7.804555096847298e-06,
	"loss": 0.0206,
	"num_tokens": 98792735.0,
	"step": 216
	},
	{
	"epoch": 1.765784114052953,
	"grad_norm": 0.18927709030960627,
	"learning_rate": 7.784149717311947e-06,
	"loss": 0.0228,
	"num_tokens": 99283099.0,
	"step": 217
	},
	{
	"epoch": 1.7739307535641546,
	"grad_norm": 0.19540533688345146,
	"learning_rate": 7.763680873287648e-06,
	"loss": 0.0224,
	"num_tokens": 99728623.0,
	"step": 218
	},
	{
	"epoch": 1.7820773930753564,
	"grad_norm": 0.2021434762578394,
	"learning_rate": 7.743149133495763e-06,
	"loss": 0.0226,
	"num_tokens": 100217105.0,
	"step": 219
	},
	{
	"epoch": 1.7902240325865582,
	"grad_norm": 0.20319556075451253,
	"learning_rate": 7.722555068405186e-06,
	"loss": 0.024,
	"num_tokens": 100658986.0,
	"step": 220
	},
	{
	"epoch": 1.7983706720977597,
	"grad_norm": 0.2037408366987311,
	"learning_rate": 7.70189925021651e-06,
	"loss": 0.0243,
	"num_tokens": 101137134.0,
	"step": 221
	},
	{
	"epoch": 1.8065173116089612,
	"grad_norm": 0.21058268386430223,
	"learning_rate": 7.681182252846115e-06,
	"loss": 0.0241,
	"num_tokens": 101594654.0,
	"step": 222
	},
	{
	"epoch": 1.814663951120163,
	"grad_norm": 0.20499883443387898,
	"learning_rate": 7.660404651910236e-06,
	"loss": 0.0263,
	"num_tokens": 102027887.0,
	"step": 223
	},
	{
	"epoch": 1.8228105906313645,
	"grad_norm": 0.2084551925346071,
	"learning_rate": 7.639567024708953e-06,
	"loss": 0.0234,
	"num_tokens": 102479243.0,
	"step": 224
	},
	{
	"epoch": 1.830957230142566,
	"grad_norm": 0.21438521035457928,
	"learning_rate": 7.6186699502101676e-06,
	"loss": 0.0226,
	"num_tokens": 102944020.0,
	"step": 225
	},
	{
	"epoch": 1.8391038696537678,
	"grad_norm": 0.20743883238353383,
	"learning_rate": 7.597714009033505e-06,
	"loss": 0.0243,
	"num_tokens": 103377204.0,
	"step": 226
	},
	{
	"epoch": 1.8472505091649696,
	"grad_norm": 0.19590114337198036,
	"learning_rate": 7.5766997834341836e-06,
	"loss": 0.0229,
	"num_tokens": 103836520.0,
	"step": 227
	},
	{
	"epoch": 1.8553971486761711,
	"grad_norm": 0.2072497473244054,
	"learning_rate": 7.555627857286843e-06,
	"loss": 0.0247,
	"num_tokens": 104285481.0,
	"step": 228
	},
	{
	"epoch": 1.8635437881873727,
	"grad_norm": 0.18899125629327573,
	"learning_rate": 7.534498816069315e-06,
	"loss": 0.0213,
	"num_tokens": 104746152.0,
	"step": 229
	},
	{
	"epoch": 1.8716904276985744,
	"grad_norm": 0.21687392806104466,
	"learning_rate": 7.513313246846357e-06,
	"loss": 0.0232,
	"num_tokens": 105207211.0,
	"step": 230
	},
	{
	"epoch": 1.879837067209776,
	"grad_norm": 0.20114168053955322,
	"learning_rate": 7.492071738253343e-06,
	"loss": 0.0243,
	"num_tokens": 105657445.0,
	"step": 231
	},
	{
	"epoch": 1.8879837067209775,
	"grad_norm": 0.31880562870408674,
	"learning_rate": 7.470774880479909e-06,
	"loss": 0.0216,
	"num_tokens": 106145000.0,
	"step": 232
	},
	{
	"epoch": 1.8961303462321792,
	"grad_norm": 0.17709039062644658,
	"learning_rate": 7.449423265253551e-06,
	"loss": 0.0195,
	"num_tokens": 106619177.0,
	"step": 233
	},
	{
	"epoch": 1.904276985743381,
	"grad_norm": 0.1941234160393901,
	"learning_rate": 7.428017485823189e-06,
	"loss": 0.0221,
	"num_tokens": 107100389.0,
	"step": 234
	},
	{
	"epoch": 1.9124236252545825,
	"grad_norm": 0.21047496416728861,
	"learning_rate": 7.406558136942677e-06,
	"loss": 0.0253,
	"num_tokens": 107531535.0,
	"step": 235
	},
	{
	"epoch": 1.920570264765784,
	"grad_norm": 0.1811130030622756,
	"learning_rate": 7.3850458148542835e-06,
	"loss": 0.0218,
	"num_tokens": 108000369.0,
	"step": 236
	},
	{
	"epoch": 1.9287169042769858,
	"grad_norm": 0.18791035767087905,
	"learning_rate": 7.363481117272125e-06,
	"loss": 0.0217,
	"num_tokens": 108465611.0,
	"step": 237
	},
	{
	"epoch": 1.9368635437881874,
	"grad_norm": 0.174382304685201,
	"learning_rate": 7.341864643365557e-06,
	"loss": 0.0214,
	"num_tokens": 108923767.0,
	"step": 238
	},
	{
	"epoch": 1.945010183299389,
	"grad_norm": 0.1996921946422325,
	"learning_rate": 7.320196993742522e-06,
	"loss": 0.023,
	"num_tokens": 109367680.0,
	"step": 239
	},
	{
	"epoch": 1.9531568228105907,
	"grad_norm": 0.21146568012414002,
	"learning_rate": 7.29847877043287e-06,
	"loss": 0.0231,
	"num_tokens": 109818455.0,
	"step": 240
	},
	{
	"epoch": 1.9613034623217924,
	"grad_norm": 0.20624057045002148,
	"learning_rate": 7.2767105768716295e-06,
	"loss": 0.024,
	"num_tokens": 110268348.0,
	"step": 241
	},
	{
	"epoch": 1.9694501018329937,
	"grad_norm": 0.17960428006685406,
	"learning_rate": 7.254893017882233e-06,
	"loss": 0.0222,
	"num_tokens": 110696800.0,
	"step": 242
	},
	{
	"epoch": 1.9775967413441955,
	"grad_norm": 0.18718314902352962,
	"learning_rate": 7.233026699659723e-06,
	"loss": 0.0226,
	"num_tokens": 111154475.0,
	"step": 243
	},
	{
	"epoch": 1.9857433808553973,
	"grad_norm": 0.18787650373147796,
	"learning_rate": 7.211112229753901e-06,
	"loss": 0.0213,
	"num_tokens": 111620815.0,
	"step": 244
	},
	{
	"epoch": 1.9938900203665988,
	"grad_norm": 0.19693361518983973,
	"learning_rate": 7.189150217052455e-06,
	"loss": 0.0216,
	"num_tokens": 112092986.0,
	"step": 245
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.2093105825813619,
	"learning_rate": 7.1671412717640295e-06,
	"loss": 0.0201,
	"num_tokens": 112131036.0,
	"step": 246
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.04159076511859894,
	"eval_num_tokens": 112131036.0,
	"eval_runtime": 57.7607,
	"eval_samples_per_second": 42.226,
	"eval_steps_per_second": 5.28,
	"step": 246
	},
	{
	"epoch": 2.0081466395112018,
	"grad_norm": 0.12416538079579213,
	"learning_rate": 7.145086005401287e-06,
	"loss": 0.0126,
	"num_tokens": 112602682.0,
	"step": 247
	},
	{
	"epoch": 2.016293279022403,
	"grad_norm": 0.15057303383190754,
	"learning_rate": 7.122985030763901e-06,
	"loss": 0.0145,
	"num_tokens": 113073432.0,
	"step": 248
	},
	{
	"epoch": 2.024439918533605,
	"grad_norm": 0.14759632900226355,
	"learning_rate": 7.10083896192154e-06,
	"loss": 0.0124,
	"num_tokens": 113577827.0,
	"step": 249
	},
	{
	"epoch": 2.0325865580448066,
	"grad_norm": 0.14133368502923574,
	"learning_rate": 7.078648414196805e-06,
	"loss": 0.0128,
	"num_tokens": 114048831.0,
	"step": 250
	},
	{
	"epoch": 2.0407331975560083,
	"grad_norm": 0.15715348160815634,
	"learning_rate": 7.056414004148128e-06,
	"loss": 0.0136,
	"num_tokens": 114548364.0,
	"step": 251
	},
	{
	"epoch": 2.0488798370672097,
	"grad_norm": 0.17716027065421572,
	"learning_rate": 7.034136349552647e-06,
	"loss": 0.016,
	"num_tokens": 114999500.0,
	"step": 252
	},
	{
	"epoch": 2.0570264765784114,
	"grad_norm": 0.1589991111261928,
	"learning_rate": 7.011816069389034e-06,
	"loss": 0.0145,
	"num_tokens": 115456071.0,
	"step": 253
	},
	{
	"epoch": 2.065173116089613,
	"grad_norm": 0.1543372807006171,
	"learning_rate": 6.989453783820304e-06,
	"loss": 0.0134,
	"num_tokens": 115926758.0,
	"step": 254
	},
	{
	"epoch": 2.0733197556008145,
	"grad_norm": 0.1691364992847739,
	"learning_rate": 6.9670501141765825e-06,
	"loss": 0.014,
	"num_tokens": 116385952.0,
	"step": 255
	},
	{
	"epoch": 2.0814663951120163,
	"grad_norm": 0.16602983431455004,
	"learning_rate": 6.944605682937834e-06,
	"loss": 0.0137,
	"num_tokens": 116820035.0,
	"step": 256
	},
	{
	"epoch": 2.089613034623218,
	"grad_norm": 0.18962015294617535,
	"learning_rate": 6.92212111371658e-06,
	"loss": 0.0143,
	"num_tokens": 117297850.0,
	"step": 257
	},
	{
	"epoch": 2.0977596741344193,
	"grad_norm": 0.17122221487492462,
	"learning_rate": 6.8995970312405615e-06,
	"loss": 0.0126,
	"num_tokens": 117759960.0,
	"step": 258
	},
	{
	"epoch": 2.105906313645621,
	"grad_norm": 0.17247701616442646,
	"learning_rate": 6.877034061335384e-06,
	"loss": 0.0139,
	"num_tokens": 118229929.0,
	"step": 259
	},
	{
	"epoch": 2.114052953156823,
	"grad_norm": 0.18706937438179935,
	"learning_rate": 6.854432830907135e-06,
	"loss": 0.0151,
	"num_tokens": 118689637.0,
	"step": 260
	},
	{
	"epoch": 2.1221995926680246,
	"grad_norm": 0.1756410658036281,
	"learning_rate": 6.831793967924953e-06,
	"loss": 0.0136,
	"num_tokens": 119159530.0,
	"step": 261
	},
	{
	"epoch": 2.130346232179226,
	"grad_norm": 0.17325809294266983,
	"learning_rate": 6.8091181014035935e-06,
	"loss": 0.014,
	"num_tokens": 119598302.0,
	"step": 262
	},
	{
	"epoch": 2.1384928716904277,
	"grad_norm": 0.1831164025049776,
	"learning_rate": 6.7864058613859395e-06,
	"loss": 0.0138,
	"num_tokens": 120108425.0,
	"step": 263
	},
	{
	"epoch": 2.1466395112016294,
	"grad_norm": 0.18048260933108903,
	"learning_rate": 6.763657878925508e-06,
	"loss": 0.015,
	"num_tokens": 120578186.0,
	"step": 264
	},
	{
	"epoch": 2.1547861507128308,
	"grad_norm": 0.16327229194519086,
	"learning_rate": 6.740874786068906e-06,
	"loss": 0.0126,
	"num_tokens": 121055989.0,
	"step": 265
	},
	{
	"epoch": 2.1629327902240325,
	"grad_norm": 0.16958620370157418,
	"learning_rate": 6.718057215838274e-06,
	"loss": 0.0144,
	"num_tokens": 121502528.0,
	"step": 266
	},
	{
	"epoch": 2.1710794297352343,
	"grad_norm": 0.1792898292473741,
	"learning_rate": 6.695205802213699e-06,
	"loss": 0.0136,
	"num_tokens": 121956627.0,
	"step": 267
	},
	{
	"epoch": 2.179226069246436,
	"grad_norm": 0.15481947737459167,
	"learning_rate": 6.672321180115595e-06,
	"loss": 0.0125,
	"num_tokens": 122426773.0,
	"step": 268
	},
	{
	"epoch": 2.1873727087576373,
	"grad_norm": 0.16707758315087737,
	"learning_rate": 6.6494039853870676e-06,
	"loss": 0.0132,
	"num_tokens": 122875336.0,
	"step": 269
	},
	{
	"epoch": 2.195519348268839,
	"grad_norm": 0.16476693800658634,
	"learning_rate": 6.6264548547762395e-06,
	"loss": 0.0138,
	"num_tokens": 123320079.0,
	"step": 270
	},
	{
	"epoch": 2.203665987780041,
	"grad_norm": 0.16291392396662507,
	"learning_rate": 6.603474425918573e-06,
	"loss": 0.0136,
	"num_tokens": 123791870.0,
	"step": 271
	},
	{
	"epoch": 2.211812627291242,
	"grad_norm": 0.1703687751088918,
	"learning_rate": 6.580463337319128e-06,
	"loss": 0.0133,
	"num_tokens": 124260736.0,
	"step": 272
	},
	{
	"epoch": 2.219959266802444,
	"grad_norm": 0.17901374374090187,
	"learning_rate": 6.557422228334852e-06,
	"loss": 0.0159,
	"num_tokens": 124681807.0,
	"step": 273
	},
	{
	"epoch": 2.2281059063136457,
	"grad_norm": 0.16798711219930113,
	"learning_rate": 6.534351739156797e-06,
	"loss": 0.0142,
	"num_tokens": 125127429.0,
	"step": 274
	},
	{
	"epoch": 2.2362525458248474,
	"grad_norm": 0.16305596345258705,
	"learning_rate": 6.5112525107923296e-06,
	"loss": 0.0135,
	"num_tokens": 125567336.0,
	"step": 275
	},
	{
	"epoch": 2.2443991853360488,
	"grad_norm": 0.17643316822000632,
	"learning_rate": 6.488125185047334e-06,
	"loss": 0.0147,
	"num_tokens": 126021900.0,
	"step": 276
	},
	{
	"epoch": 2.2525458248472505,
	"grad_norm": 0.167997975045288,
	"learning_rate": 6.464970404508369e-06,
	"loss": 0.0139,
	"num_tokens": 126491133.0,
	"step": 277
	},
	{
	"epoch": 2.2606924643584523,
	"grad_norm": 0.1808990629197575,
	"learning_rate": 6.4417888125248195e-06,
	"loss": 0.0153,
	"num_tokens": 126949660.0,
	"step": 278
	},
	{
	"epoch": 2.2688391038696536,
	"grad_norm": 0.18179273918150798,
	"learning_rate": 6.418581053191017e-06,
	"loss": 0.0155,
	"num_tokens": 127395046.0,
	"step": 279
	},
	{
	"epoch": 2.2769857433808554,
	"grad_norm": 0.16186916571289603,
	"learning_rate": 6.39534777132835e-06,
	"loss": 0.0141,
	"num_tokens": 127879266.0,
	"step": 280
	},
	{
	"epoch": 2.285132382892057,
	"grad_norm": 0.1687611769820901,
	"learning_rate": 6.3720896124673356e-06,
	"loss": 0.0142,
	"num_tokens": 128345971.0,
	"step": 281
	},
	{
	"epoch": 2.293279022403259,
	"grad_norm": 0.18415607421229815,
	"learning_rate": 6.348807222829704e-06,
	"loss": 0.0155,
	"num_tokens": 128804402.0,
	"step": 282
	},
	{
	"epoch": 2.30142566191446,
	"grad_norm": 0.16514691991418554,
	"learning_rate": 6.325501249310416e-06,
	"loss": 0.0146,
	"num_tokens": 129261613.0,
	"step": 283
	},
	{
	"epoch": 2.309572301425662,
	"grad_norm": 0.16769380960540944,
	"learning_rate": 6.302172339459717e-06,
	"loss": 0.0136,
	"num_tokens": 129748258.0,
	"step": 284
	},
	{
	"epoch": 2.3177189409368637,
	"grad_norm": 0.17542238238137692,
	"learning_rate": 6.278821141465126e-06,
	"loss": 0.0147,
	"num_tokens": 130203139.0,
	"step": 285
	},
	{
	"epoch": 2.325865580448065,
	"grad_norm": 0.1703028823912319,
	"learning_rate": 6.255448304133435e-06,
	"loss": 0.0144,
	"num_tokens": 130680052.0,
	"step": 286
	},
	{
	"epoch": 2.3340122199592668,
	"grad_norm": 0.15875518919149162,
	"learning_rate": 6.232054476872674e-06,
	"loss": 0.013,
	"num_tokens": 131145142.0,
	"step": 287
	},
	{
	"epoch": 2.3421588594704685,
	"grad_norm": 0.1559999046320083,
	"learning_rate": 6.208640309674081e-06,
	"loss": 0.0138,
	"num_tokens": 131606714.0,
	"step": 288
	},
	{
	"epoch": 2.35030549898167,
	"grad_norm": 0.16638792870478772,
	"learning_rate": 6.185206453094026e-06,
	"loss": 0.0133,
	"num_tokens": 132070874.0,
	"step": 289
	},
	{
	"epoch": 2.3584521384928716,
	"grad_norm": 0.16556273278032177,
	"learning_rate": 6.161753558235945e-06,
	"loss": 0.0144,
	"num_tokens": 132523899.0,
	"step": 290
	},
	{
	"epoch": 2.3665987780040734,
	"grad_norm": 0.1627153835397699,
	"learning_rate": 6.138282276732251e-06,
	"loss": 0.0141,
	"num_tokens": 132984150.0,
	"step": 291
	},
	{
	"epoch": 2.374745417515275,
	"grad_norm": 0.17420180567604815,
	"learning_rate": 6.1147932607262215e-06,
	"loss": 0.0153,
	"num_tokens": 133423004.0,
	"step": 292
	},
	{
	"epoch": 2.3828920570264764,
	"grad_norm": 0.1715872000392912,
	"learning_rate": 6.091287162853883e-06,
	"loss": 0.0143,
	"num_tokens": 133885515.0,
	"step": 293
	},
	{
	"epoch": 2.391038696537678,
	"grad_norm": 0.15875189010502294,
	"learning_rate": 6.067764636225881e-06,
	"loss": 0.0144,
	"num_tokens": 134334800.0,
	"step": 294
	},
	{
	"epoch": 2.39918533604888,
	"grad_norm": 0.14222500494759646,
	"learning_rate": 6.0442263344093224e-06,
	"loss": 0.0128,
	"num_tokens": 134794203.0,
	"step": 295
	},
	{
	"epoch": 2.4073319755600817,
	"grad_norm": 0.16587875726539164,
	"learning_rate": 6.020672911409626e-06,
	"loss": 0.014,
	"num_tokens": 135246488.0,
	"step": 296
	},
	{
	"epoch": 2.415478615071283,
	"grad_norm": 0.16945883731715217,
	"learning_rate": 5.997105021652355e-06,
	"loss": 0.0142,
	"num_tokens": 135734483.0,
	"step": 297
	},
	{
	"epoch": 2.423625254582485,
	"grad_norm": 0.17856893575225632,
	"learning_rate": 5.97352331996502e-06,
	"loss": 0.0149,
	"num_tokens": 136180989.0,
	"step": 298
	},
	{
	"epoch": 2.4317718940936865,
	"grad_norm": 0.16901738376392064,
	"learning_rate": 5.949928461558894e-06,
	"loss": 0.0145,
	"num_tokens": 136633463.0,
	"step": 299
	},
	{
	"epoch": 2.439918533604888,
	"grad_norm": 0.19440740998217734,
	"learning_rate": 5.926321102010808e-06,
	"loss": 0.0153,
	"num_tokens": 137065466.0,
	"step": 300
	},
	{
	"epoch": 2.4480651731160896,
	"grad_norm": 0.17396280168075312,
	"learning_rate": 5.902701897244932e-06,
	"loss": 0.014,
	"num_tokens": 137519052.0,
	"step": 301
	},
	{
	"epoch": 2.4562118126272914,
	"grad_norm": 0.1962070967726784,
	"learning_rate": 5.879071503514555e-06,
	"loss": 0.0167,
	"num_tokens": 137969737.0,
	"step": 302
	},
	{
	"epoch": 2.4643584521384927,
	"grad_norm": 0.17287895679065615,
	"learning_rate": 5.855430577383842e-06,
	"loss": 0.0148,
	"num_tokens": 138433151.0,
	"step": 303
	},
	{
	"epoch": 2.4725050916496945,
	"grad_norm": 0.19400622443946244,
	"learning_rate": 5.831779775709606e-06,
	"loss": 0.0148,
	"num_tokens": 138875359.0,
	"step": 304
	},
	{
	"epoch": 2.480651731160896,
	"grad_norm": 0.16969104274852342,
	"learning_rate": 5.808119755623045e-06,
	"loss": 0.0141,
	"num_tokens": 139333435.0,
	"step": 305
	},
	{
	"epoch": 2.4887983706720975,
	"grad_norm": 0.17975044746142824,
	"learning_rate": 5.784451174511486e-06,
	"loss": 0.0155,
	"num_tokens": 139787251.0,
	"step": 306
	},
	{
	"epoch": 2.4969450101832993,
	"grad_norm": 0.18637909822915394,
	"learning_rate": 5.760774690000128e-06,
	"loss": 0.014,
	"num_tokens": 140263010.0,
	"step": 307
	},
	{
	"epoch": 2.505091649694501,
	"grad_norm": 0.1755752695664621,
	"learning_rate": 5.7370909599337585e-06,
	"loss": 0.0143,
	"num_tokens": 140730852.0,
	"step": 308
	},
	{
	"epoch": 2.513238289205703,
	"grad_norm": 0.17738520787824683,
	"learning_rate": 5.713400642358483e-06,
	"loss": 0.015,
	"num_tokens": 141160459.0,
	"step": 309
	},
	{
	"epoch": 2.521384928716904,
	"grad_norm": 0.17114933786372763,
	"learning_rate": 5.689704395503438e-06,
	"loss": 0.0137,
	"num_tokens": 141652980.0,
	"step": 310
	},
	{
	"epoch": 2.529531568228106,
	"grad_norm": 0.1702830061303869,
	"learning_rate": 5.666002877762506e-06,
	"loss": 0.0153,
	"num_tokens": 142092423.0,
	"step": 311
	},
	{
	"epoch": 2.5376782077393076,
	"grad_norm": 0.17360071510124675,
	"learning_rate": 5.642296747676016e-06,
	"loss": 0.0145,
	"num_tokens": 142533489.0,
	"step": 312
	},
	{
	"epoch": 2.5458248472505094,
	"grad_norm": 0.1607500590426996,
	"learning_rate": 5.618586663912452e-06,
	"loss": 0.0133,
	"num_tokens": 142991787.0,
	"step": 313
	},
	{
	"epoch": 2.5539714867617107,
	"grad_norm": 0.16048833714516317,
	"learning_rate": 5.594873285250151e-06,
	"loss": 0.0136,
	"num_tokens": 143468508.0,
	"step": 314
	},
	{
	"epoch": 2.5621181262729125,
	"grad_norm": 0.1838591156346174,
	"learning_rate": 5.571157270558995e-06,
	"loss": 0.0163,
	"num_tokens": 143916886.0,
	"step": 315
	},
	{
	"epoch": 2.5702647657841142,
	"grad_norm": 0.162005395980572,
	"learning_rate": 5.5474392787821096e-06,
	"loss": 0.0135,
	"num_tokens": 144388134.0,
	"step": 316
	},
	{
	"epoch": 2.5784114052953155,
	"grad_norm": 0.14863787001529957,
	"learning_rate": 5.52371996891755e-06,
	"loss": 0.0132,
	"num_tokens": 144871370.0,
	"step": 317
	},
	{
	"epoch": 2.5865580448065173,
	"grad_norm": 0.16754180761222826,
	"learning_rate": 5.500000000000001e-06,
	"loss": 0.0146,
	"num_tokens": 145320563.0,
	"step": 318
	},
	{
	"epoch": 2.594704684317719,
	"grad_norm": 0.18005757817722826,
	"learning_rate": 5.476280031082451e-06,
	"loss": 0.016,
	"num_tokens": 145758817.0,
	"step": 319
	},
	{
	"epoch": 2.6028513238289204,
	"grad_norm": 0.17034049730069928,
	"learning_rate": 5.452560721217892e-06,
	"loss": 0.0155,
	"num_tokens": 146189214.0,
	"step": 320
	},
	{
	"epoch": 2.610997963340122,
	"grad_norm": 0.15413011304140098,
	"learning_rate": 5.428842729441008e-06,
	"loss": 0.0144,
	"num_tokens": 146640888.0,
	"step": 321
	},
	{
	"epoch": 2.619144602851324,
	"grad_norm": 0.17242345415805765,
	"learning_rate": 5.405126714749852e-06,
	"loss": 0.0144,
	"num_tokens": 147089993.0,
	"step": 322
	},
	{
	"epoch": 2.627291242362525,
	"grad_norm": 0.15793761105384327,
	"learning_rate": 5.38141333608755e-06,
	"loss": 0.0137,
	"num_tokens": 147549085.0,
	"step": 323
	},
	{
	"epoch": 2.635437881873727,
	"grad_norm": 0.15260230173501832,
	"learning_rate": 5.357703252323985e-06,
	"loss": 0.0127,
	"num_tokens": 148018238.0,
	"step": 324
	},
	{
	"epoch": 2.6435845213849287,
	"grad_norm": 0.17616115019719872,
	"learning_rate": 5.333997122237497e-06,
	"loss": 0.0142,
	"num_tokens": 148467378.0,
	"step": 325
	},
	{
	"epoch": 2.6517311608961305,
	"grad_norm": 0.16869830739625263,
	"learning_rate": 5.310295604496563e-06,
	"loss": 0.0145,
	"num_tokens": 148924273.0,
	"step": 326
	},
	{
	"epoch": 2.6598778004073322,
	"grad_norm": 0.1516947132562575,
	"learning_rate": 5.286599357641519e-06,
	"loss": 0.0132,
	"num_tokens": 149394678.0,
	"step": 327
	},
	{
	"epoch": 2.6680244399185336,
	"grad_norm": 0.1644528806031863,
	"learning_rate": 5.262909040066243e-06,
	"loss": 0.0138,
	"num_tokens": 149841850.0,
	"step": 328
	},
	{
	"epoch": 2.6761710794297353,
	"grad_norm": 0.1958369178369615,
	"learning_rate": 5.239225309999875e-06,
	"loss": 0.0156,
	"num_tokens": 150282571.0,
	"step": 329
	},
	{
	"epoch": 2.684317718940937,
	"grad_norm": 0.18244134325631398,
	"learning_rate": 5.215548825488514e-06,
	"loss": 0.0148,
	"num_tokens": 150723879.0,
	"step": 330
	},
	{
	"epoch": 2.6924643584521384,
	"grad_norm": 0.16252807203895167,
	"learning_rate": 5.191880244376957e-06,
	"loss": 0.015,
	"num_tokens": 151164471.0,
	"step": 331
	},
	{
	"epoch": 2.70061099796334,
	"grad_norm": 0.16907582749071554,
	"learning_rate": 5.168220224290395e-06,
	"loss": 0.013,
	"num_tokens": 151627236.0,
	"step": 332
	},
	{
	"epoch": 2.708757637474542,
	"grad_norm": 0.1521247341456988,
	"learning_rate": 5.144569422616159e-06,
	"loss": 0.0128,
	"num_tokens": 152112152.0,
	"step": 333
	},
	{
	"epoch": 2.716904276985743,
	"grad_norm": 0.15854466142189536,
	"learning_rate": 5.120928496485448e-06,
	"loss": 0.013,
	"num_tokens": 152585932.0,
	"step": 334
	},
	{
	"epoch": 2.725050916496945,
	"grad_norm": 0.17382518355000084,
	"learning_rate": 5.097298102755069e-06,
	"loss": 0.0139,
	"num_tokens": 153055065.0,
	"step": 335
	},
	{
	"epoch": 2.7331975560081467,
	"grad_norm": 0.17769717946639274,
	"learning_rate": 5.073678897989194e-06,
	"loss": 0.0146,
	"num_tokens": 153518977.0,
	"step": 336
	},
	{
	"epoch": 2.741344195519348,
	"grad_norm": 0.16803081279999066,
	"learning_rate": 5.050071538441107e-06,
	"loss": 0.0138,
	"num_tokens": 153976769.0,
	"step": 337
	},
	{
	"epoch": 2.74949083503055,
	"grad_norm": 0.17280566271506004,
	"learning_rate": 5.026476680034983e-06,
	"loss": 0.0154,
	"num_tokens": 154408635.0,
	"step": 338
	},
	{
	"epoch": 2.7576374745417516,
	"grad_norm": 0.169314934778943,
	"learning_rate": 5.002894978347646e-06,
	"loss": 0.0145,
	"num_tokens": 154856201.0,
	"step": 339
	},
	{
	"epoch": 2.765784114052953,
	"grad_norm": 0.18005778973651862,
	"learning_rate": 4.979327088590375e-06,
	"loss": 0.0144,
	"num_tokens": 155310653.0,
	"step": 340
	},
	{
	"epoch": 2.7739307535641546,
	"grad_norm": 0.16841593789310932,
	"learning_rate": 4.95577366559068e-06,
	"loss": 0.0136,
	"num_tokens": 155788563.0,
	"step": 341
	},
	{
	"epoch": 2.7820773930753564,
	"grad_norm": 0.17699144806638442,
	"learning_rate": 4.932235363774121e-06,
	"loss": 0.015,
	"num_tokens": 156228468.0,
	"step": 342
	},
	{
	"epoch": 2.790224032586558,
	"grad_norm": 0.15791462498013234,
	"learning_rate": 4.908712837146118e-06,
	"loss": 0.014,
	"num_tokens": 156664176.0,
	"step": 343
	},
	{
	"epoch": 2.79837067209776,
	"grad_norm": 0.15227035101116576,
	"learning_rate": 4.88520673927378e-06,
	"loss": 0.0128,
	"num_tokens": 157134252.0,
	"step": 344
	},
	{
	"epoch": 2.8065173116089612,
	"grad_norm": 0.1594189404919013,
	"learning_rate": 4.861717723267752e-06,
	"loss": 0.0136,
	"num_tokens": 157599805.0,
	"step": 345
	},
	{
	"epoch": 2.814663951120163,
	"grad_norm": 0.15995395220658057,
	"learning_rate": 4.838246441764056e-06,
	"loss": 0.0134,
	"num_tokens": 158053673.0,
	"step": 346
	},
	{
	"epoch": 2.8228105906313647,
	"grad_norm": 0.18202172640131933,
	"learning_rate": 4.814793546905977e-06,
	"loss": 0.0157,
	"num_tokens": 158485241.0,
	"step": 347
	},
	{
	"epoch": 2.830957230142566,
	"grad_norm": 0.15339369785350124,
	"learning_rate": 4.791359690325921e-06,
	"loss": 0.0123,
	"num_tokens": 158947625.0,
	"step": 348
	},
	{
	"epoch": 2.839103869653768,
	"grad_norm": 0.16788836990713416,
	"learning_rate": 4.767945523127327e-06,
	"loss": 0.0137,
	"num_tokens": 159423146.0,
	"step": 349
	},
	{
	"epoch": 2.8472505091649696,
	"grad_norm": 0.16165924770039114,
	"learning_rate": 4.744551695866567e-06,
	"loss": 0.0148,
	"num_tokens": 159861129.0,
	"step": 350
	},
	{
	"epoch": 2.855397148676171,
	"grad_norm": 0.1774028782674121,
	"learning_rate": 4.721178858534876e-06,
	"loss": 0.0148,
	"num_tokens": 160329576.0,
	"step": 351
	},
	{
	"epoch": 2.8635437881873727,
	"grad_norm": 0.16285854302808034,
	"learning_rate": 4.697827660540285e-06,
	"loss": 0.014,
	"num_tokens": 160797840.0,
	"step": 352
	},
	{
	"epoch": 2.8716904276985744,
	"grad_norm": 0.18877633260447374,
	"learning_rate": 4.674498750689585e-06,
	"loss": 0.0147,
	"num_tokens": 161243065.0,
	"step": 353
	},
	{
	"epoch": 2.8798370672097757,
	"grad_norm": 0.1601336012550065,
	"learning_rate": 4.651192777170298e-06,
	"loss": 0.0143,
	"num_tokens": 161699619.0,
	"step": 354
	},
	{
	"epoch": 2.8879837067209775,
	"grad_norm": 0.16259855324262715,
	"learning_rate": 4.627910387532663e-06,
	"loss": 0.014,
	"num_tokens": 162166184.0,
	"step": 355
	},
	{
	"epoch": 2.8961303462321792,
	"grad_norm": 0.17610385289208558,
	"learning_rate": 4.604652228671653e-06,
	"loss": 0.0147,
	"num_tokens": 162610492.0,
	"step": 356
	},
	{
	"epoch": 2.904276985743381,
	"grad_norm": 0.1838783740248808,
	"learning_rate": 4.581418946808983e-06,
	"loss": 0.0153,
	"num_tokens": 163056383.0,
	"step": 357
	},
	{
	"epoch": 2.9124236252545828,
	"grad_norm": 0.15216837256215965,
	"learning_rate": 4.558211187475181e-06,
	"loss": 0.0123,
	"num_tokens": 163543282.0,
	"step": 358
	},
	{
	"epoch": 2.920570264765784,
	"grad_norm": 0.15127415963746377,
	"learning_rate": 4.535029595491632e-06,
	"loss": 0.0125,
	"num_tokens": 163999105.0,
	"step": 359
	},
	{
	"epoch": 2.928716904276986,
	"grad_norm": 0.17498160266417795,
	"learning_rate": 4.511874814952668e-06,
	"loss": 0.0136,
	"num_tokens": 164458000.0,
	"step": 360
	},
	{
	"epoch": 2.9368635437881876,
	"grad_norm": 0.16423843849992176,
	"learning_rate": 4.488747489207672e-06,
	"loss": 0.0133,
	"num_tokens": 164928642.0,
	"step": 361
	},
	{
	"epoch": 2.945010183299389,
	"grad_norm": 0.15573818980541582,
	"learning_rate": 4.4656482608432054e-06,
	"loss": 0.0123,
	"num_tokens": 165408976.0,
	"step": 362
	},
	{
	"epoch": 2.9531568228105907,
	"grad_norm": 0.17543688765013044,
	"learning_rate": 4.442577771665147e-06,
	"loss": 0.014,
	"num_tokens": 165886616.0,
	"step": 363
	},
	{
	"epoch": 2.9613034623217924,
	"grad_norm": 0.16511980145949437,
	"learning_rate": 4.419536662680873e-06,
	"loss": 0.0127,
	"num_tokens": 166343018.0,
	"step": 364
	},
	{
	"epoch": 2.9694501018329937,
	"grad_norm": 0.1587473778216488,
	"learning_rate": 4.39652557408143e-06,
	"loss": 0.0124,
	"num_tokens": 166801376.0,
	"step": 365
	},
	{
	"epoch": 2.9775967413441955,
	"grad_norm": 0.17009893552558653,
	"learning_rate": 4.373545145223761e-06,
	"loss": 0.0145,
	"num_tokens": 167280403.0,
	"step": 366
	},
	{
	"epoch": 2.9857433808553973,
	"grad_norm": 0.15750436171587542,
	"learning_rate": 4.350596014612935e-06,
	"loss": 0.0134,
	"num_tokens": 167726691.0,
	"step": 367
	},
	{
	"epoch": 2.9938900203665986,
	"grad_norm": 0.17197192413672613,
	"learning_rate": 4.327678819884405e-06,
	"loss": 0.0143,
	"num_tokens": 168173644.0,
	"step": 368
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.19850738254699854,
	"learning_rate": 4.304794197786304e-06,
	"loss": 0.0141,
	"num_tokens": 168216390.0,
	"step": 369
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.041459400206804276,
	"eval_num_tokens": 168216390.0,
	"eval_runtime": 58.1871,
	"eval_samples_per_second": 41.917,
	"eval_steps_per_second": 5.242,
	"step": 369
	},
	{
	"epoch": 3.0081466395112018,
	"grad_norm": 0.12585174258784562,
	"learning_rate": 4.281942784161728e-06,
	"loss": 0.0099,
	"num_tokens": 168660422.0,
	"step": 370
	},
	{
	"epoch": 3.016293279022403,
	"grad_norm": 0.11765413035696883,
	"learning_rate": 4.2591252139310945e-06,
	"loss": 0.0082,
	"num_tokens": 169121635.0,
	"step": 371
	},
	{
	"epoch": 3.024439918533605,
	"grad_norm": 0.11700242994990097,
	"learning_rate": 4.2363421210744925e-06,
	"loss": 0.0083,
	"num_tokens": 169588292.0,
	"step": 372
	},
	{
	"epoch": 3.0325865580448066,
	"grad_norm": 0.13410847188727293,
	"learning_rate": 4.213594138614062e-06,
	"loss": 0.0097,
	"num_tokens": 170048576.0,
	"step": 373
	},
	{
	"epoch": 3.0407331975560083,
	"grad_norm": 0.11184500956394558,
	"learning_rate": 4.190881898596409e-06,
	"loss": 0.0079,
	"num_tokens": 170553649.0,
	"step": 374
	},
	{
	"epoch": 3.0488798370672097,
	"grad_norm": 0.12083327220094565,
	"learning_rate": 4.168206032075048e-06,
	"loss": 0.0086,
	"num_tokens": 171011806.0,
	"step": 375
	},
	{
	"epoch": 3.0570264765784114,
	"grad_norm": 0.13145187085930216,
	"learning_rate": 4.1455671690928666e-06,
	"loss": 0.009,
	"num_tokens": 171488462.0,
	"step": 376
	},
	{
	"epoch": 3.065173116089613,
	"grad_norm": 0.13334793710473314,
	"learning_rate": 4.122965938664616e-06,
	"loss": 0.0086,
	"num_tokens": 171943130.0,
	"step": 377
	},
	{
	"epoch": 3.0733197556008145,
	"grad_norm": 0.1332625062123775,
	"learning_rate": 4.100402968759441e-06,
	"loss": 0.0093,
	"num_tokens": 172384061.0,
	"step": 378
	},
	{
	"epoch": 3.0814663951120163,
	"grad_norm": 0.13147800386811567,
	"learning_rate": 4.077878886283422e-06,
	"loss": 0.0085,
	"num_tokens": 172832702.0,
	"step": 379
	},
	{
	"epoch": 3.089613034623218,
	"grad_norm": 0.1411078689570707,
	"learning_rate": 4.055394317062168e-06,
	"loss": 0.0104,
	"num_tokens": 173290817.0,
	"step": 380
	},
	{
	"epoch": 3.0977596741344193,
	"grad_norm": 0.1284905098348191,
	"learning_rate": 4.03294988582342e-06,
	"loss": 0.0079,
	"num_tokens": 173766754.0,
	"step": 381
	},
	{
	"epoch": 3.105906313645621,
	"grad_norm": 0.13291783263584392,
	"learning_rate": 4.010546216179697e-06,
	"loss": 0.008,
	"num_tokens": 174227586.0,
	"step": 382
	},
	{
	"epoch": 3.114052953156823,
	"grad_norm": 0.13439803780962148,
	"learning_rate": 3.988183930610967e-06,
	"loss": 0.0084,
	"num_tokens": 174684443.0,
	"step": 383
	},
	{
	"epoch": 3.1221995926680246,
	"grad_norm": 0.1318097744846226,
	"learning_rate": 3.965863650447355e-06,
	"loss": 0.0081,
	"num_tokens": 175153040.0,
	"step": 384
	},
	{
	"epoch": 3.130346232179226,
	"grad_norm": 0.14505278918262016,
	"learning_rate": 3.943585995851872e-06,
	"loss": 0.0088,
	"num_tokens": 175616900.0,
	"step": 385
	},
	{
	"epoch": 3.1384928716904277,
	"grad_norm": 0.143736668078946,
	"learning_rate": 3.9213515858031984e-06,
	"loss": 0.0085,
	"num_tokens": 176098251.0,
	"step": 386
	},
	{
	"epoch": 3.1466395112016294,
	"grad_norm": 0.13749127082571724,
	"learning_rate": 3.8991610380784626e-06,
	"loss": 0.0076,
	"num_tokens": 176570672.0,
	"step": 387
	},
	{
	"epoch": 3.1547861507128308,
	"grad_norm": 0.15661494242610496,
	"learning_rate": 3.877014969236102e-06,
	"loss": 0.0101,
	"num_tokens": 177008465.0,
	"step": 388
	},
	{
	"epoch": 3.1629327902240325,
	"grad_norm": 0.15062683514898298,
	"learning_rate": 3.854913994598715e-06,
	"loss": 0.0089,
	"num_tokens": 177466175.0,
	"step": 389
	},
	{
	"epoch": 3.1710794297352343,
	"grad_norm": 0.1391922011105707,
	"learning_rate": 3.832858728235971e-06,
	"loss": 0.0093,
	"num_tokens": 177917874.0,
	"step": 390
	},
	{
	"epoch": 3.179226069246436,
	"grad_norm": 0.1552031660404893,
	"learning_rate": 3.8108497829475465e-06,
	"loss": 0.0105,
	"num_tokens": 178367628.0,
	"step": 391
	},
	{
	"epoch": 3.1873727087576373,
	"grad_norm": 0.13811754646428342,
	"learning_rate": 3.7888877702460992e-06,
	"loss": 0.0091,
	"num_tokens": 178825445.0,
	"step": 392
	},
	{
	"epoch": 3.195519348268839,
	"grad_norm": 0.12162345237220032,
	"learning_rate": 3.7669733003402775e-06,
	"loss": 0.0073,
	"num_tokens": 179301109.0,
	"step": 393
	},
	{
	"epoch": 3.203665987780041,
	"grad_norm": 0.13707719742366498,
	"learning_rate": 3.7451069821177677e-06,
	"loss": 0.0092,
	"num_tokens": 179757593.0,
	"step": 394
	},
	{
	"epoch": 3.211812627291242,
	"grad_norm": 0.13095735092161556,
	"learning_rate": 3.7232894231283724e-06,
	"loss": 0.0092,
	"num_tokens": 180213993.0,
	"step": 395
	},
	{
	"epoch": 3.219959266802444,
	"grad_norm": 0.13262472070811615,
	"learning_rate": 3.701521229567131e-06,
	"loss": 0.0085,
	"num_tokens": 180668901.0,
	"step": 396
	},
	{
	"epoch": 3.2281059063136457,
	"grad_norm": 0.13971045948367564,
	"learning_rate": 3.6798030062574807e-06,
	"loss": 0.0088,
	"num_tokens": 181137029.0,
	"step": 397
	},
	{
	"epoch": 3.2362525458248474,
	"grad_norm": 0.15719898296312626,
	"learning_rate": 3.6581353566344447e-06,
	"loss": 0.0091,
	"num_tokens": 181583795.0,
	"step": 398
	},
	{
	"epoch": 3.2443991853360488,
	"grad_norm": 0.13349745981088976,
	"learning_rate": 3.6365188827278752e-06,
	"loss": 0.0083,
	"num_tokens": 182040738.0,
	"step": 399
	},
	{
	"epoch": 3.2525458248472505,
	"grad_norm": 0.1507228385771512,
	"learning_rate": 3.6149541851457183e-06,
	"loss": 0.0093,
	"num_tokens": 182494412.0,
	"step": 400
	},
	{
	"epoch": 3.2606924643584523,
	"grad_norm": 0.13598098409095466,
	"learning_rate": 3.593441863057325e-06,
	"loss": 0.0092,
	"num_tokens": 182943146.0,
	"step": 401
	},
	{
	"epoch": 3.2688391038696536,
	"grad_norm": 0.13606743657097284,
	"learning_rate": 3.5719825141768128e-06,
	"loss": 0.0092,
	"num_tokens": 183393591.0,
	"step": 402
	},
	{
	"epoch": 3.2769857433808554,
	"grad_norm": 0.14156987679154379,
	"learning_rate": 3.5505767347464504e-06,
	"loss": 0.009,
	"num_tokens": 183862449.0,
	"step": 403
	},
	{
	"epoch": 3.285132382892057,
	"grad_norm": 0.13512553050700174,
	"learning_rate": 3.5292251195200932e-06,
	"loss": 0.0093,
	"num_tokens": 184305229.0,
	"step": 404
	},
	{
	"epoch": 3.293279022403259,
	"grad_norm": 0.11472791583197466,
	"learning_rate": 3.5079282617466594e-06,
	"loss": 0.0078,
	"num_tokens": 184802522.0,
	"step": 405
	},
	{
	"epoch": 3.30142566191446,
	"grad_norm": 0.12789474002800086,
	"learning_rate": 3.486686753153645e-06,
	"loss": 0.0083,
	"num_tokens": 185274960.0,
	"step": 406
	},
	{
	"epoch": 3.309572301425662,
	"grad_norm": 0.1275610588019882,
	"learning_rate": 3.4655011839306866e-06,
	"loss": 0.009,
	"num_tokens": 185709382.0,
	"step": 407
	},
	{
	"epoch": 3.3177189409368637,
	"grad_norm": 0.1404980269677411,
	"learning_rate": 3.4443721427131593e-06,
	"loss": 0.0095,
	"num_tokens": 186161144.0,
	"step": 408
	},
	{
	"epoch": 3.325865580448065,
	"grad_norm": 0.13529566839707055,
	"learning_rate": 3.423300216565819e-06,
	"loss": 0.0086,
	"num_tokens": 186619778.0,
	"step": 409
	},
	{
	"epoch": 3.3340122199592668,
	"grad_norm": 0.1387178170918977,
	"learning_rate": 3.4022859909664957e-06,
	"loss": 0.0098,
	"num_tokens": 187041856.0,
	"step": 410
	},
	{
	"epoch": 3.3421588594704685,
	"grad_norm": 0.13789162045155967,
	"learning_rate": 3.3813300497898326e-06,
	"loss": 0.0083,
	"num_tokens": 187505631.0,
	"step": 411
	},
	{
	"epoch": 3.35030549898167,
	"grad_norm": 0.137718313724877,
	"learning_rate": 3.3604329752910468e-06,
	"loss": 0.0095,
	"num_tokens": 187962839.0,
	"step": 412
	},
	{
	"epoch": 3.3584521384928716,
	"grad_norm": 0.13226236747300735,
	"learning_rate": 3.339595348089767e-06,
	"loss": 0.0095,
	"num_tokens": 188406846.0,
	"step": 413
	},
	{
	"epoch": 3.3665987780040734,
	"grad_norm": 0.13283015288873243,
	"learning_rate": 3.3188177471538864e-06,
	"loss": 0.0088,
	"num_tokens": 188859539.0,
	"step": 414
	},
	{
	"epoch": 3.374745417515275,
	"grad_norm": 0.13902664596528255,
	"learning_rate": 3.2981007497834922e-06,
	"loss": 0.0085,
	"num_tokens": 189323101.0,
	"step": 415
	},
	{
	"epoch": 3.3828920570264764,
	"grad_norm": 0.13509517554370873,
	"learning_rate": 3.2774449315948147e-06,
	"loss": 0.0089,
	"num_tokens": 189823493.0,
	"step": 416
	},
	{
	"epoch": 3.391038696537678,
	"grad_norm": 0.1366523338854662,
	"learning_rate": 3.2568508665042383e-06,
	"loss": 0.0084,
	"num_tokens": 190301541.0,
	"step": 417
	},
	{
	"epoch": 3.39918533604888,
	"grad_norm": 0.125577137562613,
	"learning_rate": 3.2363191267123517e-06,
	"loss": 0.0072,
	"num_tokens": 190798114.0,
	"step": 418
	},
	{
	"epoch": 3.4073319755600817,
	"grad_norm": 0.14591111241424826,
	"learning_rate": 3.215850282688055e-06,
	"loss": 0.0098,
	"num_tokens": 191261005.0,
	"step": 419
	},
	{
	"epoch": 3.415478615071283,
	"grad_norm": 0.12604467726858234,
	"learning_rate": 3.195444903152703e-06,
	"loss": 0.008,
	"num_tokens": 191709305.0,
	"step": 420
	},
	{
	"epoch": 3.423625254582485,
	"grad_norm": 0.13382954324399682,
	"learning_rate": 3.1751035550643107e-06,
	"loss": 0.0084,
	"num_tokens": 192209220.0,
	"step": 421
	},
	{
	"epoch": 3.4317718940936865,
	"grad_norm": 0.13698395980312603,
	"learning_rate": 3.1548268036017904e-06,
	"loss": 0.0091,
	"num_tokens": 192639412.0,
	"step": 422
	},
	{
	"epoch": 3.439918533604888,
	"grad_norm": 0.13829425626998468,
	"learning_rate": 3.134615212149258e-06,
	"loss": 0.0092,
	"num_tokens": 193098241.0,
	"step": 423
	},
	{
	"epoch": 3.4480651731160896,
	"grad_norm": 0.11711892810797479,
	"learning_rate": 3.114469342280379e-06,
	"loss": 0.0084,
	"num_tokens": 193574245.0,
	"step": 424
	},
	{
	"epoch": 3.4562118126272914,
	"grad_norm": 0.1309214084812048,
	"learning_rate": 3.094389753742758e-06,
	"loss": 0.0088,
	"num_tokens": 194017166.0,
	"step": 425
	},
	{
	"epoch": 3.4643584521384927,
	"grad_norm": 0.14133229462166405,
	"learning_rate": 3.0743770044423936e-06,
	"loss": 0.0093,
	"num_tokens": 194461022.0,
	"step": 426
	},
	{
	"epoch": 3.4725050916496945,
	"grad_norm": 0.12915594606644895,
	"learning_rate": 3.0544316504281677e-06,
	"loss": 0.0084,
	"num_tokens": 194921886.0,
	"step": 427
	},
	{
	"epoch": 3.480651731160896,
	"grad_norm": 0.13019588847393995,
	"learning_rate": 3.03455424587641e-06,
	"loss": 0.0082,
	"num_tokens": 195394552.0,
	"step": 428
	},
	{
	"epoch": 3.4887983706720975,
	"grad_norm": 0.12493252602627915,
	"learning_rate": 3.014745343075488e-06,
	"loss": 0.009,
	"num_tokens": 195853843.0,
	"step": 429
	},
	{
	"epoch": 3.4969450101832993,
	"grad_norm": 0.13292973796735513,
	"learning_rate": 2.995005492410469e-06,
	"loss": 0.0085,
	"num_tokens": 196316073.0,
	"step": 430
	},
	{
	"epoch": 3.505091649694501,
	"grad_norm": 0.15361936626468706,
	"learning_rate": 2.975335242347822e-06,
	"loss": 0.0097,
	"num_tokens": 196747650.0,
	"step": 431
	},
	{
	"epoch": 3.513238289205703,
	"grad_norm": 0.12126261520512835,
	"learning_rate": 2.9557351394201855e-06,
	"loss": 0.0078,
	"num_tokens": 197222644.0,
	"step": 432
	},
	{
	"epoch": 3.521384928716904,
	"grad_norm": 0.14364063312304898,
	"learning_rate": 2.9362057282111754e-06,
	"loss": 0.0084,
	"num_tokens": 197703977.0,
	"step": 433
	},
	{
	"epoch": 3.529531568228106,
	"grad_norm": 0.1285606277274214,
	"learning_rate": 2.9167475513402592e-06,
	"loss": 0.0085,
	"num_tokens": 198159184.0,
	"step": 434
	},
	{
	"epoch": 3.5376782077393076,
	"grad_norm": 0.12784246623295054,
	"learning_rate": 2.897361149447679e-06,
	"loss": 0.0086,
	"num_tokens": 198611287.0,
	"step": 435
	},
	{
	"epoch": 3.5458248472505094,
	"grad_norm": 0.1297694309800873,
	"learning_rate": 2.878047061179422e-06,
	"loss": 0.0082,
	"num_tokens": 199069757.0,
	"step": 436
	},
	{
	"epoch": 3.5539714867617107,
	"grad_norm": 0.1292114725276358,
	"learning_rate": 2.858805823172264e-06,
	"loss": 0.0088,
	"num_tokens": 199540737.0,
	"step": 437
	},
	{
	"epoch": 3.5621181262729125,
	"grad_norm": 0.12887249746822058,
	"learning_rate": 2.839637970038861e-06,
	"loss": 0.009,
	"num_tokens": 199982367.0,
	"step": 438
	},
	{
	"epoch": 3.5702647657841142,
	"grad_norm": 0.1280981502556342,
	"learning_rate": 2.8205440343528856e-06,
	"loss": 0.0089,
	"num_tokens": 200427445.0,
	"step": 439
	},
	{
	"epoch": 3.5784114052953155,
	"grad_norm": 0.13979378072527007,
	"learning_rate": 2.8015245466342287e-06,
	"loss": 0.0089,
	"num_tokens": 200889454.0,
	"step": 440
	},
	{
	"epoch": 3.5865580448065173,
	"grad_norm": 0.14089395360902868,
	"learning_rate": 2.7825800353342734e-06,
	"loss": 0.0089,
	"num_tokens": 201331340.0,
	"step": 441
	},
	{
	"epoch": 3.594704684317719,
	"grad_norm": 0.1380485690052255,
	"learning_rate": 2.763711026821196e-06,
	"loss": 0.0087,
	"num_tokens": 201788908.0,
	"step": 442
	},
	{
	"epoch": 3.6028513238289204,
	"grad_norm": 0.13663809301177426,
	"learning_rate": 2.7449180453653544e-06,
	"loss": 0.009,
	"num_tokens": 202225257.0,
	"step": 443
	},
	{
	"epoch": 3.610997963340122,
	"grad_norm": 0.1473692732003636,
	"learning_rate": 2.72620161312471e-06,
	"loss": 0.0085,
	"num_tokens": 202692568.0,
	"step": 444
	},
	{
	"epoch": 3.619144602851324,
	"grad_norm": 0.1257774235275037,
	"learning_rate": 2.7075622501303255e-06,
	"loss": 0.0093,
	"num_tokens": 203149741.0,
	"step": 445
	},
	{
	"epoch": 3.627291242362525,
	"grad_norm": 0.13888313118631118,
	"learning_rate": 2.689000474271918e-06,
	"loss": 0.008,
	"num_tokens": 203602311.0,
	"step": 446
	},
	{
	"epoch": 3.635437881873727,
	"grad_norm": 0.15749316142966002,
	"learning_rate": 2.670516801283464e-06,
	"loss": 0.0108,
	"num_tokens": 204036522.0,
	"step": 447
	},
	{
	"epoch": 3.6435845213849287,
	"grad_norm": 0.12907115857092855,
	"learning_rate": 2.652111744728876e-06,
	"loss": 0.0084,
	"num_tokens": 204486691.0,
	"step": 448
	},
	{
	"epoch": 3.6517311608961305,
	"grad_norm": 0.13596062968350994,
	"learning_rate": 2.6337858159877226e-06,
	"loss": 0.0081,
	"num_tokens": 204952023.0,
	"step": 449
	},
	{
	"epoch": 3.6598778004073322,
	"grad_norm": 0.13346166766765533,
	"learning_rate": 2.615539524241036e-06,
	"loss": 0.0081,
	"num_tokens": 205402274.0,
	"step": 450
	},
	{
	"epoch": 3.6680244399185336,
	"grad_norm": 0.12166137102621093,
	"learning_rate": 2.5973733764571486e-06,
	"loss": 0.0077,
	"num_tokens": 205859233.0,
	"step": 451
	},
	{
	"epoch": 3.6761710794297353,
	"grad_norm": 0.13150089757352357,
	"learning_rate": 2.5792878773776225e-06,
	"loss": 0.0086,
	"num_tokens": 206314665.0,
	"step": 452
	},
	{
	"epoch": 3.684317718940937,
	"grad_norm": 0.137357932504932,
	"learning_rate": 2.561283529503208e-06,
	"loss": 0.0094,
	"num_tokens": 206766146.0,
	"step": 453
	},
	{
	"epoch": 3.6924643584521384,
	"grad_norm": 0.13479268397128444,
	"learning_rate": 2.5433608330798974e-06,
	"loss": 0.0094,
	"num_tokens": 207200864.0,
	"step": 454
	},
	{
	"epoch": 3.70061099796334,
	"grad_norm": 0.11930317957334262,
	"learning_rate": 2.5255202860850157e-06,
	"loss": 0.0081,
	"num_tokens": 207685884.0,
	"step": 455
	},
	{
	"epoch": 3.708757637474542,
	"grad_norm": 0.13838840583020326,
	"learning_rate": 2.5077623842133895e-06,
	"loss": 0.0086,
	"num_tokens": 208130253.0,
	"step": 456
	},
	{
	"epoch": 3.716904276985743,
	"grad_norm": 0.11517621045103824,
	"learning_rate": 2.490087620863573e-06,
	"loss": 0.0069,
	"num_tokens": 208602611.0,
	"step": 457
	},
	{
	"epoch": 3.725050916496945,
	"grad_norm": 0.13060665615710568,
	"learning_rate": 2.4724964871241387e-06,
	"loss": 0.0091,
	"num_tokens": 209056174.0,
	"step": 458
	},
	{
	"epoch": 3.7331975560081467,
	"grad_norm": 0.12008096972228131,
	"learning_rate": 2.454989471760031e-06,
	"loss": 0.0081,
	"num_tokens": 209524636.0,
	"step": 459
	},
	{
	"epoch": 3.741344195519348,
	"grad_norm": 0.12402851148890304,
	"learning_rate": 2.437567061198991e-06,
	"loss": 0.0079,
	"num_tokens": 209994196.0,
	"step": 460
	},
	{
	"epoch": 3.74949083503055,
	"grad_norm": 0.1386116097689955,
	"learning_rate": 2.4202297395180353e-06,
	"loss": 0.0086,
	"num_tokens": 210466756.0,
	"step": 461
	},
	{
	"epoch": 3.7576374745417516,
	"grad_norm": 0.13027448435015335,
	"learning_rate": 2.4029779884300084e-06,
	"loss": 0.0075,
	"num_tokens": 210950806.0,
	"step": 462
	},
	{
	"epoch": 3.765784114052953,
	"grad_norm": 0.13406681887661104,
	"learning_rate": 2.3858122872702004e-06,
	"loss": 0.0085,
	"num_tokens": 211404708.0,
	"step": 463
	},
	{
	"epoch": 3.7739307535641546,
	"grad_norm": 0.12564076418855794,
	"learning_rate": 2.3687331129830276e-06,
	"loss": 0.0078,
	"num_tokens": 211866245.0,
	"step": 464
	},
	{
	"epoch": 3.7820773930753564,
	"grad_norm": 0.14390639481706682,
	"learning_rate": 2.3517409401087787e-06,
	"loss": 0.01,
	"num_tokens": 212305458.0,
	"step": 465
	},
	{
	"epoch": 3.790224032586558,
	"grad_norm": 0.12121296971812623,
	"learning_rate": 2.3348362407704313e-06,
	"loss": 0.0083,
	"num_tokens": 212752369.0,
	"step": 466
	},
	{
	"epoch": 3.79837067209776,
	"grad_norm": 0.13138683401901344,
	"learning_rate": 2.3180194846605367e-06,
	"loss": 0.0082,
	"num_tokens": 213222393.0,
	"step": 467
	},
	{
	"epoch": 3.8065173116089612,
	"grad_norm": 0.12175266765217344,
	"learning_rate": 2.301291139028164e-06,
	"loss": 0.0079,
	"num_tokens": 213681819.0,
	"step": 468
	},
	{
	"epoch": 3.814663951120163,
	"grad_norm": 0.1371049624563703,
	"learning_rate": 2.284651668665923e-06,
	"loss": 0.0086,
	"num_tokens": 214137525.0,
	"step": 469
	},
	{
	"epoch": 3.8228105906313647,
	"grad_norm": 0.12055815969853237,
	"learning_rate": 2.268101535897046e-06,
	"loss": 0.0083,
	"num_tokens": 214589391.0,
	"step": 470
	},
	{
	"epoch": 3.830957230142566,
	"grad_norm": 0.14290097179006628,
	"learning_rate": 2.2516412005625465e-06,
	"loss": 0.0097,
	"num_tokens": 215032404.0,
	"step": 471
	},
	{
	"epoch": 3.839103869653768,
	"grad_norm": 0.12498594646510086,
	"learning_rate": 2.235271120008439e-06,
	"loss": 0.008,
	"num_tokens": 215507249.0,
	"step": 472
	},
	{
	"epoch": 3.8472505091649696,
	"grad_norm": 0.12951287934361264,
	"learning_rate": 2.218991749073032e-06,
	"loss": 0.0081,
	"num_tokens": 215963900.0,
	"step": 473
	},
	{
	"epoch": 3.855397148676171,
	"grad_norm": 0.1340360089239412,
	"learning_rate": 2.2028035400742946e-06,
	"loss": 0.0086,
	"num_tokens": 216413372.0,
	"step": 474
	},
	{
	"epoch": 3.8635437881873727,
	"grad_norm": 0.1428815749513004,
	"learning_rate": 2.1867069427972814e-06,
	"loss": 0.0091,
	"num_tokens": 216874891.0,
	"step": 475
	},
	{
	"epoch": 3.8716904276985744,
	"grad_norm": 0.15258894927804814,
	"learning_rate": 2.1707024044816433e-06,
	"loss": 0.01,
	"num_tokens": 217335057.0,
	"step": 476
	},
	{
	"epoch": 3.8798370672097757,
	"grad_norm": 0.11854572238956909,
	"learning_rate": 2.1547903698091975e-06,
	"loss": 0.0083,
	"num_tokens": 217810990.0,
	"step": 477
	},
	{
	"epoch": 3.8879837067209775,
	"grad_norm": 0.12413149337289436,
	"learning_rate": 2.13897128089157e-06,
	"loss": 0.0078,
	"num_tokens": 218271262.0,
	"step": 478
	},
	{
	"epoch": 3.8961303462321792,
	"grad_norm": 0.13054286386457706,
	"learning_rate": 2.1232455772579164e-06,
	"loss": 0.0088,
	"num_tokens": 218733996.0,
	"step": 479
	},
	{
	"epoch": 3.904276985743381,
	"grad_norm": 0.14174809290893123,
	"learning_rate": 2.107613695842705e-06,
	"loss": 0.0083,
	"num_tokens": 219193703.0,
	"step": 480
	},
	{
	"epoch": 3.9124236252545828,
	"grad_norm": 0.13172558951478341,
	"learning_rate": 2.09207607097358e-06,
	"loss": 0.0091,
	"num_tokens": 219637585.0,
	"step": 481
	},
	{
	"epoch": 3.920570264765784,
	"grad_norm": 0.12825966468997463,
	"learning_rate": 2.0766331343592935e-06,
	"loss": 0.0087,
	"num_tokens": 220100782.0,
	"step": 482
	},
	{
	"epoch": 3.928716904276986,
	"grad_norm": 0.11619016881857674,
	"learning_rate": 2.0612853150777083e-06,
	"loss": 0.0074,
	"num_tokens": 220548817.0,
	"step": 483
	},
	{
	"epoch": 3.9368635437881876,
	"grad_norm": 0.12824773954267013,
	"learning_rate": 2.0460330395638754e-06,
	"loss": 0.0089,
	"num_tokens": 220986452.0,
	"step": 484
	},
	{
	"epoch": 3.945010183299389,
	"grad_norm": 0.12829553056162407,
	"learning_rate": 2.030876731598194e-06,
	"loss": 0.0083,
	"num_tokens": 221480796.0,
	"step": 485
	},
	{
	"epoch": 3.9531568228105907,
	"grad_norm": 0.12618210454698364,
	"learning_rate": 2.0158168122946254e-06,
	"loss": 0.0082,
	"num_tokens": 221927605.0,
	"step": 486
	},
	{
	"epoch": 3.9613034623217924,
	"grad_norm": 0.1351329578005386,
	"learning_rate": 2.000853700089001e-06,
	"loss": 0.0089,
	"num_tokens": 222378433.0,
	"step": 487
	},
	{
	"epoch": 3.9694501018329937,
	"grad_norm": 0.12217015553170964,
	"learning_rate": 1.9859878107273884e-06,
	"loss": 0.0083,
	"num_tokens": 222829736.0,
	"step": 488
	},
	{
	"epoch": 3.9775967413441955,
	"grad_norm": 0.132799994524403,
	"learning_rate": 1.971219557254548e-06,
	"loss": 0.0095,
	"num_tokens": 223285731.0,
	"step": 489
	},
	{
	"epoch": 3.9857433808553973,
	"grad_norm": 0.12499217681603624,
	"learning_rate": 1.956549350002454e-06,
	"loss": 0.0069,
	"num_tokens": 223757013.0,
	"step": 490
	},
	{
	"epoch": 3.9938900203665986,
	"grad_norm": 0.1140878012499302,
	"learning_rate": 1.9419775965788897e-06,
	"loss": 0.0073,
	"num_tokens": 224255873.0,
	"step": 491
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.16568246569300987,
	"learning_rate": 1.9275047018561265e-06,
	"loss": 0.0087,
	"num_tokens": 224299419.0,
	"step": 492
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.04265177622437477,
	"eval_num_tokens": 224299419.0,
	"eval_runtime": 57.842,
	"eval_samples_per_second": 42.167,
	"eval_steps_per_second": 5.273,
	"step": 492
	},
	{
	"epoch": 4.008146639511201,
	"grad_norm": 0.10953124483033916,
	"learning_rate": 1.913131067959673e-06,
	"loss": 0.0064,
	"num_tokens": 224740301.0,
	"step": 493
	},
	{
	"epoch": 4.0162932790224035,
	"grad_norm": 0.09661175616513212,
	"learning_rate": 1.8988570942571039e-06,
	"loss": 0.0064,
	"num_tokens": 225184668.0,
	"step": 494
	},
	{
	"epoch": 4.024439918533605,
	"grad_norm": 0.09108581236399259,
	"learning_rate": 1.8846831773469587e-06,
	"loss": 0.0054,
	"num_tokens": 225644004.0,
	"step": 495
	},
	{
	"epoch": 4.032586558044806,
	"grad_norm": 0.08286087324083283,
	"learning_rate": 1.8706097110477298e-06,
	"loss": 0.0049,
	"num_tokens": 226150717.0,
	"step": 496
	},
	{
	"epoch": 4.040733197556008,
	"grad_norm": 0.0987575217688521,
	"learning_rate": 1.8566370863869122e-06,
	"loss": 0.0058,
	"num_tokens": 226596638.0,
	"step": 497
	},
	{
	"epoch": 4.04887983706721,
	"grad_norm": 0.10313893410726134,
	"learning_rate": 1.8427656915901428e-06,
	"loss": 0.0063,
	"num_tokens": 227070697.0,
	"step": 498
	},
	{
	"epoch": 4.057026476578411,
	"grad_norm": 0.08409803434100602,
	"learning_rate": 1.8289959120704204e-06,
	"loss": 0.0045,
	"num_tokens": 227563263.0,
	"step": 499
	},
	{
	"epoch": 4.065173116089613,
	"grad_norm": 0.10477823554325051,
	"learning_rate": 1.8153281304173842e-06,
	"loss": 0.0059,
	"num_tokens": 228039640.0,
	"step": 500
	},
	{
	"epoch": 4.0733197556008145,
	"grad_norm": 0.09829199382018614,
	"learning_rate": 1.801762726386691e-06,
	"loss": 0.0056,
	"num_tokens": 228524467.0,
	"step": 501
	},
	{
	"epoch": 4.081466395112017,
	"grad_norm": 0.09331418832378849,
	"learning_rate": 1.7883000768894627e-06,
	"loss": 0.0047,
	"num_tokens": 228994748.0,
	"step": 502
	},
	{
	"epoch": 4.089613034623218,
	"grad_norm": 0.09581281591436303,
	"learning_rate": 1.7749405559818162e-06,
	"loss": 0.0053,
	"num_tokens": 229450908.0,
	"step": 503
	},
	{
	"epoch": 4.097759674134419,
	"grad_norm": 0.10440722069541235,
	"learning_rate": 1.7616845348544657e-06,
	"loss": 0.0065,
	"num_tokens": 229910862.0,
	"step": 504
	},
	{
	"epoch": 4.1059063136456215,
	"grad_norm": 0.09700791936550231,
	"learning_rate": 1.7485323818224126e-06,
	"loss": 0.0051,
	"num_tokens": 230369276.0,
	"step": 505
	},
	{
	"epoch": 4.114052953156823,
	"grad_norm": 0.10857998726786411,
	"learning_rate": 1.7354844623147116e-06,
	"loss": 0.0059,
	"num_tokens": 230827234.0,
	"step": 506
	},
	{
	"epoch": 4.122199592668024,
	"grad_norm": 0.10148060818665218,
	"learning_rate": 1.722541138864316e-06,
	"loss": 0.0056,
	"num_tokens": 231311328.0,
	"step": 507
	},
	{
	"epoch": 4.130346232179226,
	"grad_norm": 0.09790332100802439,
	"learning_rate": 1.7097027710980059e-06,
	"loss": 0.0054,
	"num_tokens": 231774619.0,
	"step": 508
	},
	{
	"epoch": 4.138492871690428,
	"grad_norm": 0.11303318804836798,
	"learning_rate": 1.6969697157263968e-06,
	"loss": 0.0063,
	"num_tokens": 232234778.0,
	"step": 509
	},
	{
	"epoch": 4.146639511201629,
	"grad_norm": 0.11928599820659892,
	"learning_rate": 1.6843423265340241e-06,
	"loss": 0.0066,
	"num_tokens": 232685797.0,
	"step": 510
	},
	{
	"epoch": 4.154786150712831,
	"grad_norm": 0.10102982747758138,
	"learning_rate": 1.6718209543695198e-06,
	"loss": 0.0053,
	"num_tokens": 233131575.0,
	"step": 511
	},
	{
	"epoch": 4.1629327902240325,
	"grad_norm": 0.10103824755044703,
	"learning_rate": 1.6594059471358603e-06,
	"loss": 0.005,
	"num_tokens": 233592206.0,
	"step": 512
	},
	{
	"epoch": 4.171079429735234,
	"grad_norm": 0.09473975634726714,
	"learning_rate": 1.6470976497807028e-06,
	"loss": 0.0049,
	"num_tokens": 234073717.0,
	"step": 513
	},
	{
	"epoch": 4.179226069246436,
	"grad_norm": 0.10317754634136525,
	"learning_rate": 1.6348964042867963e-06,
	"loss": 0.0053,
	"num_tokens": 234525493.0,
	"step": 514
	},
	{
	"epoch": 4.187372708757637,
	"grad_norm": 0.10883171792223603,
	"learning_rate": 1.6228025496624816e-06,
	"loss": 0.0062,
	"num_tokens": 234975032.0,
	"step": 515
	},
	{
	"epoch": 4.195519348268839,
	"grad_norm": 0.10753806313999263,
	"learning_rate": 1.6108164219322759e-06,
	"loss": 0.0053,
	"num_tokens": 235438383.0,
	"step": 516
	},
	{
	"epoch": 4.203665987780041,
	"grad_norm": 0.1064236411620558,
	"learning_rate": 1.598938354127532e-06,
	"loss": 0.0059,
	"num_tokens": 235879893.0,
	"step": 517
	},
	{
	"epoch": 4.211812627291242,
	"grad_norm": 0.12022958396721184,
	"learning_rate": 1.5871686762771876e-06,
	"loss": 0.0059,
	"num_tokens": 236349201.0,
	"step": 518
	},
	{
	"epoch": 4.219959266802444,
	"grad_norm": 0.11124601452546444,
	"learning_rate": 1.5755077153985927e-06,
	"loss": 0.0057,
	"num_tokens": 236800777.0,
	"step": 519
	},
	{
	"epoch": 4.228105906313646,
	"grad_norm": 0.09236406495488149,
	"learning_rate": 1.5639557954884263e-06,
	"loss": 0.0043,
	"num_tokens": 237293264.0,
	"step": 520
	},
	{
	"epoch": 4.236252545824847,
	"grad_norm": 0.1273600213134377,
	"learning_rate": 1.552513237513694e-06,
	"loss": 0.0073,
	"num_tokens": 237724964.0,
	"step": 521
	},
	{
	"epoch": 4.244399185336049,
	"grad_norm": 0.11769756147992531,
	"learning_rate": 1.541180359402809e-06,
	"loss": 0.0059,
	"num_tokens": 238180300.0,
	"step": 522
	},
	{
	"epoch": 4.2525458248472505,
	"grad_norm": 0.1217965830011373,
	"learning_rate": 1.5299574760367564e-06,
	"loss": 0.0061,
	"num_tokens": 238636931.0,
	"step": 523
	},
	{
	"epoch": 4.260692464358452,
	"grad_norm": 0.11472619272622367,
	"learning_rate": 1.5188448992403504e-06,
	"loss": 0.0058,
	"num_tokens": 239086905.0,
	"step": 524
	},
	{
	"epoch": 4.268839103869654,
	"grad_norm": 0.11529863540901476,
	"learning_rate": 1.5078429377735626e-06,
	"loss": 0.0063,
	"num_tokens": 239550473.0,
	"step": 525
	},
	{
	"epoch": 4.276985743380855,
	"grad_norm": 0.1156481007594638,
	"learning_rate": 1.4969518973229526e-06,
	"loss": 0.0059,
	"num_tokens": 239995374.0,
	"step": 526
	},
	{
	"epoch": 4.285132382892057,
	"grad_norm": 0.10698685435134675,
	"learning_rate": 1.4861720804931665e-06,
	"loss": 0.0058,
	"num_tokens": 240466754.0,
	"step": 527
	},
	{
	"epoch": 4.293279022403259,
	"grad_norm": 0.11289580051998427,
	"learning_rate": 1.4755037867985285e-06,
	"loss": 0.006,
	"num_tokens": 240906071.0,
	"step": 528
	},
	{
	"epoch": 4.30142566191446,
	"grad_norm": 0.11536050235837439,
	"learning_rate": 1.4649473126547273e-06,
	"loss": 0.0054,
	"num_tokens": 241355455.0,
	"step": 529
	},
	{
	"epoch": 4.3095723014256615,
	"grad_norm": 0.11636487088267386,
	"learning_rate": 1.4545029513705735e-06,
	"loss": 0.0058,
	"num_tokens": 241836525.0,
	"step": 530
	},
	{
	"epoch": 4.317718940936864,
	"grad_norm": 0.09846554835421734,
	"learning_rate": 1.4441709931398513e-06,
	"loss": 0.0051,
	"num_tokens": 242307462.0,
	"step": 531
	},
	{
	"epoch": 4.325865580448065,
	"grad_norm": 0.1120813571543054,
	"learning_rate": 1.4339517250332565e-06,
	"loss": 0.0061,
	"num_tokens": 242741978.0,
	"step": 532
	},
	{
	"epoch": 4.334012219959266,
	"grad_norm": 0.1113819187138935,
	"learning_rate": 1.4238454309904205e-06,
	"loss": 0.0055,
	"num_tokens": 243192201.0,
	"step": 533
	},
	{
	"epoch": 4.3421588594704685,
	"grad_norm": 0.11764577339647353,
	"learning_rate": 1.4138523918120201e-06,
	"loss": 0.0065,
	"num_tokens": 243636087.0,
	"step": 534
	},
	{
	"epoch": 4.35030549898167,
	"grad_norm": 0.11164487804753273,
	"learning_rate": 1.4039728851519764e-06,
	"loss": 0.0055,
	"num_tokens": 244110581.0,
	"step": 535
	},
	{
	"epoch": 4.358452138492872,
	"grad_norm": 0.09698712924798691,
	"learning_rate": 1.3942071855097381e-06,
	"loss": 0.0049,
	"num_tokens": 244572435.0,
	"step": 536
	},
	{
	"epoch": 4.366598778004073,
	"grad_norm": 0.1104930978310767,
	"learning_rate": 1.3845555642226583e-06,
	"loss": 0.0056,
	"num_tokens": 245032371.0,
	"step": 537
	},
	{
	"epoch": 4.374745417515275,
	"grad_norm": 0.11183186111310507,
	"learning_rate": 1.375018289458453e-06,
	"loss": 0.0055,
	"num_tokens": 245488372.0,
	"step": 538
	},
	{
	"epoch": 4.382892057026477,
	"grad_norm": 0.11660880918067139,
	"learning_rate": 1.3655956262077502e-06,
	"loss": 0.0063,
	"num_tokens": 245947576.0,
	"step": 539
	},
	{
	"epoch": 4.391038696537678,
	"grad_norm": 0.11734436147080707,
	"learning_rate": 1.3562878362767296e-06,
	"loss": 0.006,
	"num_tokens": 246410789.0,
	"step": 540
	},
	{
	"epoch": 4.3991853360488795,
	"grad_norm": 0.11187947506861028,
	"learning_rate": 1.3470951782798432e-06,
	"loss": 0.0053,
	"num_tokens": 246885080.0,
	"step": 541
	},
	{
	"epoch": 4.407331975560082,
	"grad_norm": 0.10682796561668163,
	"learning_rate": 1.338017907632635e-06,
	"loss": 0.0054,
	"num_tokens": 247344383.0,
	"step": 542
	},
	{
	"epoch": 4.415478615071283,
	"grad_norm": 0.11487602768278418,
	"learning_rate": 1.329056276544642e-06,
	"loss": 0.0054,
	"num_tokens": 247825702.0,
	"step": 543
	},
	{
	"epoch": 4.423625254582484,
	"grad_norm": 0.10954303849780199,
	"learning_rate": 1.320210534012388e-06,
	"loss": 0.0059,
	"num_tokens": 248301334.0,
	"step": 544
	},
	{
	"epoch": 4.4317718940936865,
	"grad_norm": 0.1065560110571518,
	"learning_rate": 1.311480925812461e-06,
	"loss": 0.0057,
	"num_tokens": 248770660.0,
	"step": 545
	},
	{
	"epoch": 4.439918533604888,
	"grad_norm": 0.12112306787916738,
	"learning_rate": 1.3028676944946916e-06,
	"loss": 0.0067,
	"num_tokens": 249197698.0,
	"step": 546
	},
	{
	"epoch": 4.44806517311609,
	"grad_norm": 0.10503970639083068,
	"learning_rate": 1.2943710793754082e-06,
	"loss": 0.0049,
	"num_tokens": 249659509.0,
	"step": 547
	},
	{
	"epoch": 4.456211812627291,
	"grad_norm": 0.11924557580218739,
	"learning_rate": 1.2859913165307886e-06,
	"loss": 0.0063,
	"num_tokens": 250110156.0,
	"step": 548
	},
	{
	"epoch": 4.464358452138493,
	"grad_norm": 0.11442982117714874,
	"learning_rate": 1.277728638790303e-06,
	"loss": 0.0063,
	"num_tokens": 250550111.0,
	"step": 549
	},
	{
	"epoch": 4.472505091649695,
	"grad_norm": 0.12110395302590302,
	"learning_rate": 1.2695832757302412e-06,
	"loss": 0.0065,
	"num_tokens": 251002357.0,
	"step": 550
	},
	{
	"epoch": 4.480651731160896,
	"grad_norm": 0.11664662464057247,
	"learning_rate": 1.2615554536673377e-06,
	"loss": 0.0062,
	"num_tokens": 251458462.0,
	"step": 551
	},
	{
	"epoch": 4.4887983706720975,
	"grad_norm": 0.11645513165539287,
	"learning_rate": 1.253645395652481e-06,
	"loss": 0.0061,
	"num_tokens": 251902226.0,
	"step": 552
	},
	{
	"epoch": 4.4969450101833,
	"grad_norm": 0.11363438791067745,
	"learning_rate": 1.2458533214645175e-06,
	"loss": 0.0056,
	"num_tokens": 252346885.0,
	"step": 553
	},
	{
	"epoch": 4.505091649694501,
	"grad_norm": 0.12965647026273558,
	"learning_rate": 1.2381794476041447e-06,
	"loss": 0.0064,
	"num_tokens": 252804103.0,
	"step": 554
	},
	{
	"epoch": 4.513238289205702,
	"grad_norm": 0.10419635456766704,
	"learning_rate": 1.2306239872878946e-06,
	"loss": 0.0059,
	"num_tokens": 253273586.0,
	"step": 555
	},
	{
	"epoch": 4.521384928716905,
	"grad_norm": 0.11350584533770305,
	"learning_rate": 1.2231871504422117e-06,
	"loss": 0.0059,
	"num_tokens": 253725593.0,
	"step": 556
	},
	{
	"epoch": 4.529531568228106,
	"grad_norm": 0.13468868599441702,
	"learning_rate": 1.215869143697619e-06,
	"loss": 0.0073,
	"num_tokens": 254156458.0,
	"step": 557
	},
	{
	"epoch": 4.537678207739307,
	"grad_norm": 0.10259852383741634,
	"learning_rate": 1.2086701703829755e-06,
	"loss": 0.0054,
	"num_tokens": 254617846.0,
	"step": 558
	},
	{
	"epoch": 4.545824847250509,
	"grad_norm": 0.11651453346375099,
	"learning_rate": 1.2015904305198286e-06,
	"loss": 0.0063,
	"num_tokens": 255052922.0,
	"step": 559
	},
	{
	"epoch": 4.553971486761711,
	"grad_norm": 0.10384453182105129,
	"learning_rate": 1.1946301208168593e-06,
	"loss": 0.0051,
	"num_tokens": 255534554.0,
	"step": 560
	},
	{
	"epoch": 4.562118126272912,
	"grad_norm": 0.12828945094057975,
	"learning_rate": 1.1877894346644085e-06,
	"loss": 0.007,
	"num_tokens": 255986625.0,
	"step": 561
	},
	{
	"epoch": 4.570264765784114,
	"grad_norm": 0.10166841643303247,
	"learning_rate": 1.1810685621291135e-06,
	"loss": 0.0055,
	"num_tokens": 256440817.0,
	"step": 562
	},
	{
	"epoch": 4.5784114052953155,
	"grad_norm": 0.12163643122042941,
	"learning_rate": 1.174467689948618e-06,
	"loss": 0.007,
	"num_tokens": 256883913.0,
	"step": 563
	},
	{
	"epoch": 4.586558044806518,
	"grad_norm": 0.11612572338384212,
	"learning_rate": 1.1679870015263908e-06,
	"loss": 0.0061,
	"num_tokens": 257340848.0,
	"step": 564
	},
	{
	"epoch": 4.594704684317719,
	"grad_norm": 0.09659828775248515,
	"learning_rate": 1.1616266769266263e-06,
	"loss": 0.0052,
	"num_tokens": 257795593.0,
	"step": 565
	},
	{
	"epoch": 4.60285132382892,
	"grad_norm": 0.10140831312358678,
	"learning_rate": 1.1553868928692422e-06,
	"loss": 0.0048,
	"num_tokens": 258288534.0,
	"step": 566
	},
	{
	"epoch": 4.610997963340123,
	"grad_norm": 0.11217052895153468,
	"learning_rate": 1.1492678227249695e-06,
	"loss": 0.0059,
	"num_tokens": 258741097.0,
	"step": 567
	},
	{
	"epoch": 4.619144602851324,
	"grad_norm": 0.1126933577651828,
	"learning_rate": 1.143269636510536e-06,
	"loss": 0.0061,
	"num_tokens": 259193501.0,
	"step": 568
	},
	{
	"epoch": 4.627291242362525,
	"grad_norm": 0.11797745986694334,
	"learning_rate": 1.1373925008839403e-06,
	"loss": 0.0063,
	"num_tokens": 259649197.0,
	"step": 569
	},
	{
	"epoch": 4.635437881873727,
	"grad_norm": 0.11303980738140469,
	"learning_rate": 1.1316365791398251e-06,
	"loss": 0.0061,
	"num_tokens": 260088831.0,
	"step": 570
	},
	{
	"epoch": 4.643584521384929,
	"grad_norm": 0.10873603489504344,
	"learning_rate": 1.1260020312049356e-06,
	"loss": 0.006,
	"num_tokens": 260555536.0,
	"step": 571
	},
	{
	"epoch": 4.65173116089613,
	"grad_norm": 0.0920006832828397,
	"learning_rate": 1.1204890136336784e-06,
	"loss": 0.0052,
	"num_tokens": 261048454.0,
	"step": 572
	},
	{
	"epoch": 4.659877800407332,
	"grad_norm": 0.1255806723199747,
	"learning_rate": 1.1150976796037736e-06,
	"loss": 0.0068,
	"num_tokens": 261480295.0,
	"step": 573
	},
	{
	"epoch": 4.6680244399185336,
	"grad_norm": 0.11533169004614044,
	"learning_rate": 1.1098281789119948e-06,
	"loss": 0.0057,
	"num_tokens": 261942589.0,
	"step": 574
	},
	{
	"epoch": 4.676171079429735,
	"grad_norm": 0.10129996781843084,
	"learning_rate": 1.104680657970009e-06,
	"loss": 0.0057,
	"num_tokens": 262393944.0,
	"step": 575
	},
	{
	"epoch": 4.684317718940937,
	"grad_norm": 0.11015833267592207,
	"learning_rate": 1.0996552598003088e-06,
	"loss": 0.0059,
	"num_tokens": 262882312.0,
	"step": 576
	},
	{
	"epoch": 4.692464358452138,
	"grad_norm": 0.10314595226042249,
	"learning_rate": 1.094752124032238e-06,
	"loss": 0.0055,
	"num_tokens": 263336673.0,
	"step": 577
	},
	{
	"epoch": 4.70061099796334,
	"grad_norm": 0.11664841890610124,
	"learning_rate": 1.0899713868981123e-06,
	"loss": 0.0064,
	"num_tokens": 263792010.0,
	"step": 578
	},
	{
	"epoch": 4.708757637474542,
	"grad_norm": 0.09972137290365708,
	"learning_rate": 1.0853131812294355e-06,
	"loss": 0.0051,
	"num_tokens": 264237484.0,
	"step": 579
	},
	{
	"epoch": 4.716904276985743,
	"grad_norm": 0.10268566206680875,
	"learning_rate": 1.0807776364532044e-06,
	"loss": 0.0056,
	"num_tokens": 264713321.0,
	"step": 580
	},
	{
	"epoch": 4.725050916496945,
	"grad_norm": 0.10619035337589804,
	"learning_rate": 1.0763648785883186e-06,
	"loss": 0.0058,
	"num_tokens": 265183724.0,
	"step": 581
	},
	{
	"epoch": 4.733197556008147,
	"grad_norm": 0.10541962557747203,
	"learning_rate": 1.0720750302420745e-06,
	"loss": 0.0057,
	"num_tokens": 265627643.0,
	"step": 582
	},
	{
	"epoch": 4.741344195519348,
	"grad_norm": 0.11506033498658928,
	"learning_rate": 1.0679082106067618e-06,
	"loss": 0.0067,
	"num_tokens": 266084878.0,
	"step": 583
	},
	{
	"epoch": 4.74949083503055,
	"grad_norm": 0.11142067796057883,
	"learning_rate": 1.0638645354563488e-06,
	"loss": 0.0056,
	"num_tokens": 266578362.0,
	"step": 584
	},
	{
	"epoch": 4.757637474541752,
	"grad_norm": 0.12323031771225379,
	"learning_rate": 1.0599441171432685e-06,
	"loss": 0.0071,
	"num_tokens": 267005793.0,
	"step": 585
	},
	{
	"epoch": 4.765784114052953,
	"grad_norm": 0.10911498957082988,
	"learning_rate": 1.0561470645952939e-06,
	"loss": 0.0059,
	"num_tokens": 267445983.0,
	"step": 586
	},
	{
	"epoch": 4.773930753564155,
	"grad_norm": 0.10589151493278187,
	"learning_rate": 1.0524734833125155e-06,
	"loss": 0.006,
	"num_tokens": 267934787.0,
	"step": 587
	},
	{
	"epoch": 4.782077393075356,
	"grad_norm": 0.0961251286065213,
	"learning_rate": 1.0489234753644075e-06,
	"loss": 0.0047,
	"num_tokens": 268404039.0,
	"step": 588
	},
	{
	"epoch": 4.790224032586558,
	"grad_norm": 0.11570808115862555,
	"learning_rate": 1.0454971393869895e-06,
	"loss": 0.0061,
	"num_tokens": 268871776.0,
	"step": 589
	},
	{
	"epoch": 4.79837067209776,
	"grad_norm": 0.11996049644781787,
	"learning_rate": 1.0421945705800913e-06,
	"loss": 0.006,
	"num_tokens": 269329939.0,
	"step": 590
	},
	{
	"epoch": 4.806517311608961,
	"grad_norm": 0.11015784556640101,
	"learning_rate": 1.0390158607047029e-06,
	"loss": 0.0059,
	"num_tokens": 269796155.0,
	"step": 591
	},
	{
	"epoch": 4.814663951120163,
	"grad_norm": 0.10516381427732067,
	"learning_rate": 1.0359610980804286e-06,
	"loss": 0.0051,
	"num_tokens": 270260800.0,
	"step": 592
	},
	{
	"epoch": 4.822810590631365,
	"grad_norm": 0.11057933848917369,
	"learning_rate": 1.0330303675830306e-06,
	"loss": 0.0054,
	"num_tokens": 270718037.0,
	"step": 593
	},
	{
	"epoch": 4.830957230142566,
	"grad_norm": 0.12034159438309625,
	"learning_rate": 1.0302237506420722e-06,
	"loss": 0.0063,
	"num_tokens": 271163129.0,
	"step": 594
	},
	{
	"epoch": 4.839103869653767,
	"grad_norm": 0.1298369000893159,
	"learning_rate": 1.0275413252386545e-06,
	"loss": 0.0077,
	"num_tokens": 271586088.0,
	"step": 595
	},
	{
	"epoch": 4.84725050916497,
	"grad_norm": 0.11485648605447368,
	"learning_rate": 1.0249831659032494e-06,
	"loss": 0.0067,
	"num_tokens": 272031287.0,
	"step": 596
	},
	{
	"epoch": 4.855397148676171,
	"grad_norm": 0.11585325382556429,
	"learning_rate": 1.0225493437136302e-06,
	"loss": 0.0067,
	"num_tokens": 272474742.0,
	"step": 597
	},
	{
	"epoch": 4.863543788187373,
	"grad_norm": 0.1239008691750004,
	"learning_rate": 1.020239926292895e-06,
	"loss": 0.0067,
	"num_tokens": 272932607.0,
	"step": 598
	},
	{
	"epoch": 4.871690427698574,
	"grad_norm": 0.10254555243859467,
	"learning_rate": 1.018054977807589e-06,
	"loss": 0.0057,
	"num_tokens": 273415530.0,
	"step": 599
	},
	{
	"epoch": 4.879837067209776,
	"grad_norm": 0.10546701888018833,
	"learning_rate": 1.0159945589659223e-06,
	"loss": 0.0056,
	"num_tokens": 273885366.0,
	"step": 600
	},
	{
	"epoch": 4.887983706720978,
	"grad_norm": 0.12031804835663963,
	"learning_rate": 1.0140587270160806e-06,
	"loss": 0.0066,
	"num_tokens": 274335421.0,
	"step": 601
	},
	{
	"epoch": 4.896130346232179,
	"grad_norm": 0.11002140545903802,
	"learning_rate": 1.0122475357446372e-06,
	"loss": 0.0061,
	"num_tokens": 274789915.0,
	"step": 602
	},
	{
	"epoch": 4.904276985743381,
	"grad_norm": 0.10524124599370216,
	"learning_rate": 1.0105610354750566e-06,
	"loss": 0.0055,
	"num_tokens": 275269107.0,
	"step": 603
	},
	{
	"epoch": 4.912423625254583,
	"grad_norm": 0.1279839524575316,
	"learning_rate": 1.0089992730662983e-06,
	"loss": 0.007,
	"num_tokens": 275714557.0,
	"step": 604
	},
	{
	"epoch": 4.920570264765784,
	"grad_norm": 0.11521764229191792,
	"learning_rate": 1.0075622919115133e-06,
	"loss": 0.0059,
	"num_tokens": 276134943.0,
	"step": 605
	},
	{
	"epoch": 4.928716904276985,
	"grad_norm": 0.10797809839128278,
	"learning_rate": 1.0062501319368376e-06,
	"loss": 0.005,
	"num_tokens": 276628333.0,
	"step": 606
	},
	{
	"epoch": 4.936863543788188,
	"grad_norm": 0.103832639157195,
	"learning_rate": 1.0050628296002864e-06,
	"loss": 0.0055,
	"num_tokens": 277092549.0,
	"step": 607
	},
	{
	"epoch": 4.945010183299389,
	"grad_norm": 0.10579829877653406,
	"learning_rate": 1.0040004178907364e-06,
	"loss": 0.0059,
	"num_tokens": 277564414.0,
	"step": 608
	},
	{
	"epoch": 4.953156822810591,
	"grad_norm": 0.1129191145686251,
	"learning_rate": 1.0030629263270133e-06,
	"loss": 0.0057,
	"num_tokens": 278043267.0,
	"step": 609
	},
	{
	"epoch": 4.961303462321792,
	"grad_norm": 0.11428351556872687,
	"learning_rate": 1.0022503809570692e-06,
	"loss": 0.0058,
	"num_tokens": 278500208.0,
	"step": 610
	},
	{
	"epoch": 4.969450101832994,
	"grad_norm": 0.12454757064462266,
	"learning_rate": 1.0015628043572607e-06,
	"loss": 0.0067,
	"num_tokens": 278958350.0,
	"step": 611
	},
	{
	"epoch": 4.977596741344195,
	"grad_norm": 0.11985284209865818,
	"learning_rate": 1.0010002156317187e-06,
	"loss": 0.0055,
	"num_tokens": 279426149.0,
	"step": 612
	},
	{
	"epoch": 4.985743380855397,
	"grad_norm": 0.11653540817309618,
	"learning_rate": 1.0005626304118208e-06,
	"loss": 0.0062,
	"num_tokens": 279874989.0,
	"step": 613
	},
	{
	"epoch": 4.993890020366599,
	"grad_norm": 0.12398585004184347,
	"learning_rate": 1.0002500608557558e-06,
	"loss": 0.0064,
	"num_tokens": 280320581.0,
	"step": 614
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.12467063210289439,
	"learning_rate": 1.0000625156481842e-06,
	"loss": 0.0065,
	"num_tokens": 280366492.0,
	"step": 615
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.04499583691358566,
	"eval_num_tokens": 280366492.0,
	"eval_runtime": 57.8338,
	"eval_samples_per_second": 42.173,
	"eval_steps_per_second": 5.274,
	"step": 615
	},
	{
	"epoch": 5.0,
	"step": 615,
	"total_flos": 9.471448716243108e+17,
	"train_loss": 0.017112477973285245,
	"train_runtime": 9496.6509,
	"train_samples_per_second": 8.264,
	"train_steps_per_second": 0.065
	}
	],
	"logging_steps": 1,
	"max_steps": 615,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.471448716243108e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}