Kirghiz (ky) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizekywiki sample
original жана уюмдар иштеген. калкы негизинен дыйканчылыкта тамеки, жашылча жана мөмө-жемиштерди өстүрүүдө, мал чарбасында кой, эчки багууда эмгектенишет.
* akimushkin o. a rare seventeenth-century hagiography of the naqshbandiyya-mujaddidiyya shaykhs // manuscripta orientalia. vol. 0, no 0, march 0000.
silerden sizden sizdən sizden senlardan silerdin / sénlerdin heźźän sezdän senderden ehigitten / ehitten sirĕnten
1000 ▁жана ▁ую мд ар ▁ишт еген . ▁калкы ▁негиз инен ▁д ый кан ч ылы кт а ▁там ек и , ▁жаш ыл ча ▁жана ▁м өм ө - ж ем и шт ер ди ▁ө ст үр үү дө , ▁м ал ▁чар б асында ▁ко й , ▁э ч ки ▁ба г уу да ▁эмгект ен иш ет .
▁* ▁a k i m u s h k i n ▁ o . ▁a ▁ r a r e ▁s e v en t e en t h - c en t u r y ▁ h a g i o g r a p h y ▁ o f ▁t h e ▁ n a q s h b an d i y y a - m u j a d d i d i y y a ▁s h a y k h s ▁/ / ▁ m an u s c r i p t a ▁ o r i en t a l i a . ▁ v o l . ▁0 , ▁ n o ▁0 , ▁ m a r c h ▁0000.
▁s i l er d en ▁s i z d en ▁s i z d ə n ▁s i z d en ▁s en l a r d an ▁s i l er d i n ▁/ ▁s é n l er d i n ▁ h e źźä n ▁s e z d ä n ▁s en d er d en ▁ e h i g i t t en ▁/ ▁ e h i t t en ▁s i r ĕ n t en
3000 ▁жана ▁уюмд ар ▁иштеген . ▁калкы ▁негизинен ▁дый кан чылыкт а ▁там ек и , ▁жашыл ча ▁жана ▁м өм ө - ж ем ишт ерди ▁өст үр үүдө , ▁мал ▁чарб асында ▁кой , ▁эч ки ▁ба г ууда ▁эмгектен ишет .
▁* ▁a k i m us h k in ▁o . ▁a ▁r ar e ▁s e v ent e ent h - c ent ur y ▁h a g i og ra p h y ▁of ▁the ▁n a q s h b an d i y ya - m u j a d d id i y ya ▁s h a y k h s ▁// ▁m an us c r ip ta ▁ or i ent al ia . ▁v ol . ▁0, ▁n o ▁0, ▁m ar ch ▁0000.
▁s il er d en ▁s i z d en ▁s i z d ə n ▁s i z d en ▁s en l ar d an ▁s il er d in ▁/ ▁s é n l er d in ▁ he źźä n ▁s e z d ä n ▁s en d er d en ▁e h ig it t en ▁/ ▁e h it t en ▁s ir ĕ n t en
5000 ▁жана ▁уюмд ар ▁иштеген . ▁калкы ▁негизинен ▁дыйкан чылыкт а ▁там еки , ▁жашыл ча ▁жана ▁мөмө - ж ем ишт ерди ▁өстүр үүдө , ▁мал ▁чарб асында ▁кой , ▁эч ки ▁баг ууда ▁эмгектен ишет .
▁* ▁a k im us h k in ▁o . ▁a ▁r ar e ▁s ev ent e ent h - c ent ur y ▁h ag i og ra ph y ▁of ▁the ▁n a q s h b and i y ya - m u j ad d id i y ya ▁s h a y k h s ▁// ▁m an us c r ip ta ▁ or i ent al ia . ▁v ol . ▁0, ▁n o ▁0, ▁m ar ch ▁0000.
▁s il er d en ▁s i z d en ▁s i z d ə n ▁s i z d en ▁s en l ar d an ▁s il er d in ▁/ ▁s é n l er d in ▁ he źźä n ▁s e z d ä n ▁s en d er d en ▁e h ig it t en ▁/ ▁e h it t en ▁s ir ĕ n t en
10000 ▁жана ▁уюмдар ▁иштеген . ▁калкы ▁негизинен ▁дыйкан чылыкта ▁тамеки , ▁жашылча ▁жана ▁мөмө - жем ишт ерди ▁өстүр үүдө , ▁мал ▁чарбасында ▁кой , ▁эчки ▁баг ууда ▁эмгектен ишет .
▁* ▁a k im us h k in ▁o . ▁a ▁r ar e ▁s ev ent e ent h - c ent ur y ▁h ag i ogra ph y ▁of ▁the ▁na q sh b and iy ya - m u j ad d id iy ya ▁sh ay k h s ▁// ▁man us cr ip ta ▁or i ent al ia . ▁v ol . ▁0, ▁n o ▁0, ▁mar ch ▁0000.
▁s il er d en ▁s iz d en ▁s iz d ə n ▁s iz d en ▁s en l ard an ▁s il er d in ▁/ ▁s é n l er d in ▁he źźä n ▁s e z d ä n ▁s end er d en ▁e h ig it t en ▁/ ▁e h it t en ▁s ir ĕ n t en
25000 ▁жана ▁уюмдар ▁иштеген . ▁калкы ▁негизинен ▁дыйканчылыкта ▁тамеки , ▁жашылча ▁жана ▁мөмө - жем ишт ерди ▁өстүрүүдө , ▁мал ▁чарбасында ▁кой , ▁эчки ▁баг ууда ▁эмгектенишет .
▁* ▁ak im ush k in ▁o . ▁a ▁r are ▁sev ent e ent h - cent ury ▁h ag i ograph y ▁of ▁the ▁na q sh b and iy ya - m u j add id iy ya ▁sh ay k h s ▁// ▁man us crip ta ▁oriental ia . ▁vol . ▁0, ▁no ▁0, ▁mar ch ▁0000.
▁s il er d en ▁s iz d en ▁s iz d ə n ▁s iz d en ▁s en l ard an ▁s il er d in ▁/ ▁s é n ler d in ▁he źźä n ▁se z d ä n ▁s end er d en ▁e h ig it ten ▁/ ▁e h it ten ▁s ir ĕ n ten
50000 ▁жана ▁уюмдар ▁иштеген . ▁калкы ▁негизинен ▁дыйканчылыкта ▁тамеки , ▁жашылча ▁жана ▁мөмө - жемиштерди ▁өстүрүүдө , ▁мал ▁чарбасында ▁кой , ▁эчки ▁багууда ▁эмгектенишет .
▁* ▁ak im ush kin ▁o . ▁a ▁r are ▁sev ente enth - cent ury ▁h ag i ography ▁of ▁the ▁na q sh b and iy ya - m u j add id iy ya ▁sh ay k hs ▁// ▁manuscripta ▁orientalia . ▁vol . ▁0, ▁no ▁0, ▁mar ch ▁0000.
▁sil er den ▁siz den ▁siz d ə n ▁siz den ▁sen l ard an ▁sil er din ▁/ ▁s é n ler din ▁he źźä n ▁se z d ä n ▁s end er den ▁e h ig it ten ▁/ ▁e h it ten ▁s ir ĕ n ten
100000 ▁жана ▁уюмдар ▁иштеген . ▁калкы ▁негизинен ▁дыйканчылыкта ▁тамеки , ▁жашылча ▁жана ▁мөмө - жемиштерди ▁өстүрүүдө , ▁мал ▁чарбасында ▁кой , ▁эчки ▁багууда ▁эмгектенишет .
▁* ▁akimushkin ▁o . ▁a ▁r are ▁sev ente enth - cent ury ▁h agi ography ▁of ▁the ▁na q sh band iyya - mu j add id iyya ▁sh ay k hs ▁// ▁manuscripta ▁orientalia . ▁vol . ▁0, ▁no ▁0, ▁march ▁0000.
▁sil er den ▁sizden ▁siz d ə n ▁sizden ▁sen l ardan ▁sil er din ▁/ ▁s é n ler din ▁he źźä n ▁se zd ä n ▁s ender den ▁eh ig itten ▁/ ▁eh itten ▁sir ĕ n ten