Alemannic (als) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizealswiki sample
original au isch e gmei wänigi kilometer südlich vu friburg im brisgau in bade-württeberg un ghört zue dr verwaltigsgmeinschaft hexedal.
brock isch nôchem britische general sir isaac brock bnannt wo im krieg vo 0000 i dr schlacht vo queenston heights um s’labe cho isch. syni letschti wo
z breagaz git as am aschermittwoch i dar obrschtadt de bruch vo gealdbittlwösch. do goand d obrstättlar in häs mit wissa kapuzza in ar prozession zum
1000 ▁au ▁isch ▁e ▁gmei ▁w än igi ▁k il om eter ▁süd lich ▁vu ▁f ri burg ▁im ▁b ri sg au ▁in ▁ba de - w ür tte berg ▁un ▁gh ört ▁zue ▁dr ▁verw alt igs g me in schaft ▁he x e d al .
▁bro ck ▁isch ▁n ô che m ▁br it ische ▁g ener al ▁si r ▁i sa a c ▁bro ck ▁b n annt ▁wo ▁im ▁k rieg ▁vo ▁0000 ▁i ▁dr ▁sch la cht ▁vo ▁ que en st on ▁he ig h t s ▁um ▁s ’ la be ▁ch o ▁isch . ▁sy ni ▁l et scht i ▁wo
▁z ▁b re ag a z ▁git ▁as ▁am ▁a sch er m itt w och ▁i ▁d ar ▁o br scht adt ▁de ▁bru ch ▁vo ▁ge ald b itt l w ö sch . ▁do ▁g o and ▁d ▁o br st ät t l ar ▁in ▁h ä s ▁mit ▁wi ss a ▁k ap u z z a ▁in ▁ar ▁pro ze ss ion ▁zum
3000 ▁au ▁isch ▁e ▁gmei ▁w än igi ▁kilometer ▁süd lich ▁vu ▁fri burg ▁im ▁bri sg au ▁in ▁bade - württe berg ▁un ▁ghört ▁zue ▁dr ▁verwalt igs g mein schaft ▁he x ed al .
▁bro ck ▁isch ▁nô che m ▁brit ische ▁general ▁si r ▁i sa ac ▁bro ck ▁b n annt ▁wo ▁im ▁k rieg ▁vo ▁0000 ▁i ▁dr ▁schlacht ▁vo ▁ que en st on ▁he ig ht s ▁um ▁s ’ la be ▁cho ▁isch . ▁sy ni ▁let schti ▁wo
▁z ▁bre ag az ▁git ▁as ▁am ▁a scher m itt w och ▁i ▁dar ▁o br scht adt ▁de ▁bru ch ▁vo ▁ge ald b itt l w ö sch . ▁do ▁go and ▁d ▁o br st ät t l ar ▁in ▁hä s ▁mit ▁wi ssa ▁kap uz za ▁in ▁ar ▁pro ze ssion ▁zum
5000 ▁au ▁isch ▁e ▁gmei ▁w än igi ▁kilometer ▁süd lich ▁vu ▁friburg ▁im ▁brisgau ▁in ▁bade - württe berg ▁un ▁ghört ▁zue ▁dr ▁verwaltigs g mein schaft ▁he x ed al .
▁bro ck ▁isch ▁nô chem ▁britische ▁general ▁si r ▁i sa ac ▁bro ck ▁b n annt ▁wo ▁im ▁k rieg ▁vo ▁0000 ▁i ▁dr ▁schlacht ▁vo ▁ que en st on ▁he ig ht s ▁um ▁s ’ la be ▁cho ▁isch . ▁syni ▁let schti ▁wo
▁z ▁bre ag az ▁git ▁as ▁am ▁a scher mitt w och ▁i ▁dar ▁o br scht adt ▁de ▁bru ch ▁vo ▁ge ald b itt l w ö sch . ▁do ▁go and ▁d ▁o br st ätt l ar ▁in ▁hä s ▁mit ▁wi ssa ▁kap uz za ▁in ▁ar ▁pro ze ssion ▁zum
10000 ▁au ▁isch ▁e ▁gmei ▁wän igi ▁kilometer ▁südlich ▁vu ▁friburg ▁im ▁brisgau ▁in ▁bade - württeberg ▁un ▁ghört ▁zue ▁dr ▁verwaltigs g meinschaft ▁he x ed al .
▁bro ck ▁isch ▁nô chem ▁britische ▁general ▁si r ▁isa ac ▁bro ck ▁b n annt ▁wo ▁im ▁krieg ▁vo ▁0000 ▁i ▁dr ▁schlacht ▁vo ▁que en ston ▁he ight s ▁um ▁s ’ la be ▁cho ▁isch . ▁syni ▁letschti ▁wo
▁z ▁bre ag az ▁git ▁as ▁am ▁a scher mitt w och ▁i ▁dar ▁o br schtadt ▁de ▁bruch ▁vo ▁ge ald b itt l w ö sch . ▁do ▁go and ▁d ▁o br st ätt lar ▁in ▁hä s ▁mit ▁wi ssa ▁kap uz za ▁in ▁ar ▁pro ze ssion ▁zum
25000 ▁au ▁isch ▁e ▁gmei ▁wän igi ▁kilometer ▁südlich ▁vu ▁friburg ▁im ▁brisgau ▁in ▁bade - württeberg ▁un ▁ghört ▁zue ▁dr ▁verwaltigs gmeinschaft ▁hex ed al .
▁brock ▁isch ▁nô chem ▁britische ▁general ▁sir ▁isaac ▁brock ▁bn annt ▁wo ▁im ▁krieg ▁vo ▁0000 ▁i ▁dr ▁schlacht ▁vo ▁queen ston ▁he ight s ▁um ▁s ’ la be ▁cho ▁isch . ▁syni ▁letschti ▁wo
▁z ▁breagaz ▁git ▁as ▁am ▁a scher mitt woch ▁i ▁dar ▁obr schtadt ▁de ▁bruch ▁vo ▁ge ald b itt l w ösch . ▁do ▁go and ▁d ▁obr stätt lar ▁in ▁hä s ▁mit ▁wissa ▁kap uz za ▁in ▁ar ▁pro zession ▁zum
50000 ▁au ▁isch ▁e ▁gmei ▁wänigi ▁kilometer ▁südlich ▁vu ▁friburg ▁im ▁brisgau ▁in ▁bade - württeberg ▁un ▁ghört ▁zue ▁dr ▁verwaltigs gmeinschaft ▁hexedal .
▁brock ▁isch ▁nô chem ▁britische ▁general ▁sir ▁isaac ▁brock ▁bn annt ▁wo ▁im ▁krieg ▁vo ▁0000 ▁i ▁dr ▁schlacht ▁vo ▁queen ston ▁height s ▁um ▁s ’ la be ▁cho ▁isch . ▁syni ▁letschti ▁wo
▁z ▁breagaz ▁git ▁as ▁am ▁ascher mitt woch ▁i ▁dar ▁obr schtadt ▁de ▁bruch ▁vo ▁ge ald b itt l w ösch . ▁do ▁go and ▁d ▁obr stätt lar ▁in ▁hä s ▁mit ▁wissa ▁kapuz za ▁in ▁ar ▁prozession ▁zum
100000 ▁au ▁isch ▁e ▁gmei ▁wänigi ▁kilometer ▁südlich ▁vu ▁friburg ▁im ▁brisgau ▁in ▁bade - württeberg ▁un ▁ghört ▁zue ▁dr ▁verwaltigs gmeinschaft ▁hexedal .
▁brock ▁isch ▁nô chem ▁britische ▁general ▁sir ▁isaac ▁brock ▁bnannt ▁wo ▁im ▁krieg ▁vo ▁0000 ▁i ▁dr ▁schlacht ▁vo ▁queen ston ▁heights ▁um ▁s ’ labe ▁cho ▁isch . ▁syni ▁letschti ▁wo
▁z ▁breagaz ▁git ▁as ▁am ▁aschermittwoch ▁i ▁dar ▁obr schtadt ▁de ▁bruch ▁vo ▁ge ald b ittl wösch . ▁do ▁go and ▁d ▁obr stätt lar ▁in ▁häs ▁mit ▁wissa ▁kapuz za ▁in ▁ar ▁prozession ▁zum