Hindi (hi) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizehiwiki sample
original १९५३ में संविधान में संशोधन किया गया जिसमें महिलाओं को संसद में भागीदारी करने का अधिकार दिया गया। १९७२ में आयरलैंड और ब्रिटेन के साथ डेनमार्क ईईसी का
हम 'दलगत राजनीति से ऊपर' कर रहे हैं, लेकिन हम स्वीकार करते हैं कि सामाजिक गतिविधि एक सख्त अर्थों में गैर राजनीतिक नहीं हो सकता। अखिल भारतीय विद्यार्थी
प्राचीन काल में गोवा से साष्टी तक के भूभाग में जो बोली बोली जाती थी उसे ही लोग विशुद्ध कोंकणी मानते थे और उसे गोमांतकी नाम से पुकारते थे तथापि सोलहवीं
1000 ▁0000 ▁में ▁सं वि धान ▁में ▁सं श ो ध न ▁किया ▁गया ▁जिसमें ▁मह िला ओं ▁को ▁सं स द ▁में ▁भा गी द ारी ▁करने ▁का ▁अधिक ार ▁दिया ▁गया । ▁0000 ▁में ▁आ यर ल ैंड ▁और ▁ब्र ि टे न ▁के ▁साथ ▁ड ेन म ार् क ▁ई ई सी ▁का
▁ह म ▁' द ल गत ▁राज नी ति ▁से ▁ऊ पर ' ▁कर ▁रहे ▁हैं , ▁लेकिन ▁ह म ▁स्व ी कार ▁करते ▁हैं ▁कि ▁साम ाज िक ▁ग ति वि धि ▁एक ▁स ख ्त ▁अ र्थ ों ▁में ▁ग ै र ▁राज नी तिक ▁नहीं ▁हो ▁सकता । ▁अ ख िल ▁भारतीय ▁वि द्य ार्थ ी
▁प्राचीन ▁का ल ▁में ▁ग ो वा ▁से ▁सा ष्ट ी ▁तक ▁के ▁भू भा ग ▁में ▁जो ▁ब ो ली ▁ब ो ली ▁जाती ▁थी ▁उसे ▁ही ▁लोग ▁विश ु द्ध ▁क ों क णी ▁मान ते ▁थे ▁और ▁उसे ▁ग ो म ांत की ▁नाम ▁से ▁पु कार ते ▁थे ▁तथा प ि ▁स ोल ह वी ं
3000 ▁0000 ▁में ▁सं वि धान ▁में ▁सं श ोध न ▁किया ▁गया ▁जिसमें ▁महिलाओं ▁को ▁सं सद ▁में ▁भा गी द ारी ▁करने ▁का ▁अधिकार ▁दिया ▁गया । ▁0000 ▁में ▁आ यर लैंड ▁और ▁ब्रिटेन ▁के ▁साथ ▁ड ेन म ार्क ▁ई ई सी ▁का
▁हम ▁' द ल गत ▁राजनीति ▁से ▁ऊपर ' ▁कर ▁रहे ▁हैं , ▁लेकिन ▁हम ▁स्वीकार ▁करते ▁हैं ▁कि ▁सामाजिक ▁गति वि धि ▁एक ▁स ख ्त ▁अर्थ ों ▁में ▁गैर ▁राजनीतिक ▁नहीं ▁हो ▁सकता । ▁अ ख िल ▁भारतीय ▁विद्य ार्थ ी
▁प्राचीन ▁काल ▁में ▁गो वा ▁से ▁सा ष्ट ी ▁तक ▁के ▁भू भाग ▁में ▁जो ▁बो ली ▁बो ली ▁जाती ▁थी ▁उसे ▁ही ▁लोग ▁विश ु द्ध ▁क ों क णी ▁मान ते ▁थे ▁और ▁उसे ▁गो म ांत की ▁नाम ▁से ▁पु कार ते ▁थे ▁तथा पि ▁स ोल ह वीं
5000 ▁0000 ▁में ▁संविधान ▁में ▁संशोध न ▁किया ▁गया ▁जिसमें ▁महिलाओं ▁को ▁संसद ▁में ▁भागी दारी ▁करने ▁का ▁अधिकार ▁दिया ▁गया । ▁0000 ▁में ▁आयर लैंड ▁और ▁ब्रिटेन ▁के ▁साथ ▁ड ेन म ार्क ▁ई ई सी ▁का
▁हम ▁' दल गत ▁राजनीति ▁से ▁ऊपर ' ▁कर ▁रहे ▁हैं , ▁लेकिन ▁हम ▁स्वीकार ▁करते ▁हैं ▁कि ▁सामाजिक ▁गति विधि ▁एक ▁स ख ्त ▁अर्थ ों ▁में ▁गैर ▁राजनीतिक ▁नहीं ▁हो ▁सकता । ▁अख िल ▁भारतीय ▁विद्य ार्थी
▁प्राचीन ▁काल ▁में ▁गो वा ▁से ▁सा ष्ट ी ▁तक ▁के ▁भू भाग ▁में ▁जो ▁बोली ▁बोली ▁जाती ▁थी ▁उसे ▁ही ▁लोग ▁विश ु द्ध ▁क ों क णी ▁मानते ▁थे ▁और ▁उसे ▁गो म ांत की ▁नाम ▁से ▁पु कार ते ▁थे ▁तथा पि ▁सोल हवीं
10000 ▁0000 ▁में ▁संविधान ▁में ▁संशोधन ▁किया ▁गया ▁जिसमें ▁महिलाओं ▁को ▁संसद ▁में ▁भागीदारी ▁करने ▁का ▁अधिकार ▁दिया ▁गया । ▁0000 ▁में ▁आयरलैंड ▁और ▁ब्रिटेन ▁के ▁साथ ▁डेन मार्क ▁ई ई सी ▁का
▁हम ▁' दल गत ▁राजनीति ▁से ▁ऊपर ' ▁कर ▁रहे ▁हैं , ▁लेकिन ▁हम ▁स्वीकार ▁करते ▁हैं ▁कि ▁सामाजिक ▁गतिविधि ▁एक ▁सख्त ▁अर्थ ों ▁में ▁गैर ▁राजनीतिक ▁नहीं ▁हो ▁सकता । ▁अखिल ▁भारतीय ▁विद्यार्थी
▁प्राचीन ▁काल ▁में ▁गोवा ▁से ▁सा ष्ट ी ▁तक ▁के ▁भू भाग ▁में ▁जो ▁बोली ▁बोली ▁जाती ▁थी ▁उसे ▁ही ▁लोग ▁विश ुद्ध ▁कों क णी ▁मानते ▁थे ▁और ▁उसे ▁गो म ांत की ▁नाम ▁से ▁पु कार ते ▁थे ▁तथापि ▁सोलहवीं
25000 ▁0000 ▁में ▁संविधान ▁में ▁संशोधन ▁किया ▁गया ▁जिसमें ▁महिलाओं ▁को ▁संसद ▁में ▁भागीदारी ▁करने ▁का ▁अधिकार ▁दिया ▁गया । ▁0000 ▁में ▁आयरलैंड ▁और ▁ब्रिटेन ▁के ▁साथ ▁डेनमार्क ▁ई ईसी ▁का
▁हम ▁' दल गत ▁राजनीति ▁से ▁ऊपर ' ▁कर ▁रहे ▁हैं , ▁लेकिन ▁हम ▁स्वीकार ▁करते ▁हैं ▁कि ▁सामाजिक ▁गतिविधि ▁एक ▁सख्त ▁अर्थों ▁में ▁गैर ▁राजनीतिक ▁नहीं ▁हो ▁सकता । ▁अखिल ▁भारतीय ▁विद्यार्थी
▁प्राचीन ▁काल ▁में ▁गोवा ▁से ▁सा ष्ट ी ▁तक ▁के ▁भूभाग ▁में ▁जो ▁बोली ▁बोली ▁जाती ▁थी ▁उसे ▁ही ▁लोग ▁विशुद्ध ▁कोंकणी ▁मानते ▁थे ▁और ▁उसे ▁गो म ांत की ▁नाम ▁से ▁पुकार ते ▁थे ▁तथापि ▁सोलहवीं
50000 ▁0000 ▁में ▁संविधान ▁में ▁संशोधन ▁किया ▁गया ▁जिसमें ▁महिलाओं ▁को ▁संसद ▁में ▁भागीदारी ▁करने ▁का ▁अधिकार ▁दिया ▁गया । ▁0000 ▁में ▁आयरलैंड ▁और ▁ब्रिटेन ▁के ▁साथ ▁डेनमार्क ▁ई ईसी ▁का
▁हम ▁' दल गत ▁राजनीति ▁से ▁ऊपर ' ▁कर ▁रहे ▁हैं , ▁लेकिन ▁हम ▁स्वीकार ▁करते ▁हैं ▁कि ▁सामाजिक ▁गतिविधि ▁एक ▁सख्त ▁अर्थों ▁में ▁गैर ▁राजनीतिक ▁नहीं ▁हो ▁सकता । ▁अखिल ▁भारतीय ▁विद्यार्थी
▁प्राचीन ▁काल ▁में ▁गोवा ▁से ▁सा ष्टी ▁तक ▁के ▁भूभाग ▁में ▁जो ▁बोली ▁बोली ▁जाती ▁थी ▁उसे ▁ही ▁लोग ▁विशुद्ध ▁कोंकणी ▁मानते ▁थे ▁और ▁उसे ▁गो म ांत की ▁नाम ▁से ▁पुकारते ▁थे ▁तथापि ▁सोलहवीं
100000 ▁0000 ▁में ▁संविधान ▁में ▁संशोधन ▁किया ▁गया ▁जिसमें ▁महिलाओं ▁को ▁संसद ▁में ▁भागीदारी ▁करने ▁का ▁अधिकार ▁दिया ▁गया । ▁0000 ▁में ▁आयरलैंड ▁और ▁ब्रिटेन ▁के ▁साथ ▁डेनमार्क ▁ई ईसी ▁का
▁हम ▁' दल गत ▁राजनीति ▁से ▁ऊपर ' ▁कर ▁रहे ▁हैं , ▁लेकिन ▁हम ▁स्वीकार ▁करते ▁हैं ▁कि ▁सामाजिक ▁गतिविधि ▁एक ▁सख्त ▁अर्थों ▁में ▁गैर ▁राजनीतिक ▁नहीं ▁हो ▁सकता । ▁अखिल ▁भारतीय ▁विद्यार्थी
▁प्राचीन ▁काल ▁में ▁गोवा ▁से ▁सा ष्टी ▁तक ▁के ▁भूभाग ▁में ▁जो ▁बोली ▁बोली ▁जाती ▁थी ▁उसे ▁ही ▁लोग ▁विशुद्ध ▁कोंकणी ▁मानते ▁थे ▁और ▁उसे ▁गोम ांत की ▁नाम ▁से ▁पुकारते ▁थे ▁तथापि ▁सोलहवीं