Mesolitica

Team

company

https://mesolitica.com/

mesolitica

Activity Feed

AI & ML interests

We develop Multimodality AI, lab from Malaysia

Recent Activity

huseinzol05 updated a collection about 1 month ago

Malaysian Reasoning

huseinzol05 updated a collection about 1 month ago

Malaysian Reasoning

huseinzol05 updated a collection about 1 month ago

Malaysian Reasoning

View all activity

mesolitica 's collections 13

Audio Language Model

Open source models including Malaysian context and dataset.

mesolitica/Malaysian-Qwen2.5-7B-Speech-Instruct

8B • Updated Jun 21 • 13 • 2
mesolitica/Malaysian-Qwen2.5-7B-Audio-Instruct

8B • Updated Jun 28 • 17
mesolitica/AudioSet-Audio-Instructions

Viewer • Updated Apr 2 • 313k • 233 • 3
mesolitica/Classification-Speech-Instructions

Viewer • Updated Mar 30 • 118k • 112 • 1

Malaysian Finetuned Instruct LoRA

Continue finetuning Instruct model using LoRA from 0.5B up to 72B.

mesolitica/Malaysian-Qwen2.5-72B-Instruct

73B • Updated May 27 • 11 • 1
mesolitica/Malaysian-Qwen2.5-32B-Instruct

33B • Updated May 27 • 8
mesolitica/Malaysian-Qwen2.5-14B-Instruct

15B • Updated Jun 14 • 19 • 1
mesolitica/Malaysian-Qwen2.5-7B-Instruct

8B • Updated May 29 • 22 • 1

Malaysian Text-to-Speech

Malaysian Text-to-Speech models.

mesolitica/Malaysian-TTS-4B-v0.1

Text Generation • 4B • Updated Sep 14 • 36
mesolitica/Malaysian-TTS-1.7B-v1

Text Generation • 2B • Updated Aug 17 • 33
mesolitica/Malaysian-TTS-1.7B-v0.1

Text Generation • 2B • Updated Aug 15 • 10 • 1
mesolitica/Malaysian-TTS-0.6B-v1

Text Generation • 0.6B • Updated Aug 17 • 18

Malaysian pretraining dataset

Dataset to pretrain or continue pretrain to induce locality, gathered up to 200B tokens.

mesolitica/fineweb-filter-malaysian-context

Viewer • Updated Aug 13, 2024 • 98.7M • 2.24k
mesolitica/smollm-corpus-filter-malaysian-context

Preview • Updated Aug 11, 2024 • 49
malaysia-ai/pretrain-text-dataset

Updated Aug 19 • 3.54k • 1

MaLLaM 🌙

Pretrain from scratch 4096 context length on 90B tokens Malaysian text, https://huggingface.co/papers/2401.14680

mesolitica/mallam-1.1B-4096

Text Generation • 1B • Updated Oct 7, 2024 • 439 • 12
mesolitica/mallam-3B-4096

Text Generation • 3B • Updated Oct 7, 2024 • 66 • 2
mesolitica/mallam-5B-4096

Text Generation • 5B • Updated Oct 13, 2024 • 62 • 2
mesolitica/mallam-1.1b-20k-instructions

Text Generation • 1B • Updated Dec 19, 2023 • 42 • 1

Malaysian LLM2Vec

Extending Malaysian CausalLM on non-causal masking training, https://arxiv.org/abs/2404.05961

mesolitica/malaysian-mistral-64M-MLM-512

Feature Extraction • 64.2M • Updated Apr 20, 2024 • 40
mesolitica/malaysian-mistral-191M-MLM-512

Feature Extraction • 0.2B • Updated Apr 20, 2024 • 28
mesolitica/malaysian-mistral-349M-MLM-512

Feature Extraction • 0.3B • Updated Apr 22, 2024 • 16
mesolitica/malaysian-mistral-474M-MLM-512

Feature Extraction • 0.5B • Updated Apr 23, 2024 • 13

Malaysian MaskLM

Trained on 17B tokens, 81GB of cleaned texts, able to understand standard Malay, local Malay, local Mandarin, Manglish, and local Tamil.

mesolitica/malaysian-debertav2-base

0.1B • Updated Mar 26, 2024 • 22
malaysia-ai/malaysian-debertav2-large

0.3B • Updated Mar 28, 2024 • 12
mesolitica/malaysian-mistral-64M-MLM-512

Feature Extraction • 64.2M • Updated Apr 20, 2024 • 40
mesolitica/malaysian-mistral-191M-MLM-512

Feature Extraction • 0.2B • Updated Apr 20, 2024 • 28

Malaysian Reasoning

Full parameter post training using SFT warmup and GRPO.

mesolitica/Malaysian-Qwen2.5-1.5B-Reasoning-SFT

2B • Updated Jun 18 • 11
mesolitica/Malaysian-Qwen2.5-1.5B-Reasoning-GRPO

2B • Updated Jun 18 • 24
mesolitica/Malaysian-Qwen2.5-7B-Reasoning-SFT

8B • Updated Jun 18 • 40 • 1
mesolitica/Malaysian-Qwen2.5-7B-Dialect-Reasoning-GRPO

8B • Updated Jun 4 • 18 • 3

Malaysian Speech-to-Text

Open source models and dataset.

mesolitica/malaysian-whisper-medium

Automatic Speech Recognition • 0.8B • Updated Jan 15, 2024 • 121 • 5
mesolitica/malaysian-whisper-small-v2

Automatic Speech Recognition • 0.2B • Updated Dec 4, 2024 • 65
mesolitica/malaysian-whisper-base

Automatic Speech Recognition • 72.6M • Updated Jan 15, 2024 • 76 • 3
mesolitica/malaysian-whisper-tiny

Automatic Speech Recognition • 37.8M • Updated Jan 15, 2024 • 50 • 1

Malaysian Translation

Translation model and dataset.

mesolitica/nanot5-small-malaysian-translation-v2

Translation • 89.5M • Updated Sep 1 • 80 • 1
mesolitica/nanot5-base-malaysian-translation-v2

Translation • 0.2B • Updated Sep 1 • 50 • 1
mesolitica/nanot5-small-malaysian-translation-v2.1

Translation • 89.5M • Updated Aug 31 • 85 • 1
mesolitica/nanot5-base-malaysian-translation-v2.1

Translation • 0.2B • Updated Sep 1 • 223

Malaysian instruction dataset

Malaysian instructions to pretrain or finetune LLM.

mesolitica/chatgpt4-code-instruct

Viewer • Updated Oct 4, 2024 • 68.7k • 76 • 1
mesolitica/chatgpt4-commonsense-qa

Viewer • Updated Feb 2, 2024 • 36.3k • 99 • 1
mesolitica/chatgpt4-malaysian-general-qa

Preview • Updated Feb 3, 2024 • 310
mesolitica/chatgpt4-kertas1

Preview • Updated Feb 2, 2024 • 291

Malaysian CausalLM

Trained on 21B tokens, 91GB of cleaned texts, able to understand standard Malay, local Malay, local Mandarin, Manglish, and local Tamil.

mesolitica/malaysian-mistral-64M-4096

Text Generation • 64.2M • Updated Feb 29, 2024 • 12
mesolitica/malaysian-mistral-191M-4096

Text Generation • 0.2B • Updated Feb 29, 2024 • 46
mesolitica/malaysian-mistral-349M-4096

Text Generation • 0.3B • Updated Dec 3, 2023 • 16
mesolitica/malaysian-mistral-474M-4096

Text Generation • 0.5B • Updated Mar 2, 2024 • 21

Malaysian Seq2Seq

Trained on 17B tokens, 81GB of cleaned texts, able to understand standard Malay, local Malay, local Mandarin, Manglish, and local Tamil.

mesolitica/nanot5-small-malaysian-cased

89.5M • Updated Apr 24, 2024 • 79
mesolitica/nanot5-base-malaysian-cased

0.2B • Updated Apr 15, 2024 • 51
mesolitica/nanot5-large-malaysian-cased

0.8B • Updated Apr 18, 2024 • 16
mesolitica/t5-tiny-standard-bahasa-cased

Feature Extraction • Updated Oct 6, 2022 • 14

Audio Language Model

Open source models including Malaysian context and dataset.

mesolitica/Malaysian-Qwen2.5-7B-Speech-Instruct

8B • Updated Jun 21 • 13 • 2
mesolitica/Malaysian-Qwen2.5-7B-Audio-Instruct

8B • Updated Jun 28 • 17
mesolitica/AudioSet-Audio-Instructions

Viewer • Updated Apr 2 • 313k • 233 • 3
mesolitica/Classification-Speech-Instructions

Viewer • Updated Mar 30 • 118k • 112 • 1

Malaysian Reasoning

Full parameter post training using SFT warmup and GRPO.

mesolitica/Malaysian-Qwen2.5-1.5B-Reasoning-SFT

2B • Updated Jun 18 • 11
mesolitica/Malaysian-Qwen2.5-1.5B-Reasoning-GRPO

2B • Updated Jun 18 • 24
mesolitica/Malaysian-Qwen2.5-7B-Reasoning-SFT

8B • Updated Jun 18 • 40 • 1
mesolitica/Malaysian-Qwen2.5-7B-Dialect-Reasoning-GRPO

8B • Updated Jun 4 • 18 • 3

Malaysian Finetuned Instruct LoRA

Continue finetuning Instruct model using LoRA from 0.5B up to 72B.

mesolitica/Malaysian-Qwen2.5-72B-Instruct

73B • Updated May 27 • 11 • 1
mesolitica/Malaysian-Qwen2.5-32B-Instruct

33B • Updated May 27 • 8
mesolitica/Malaysian-Qwen2.5-14B-Instruct

15B • Updated Jun 14 • 19 • 1
mesolitica/Malaysian-Qwen2.5-7B-Instruct

8B • Updated May 29 • 22 • 1

Malaysian Speech-to-Text

Open source models and dataset.

mesolitica/malaysian-whisper-medium

Automatic Speech Recognition • 0.8B • Updated Jan 15, 2024 • 121 • 5
mesolitica/malaysian-whisper-small-v2

Automatic Speech Recognition • 0.2B • Updated Dec 4, 2024 • 65
mesolitica/malaysian-whisper-base

Automatic Speech Recognition • 72.6M • Updated Jan 15, 2024 • 76 • 3
mesolitica/malaysian-whisper-tiny

Automatic Speech Recognition • 37.8M • Updated Jan 15, 2024 • 50 • 1

Malaysian Text-to-Speech

Malaysian Text-to-Speech models.

mesolitica/Malaysian-TTS-4B-v0.1

Text Generation • 4B • Updated Sep 14 • 36
mesolitica/Malaysian-TTS-1.7B-v1

Text Generation • 2B • Updated Aug 17 • 33
mesolitica/Malaysian-TTS-1.7B-v0.1

Text Generation • 2B • Updated Aug 15 • 10 • 1
mesolitica/Malaysian-TTS-0.6B-v1

Text Generation • 0.6B • Updated Aug 17 • 18

Malaysian Translation

Translation model and dataset.

mesolitica/nanot5-small-malaysian-translation-v2

Translation • 89.5M • Updated Sep 1 • 80 • 1
mesolitica/nanot5-base-malaysian-translation-v2

Translation • 0.2B • Updated Sep 1 • 50 • 1
mesolitica/nanot5-small-malaysian-translation-v2.1

Translation • 89.5M • Updated Aug 31 • 85 • 1
mesolitica/nanot5-base-malaysian-translation-v2.1

Translation • 0.2B • Updated Sep 1 • 223

Malaysian pretraining dataset

Dataset to pretrain or continue pretrain to induce locality, gathered up to 200B tokens.

mesolitica/fineweb-filter-malaysian-context

Viewer • Updated Aug 13, 2024 • 98.7M • 2.24k
mesolitica/smollm-corpus-filter-malaysian-context

Preview • Updated Aug 11, 2024 • 49
malaysia-ai/pretrain-text-dataset

Updated Aug 19 • 3.54k • 1

Malaysian instruction dataset

Malaysian instructions to pretrain or finetune LLM.

mesolitica/chatgpt4-code-instruct

Viewer • Updated Oct 4, 2024 • 68.7k • 76 • 1
mesolitica/chatgpt4-commonsense-qa

Viewer • Updated Feb 2, 2024 • 36.3k • 99 • 1
mesolitica/chatgpt4-malaysian-general-qa

Preview • Updated Feb 3, 2024 • 310
mesolitica/chatgpt4-kertas1

Preview • Updated Feb 2, 2024 • 291

MaLLaM 🌙

Pretrain from scratch 4096 context length on 90B tokens Malaysian text, https://huggingface.co/papers/2401.14680

mesolitica/mallam-1.1B-4096

Text Generation • 1B • Updated Oct 7, 2024 • 439 • 12
mesolitica/mallam-3B-4096

Text Generation • 3B • Updated Oct 7, 2024 • 66 • 2
mesolitica/mallam-5B-4096

Text Generation • 5B • Updated Oct 13, 2024 • 62 • 2
mesolitica/mallam-1.1b-20k-instructions

Text Generation • 1B • Updated Dec 19, 2023 • 42 • 1

Malaysian CausalLM

Trained on 21B tokens, 91GB of cleaned texts, able to understand standard Malay, local Malay, local Mandarin, Manglish, and local Tamil.

mesolitica/malaysian-mistral-64M-4096

Text Generation • 64.2M • Updated Feb 29, 2024 • 12
mesolitica/malaysian-mistral-191M-4096

Text Generation • 0.2B • Updated Feb 29, 2024 • 46
mesolitica/malaysian-mistral-349M-4096

Text Generation • 0.3B • Updated Dec 3, 2023 • 16
mesolitica/malaysian-mistral-474M-4096

Text Generation • 0.5B • Updated Mar 2, 2024 • 21

Malaysian LLM2Vec

Extending Malaysian CausalLM on non-causal masking training, https://arxiv.org/abs/2404.05961

mesolitica/malaysian-mistral-64M-MLM-512

Feature Extraction • 64.2M • Updated Apr 20, 2024 • 40
mesolitica/malaysian-mistral-191M-MLM-512

Feature Extraction • 0.2B • Updated Apr 20, 2024 • 28
mesolitica/malaysian-mistral-349M-MLM-512

Feature Extraction • 0.3B • Updated Apr 22, 2024 • 16
mesolitica/malaysian-mistral-474M-MLM-512

Feature Extraction • 0.5B • Updated Apr 23, 2024 • 13

Malaysian Seq2Seq

Trained on 17B tokens, 81GB of cleaned texts, able to understand standard Malay, local Malay, local Mandarin, Manglish, and local Tamil.

mesolitica/nanot5-small-malaysian-cased

89.5M • Updated Apr 24, 2024 • 79
mesolitica/nanot5-base-malaysian-cased

0.2B • Updated Apr 15, 2024 • 51
mesolitica/nanot5-large-malaysian-cased

0.8B • Updated Apr 18, 2024 • 16
mesolitica/t5-tiny-standard-bahasa-cased

Feature Extraction • Updated Oct 6, 2022 • 14

Malaysian MaskLM

Trained on 17B tokens, 81GB of cleaned texts, able to understand standard Malay, local Malay, local Mandarin, Manglish, and local Tamil.

mesolitica/malaysian-debertav2-base

0.1B • Updated Mar 26, 2024 • 22
malaysia-ai/malaysian-debertav2-large

0.3B • Updated Mar 28, 2024 • 12
mesolitica/malaysian-mistral-64M-MLM-512

Feature Extraction • 64.2M • Updated Apr 20, 2024 • 40
mesolitica/malaysian-mistral-191M-MLM-512

Feature Extraction • 0.2B • Updated Apr 20, 2024 • 28

AI & ML interests

Recent Activity

Team members 3

mesolitica 's collections 13