বাংলা ভাষার জন্য উন্মুক্ত ভাষা-মডেল গবেষণা Open language-model research for Bangla

BanglaLLM একটি স্বাধীন, উন্মুক্ত গবেষণা সমষ্টি। বাংলা ভাষার জন্য ভাষা-মডেল তৈরি করা আমাদের লক্ষ্য। আমরা মনে করি, একটি ভাষাকে "পরে যোগ করা" ভাষা হিসেবে দেখা আর একে প্রথম দিন থেকে বিবেচনায় রাখা, এই দুইয়ের মধ্যে পার্থক্য বিশাল। তাই আমরা মডেল, ডেটাসেট, বেঞ্চমার্ক, সব কিছু বাংলাকে মাথায় রেখে তৈরি করি এবং সম্পূর্ণ উন্মুক্তভাবে প্রকাশ করি। BanglaLLM is an independent, open research effort building language models for Bangla. We think there's a real difference between treating a language as an afterthought and designing for it from day one. So we build models, datasets, and benchmarks with Bangla in mind, and we release everything openly.

গবেষণার ক্ষেত্র What we work on

ভিত্তি-মডেল Foundation models

Llama ও Qwen-এর উপর ভিত্তি করে বাংলা ভাষার জন্য নতুন টোকেনাইজেশন, প্রাক-প্রশিক্ষণ ও ইনস্ট্রাকশন-টিউনিং। BanglaLlama পরিবারে ৩বি থেকে ৩৩বি পর্যন্ত বিভিন্ন মাপের মডেল, সব HuggingFace-এ উন্মুক্ত। New tokenization, continued pre-training, and instruction-tuning for Bangla, built on Llama and Qwen. The BanglaLlama family ranges from 3B to 33B; all released openly on HuggingFace.

মূল্যায়ন ও বেঞ্চমার্ক Evaluation and benchmarks

বাংলা ভাষায় মডেলের কাজ কতটুকু ভালো তা মাপার পদ্ধতি এখনও অনেকটা অনুপস্থিত। আমরা রাজনৈতিক পক্ষপাত সনাক্তকরণ, গণিত যুক্তি, এবং পরীক্ষার-সময় স্কেলিং-এর মতো ক্ষেত্রে বেঞ্চমার্ক তৈরি করছি। Measuring how well a model actually performs in Bangla is still largely an open question. We're building benchmarks around political-bias detection, mathematical reasoning, and test-time scaling.

ডেটা অবকাঠামো Data infrastructure

ভালো মডেলের জন্য ভালো ডেটা দরকার, এবং বাংলার জন্য সেই ডেটা নিজেদের তৈরি করতে হয়। সংবাদ ক্রলার, অনুবাদ করা ইনস্ট্রাকশন ডেটাসেট (Bangla-Alpaca, Bangla-Orca), গণিতের ডেটাসেট, সব উন্মুক্ত। Good models need good data, and for Bangla we've had to build most of it ourselves. News crawlers, translated instruction datasets (Bangla-Alpaca, Bangla-Orca), math datasets, all open.

গবেষণা থেকে পণ্যে Research to product

বেঞ্চে পড়ে থাকা গবেষণার চেয়ে মানুষের হাতে পৌঁছানো গবেষণা আমাদের কাছে বেশি অর্থবহ। Drishtikon, বাংলাদেশের জন্য সংবাদ-পাঠের একটি প্ল্যাটফর্ম, এই ল্যাবের কাজের উপর গড়ে উঠেছে। Research that reaches people matters more to us than research that stays on a shelf. Drishtikon, a news-literacy platform for Bangladesh, is built on this lab's work.

প্রকাশনা Publications

2026 LoResLM @ EACL 2026

BanglaLlama: বাংলা ভাষার জন্য LLaMA BanglaLlama: LLaMA for Bangla Language

Abdullah Khan Zehady, Shubhashis Roy Dipta, Naymul Islam, Safi Al Mamun, Santu Karmaker

Bangla-Alpaca (৫২k) ও Bangla-Orca (১৭২k) ইনস্ট্রাকশন ডেটাসেট, এবং ৫টি BanglaLlama মডেল ভেরিয়েন্ট উন্মুক্ত। Introduces Bangla-Alpaca (52k) and Bangla-Orca (172k) instruction datasets, plus 5 open BanglaLlama model variants.

arXiv
2025 BLP @ IJCNLP-AACL 2025

Read Between the Lines: বাংলা সংবাদে রাজনৈতিক পক্ষপাত উন্মোচনের একটি বেঞ্চমার্ক Read Between the Lines: A Benchmark for Uncovering Political Bias in Bangla News Articles

Nusrat Jahan Lia, Shubhashis Roy Dipta, Abdullah Khan Zehady, Naymul Islam, Madhusodan Chakraborty, Abdullah Al Wasif

BanglaBias, ২০০টি লেখার বেঞ্চমার্ক (সরকারপন্থী / সরকার-সমালোচক / নিরপেক্ষ), ২৮টি LLM-এর উপর মূল্যায়ন। BanglaBias, a 200-article benchmark with three-way labels (gov-leaning / gov-critique / neutral), evaluated across 28 LLMs.

arXiv · ACL Anthology

চলমান গবেষণা In progress

TutorLM TutorLM . বাংলায় শিক্ষামূলক সহায়তার জন্য মডেল তৈরির কাজ চলমান। প্রিপ্রিন্ট শীঘ্রই। Building tutoring-oriented Bengali models. Preprint coming soon.

মডেল ও ডেটাসেট Models & Datasets

HuggingFace-এ ৩১টির বেশি মডেল এবং ৭টি ডেটাসেট উন্মুক্ত। Over 31 open models and 7 datasets on HuggingFace.

মডেল পরিবার Model families

BanglaLlama পরিবার BanglaLlama family
Llama 3 / 3.1 / 3.2 এর উপর ভিত্তি করে। বেস এবং ইনস্ট্রাকশন-টিউনড, ৩বি থেকে ১১বি পর্যন্ত। Built on Llama 3 / 3.1 / 3.2. Base and instruction-tuned, from 3B to 11B.
Bangla-s1k পরিবার Bangla-s1k family
বাংলা ভাষার জন্য টেস্ট-টাইম স্কেলিং, Qwen-2.5 (3B/32B) এবং QWQ-32B ভিত্তিক। Test-time scaling adapted for Bengali, built on Qwen-2.5 (3B/32B) and QWQ-32B.

ডেটাসেট Datasets

bangla-alpaca-orca ১৭২k উদাহরণ 172k examples
Alpaca ও Orca মিশ্রিত বাংলা ইনস্ট্রাকশন ডেটাসেট। Mixed Alpaca + Orca Bangla instruction dataset.
bangla-alpaca ৫২k উদাহরণ 52k examples
বাংলায় অনুবাদিত Alpaca ইনস্ট্রাকশন ডেটাসেট। Alpaca-style Bangla instruction dataset.
bangla_math ৮৫৯k উদাহরণ 859k examples
বাংলায় গণিত সমস্যা ও সমাধান। Bengali math problems and solutions.

গবেষণা থেকে পণ্যে: দৃষ্টিকোণ From research to product: Drishtikon

Drishtikon একটি বাংলা সংবাদ-সাক্ষরতা প্ল্যাটফর্ম। প্রতিটি খবরের একাধিক উৎস, পক্ষপাতের মানচিত্র, এবং একটি কথোপকথনমূলক ইন্টারফেস যাতে পাঠক প্রশ্ন করতে পারেন। এটি BongLLaMA মডেলের উপর চলে, এবং আমাদের পক্ষপাত-সনাক্তকরণ গবেষণা ("Read Between the Lines") এই প্ল্যাটফর্মের মূল ভিত্তি। গবেষণাগার ও পণ্যের সংযোগ আমাদের কাছে একটি গুরুত্বপূর্ণ বিষয়। একটি মডেল কেবল বেঞ্চমার্কে ভালো করলেই যথেষ্ট নয়, সেটি মানুষের কাছে পৌঁছাতে হবে। Drishtikon is a Bengali news-literacy platform with multiple sources per story, a bias map, and a conversational interface for readers to ask questions. It runs on BongLLaMA, and our bias-detection research ("Read Between the Lines") feeds the platform's core. The loop between the lab and the product matters to us: a model that scores well on benchmarks but never reaches readers isn't the outcome we're after.

drishtikon.life · প্যারেন্ট কোম্পানি: Parent: Perspectivity

আমরা People

আব্দুল্লাহ খান জেহাদী Abdullah Khan Zehady

গবেষণা প্রধান, Perspectivity-এর প্রতিষ্ঠাতা Research lead, Founder, Perspectivity
শুভাশীষ রায় দিপ্ত Shubhashis Roy Dipta

গবেষক, পিএইচডি শিক্ষার্থী, UMBC Researcher, PhD, UMBC
শান্তু কর্মকার Santu Karmaker

গবেষণা উপদেষ্টা, সহকারী অধ্যাপক, UCF, Bridge-AI Lab Research advisor, Assistant Professor, UCF, Bridge-AI Lab
নাঈমুল ইসলাম Naymul Islam

গবেষক Researcher
সাফি আল মামুন Safi Al Mamun

গবেষক Researcher
নুসরাত জাহান লিয়া Nusrat Jahan Lia

গবেষক Researcher
মধুসূদন চক্রবর্তী Madhusodan Chakraborty

গবেষক Researcher
সিবগাত জেহাদী Sibgat Zehady

গবেষক Researcher

উন্মুক্ত সোর্স Open source

bangla-llama BanglaLlama পরিবারের ট্রেনিং নোটবুক। LLaMA 2/3/3.1/3.2, Mistral, Mixtral, Unsloth। Training notebooks for the BanglaLlama family. LLaMA 2/3/3.1/3.2, Mistral, Mixtral, Unsloth.
s1-bengali বাংলা রিজনিংয়ের জন্য টেস্ট-টাইম স্কেলিং। Test-time scaling adapted for Bengali reasoning.
lm-evaluation-harness মূল্যায়ন ফ্রেমওয়ার্ক ফর্ক, বাংলা-কেন্দ্রিক টাস্ক ও বেঞ্চমার্ক। Evaluation framework fork with Bangla-oriented tasks and benchmarks.
BanglaDataManager বাংলা LLM কাজের জন্য ডেটাসেট ব্যবস্থাপনা অবকাঠামো। Dataset management infrastructure for Bangla LLM work.
bd-newspaper-crawlers বাংলা সংবাদ উৎস ও ব্লগের জন্য ক্রলার। Crawlers for Bangla news sources and blogs.
Open-Translator উন্মুক্ত অনুবাদ এজেন্ট। Open-source translation agent.
youtube_bangla বাংলা ইউটিউব কন্টেন্টের উপর প্রশ্ন-উত্তর সিস্টেম। Q&A system over Bangla YouTube content.
OpenMAIC মাল্টি-এজেন্ট ইন্টারঅ্যাক্টিভ ক্লাসরুম প্ল্যাটফর্ম। Multi-agent interactive classroom platform.

যোগ দিন বা যোগাযোগ Collaborate or get in touch

আমরা সহযোগিতার জন্য উন্মুক্ত। ছাত্র, গবেষক, ইঞ্জিনিয়ার, কিংবা যারা বাংলা ভাষার প্রযুক্তি নিয়ে কাজ করতে চান, সবাইকে স্বাগত। কাজের সবচেয়ে সহজ শুরু হলো GitHub-এ issue খোলা বা PR পাঠানো। We're open to collaboration. Students, researchers, engineers, or anyone who wants to build Bangla-language technology with us. The easiest way in is opening a GitHub issue or sending a pull request.

github.com/banglallm · brishtiteveja@gmail.com