پیکره ای بزرگ و ۵ میلیارد کلمه ای از متن های فارسی است.

اچ‌ام‌بلاگز یک پیکره بزرگ از متن‌های فارسی است که بر اساس خزش پست‌های وبلاگ‌های فارسی تهیه شده است. این پیکره دارای دو نسخه یک و سه عمومی است. نسخه یک تنها شامل پست‌های وبلاگ‌های بلاگفا است و نسخه سه شامل پست‌هایی از سرویس‌دنده‌های بلاگفا و بیان می‌باشد. در نسخه سه شامل بیش از ۵میلیارد توکن می‌باشد و روی پست‌های آن، سعی شده است که پست‌های تکراری حذف شوند.

مشارکت کننده در ساخت : 
حمزه مطهری
اطلاعات ارجاع : 

  • HM Khansari, M Shamsfard HmBlogs: A big general Persian corpus, arXiv preprint arXiv:۲۱۱۱,۰۲۳۶۲, ۲۰۲۱.

One Reply to “پیکره اچ ام بلاگز”