پیکره ای بزرگ و ۵ میلیارد کلمه ای از متن های فارسی است.
اچامبلاگز یک پیکره بزرگ از متنهای فارسی است که بر اساس خزش پستهای وبلاگهای فارسی تهیه شده است. این پیکره دارای دو نسخه یک و سه عمومی است. نسخه یک تنها شامل پستهای وبلاگهای بلاگفا است و نسخه سه شامل پستهایی از سرویسدندههای بلاگفا و بیان میباشد. در نسخه سه شامل بیش از ۵میلیارد توکن میباشد و روی پستهای آن، سعی شده است که پستهای تکراری حذف شوند.
مشارکت کننده در ساخت :
حمزه مطهری
اطلاعات ارجاع :
- HM Khansari, M Shamsfard HmBlogs: A big general Persian corpus, arXiv preprint arXiv:۲۱۱۱,۰۲۳۶۲, ۲۰۲۱.
درخواست این پیکره داده را دارم