[ad_1]
شرکت استخدام ، آموزشی ویبولیتین (دفتر مرکزی: چیودا-کو ، توکیو ، رئیس جمهور: یوشیهیرو کیتامورا ، از این پس به نام Recruit) ، یک شرکت هولدینگ متوسط شرکت Recruit Holdings Co. ، Ltd. ، اعلام کرد که توسط موسسه تحقیقاتی ما AI ، آزمایشگاه های Megagon به ژاپنی است. برای کمک به توسعه تحقیقات در مورد پردازش زبان طبیعی ، تقریباً براساس اطلاعات شفاهی در سایت توریستی “Jaran net” ، مدیریت شده توسط Recruit Lifestyle Co.، Ltd. (دفتر مرکزی: Chiyoda-ku ، توکیو ، رئیس جمهور: کن آسانو ، از این پس به عنوان سبک زندگی Recruit نامیده می شود) ما مجموعه ای از داده های تحقیقاتی دانشگاهی را شامل خواهیم شد که شامل 120،000 داده برای استفاده در تحقیقات م institسسات تحقیقاتی عمومی و دانشگاه ها است.
چالش هایی در پردازش زبان طبیعی ژاپنی
پردازش زبان طبیعی به یک سری روشهای درمانی گفته می شود که کامپیوتر باعث تجزیه و تحلیل زبان (زبان طبیعی) ما می شود که روزانه از آن استفاده می کنیم و در زندگی روزمره و شغلی از آن استفاده می کنیم ، مانند موتورهای جستجو ، ترجمه ماشینی ، سیستم گفتگو و تجزیه و تحلیل صدای مشتری در صحنه های مختلف استفاده می شود.
مشکل پردازش زبان طبیعی در ژاپنی این است که تعداد مجموعه های داده منتشر شده عمدتا کمتر از سایر زبان های اصلی است. به منظور توسعه پردازش طبیعی زبان ژاپنی ، غنی سازی مجموعه داده های موجود برای تحقیقات دانشگاهی به ویژه مطلوب است.
درباره مجموعه داده های تحقیق دانشگاهی که باید منتشر شود
این بار ، مجموعه داده منتشر شده توسط آزمایشگاه Megagon با حاشیه (حاشیه نویسی) با بررسی امکانات اقامتی منتشر شده در سایت سفر خالص Jaran ارائه شده توسط Recruit Lifestyle و جملاتی که براساس آنها پردازش و ایجاد شده است. ) انجام شد این جمله بر اساس جملات مختلف ، از جمله توضیحات ، برداشت ها و ارزیابی حقایق بسیاری از مشتریانی است که واقعاً از شبکه Jaran استفاده کرده اند و می تواند برای طیف گسترده ای از پردازش زبان طبیعی ژاپنی مورد استفاده قرار گیرد. به طور خاص ، دو مجموعه داده زیر در مخازن مربوطه منتشر می شوند.
(1) مجموعه ای از داده های پیوند مفاهیم
این مجموعه ای از داده ها است که دارای برچسب این است که آیا جمله “من می توانم دریا را از اتاق ببینم” نیز ذخیره می شود (مهم است یا نه) وقتی جمله “اتاق از نظر اقیانوس خوب است و از نظر منظر خوب است”. (تقریباً 55000)
همچنین شامل برچسبی برای قطبیت عاطفی مثبت / منفی / خنثی و جمله ای با برچسب نشان می دهد که آیا ویژگی های کاروانسرا وجود دارد یا خیر. (تقریباً 5600 مورد)
https://github.com/megagonlabs/jrte-corpus
(2) مجموعه داده های توجیهی
این مجموعه ای از داده ها است که منطق توصیه به درخواست کاربر هنگام توصیه مسافرخانه را توضیح می دهد. (تقریباً 37300)
به عنوان مثال ، ما تلاش می کنیم با گفتن این جمله که “این مسافرخانه فضای بزرگ کودکان دارد ، به مشتریانی که خواهان” مسافرخانه دوستدار کودک “هستند پاسخ دهیم ، بنابراین پیشنهاد می کنیم. ما هر جمله را بر اساس اینکه آیا با درخواست مطابقت دارد یا نه برچسب گذاری می کنیم و سپس جمله ای را که به عنوان مبنای محکوم شده است ، به عنوان جمله پیشنهادی بیان می کنیم.
https://github.com/megagonlabs/ebe-dataset
با استفاده از این مجموعه داده ها برای محققانی که در زمینه تحقیقات زبان طبیعی برای پردازش زبان ژاپنی کار می کنند ، می توان انتظار تسریع بیشتری در تحقیقات را داشت. این مجموعه داده برای استفاده در تحقیقات دانشگاهی در نظر گرفته شده است و فقط برای اهداف غیر تجاری مجاز است.
آزمایشگاه های مگاگون به انتشار مجموعه داده های تحقیقات علمی ادامه می دهند و به توسعه فناوری پردازش زبان طبیعی ژاپن کمک می کنند. اگر در مورد این مجموعه مطالعات دانشگاهی سالی دارید ، لطفاً با سوالات زیر تماس بگیرید.
صفحه داده تحقیقات دانشگاهی آزمایشگاه های Megagon
https://www.megagon.ai/jp/projects/datasets/
[ad_2]