۲۳ آذر ۱۴۰۳ - ۱۵:۱۸

گوگل و هاروارد مجموعه داده عظیمی با ۱ میلیون کتاب برای آموزش هوش مصنوعی تولید می‌کنند

دانشگاه هاروارد اعلام کرده می‌خواهد مجموعه داده‌ای منتشر کند که شامل حدود ۱ میلیون کتاب از نویسندگانی چون «چارلز دیکنز» و «شکسپیر» که به دلیل سن، تحت قانون کپی‌رایت قرار نمی گیرند.

به گزارش بازار، شرکت‌های حوزه فناوری برای آموزش مدل‌های هوش مصنوعی خود باید از داده‌هایی استفاده کنند که معمولاً با هزینه زیادیی در اختیار آنها قرار می‌گیرد. به همین دلیل اکنون دانشگاه هاروارد اعلام کرده که می‌خواهد مجموعه داده‌ای را منتشر کند که شامل حدود ۱ میلیون کتاب دارای مالکیت عمومی در سبک و زبان‌های مختلف از نویسندگانی مانند «چارلز دیکنز» و «شکسپیر» می‌شود که به دلیل سن آنها دیگر تحت قانون کپی‌رایت قرار نمی‌گیرند.

همانطور که WIRED گزارش می‌دهد، این مجموعه داده هنوز در دسترس قرار نگرفته و مشخص نیست چه زمانی منتشر می‌شود. بااین‌حال گفته می‌شود که شامل کتاب‌هایی است که از پروژه قدیمی اسکن کتاب گوگل، یعنی Google Books مشتق شده‌اند، بنابراین غول فناوری نیز در انتشار آن مشارکت خواهد داشت.

تلاش بزرگ برای ساده‌ترکردن آموزش هوش مصنوعی

دانشگاه هاروارد اولین بار در ماه مارس سال جاری از این مجموعه داده با عنوان «ابتکار داده‌های سازمان» (IDI) خبر داده بود و برنامه‌ها خود برای ساخت یک «پل ارتباطی قابل اعتماد برای داده‌های قانونی مورد نیاز هوش مصنوعی» را اعلام کرد.

بااین‌حال تاکنون اطلاعات بیشتری از این پروژه منتشر نشده است و فقط گفته شده که مایکروسافت و OpenAI نیز از جمله سرمایه‌گذاران آن خواهند بود.

«گرگ لپرت»، مدیر اجرایی IDI می‌گوید که این مجموعه داده با در دسترس قراردادن چنین اطلاعات عظیمی برای هر کسی (از آزمایشگاه‌های تحقیقاتی گرفته تا استارتاپ‌های هوش مصنوعی) که می‌خواهد مدل زبانی بزرگ (LLM) خود را توسعه بدهد، هدف «همسطح‌کردن حوزه رقابت» را دنبال می‌کند.

کد خبر: ۳۱۶٬۲۸۸