به گزارش بازار، شرکتهای حوزه فناوری برای آموزش مدلهای هوش مصنوعی خود باید از دادههایی استفاده کنند که معمولاً با هزینه زیادیی در اختیار آنها قرار میگیرد. به همین دلیل اکنون دانشگاه هاروارد اعلام کرده که میخواهد مجموعه دادهای را منتشر کند که شامل حدود ۱ میلیون کتاب دارای مالکیت عمومی در سبک و زبانهای مختلف از نویسندگانی مانند «چارلز دیکنز» و «شکسپیر» میشود که به دلیل سن آنها دیگر تحت قانون کپیرایت قرار نمیگیرند.
همانطور که WIRED گزارش میدهد، این مجموعه داده هنوز در دسترس قرار نگرفته و مشخص نیست چه زمانی منتشر میشود. بااینحال گفته میشود که شامل کتابهایی است که از پروژه قدیمی اسکن کتاب گوگل، یعنی Google Books مشتق شدهاند، بنابراین غول فناوری نیز در انتشار آن مشارکت خواهد داشت.
تلاش بزرگ برای سادهترکردن آموزش هوش مصنوعی
دانشگاه هاروارد اولین بار در ماه مارس سال جاری از این مجموعه داده با عنوان «ابتکار دادههای سازمان» (IDI) خبر داده بود و برنامهها خود برای ساخت یک «پل ارتباطی قابل اعتماد برای دادههای قانونی مورد نیاز هوش مصنوعی» را اعلام کرد.
بااینحال تاکنون اطلاعات بیشتری از این پروژه منتشر نشده است و فقط گفته شده که مایکروسافت و OpenAI نیز از جمله سرمایهگذاران آن خواهند بود.
«گرگ لپرت»، مدیر اجرایی IDI میگوید که این مجموعه داده با در دسترس قراردادن چنین اطلاعات عظیمی برای هر کسی (از آزمایشگاههای تحقیقاتی گرفته تا استارتاپهای هوش مصنوعی) که میخواهد مدل زبانی بزرگ (LLM) خود را توسعه بدهد، هدف «همسطحکردن حوزه رقابت» را دنبال میکند.
نظر شما