۱۱ بهمن ۱۴۰۳ - ۱۲:۳۵

ادعای جنجالی OpenAI: دیپ سیک مدل خودش را با داده‌های ChatGPT آموزش داده است

در حالی که OpenAI و مایکروسافت همیشه در صدر رقابت‌های هوش مصنوعی بوده‌اند، حالا ادعا می‌کنند که استارتاپ چینی DeepSeek با روشی بحث‌برانگیز از مدل‌های آن‌ها الگوبرداری کرده است.

به گزارش بازار، در حالی که OpenAI و مایکروسافت از قدرت گرفتن استارتاپ چینی DeepSeek خشمگین هستند، ادعای جدیدی را علیه آن مطرح کرده‌اند: سرقت فناوری و کاهش سهم بازار آن‌ها. این ادعا از سوی شرکتی مطرح شده که خودش ChatGPT را بر پایه داده‌های دارای حق نشر توسعه داده است؛ موضوعی که پیش‌تر به آن اذعان کرده بود.

موج ایجاد شده به واسطه عملکرد بی‌نظیر هوش مصنوعی دیپ سیک به حدی گسترده است که طی چند روز گذشته بیشتر خروجی سرخط‌های خبری دنیای فناوری را به خود اختصاص داده است.

اما ساعتی پیش خبری منتشر شد که شاید بسیاری انتظارش را می‌کشیدند. در این خبر یکی از مسئولان OpenAI مدعی شده که دیپ سیک، به نحوی قوانین آنها را نقض کرده و از داده‌های موجود مدل‌های ساخته شده توسط این شرکت برای آموزش مدل خودش استفاده کرده است.

دیپ سیک داده‌های خود را از ChatGPT استخراج کرده؟!

بنابر گزارش Gizmodo، شرکت OpenAI در گفت‌وگویی با فایننشال تایمز مدعی شده که DeepSeek از روشی به نام «تقطیر دانش (Distillation)» برای ساخت چت‌بات خود استفاده کرده است. دیوید ساکس، یکی از اعضای برجسته PayPal Mafia و مشاور کاخ سفید در زمینه هوش مصنوعی و ارزهای دیجیتال، در این مورد توضیح داده است:

تقطیر دانش در هوش مصنوعی به فرآیندی گفته می‌شود که یک مدل از مدل دیگر یاد می‌گیرد. مدل کوچک‌تر، مشابه یک دانش‌آموز، سؤالات زیادی از مدل مادر می‌پرسد. اما تفاوت در اینجاست که هوش مصنوعی می‌تواند میلیون‌ها سؤال مطرح کند و عملاً منطق و الگوهای یادگیری را از مدل مادر استخراج کند.

این ادعا مطرح می‌کند که به زبان ساده، DeepSeek حجم عظیمی از خروجی‌های ChatGPT را دریافت و از آن‌ها برای آموزش مدل زبانی خود استفاده کرده است. این روش باعث می‌شود بدون صرف میلیاردها دلار هزینه توسعه، یک مدل زبان قدرتمند ساخته شود.

آیا OpenAI شواهدی برای این ادعا دارد؟

OpenAI در حالی این اتهامات را مطرح کرده که هیچ مدرک مستقیمی ارائه نکرده است. همچنین، در همان مصاحبه با فایننشال تایمز اذعان کرده که هیچ شرکتی قادر به ساخت نسخه‌ای کاملاً مشابه ChatGPT نیست. با این وجود، مایکروسافت متوجه فعالیت‌های مشکوک در API این مدل شده و احتمال داده که DeepSeek از این طریق داده‌های مورد نیازش را جمع‌آوری کرده باشد. این اقدام، در صورت صحت، می‌تواند نقض شرایط استفاده (Terms of Service) از ChatGPT تلقی شود.

تفاوت کپی کردن و سوء استفاده از مدل هوش مصنوعی

در این زمینه باید در نظر داشت که تفاوت اصلی بین کپی کردن داده‌ها و سوءاستفاده از قوانین برای آموزش مدل هوش مصنوعی در روش به‌دست‌آوردن و استفاده از داده‌ها نهفته است. بگذارید در ادامه این دو مبحث را به صورت روشن‌تری به شما توضیح دهیم:

کپی کردن داده‌ها (Direct Copying)

کپی کردن داده‌های یک مدل هوش مصنوعی به معنای برداشت و استفاده بدون تغییر از داده‌های متعلق به دیگران، بدون اجازه یا نقض قوانین حق نشر (Copyright Infringement) است.

برای مثال می‌توان گفت اگر یک شرکت کل دیتاست‌های خصوصی یا محتوای محافظت‌شده (مانند کتاب‌ها، مقالات یا کدهای نرم‌افزاری) را بدون مجوز استفاده کند، این یک تخلف آشکار است.

مشکل اصلی این روش این است که به صورت کامل نقض قوانین مالکیت فکری و نقض حریم خصوصی کاربران رخ داده که نقض Terms of Use نیز تلقی می‌شود.

سوءاستفاده از قوانین برای آموزش مدل AI (Loophole Exploitation)

این مورد از نظر ماهوی با کپی کردن متفاوت است. طبق تعریف، سوء استفاده از قوانیم برای آموزش مدل AI به معنای استفاده از داده‌های عمومی یا نیمه‌خصوصی به شکلی که قوانین فعلی را دور بزند، ولی از نظر حقوقی تخلف محسوب نشود، خواهد بود.

برای مثال در این زمینه روش تقطیر دانش (Distillation) عنوان می‌شود که در آن یک مدل هوش مصنوعی به‌جای کپی مستقیم داده‌ها، از خروجی‌های یک مدل دیگر استفاده می‌کند (مانند آنچه DeepSeek متهم به انجام آن شده است).

در نظر داشته باشید که در این خصوص، استفاده از اطلاعات عمومی وب‌سایت‌ها (مانند Wikipedia یا GitHub) که تحت قوانین «استفاده منصفانه (Fair Use)» قرار می‌گیرند، منعی ندارد و مصداق تخطی از قوانین تلقی نمی‌شود.

این روش از نظر قانونی ممکن است قابل پیگیری نباشد، اما مسائل اخلاقی و تجاری (مانند کاهش ارزش مدل‌های اختصاصی شرکت‌های دیگر) را ایجاد می‌کند که دقیقاً در خصوص مدل مورد استفاده DeepSeek، عنوان می‌شود.

کد خبر: ۳۲۳٬۵۷۷