به گزارش بازار، در حالی که OpenAI و مایکروسافت از قدرت گرفتن استارتاپ چینی DeepSeek خشمگین هستند، ادعای جدیدی را علیه آن مطرح کردهاند: سرقت فناوری و کاهش سهم بازار آنها. این ادعا از سوی شرکتی مطرح شده که خودش ChatGPT را بر پایه دادههای دارای حق نشر توسعه داده است؛ موضوعی که پیشتر به آن اذعان کرده بود.
موج ایجاد شده به واسطه عملکرد بینظیر هوش مصنوعی دیپ سیک به حدی گسترده است که طی چند روز گذشته بیشتر خروجی سرخطهای خبری دنیای فناوری را به خود اختصاص داده است.
اما ساعتی پیش خبری منتشر شد که شاید بسیاری انتظارش را میکشیدند. در این خبر یکی از مسئولان OpenAI مدعی شده که دیپ سیک، به نحوی قوانین آنها را نقض کرده و از دادههای موجود مدلهای ساخته شده توسط این شرکت برای آموزش مدل خودش استفاده کرده است.
دیپ سیک دادههای خود را از ChatGPT استخراج کرده؟!
بنابر گزارش Gizmodo، شرکت OpenAI در گفتوگویی با فایننشال تایمز مدعی شده که DeepSeek از روشی به نام «تقطیر دانش (Distillation)» برای ساخت چتبات خود استفاده کرده است. دیوید ساکس، یکی از اعضای برجسته PayPal Mafia و مشاور کاخ سفید در زمینه هوش مصنوعی و ارزهای دیجیتال، در این مورد توضیح داده است:
تقطیر دانش در هوش مصنوعی به فرآیندی گفته میشود که یک مدل از مدل دیگر یاد میگیرد. مدل کوچکتر، مشابه یک دانشآموز، سؤالات زیادی از مدل مادر میپرسد. اما تفاوت در اینجاست که هوش مصنوعی میتواند میلیونها سؤال مطرح کند و عملاً منطق و الگوهای یادگیری را از مدل مادر استخراج کند.
این ادعا مطرح میکند که به زبان ساده، DeepSeek حجم عظیمی از خروجیهای ChatGPT را دریافت و از آنها برای آموزش مدل زبانی خود استفاده کرده است. این روش باعث میشود بدون صرف میلیاردها دلار هزینه توسعه، یک مدل زبان قدرتمند ساخته شود.
آیا OpenAI شواهدی برای این ادعا دارد؟
OpenAI در حالی این اتهامات را مطرح کرده که هیچ مدرک مستقیمی ارائه نکرده است. همچنین، در همان مصاحبه با فایننشال تایمز اذعان کرده که هیچ شرکتی قادر به ساخت نسخهای کاملاً مشابه ChatGPT نیست. با این وجود، مایکروسافت متوجه فعالیتهای مشکوک در API این مدل شده و احتمال داده که DeepSeek از این طریق دادههای مورد نیازش را جمعآوری کرده باشد. این اقدام، در صورت صحت، میتواند نقض شرایط استفاده (Terms of Service) از ChatGPT تلقی شود.
تفاوت کپی کردن و سوء استفاده از مدل هوش مصنوعی
در این زمینه باید در نظر داشت که تفاوت اصلی بین کپی کردن دادهها و سوءاستفاده از قوانین برای آموزش مدل هوش مصنوعی در روش بهدستآوردن و استفاده از دادهها نهفته است. بگذارید در ادامه این دو مبحث را به صورت روشنتری به شما توضیح دهیم:
کپی کردن دادهها (Direct Copying)
کپی کردن دادههای یک مدل هوش مصنوعی به معنای برداشت و استفاده بدون تغییر از دادههای متعلق به دیگران، بدون اجازه یا نقض قوانین حق نشر (Copyright Infringement) است.
برای مثال میتوان گفت اگر یک شرکت کل دیتاستهای خصوصی یا محتوای محافظتشده (مانند کتابها، مقالات یا کدهای نرمافزاری) را بدون مجوز استفاده کند، این یک تخلف آشکار است.
مشکل اصلی این روش این است که به صورت کامل نقض قوانین مالکیت فکری و نقض حریم خصوصی کاربران رخ داده که نقض Terms of Use نیز تلقی میشود.
سوءاستفاده از قوانین برای آموزش مدل AI (Loophole Exploitation)
این مورد از نظر ماهوی با کپی کردن متفاوت است. طبق تعریف، سوء استفاده از قوانیم برای آموزش مدل AI به معنای استفاده از دادههای عمومی یا نیمهخصوصی به شکلی که قوانین فعلی را دور بزند، ولی از نظر حقوقی تخلف محسوب نشود، خواهد بود.
برای مثال در این زمینه روش تقطیر دانش (Distillation) عنوان میشود که در آن یک مدل هوش مصنوعی بهجای کپی مستقیم دادهها، از خروجیهای یک مدل دیگر استفاده میکند (مانند آنچه DeepSeek متهم به انجام آن شده است).
در نظر داشته باشید که در این خصوص، استفاده از اطلاعات عمومی وبسایتها (مانند Wikipedia یا GitHub) که تحت قوانین «استفاده منصفانه (Fair Use)» قرار میگیرند، منعی ندارد و مصداق تخطی از قوانین تلقی نمیشود.
این روش از نظر قانونی ممکن است قابل پیگیری نباشد، اما مسائل اخلاقی و تجاری (مانند کاهش ارزش مدلهای اختصاصی شرکتهای دیگر) را ایجاد میکند که دقیقاً در خصوص مدل مورد استفاده DeepSeek، عنوان میشود.
نظر شما