شرکت زیرساخت اینترنتی کلودفلر فاش کرد که استارتاپ هوش مصنوعی پرپلکسیتی به رغم بلاکهای صریح، محتوا را از سایتها خزش و اسکرپ میکند. این اقدام با تغییر هویت رباتها و پنهانسازی درخواستها انجام میگیرد و میلیونها درخواست روزانه را شامل میشود.
اخیراً پژوهش کلودفلر نشان داد که پرپلکسیتی جهت جمعآوری دادههای گسترده، علامتگذاریهای بلاک را نادیده گرفته است. بر اساس این گزارش، رباتهای این استارتاپ حتی پس از مواجهه با فایل Robots.txt و لیست سیاه، با جعل هویت به فعالیت ادامه دادند.
فاشسازی فعالیتهای کرولینگ
کلودفلر اعلام کرد که توانسته با استفاده از یادگیری ماشین و سیگنالهای شبکه، ربات پرپلکسیتی را شناسایی کند. این ربات با ارسال میلیونها درخواست در روز به دهها هزار دامنه، به صورت سیستماتیک دادهها را خزش میکند.
نادیده گرفتن فایل Robots.txt
سایتها با استفاده از فایل استاندارد Robots.txt تلاش کرده بودند دسترسی به صفحات خود را محدود کنند. با این حال، پرپلکسیتی صرفاً با تغییر نشانه کاربر (User-Agent) این محدودیتها را دور زد.
تکنیکهای دور زدن محدودیتها
پرپلکسیتی نه تنها از User-Agent اعلامشده استفاده میکند، بلکه برای پنهانسازی، درخواست خود را بهعنوان مرورگر گوگل کروم در مکاواس ارسال میکند. همچنین، با تغییر سامانههای مستقل شبکه (ASN)، قابلردیابی بودن رباتها را کاهش میدهد.
واکنش شرکت پرپلکسیتی
نماینده پرپلکسیتی این اتهامات را «تبلیغاتی فروشمحور» خواند و مدعی شد هیچ محتوایی دسترسی نیافته است. در ایمیلهای بعدی نیز ادعا شد که ربات نامبرده به این شرکت تعلق ندارد.
گامهای کلودفلر برای مقابله
کلودفلر رباتهای پرپلکسیتی را از فهرست تأییدشده خارج کرده و تکنیکهای جدیدی برای مسدودسازی آنها معرفی نمود. اخیراً بازاری برای نشرندگان ایجاد شده تا بتوانند بابت بازدید رباتهای هوش مصنوعی حقالزحمه دریافت کنند.
ویژگیهای کلیدی حرکت دورزن پرپلکسیتی
ویژگی | توضیح |
---|---|
تغییر User-Agent | ارسال درخواست با هویت جعلی مرورگر گوگل کروم روی macOS |
تغییر ASN | استفاده از شماره سامانههای مستقل مختلف برای پنهانسازی شبکه |
حجم بالای درخواستها | میلیونها تلاش دسترسی به دهها هزار دامنه در هر روز |
پنهانسازی هویت | ترکیب سیگنالهای شبکه و یادگیری ماشین برای کنترل ربات |
اقدامات پرپلکسیتی نشان میدهد که نیاز شرکتهای هوش مصنوعی به دادههای عظیم، آنها را به دور زدن قوانین وا میدارد. در آینده نزدیک، احتمالاً فشارهای قانونی برای اعمال محدودیتهای سختگیرانهتر و شفافتر بر رباتها افزایش مییابد. به نظر میرسد ترکیب رویکرد فنی کلودفلر و حمایت حقوقی از ناشران، تعادل جدیدی در فضای وب برقرار کند. شتابگرفتن توسعه فایلهای استاندارد و ابزارهای بلاکینگ هوشمند، ممکن است شرکتهای هوش مصنوعی را به گفتگو و توافقنامههای همکاری سوق دهد تا دسترسی قانونی به دادهها فراهم شود.
جمعبندی
پرپلکسیتی با تغییر هویت رباتها و پنهانسازی شبکه، محدودیتهای صریح سایتها را بیاثر کرده و کلودفلر با شناسایی و مسدودسازی این فعالیتها، گامی مهم در حفاظت از حقوق ناشران برداشت. آینده وب نیازمند تعادل میان نوآوری هوش مصنوعی و احترام به قوانین و توافقنامههای محتوایی است.