Không có quảng cáo, OpenAI gần đây đã thêm chi tiết về trình thu thập dữ liệu web của mình, GPTBot, đến trang tài liệu trực tuyến. GPTBot là tên của tác nhân người dùng mà công ty sử dụng để truy xuất các trang web nhằm đào tạo các mô hình trí tuệ nhân tạo đằng sau ChatGPT, chẳng hạn như GPT-4. Đầu tuần này, một số trang web Họ nhanh chóng thông báo ý định của mình Để ngăn GPTBot truy cập nội dung của nó.
Trong tài liệu mới, OpenAI nói rằng các trang web được thu thập thông tin bằng GPTBot “có thể sẽ được sử dụng để cải thiện các mô hình trong tương lai” và việc cho phép GPTBot truy cập trang web của bạn “có thể giúp các mô hình AI trở nên chính xác hơn và cải thiện khả năng cũng như bảo mật tổng thể của chúng.”
OpenAI tuyên bố đã triển khai các bộ lọc để đảm bảo rằng GPTBot không truy cập các nguồn đằng sau tường phí, thu thập thông tin nhận dạng cá nhân hoặc bất kỳ nội dung nào vi phạm chính sách của OpenAI.
Tin tức về khả năng chặn các khóa đào tạo OpenAI (nếu bạn tôn trọng chúng) đến quá muộn để ảnh hưởng đến dữ liệu đào tạo hiện có cho ChatGPT hoặc GPT-4, những dữ liệu này đã bị loại bỏ mà không có thông báo từ nhiều năm trước. Dữ liệu được OpenAI thu thập kết thúc vào tháng 9 năm 2021, đây là ngưỡng “nhận thức” hiện tại cho các mô hình ngôn ngữ OpenAI.
Đáng chú ý là hướng dẫn mới Có thể không Ngăn các phiên bản duyệt web của ChatGPT hoặc plug-in ChatGPT truy cập các trang web hiện có để chuyển tiếp thông tin cập nhật cho người dùng. Điểm này không được giải thích trong tài liệu và chúng tôi đã liên hệ với OpenAI để làm rõ.
Câu trả lời nằm trong tệp robots.txt
Theo OpenAI’s tài liệuGPTBot sẽ được mã thông báo tác nhân người dùng “GPTBot” nhận dạng với chuỗi đầy đủ là “Mozilla/5.0 AppleWebKit/537.36 (KHTML, giống như Gecko; tương thích; GPTBot/1.0; + https://openai.com/gptbot) “.
Tài liệu OpenAI cũng cung cấp hướng dẫn về cách ngăn GPTBot thu thập dữ liệu trang web bằng các tiêu chuẩn ngành tệp robot.txt tệp, là tệp văn bản nằm trong thư mục gốc của trang web hướng dẫn trình thu thập dữ liệu web (chẳng hạn như trình thu thập thông tin được sử dụng bởi công cụ tìm kiếm) không lập chỉ mục trang web.
Thật dễ dàng khi thêm hai dòng này vào tệp robots.txt của trang web của bạn:
User-agent: GPTBot Disallow: /
OpenAI cũng nói rằng quản trị viên có thể hạn chế GPTBot từ một số phần nhất định của trang web trong tệp robots.txt với các mã khác nhau:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Ngoài ra, OpenAI đã giới thiệu Khối địa chỉ IP cụ thể từ đó GPTBot sẽ chạy và cũng có thể bị chặn bởi tường lửa.
Bất chấp tùy chọn này, việc chặn GPTBot sẽ không đảm bảo rằng dữ liệu vị trí sẽ không kết thúc quá trình đào tạo tất cả các mô hình AI trong tương lai. Ngoài các vấn đề với trình dọn dẹp bỏ qua các tệp robots.txt, còn có các tập dữ liệu lớn khác của các trang web bị loại bỏ (chẳng hạn như Đóng cọc) không liên kết với OpenAI. Các bộ dữ liệu này thường được sử dụng để đào tạo các LLM mã nguồn mở (hoặc mã nguồn mở) chẳng hạn như Meta’s Llama 2.
Một số trang web phản ứng nhanh
Mặc dù ChatGPT là một thành công lớn từ quan điểm kỹ thuật, nhưng nó cũng gây tranh cãi với cách nó loại bỏ dữ liệu có bản quyền mà không được phép và tập trung giá trị đó vào một sản phẩm thương mại phá vỡ mô hình xuất bản trực tuyến. OpenAI đã bị buộc tội (và bị kiện) đạo văn dọc theo những dòng đó.
Theo đó, không có gì ngạc nhiên khi thấy một số người phản ứng với tin tức về khả năng chặn nội dung của họ khỏi các biểu mẫu GPT trong tương lai bằng một kiểu dồn nén. tôi nghe. Ví dụ: vào thứ Ba, VentureBeat nam giới cái đó cái rìaNgười viết ngăn xếp phụ Casey NewtonVà Neil Clark Từ Clarkesworld, tất cả họ đều nói rằng họ sẽ chặn GPTBot ngay sau khi có tin tức về bot.
Nhưng đối với những người điều hành các trang web lớn, tùy chọn chặn trình thu thập thông tin LLM không dễ dàng như người ta tưởng. Làm cho một số LLM bỏ qua dữ liệu của một số trang web nhất định sẽ để lại lỗ hổng kiến thức có thể phục vụ rất tốt cho một số trang web (chẳng hạn như các trang web không muốn mất khách truy cập nếu ChatGPT cung cấp thông tin cho họ), nhưng cũng có thể gây hại cho những người khác. Ví dụ: việc chặn nội dung khỏi các mô hình AI trong tương lai có thể làm giảm dấu ấn văn hóa của một trang web hoặc thương hiệu nếu chatbot thông minh trở thành giao diện người dùng chính trong tương lai. Như một thử nghiệm suy nghĩ, hãy tưởng tượng một công ty trực tuyến thông báo rằng họ không muốn trang web của mình được Google lập chỉ mục vào năm 2002—một động thái tự hủy hoại khi đó là cách phổ biến nhất để tìm kiếm thông tin trực tuyến.
Vẫn còn rất sớm trong trò chơi AI tổng quát và bất kể công nghệ đi theo hướng nào — hoặc các trang web riêng lẻ cố gắng từ chối đào tạo mô hình AI — thì ít nhất OpenAI cũng cung cấp tùy chọn này.