OpenAI, quy tắc bỏ qua nhân đạo ngăn chặn bot lấy nội dung web

Hai công ty khởi nghiệp AI lớn nhất thế giới đang phớt lờ yêu cầu của các nhà xuất bản truyền thông về việc ngừng thu thập nội dung web của họ để lấy dữ liệu đào tạo mẫu miễn phí, Business Insider cho biết.

Hóa ra OpenAI và Anthropic đang bỏ qua hoặc phá vỡ một quy tắc web tĩnh có tên là robots.txt, quy tắc này ngăn chặn việc tự động xóa các trang web.

TollBit, một công ty khởi nghiệp nhằm mục đích môi giới các thỏa thuận cấp phép trả phí giữa các nhà xuất bản và các công ty AI, nhận thấy rằng nhiều công ty AI đang hành xử theo cách này và đã thông báo cho một số nhà xuất bản lớn trong một bức thư vào thứ Sáu. Reuters đã đưa tin trước đó. Bức thư không bao gồm tên của bất kỳ công ty trí tuệ nhân tạo nào bị cáo buộc lách luật.

OpenAI và Anthropic đã công khai tuyên bố rằng họ tôn trọng tệp robots.txt và chặn các trình thu thập dữ liệu web của riêng họ, chẳng hạn như GTBot và ClaudeBot.

Tuy nhiên, theo phát hiện của TollBit, các khối như vậy không được tôn trọng như đã tuyên bố. Các công ty AI, bao gồm OpenAI và Anthropic, chọn cách đơn giản là “bỏ qua” tệp robots.txt để truy xuất hoặc trích xuất tất cả nội dung từ một trang web hoặc trang cụ thể.

Người phát ngôn của OpenAI từ chối bình luận ngoài chỉ thị của BI đối với một công ty Bài viết trên blog Kể từ tháng 5, công ty cho biết họ sẽ tính đến các quyền của trình thu thập thông tin web mỗi khi chúng tôi đào tạo một mô hình mới. Người phát ngôn của Anthropic đã không trả lời các email yêu cầu bình luận.

Robots.txt là một đoạn mã đã được sử dụng từ cuối những năm 1990 như một cách để các trang web thông báo cho trình thu thập dữ liệu rô-bốt rằng họ không muốn dữ liệu của mình bị xóa và thu thập. Nó đã được chấp nhận rộng rãi như một trong những quy tắc hỗ trợ không chính thức của Web.

Với sự ra đời của AI thế hệ mới, các công ty khởi nghiệp và công nghệ đang chạy đua để xây dựng những mô hình AI mạnh mẽ nhất. Thành phần quan trọng là dữ liệu chất lượng cao. Cơn khát dữ liệu đào tạo như vậy đã làm suy yếu robots.txt và các quy ước không chính thức hỗ trợ việc sử dụng mã này.

OpenAI đứng sau chatbot phổ biến ChatGPT. Nhà đầu tư lớn nhất của công ty là Microsoft. Anthropic đứng đằng sau một chatbot tương đối phổ biến khác, Claude. Nhà đầu tư lớn nhất của nó là Amazon.

Cả hai chatbot đều cung cấp câu trả lời cho câu hỏi của người dùng bằng giọng điệu của con người. Những câu trả lời như vậy chỉ có thể thực hiện được vì các mô hình AI mà chúng được xây dựng bao gồm một lượng lớn văn bản và dữ liệu được lấy từ web, hầu hết trong số đó đều thuộc bản quyền hoặc thuộc sở hữu của người tạo ra nó.

Năm ngoái, một số công ty công nghệ đã tranh luận trước Văn phòng Bản quyền Hoa Kỳ rằng không có gì trên web được coi là có bản quyền khi nói đến dữ liệu đào tạo AI.

OpenAI có một số thỏa thuận với các nhà xuất bản để truy cập nội dung, bao gồm Axel Springer, công ty sở hữu BI. Văn phòng Bản quyền Hoa Kỳ chuẩn bị cập nhật hướng dẫn về trí tuệ nhân tạo và bản quyền vào cuối năm nay.

Bạn là nhân viên công nghệ hay ai đó có lời khuyên hoặc hiểu biết sâu sắc muốn chia sẻ? Liên hệ với Callie Hayes trên khais@businessinsider.com Hoặc trên ứng dụng nhắn tin an toànTín hiệu Trên +1-949-280-0267. Giao tiếp bằng cách sử dụng một thiết bị không hoạt động.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *