Các bước để bảo vệ dữ liệu và sử dụng an toàn các công cụ ChatGPT bao gồm: Chặn quyền truy cập vào các ứng dụng không phục vụ mọi mục đích kinh doanh hợp pháp hoặc gây rủi ro cho tổ chức; Đào tạo để nhắc nhở người dùng về chính sách của công ty xung quanh việc sử dụng các ứng dụng AI…

Cách ChatGPT lấy dữ liệu đào tạo

Theo một nghiên cứu của OpenAI đã công bố, ChatGPT3 đã được đào tạo trên một số bộ dữ liệu như: Common Crawl, WebText2, Book1 và Book2 hay Wikipedia. Lượng dữ liệu đào tạo lớn nhất đến từ Common Crawl, cung cấp quyền truy cập vào thông tin web thông qua kho lưu trữ thu thập dữ liệu web mở. Bot Common Crawl, còn được gọi là CCBot, tận dụng Apache Nutch để cho phép các nhà phát triển xây dựng các trình thu thập thông tin quy mô lớn.

Phiên bản mới nhất của CCBot thu thập dữ liệu từ Amazon AWS và tự nhận dạng nó bằng User agent “CCBot/2.0”. Các doanh nghiệp nếu muốn cho phép sử dụng CCBot không nên chỉ dựa vào User agent để nhận dạng nó, bởi vì nhiều bot xấu giả mạo User agent của họ để ngụy trang thành bot tốt và tránh bị chặn. Để cho phép sử dụng CCBot trên trang web của mình, người dùng cần sử dụng các thuộc tính như dải IP hoặc DNS Reverse. Để chặn ChatGPT, tối thiểu trang web của người dùng phải chặn lưu lượng truy cập từ CCBot.

Áp dụng bảo mật cho các ứng dụng AI

Netskope Threat Labs – Công ty Phần mềm chuyên cung cấp nền tảng bảo mật máy tính tại Mỹ chia sẻ, hiện đang theo dõi các proxy ChatGPT với hơn 1.000 URL và các tên miền độc hại từ những kẻ tấn công đang tìm cách lợi dụng AI, bao gồm nhiều chiến dịch lừa đảo, các chiến dịch phát tán phần mềm độc hại cũng như các trang web spam và lừa đảo. Chặn quyền truy cập vào nội dung liên quan đến AI và các ứng dụng AI là một giải pháp ngắn hạn để giảm thiểu rủi ro nhưng phải đạt được những lợi ích tiềm năng mà các ứng dụng AI mang lại để bổ sung cho sự đổi mới của công ty và năng suất lao động.


ChatGPT3 đã được đào tạo trên một số bộ dữ liệu như: Common Crawl, WebText2, Book1 và Book2 hay Wikipedia. Ảnh minh họa

Dữ liệu cho thấy, trong các dịch vụ tài chính và chăm sóc sức khỏe – cả hai ngành được quản lý chặt chẽ – gần 1/5 tổ chức đã thực hiện lệnh cấm hoàn toàn việc sử dụng ChatGPT của nhân viên, trong khi trong lĩnh vực công nghệ chỉ có 1/20 tổ chức thực hiện. Ông James Robinson, Phó giám đốc An toàn thông tin tại Netskope cho biết: “Là những nhà lãnh đạo bảo mật, chúng tôi không thể đơn giản quyết định cấm các ứng dụng mà không ảnh hưởng đến trải nghiệm và năng suất lao động. Các tổ chức nên tập trung vào việc nâng cao nhận thức cho lực lượng lao động và các chính sách dữ liệu để đáp ứng nhu cầu của nhân viên khi sử dụng các sản phẩm AI một cách hiệu quả”.

Để các tổ chức có thể áp dụng an toàn các ứng dụng AI thì họ phải tập trung vào phương pháp xác định các ứng dụng được phép và triển khai những biện pháp kiểm soát nhằm trao quyền cho người dùng sử dụng chúng với tiềm năng tối đa của họ, đồng thời bảo vệ tổ chức khỏi những rủi ro. Cách tiếp cận như vậy nên bao gồm lọc tên miền, lọc URL và kiểm tra nội dung để bảo vệ khỏi các cuộc tấn công. Các bước khác để bảo vệ dữ liệu và sử dụng an toàn các công cụ AI bao gồm: Chặn quyền truy cập vào các ứng dụng không phục vụ mọi mục đích kinh doanh hợp pháp hoặc gây rủi ro cho tổ chức; Đào tạo để nhắc nhở người dùng về chính sách của công ty xung quanh việc sử dụng các ứng dụng AI; Sử dụng các công nghệ chống thất thoát dữ liệu (DLP) hiện đại để phát hiện các bài đăng có chứa thông tin nhạy cảm.

Cách chặn yêu cầu plugin ChatGPT

Trong quy trình tương tự như chặn web scraper của ChatGPT, người dùng có thể chặn yêu cầu từ các plugin khai báo sự hiện diện của chúng bằng chuỗi con “ChatGPT-User” theo User agent. Nhưng việc chặn User agent cũng có thể chặn người dùng ChatGPT khi chế độ “duyệt web (browsing)” được kích hoạt. Trái với những gì tài liệu OpenAI có thể chỉ ra, việc chặn yêu cầu từ “ChatGPT-User” không đảm bảo rằng ChatGPT và các plugin của nó không thể tiếp cận dữ liệu của bạn bằng các User agent token khác nhau.

Trên thực tế, plugin ChatGPT có thể thực hiện yêu cầu trực tiếp từ máy chủ lưu trữ API của họ bằng cách sử dụng bất kỳ User agent nào và thậm chí sử dụng trình duyệt tự động (headless browser – trình duyệt web không có giao diện đồ họa người dùng). Việc phát hiện các plugin không khai báo danh tính của chúng trong User agent yêu cầu các kỹ thuật phát hiện bot nâng cao.

Việc có được bộ dữ liệu chất lượng cao về nội dung do con người tạo ra sẽ vẫn có tầm quan trọng đặc biệt đối với LLM. Về lâu dài, các công ty như OpenAI (được Microsoft tài trợ một phần) và Google có thể muốn sử dụng Bingbots và Googlebots để xây dựng bộ dữ liệu nhằm đào tạo LLM của họ. Điều đó sẽ gây khó khăn hơn cho các trang web trong việc từ chối thu thập dữ liệu, vì hầu hết các doanh nghiệp trực tuyến phụ thuộc rất nhiều vào Bing và Google để lập chỉ mục nội dung và hướng lưu lượng truy cập đến trang web của họ.

Các trang web có dữ liệu giá trị sẽ muốn tìm cách kiếm tiền từ việc sử dụng dữ liệu của họ hoặc từ chối đào tạo mô hình AI để tránh mất lưu lượng truy cập web và doanh thu quảng cáo cho ChatGPT và các plugin của nó. Nếu muốn từ chối, người dùng sẽ cần các kỹ thuật phát hiện bot nâng cao, chẳng hạn như lấy dấu vân tay, phát hiện proxy và phân tích hành vi để ngăn chặn bot trước khi chúng có thể truy cập dữ liệu của họ. Các giải pháp nâng cao cho bot và chống gian lận sử dụng trí tuệ nhân tạo (AI) và học máy (ML) để phát hiện và ngăn chặn các bot lạ ngay từ yêu cầu đầu tiên, giữ cho nội dung an toàn trước các LLM scraper, plugin không xác định và các công nghệ AI đang phát triển nhanh chóng khác..

Khánh Mai
https://vietq.vn/nguoi-dung-can-ngan-chan-chatgpt-danh-cap-noi-dung-va-luu-luong-truy-cap-d214653.html