Trong khi OpenAI, các chatbot trò chuyện được đánh giá cao đã thu hút công luận về việc sử dụng rộng rãi trên các lĩnh vực khác nhau, thì đã có một số người lên tiếng về việc liệu nó có đảm bảo quyền riêng tư hay không (!?)
Điều này đặc biệt quan trọng khi chúng ta đều biết rằng để một sản phẩm như ChatGPT ngày một tốt hơn, cần tiếp tục thu thập dữ liệu người dùng để hoàn thiện mô hình của mình.
Đó là một vòng lặp không bao giờ kết thúc trong đó dữ liệu mới sẽ giúp hoàn thiện mô hình để cung cấp AI tốt hơn và đến lượt nó lại cung cấp dữ liệu mới. Phương pháp thu thập dữ liệu của ChatGPT đã khiến các công ty bị “hở sườn”. Một trường hợp cho điều này đã xuất hiện trong cảnh báo do Amazon gửi tới nhân viên của mình chống lại việc chia sẻ thông tin của công ty với ChatGPT. Quá trình xem xét truyền thông nội bộ của Amazon của Business Insider đã tiết lộ rằng một luật sư của công ty cảnh báo nhân viên không chia sẻ thông tin hoặc mã bí mật với AI Chatbot. Theo các tin nhắn Slack nội bộ đã bị rò rỉ cho người trong cuộc, một luật sư của Amazon nói với các nhân viên rằng họ đã "đã thấy các trường hợp" văn bản được tạo ra bởi ChatGPT "gần giống" với dữ liệu nội bộ của công ty. Chatbot đã có thể trả lời chính xác các câu hỏi phỏng vấn từ Amazon. Nó đã có thể cung cấp câu trả lời cho một số câu hỏi độc quyền mà chỉ nhóm tuyển dụng của công ty được biết. Tương tự, khi nhân viên của Microsoft hỏi trong một diễn đàn nội bộ rằng liệu ChatGPT hay bất kỳ công cụ AI nào khác từ OpenAI có phù hợp để sử dụng tại công việc của họ không, một kỹ sư cao cấp của văn phòng CTO của công ty này cho phép sử dụng ChatGPT nhưng không cho phép chia sẻ thông tin bí mật với AI chatbot. Điều đó rất đáng lưu tâm bởi Microsoft đã trở thành đối tác của OpenAI, công ty mẹ của ChatGPT và xác nhận khoản đầu tư 10 tỷ đô la.
Vấn đề bảo mật dữ liệu của ChatGPT
Giả sử ChatGPT có phương thức nào đó để đảm bảo dữ liệu mà nó thu thập từ người dùng của một công ty không bị sử dụng để phục vụ người dùng bên ngoài thì cũng còn rất nhiều vấn đề cần xem xét để bảo vệ dữ liệu nội bộ. Có thể nêu lên mấy vấn đề sau:
- Bảo mật dữ liệu: Dữ liệu được xử lý một cách an toàn như thế nào trong các máy chủ của ChatGPT? Các thuật toán mã hóa nào được sử dụng để lưu trữ nó một cách an toàn? Các máy chủ của nó có được bảo vệ chống lại truy cập trái phép, rò rỉ dữ liệu tình cờ, ransomware, mối đe dọa nội bộ, lạm dụng dữ liệu,... Nó có sử dụng các biện pháp kiểm soát an ninh phù hợp? Tin tặc có thể tìm thấy dữ liệu bằng cách khai thác một số lỗ hổng phần mềm hoặc phần cứng không?
- Xác thực không đủ mạnh: ChatGPT không thực hiện xác thực đa yếu tố, vì vậy các tác nhân độc hại có thể xâm phạm tài khoản người dùng và dữ liệu của họ thông qua thông tin đăng nhập bị lộ hoặc một số lỗ hổng khác trong các cơ chế xác thực. -
- Ứng dụng của bên thứ ba: Vì ChatGPT vẫn không được hỗ trợ ở một số quốc gia, một số người đang sử dụng các ứng dụng của bên thứ ba hoặc các bot Telegram để truy cập các tính năng hạn chế của nó. Các ứng dụng này có thể tạo cửa hậu cho tin tặc, chia sẻ dữ liệu của bạn với các bên khác hoặc làm sai lệch thông tin được người dùng cuối nhận được. Ngoài ra, các ứng dụng như vậy còn mở cho tất cả các rủi ro được đề cập ở trên ngay cả khi chính ChatGPT là siêu an toàn. Hơn nữa, ChatGPT cũng có thể bị lợi dụng như một kênh C&C để tuồn dữ liệu từ các máy chủ bị xâm phạm ra ngoài, bằng cách gửi dữ liệu đến ChatGPT bằng API.
Có thể thấy rằng, trong một thời gian ngắn sắp tới (khi ChatGPT - tích hợp với cỗ máy tìm kiếm Bing của Microsoft – được sử dụng rộng rãi), tất cả các tổ chức sẽ cần phải đưa ra các hướng dẫn sử dụng cho nó. Do đó, các chính sách về sử dụng hợp lý AI sẽ trở nên ngày càng quan trọng hơn. Và điều đó không chỉ tác động tới các doanh nghiệp, các cơ quan quản lý cũng cần can thiệp và thiết lập các tiêu chuẩn để xây dựng các hệ thống AI an toàn.
Đạo luật AI của (AIA) – luật đầu tiên quy định về việc phát triển và ứng dụng AI – chia các ứng dụng AI thành ba nhóm rủi ro. Nhóm đầu tiên bao gồm các hệ thống AI gây ra rủi ro “không thể chấp nhận được” và do đó bị cấm, chẳng hạn như các hệ thống tính điểm xã hội do chính phủ điều hành. Nhóm thứ hai bao gồm các hệ thống AI có rủi ro cao, chẳng hạn như các công cụ quét CV (hồ sơ ứng tuyển) của người xin việc, sẽ phải tuân theo các yêu cầu pháp lý cụ thể. Nhóm thứ ba bao gồm các hệ thống AI không có rủi ro cao và không bị cấm, phần lớn không bị kiểm soát.
Hiện tại, việc phân loại và thực thi các luật như vậy dường như mơ hồ và không có ý nghĩa gì. Cho đến nay, dù là GDPR, AIA hay DPDP (Quy định Bảo vệ dữ liệu cá nhân kỹ thuật số của Ấn Độ), các chính sách chủ yếu tập trung vào việc bảo vệ lợi ích của người tiêu dùng. Tuy nhiên, do tác hại mà các hệ thống AI đang gây ra cho các doanh nghiệp, các cơ quan quản lý cần phát triển các tiêu chuẩn chỉ ra cách tạo ra các hệ thống AI.
Chuyên gia Hadrien Pouget, trong một bài viết cho Lawfare, giải thích rằng hiện nay vẫn còn thiếu kiến thức về cách tạo ra các hệ thống AI hiện đại, luôn tuân thủ các nguyên tắc đã được thiết lập. Hơn nữa, cũng không có phương pháp để kiểm tra xem các hệ thống AI có tuân thủ các nguyên tắc này hay không. Mặc dù các kỹ thuật AI đơn giản hơn có thể dễ quản lý hơn, những tiến bộ gần đây trong AI, đặc biệt là với các mạng lưới thần kinh, vẫn còn khá bí ẩn.
“Hiệu suất của chúng được cải thiện hàng ngày, nhưng chúng tiếp tục hành xử theo những cách không thể đoán trước và chống lại những nỗ lực khắc phục”, Pou Pouget viết. Ông cũng nhấn mạnh rằng rất khó đặt ra các tiêu chuẩn về độ tin cậy của mạng lưới nơron là vì các mô hình này về cơ bản là định hướng bởi dữ liệu và chúng có thể học hỏi từ dữ liệu theo những cách không trực quan và không thể đoán trước.
Do đó, quá trình làm việc với các mạng nơron gần như không thể đặt ra các tiêu chuẩn về cách các hệ thống AI nên được thực hiện và thử nghiệm. Mặt khác, chatbot và các hệ thống AI khác hoàn toàn không thể không thu thập dữ liệu để có thể tạo ra các đầu ra tốt hơn. Điều này cũng tương tự như những gì chúng ta gặp phải trong trường hợp các công ty công nghệ lớn. Mặc dù các phương tiện để thu thập dữ liệu là bất hợp pháp, nhưng nó được coi là không thể tránh khỏi để cá nhân hóa trải nghiệm người dùng.
Vấn đề về loại dữ liệu đầu vào được sử dụng để đào tạo AI cũng đã xuất hiện trong nhiều bối cảnh khác. Chẳng hạn, ClearView AI đã thu thập hình ảnh con người từ web và sử dụng chúng để đào tạo AI giám sát khuôn mặt mà không có sự đồng ý. Cơ sở dữ liệu của hệ thống này bao gồm khoảng 20 tỷ hình ảnh. Mặc dù phải đối mặt với nhiều vụ kiện, tiền phạt và lệnh ngừng hoạt động vì vi phạm quyền riêng tư của mọi người, ClearView đã có thể thoát khỏi việc trả một số khoản tiền phạt và từ chối các yêu cầu xóa dữ liệu từ các cơ quan quản lý. Và đây mới chỉ là một ví dụ về việc các quy định không rõ ràng có thể ảnh hưởng đến các doanh nghiệp và người tiêu dùng ở quy mô chưa từng có.
Một trường hợp khác là vụ Matthew Butterick đệ đơn kiện GitHub Copilot vì vi phạm giấy phép nguồn mở. Butterick tuyên bố rằng GitHub đưa ra các đề xuất về mã lệnh dựa trên tài sản trí tuệ của người khác, trong khi không ghi nhận đóng góp của họ hoặc bồi thường cho họ. Trong khi Microsoft chỉ đơn giản đặt gánh nặng của việc kiểm tra sở hữu trí tuệ của mã nguồn được gợi ý trước khi sử dụng lên vai người dùng cuối. Có lẽ chính việc thiếu các tiêu chuẩn AI đã khiến Microsoft và OpenAI kháng cáo lên tòa án để loại bỏ vụ kiện về việc vi phạm bản quyền của ứng dụng AI.