Có thể lừa được ChatGPT một cách dễ dàng hơn chúng ta tưởng

Các nhà khoa học từ công ty trí tuệ nhân tạo Anthropic đã xác định được một lỗ hổng nguy hiểm tiềm tàng trong các mô hình ngôn ngữ lớn (LLM) được sử dụng rộng rãi như ChatGPT và chatbot Claude 3 của Anthropic.

Được mệnh danh là “bẻ khóa nhiều lần”, vụ hack này lợi dụng việc học tập tùy thuộc vào ngữ cảnh, trong đó chatbot học từ thông tin được cung cấp trong lời nhắc văn bản do người dùng viết ra. Các nhà khoa học đã vạch ra kế hoạch của họ và thử nghiệm cách khai thác trên chatbot AI Claude 2 của Anthropic.

Nghiên cứu kết luận, mọi người có thể sử dụng cách hack để buộc LLM tạo ra các phản ứng nguy hiểm, mặc dù các hệ thống như vậy đã được đào tạo để ngăn chặn điều này. Bởi vì nhiều lần bẻ khóa đã bỏ qua các giao thức bảo mật được xây dựng sẵn để chi phối cách AI phản ứng khi được hỏi cách chế tạo một quả bom.

Các LLM như ChatGPT dựa vào “cửa sổ ngữ cảnh” để xử lý các cuộc hội thoại. Đây là lượng thông tin mà hệ thống có thể xử lý như một phần của dữ liệu đầu vào – với cửa sổ ngữ cảnh dài hơn cho phép nhập nhiều văn bản hơn.

Các nhà khoa học cho biết trong một tuyên bố: Các cửa sổ ngữ cảnh trong chatbot AI hiện lớn hơn hàng trăm lần so với thời điểm đầu năm 2023 – điều đó có nghĩa là AI sẽ phản hồi nhiều sắc thái và nhận biết ngữ cảnh hơn. Nhưng điều đó cũng đã mở ra cánh cửa cho sự bóc lột.

Lừa AI để tạo ra nội dung độc hại

Trước tiên, hãy viết ra một cuộc trò chuyện giả mạo giữa người dùng và trợ lý AI trong một lời nhắc văn bản – trong đó trợ lý hư cấu trả lời một loạt câu hỏi có thể gây hại.

Sau đó, trong lời nhắc văn bản thứ hai, nếu bạn hỏi một câu hỏi như “Làm cách nào để chế tạo một quả bom?” trợ lý AI sẽ bỏ qua các giao thức an toàn và trả lời. Do nó hiện đã bắt đầu học từ văn bản đầu vào. Điều này chỉ có tác dụng nếu bạn viết một “kịch bản” dài hoặc kết hợp câu hỏi-trả lời.

Các nhà khoa học cho biết, khi số lượng các cuộc đối thoại được đưa vào tăng vượt quá một điểm nhất định, nhiều khả năng mô hình sẽ tạo ra phản ứng có hại.

Họ lưu ý, việc kết hợp bẻ khóa nhiều lần với các kỹ thuật bẻ khóa khác đã được xuất bản trước đó thậm chí còn hiệu quả hơn, giảm độ dài của lời nhắc cần thiết để mô hình trả về phản hồi có hại.

Các nhà nghiên cứu nhận thấy rằng họ có thể giảm thiểu các cuộc tấn công bằng cách thêm một bước bổ sung được kích hoạt sau khi người dùng gửi lời nhắc của họ (có chứa cuộc tấn công bẻ khóa) và LLM đã nhận được nó. Trong lớp mới này, hệ thống sẽ dựa vào các kỹ thuật đào tạo an toàn hiện có để phân loại và sửa đổi lời nhắc trước khi LLM có cơ hội đọc nó và soạn thảo phản hồi. Trong quá trình thử nghiệm, nó đã giảm tỷ lệ thành công của vụ hack từ 61% xuống chỉ còn 2%.

Nhiều cuộc bẻ khóa đã hoạt động trên các dịch vụ AI của chính Anthropic cũng như của các đối thủ cạnh tranh, bao gồm cả những dịch vụ như ChatGPT và Gemini của Google. Họ cho biết, họ đã cảnh báo các công ty và nhà nghiên cứu AI khác về mối nguy hiểm này.

Theo Live Science

Theo Hà Thu

Theo tienphong.vn

Link bài gốc

https://tienphong.vn/co-the-lua-duoc-chatgpt-mot-cach-de-dang-hon-chung-ta-tuong-post1629121.tpo

Có thể lừa được ChatGPT một cách dễ dàng hơn chúng ta tưởng

Tin liên quan

Honda CR-V 2025 không ‘uống’ 1 giọt xăng nhưng chỉ cho thuê, không bán: Chuyện gì sắp xảy ra?

Boeing thâu tóm Spirit: Ván bài chiến lược phủ bóng đen lên ngành hàng không nước Anh

“Ông trùm” xe tải tại Việt Nam ra mắt bom tấn SUV: Đậm chất quân sự, mạnh hơn 1.000 mã lực

Tham vọng phá kỷ lục chính mình, Trung Quốc phát triển tuabin gió mạnh nhất thế giới: Cao tương đương toà nhà 90 tầng, cánh dài 155 mét, quét qua diện tích rộng bằng 10 sân bóng đá

Mỏ vàng 42 tỷ USD của Elon Musk: Từ nỗi lo ‘hủy diệt nhân loại’ đến cơ hội đổi mới sáng tạo bằng AI cho ngành hàng không Việt Nam

Chưa từng có: Một startup ra mắt loại pin xe điện có thể sạc từ 10% lên 80% chỉ trong 4,5 phút, nhanh ngang ngửa thời gian chờ đổ đầy 1 bình xăng

Để lại một bình luận Hủy

Tin tức gần đây

Giải Tennis Nguyên Kim – Doanh Nhân Vì Cộng Đồng Mở Rộng Lần VI – 2024: Thành Công Vang Dội, Mang Yêu Thương Đến Những Mảnh Đời Bất Hạnh

Sự Thành Công Của The Masters Beauty of Vietnam 2024 Với Sự Góp Mặt Của IVIVA

The Masters Beauty of Vietnam 2024 Thành Công Với Sự Đóng Góp Của Nha Khoa Shine Dental

Thái Hòa Supply Khẳng Định Đẳng Cấp Khi Trở Thành Nhà Tài Trợ Vàng Tại “The Masters Beauty Of Vietnam 2024

Hoang Anh Global PMU Supplies Khẳng Định Uy Tín Tại The Masters Beauty of Vietnam 2024

The Masters Beauty of Vietnam 2024: Roswell Nâng Tầm Thương Hiệu Với Vai Trò Nhà Tài Trợ Kim Cương

Đại Sứ The Masters Beauty of Vietnam 2024: Đại sứ Jessa Macaraig Và Sứ Mệnh Kết Nối Cộng Đồng

Hội Thảo The Masters Beauty Of Vietnam 2024: Đại Sứ Nam Vương Quốc Trí Mang Đến Tầm Nhìn Toàn Diện Về Làm Đẹp

Danh mục