Một nghiên cứu của Google DeepMind và Đại học Stanford đã chỉ ra rằng các mô hình AI lớn như GPT-3, PaLM và LLaMA có thể dễ dàng bị lừa để tạo ra thông tin sai lệch một cách nhất quán. Bằng cách đưa vào một tiền đề sai lệch một cách tinh vi, các nhà nghiên cứu có thể khiến AI chấp nhận và sau đó lặp lại thông tin giả mạo đó. Điều này cho thấy các cơ chế an toàn và kỹ thuật căn chỉnh hiện tại của AI chưa đủ mạnh để ngăn chặn việc lan truyền thông tin sai lệch khi đối mặt với các truy vấn được thiết kế có chủ đích. Nguy cơ phát tán thông tin giả trong các lĩnh vực quan trọng như y tế, pháp luật và giáo dục là rất đáng lo ngại, đòi hỏi cần phát triển các kỹ thuật căn chỉnh mạnh mẽ hơn và cơ chế phát hiện hiệu quả hơn cho AI.
“`html
![]() |
“`
