Công nghệ

Hệ thống xác thực giọng nói của Ngân hàng Lloyds bị qua mặt

Nguyễn Anh Tuấn • 19/03/2023 14:47

Joseph Cox – phóng viên của Tạp chí Vice – chia sẻ về việc sử dụng giọng nói do AI tổng hợp để qua mặt hệ thống nhận diện giọng nói của Ngân hàng Lloyds (Anh).

Điều này đã gióng lên hồi chuông cảnh báo về các hệ thống tương tự đang được nhiều ngân hàng sử dụng.

Cách giọng nói AI qua mặt hệ thống xác thực

Hôm 22/2, Joseph gọi điện cho đường dây dịch vụ tự động của ngân hàng Lloyds. Để bắt đầu, ngân hàng yêu cầu ông nói ra lý do gọi điện. Thay vì nói to, ông nhấp vào một tệp trên máy tính xách tay gần đó để phát đoạn âm thanh “hãy kiểm tra số dư của tôi”. Nhưng đó không thực sự là giọng nói của ông mà là một bản sao tổng hợp được tạo ra bằng công nghệ trí tuệ nhân tạo.

“OK”, hệ thống của ngân hàng trả lời. Sau đó, nó yêu cầu ông nhập hoặc nói ngày sinh của mình làm phần xác thực đầu tiên. Sau khi nhập, ngân hàng nói “vui lòng nói, ' my voice is my password'”.

Một lần nữa, Joseph phát một tệp âm thanh từ máy tính của mình. Hệ thống an ninh của ngân hàng mất vài giây để xác thực giọng nói rồi nói “Cảm ơn”. Vậy là đã hoàn thành đăng nhập.

Joseph khó tin được rằng mình đã sử dụng một bản sao giọng nói do AI cung cấp để đột nhập vào tài khoản ngân hàng. Sau đó, ông có quyền truy cập vào thông tin tài khoản, bao gồm số dư và danh sách các giao dịch và chuyển khoản gần đây.

Các ngân hàng trên khắp Mỹ và châu Âu sử dụng loại xác minh bằng giọng nói này để cho phép khách hàng đăng nhập vào tài khoản của họ qua điện thoại. Một số ngân hàng quảng cáo rằng nhận dạng giọng nói tương đương với dấu vân tay, một cách an toàn và thuận tiện để người dùng tương tác với ngân hàng. Nhưng thử nghiệm này đã phá vỡ ý tưởng rằng bảo mật sinh trắc học dựa trên giọng nói cung cấp khả năng bảo vệ hoàn hảo, giờ đây bất kỳ ai cũng có thể tạo ra giọng nói tổng hợp với giá rẻ hoặc đôi khi miễn phí. Joseph đã sử dụng dịch vụ tạo giọng nói miễn phí từ ElevenLabs, một công ty về giọng nói AI.

Giờ đây, việc lạm dụng giọng nói do AI tạo ra có thể dẫn đến gian lận và hack. Một số chuyên gia mà Joseph đã nói chuyện sau khi thực hiện thử nghiệm đã kêu gọi các ngân hàng bỏ xác thực bằng giọng nói.

Rachel Tobac, Giám đốc điều hành của Công ty SocialProof Security, nói "Tôi khuyên tất cả các tổ chức tận dụng 'xác thực' bằng giọng nói nên chuyển sang một phương pháp xác minh danh tính an toàn, như xác thực đa yếu tố, càng sớm càng tốt". Kiểu sao chép giọng nói này có thể được “hoàn thành mà không cần phải tương tác với người đó trong đời thực”.

Theo các chuyên gia, những kẻ lừa đảo trực tuyến có thể sử dụng ElevenLabs để tạo bản sao giọng nói của một người mà không có sự đồng ý của họ bằng cách sử dụng các clip có giọng nói của họ trên mạng. Bất kỳ ai cũng có khả năng bị giả giọng - dù chỉ vài phút - giọng nói của họ được công khai, chẳng hạn như những người làm video YouTube, người có ảnh hưởng trên mạng xã hội, chính trị gia, nhà báo.

Trên trang web của mình, Ngân hàng Lloyds cho biết chương trình “Voice ID” của họ là an toàn. “Giọng nói của bạn giống như dấu vân tay của bạn và là duy nhất đối với bạn”, trang web này viết. “Voice ID phân tích hơn 100 đặc điểm khác nhau của giọng nói, giống như dấu vân tay của bạn, là duy nhất đối với bạn. Chẳng hạn như cách bạn sử dụng miệng và các hợp âm, giọng của bạn và tốc độ nói của bạn. Nó thậm chí còn nhận ra bạn nếu bạn bị cảm lạnh hoặc đau họng”.

Nhiều ngân hàng ở Mỹ cung cấp dịch vụ xác minh giọng nói tương tự. TD Bank có một dịch vụ gọi là “VoicePrint” và viết trên trang web của mình “Giọng nói của bạn, giống như dấu vân tay của bạn, là duy nhất đối với bạn—không ai khác có giọng nói giống như bạn”. Chase có “Voice ID”, giống như Ngân hàng Lloyds, cũng tuyên bố giọng nói của khách hàng “được tạo ra từ hơn 100 đặc điểm thể chất và hành vi khác nhau”. Trong khi đó, “Voice Verification” của Wells Fargo “bảo vệ danh tính của bạn một cách hiệu quả”.

Mặc dù Joseph chỉ tiến hành thử nghiệm trên Ngân hàng Lloyds, nhưng do tính chất và chức năng tương tự của các hệ thống khác này, chúng cũng có thể gặp rủi ro trước giọng nói do AI cung cấp. Nhiều ngân hàng cho phép người dùng thực hiện nhiều tính năng ngân hàng qua điện thoại, chẳng hạn như kiểm tra lịch sử giao dịch, số dư tài khoản và trong một số trường hợp là chuyển tiền.

Đối với cuộc tấn công cụ thể như ví dụ nếu trên, kẻ lừa đảo sẽ cần ngày sinh của mục tiêu. Thực tế cho thấy, việc có được ngày sinh của mục tiêu không phải quá khó khăn do hiện nay có quá nhiều vụ lộ dữ liệu và việc nhiều người sẵn sàng chia sẻ thông tin cá nhân trực tuyến.

Lloyds nói gì?

Người phát ngôn của Ngân hàng Lloyds cho biết trong một tuyên bố rằng “Voice ID là một biện pháp bảo mật tùy chọn, tuy nhiên, chúng tôi tin tưởng rằng nó cung cấp mức độ bảo mật cao hơn so với các phương pháp xác thực dựa trên kiến thức truyền thống và cách tiếp cận nhiều lớp của chúng tôi đối với bảo mật và phòng chống gian lận tiếp tục cung cấp mức độ bảo vệ phù hợp cho tài khoản của khách hàng, trong khi vẫn giúp họ dễ dàng truy cập khi cần.”

Ngân hàng Lloyds cho biết họ nhận thức được mối đe dọa của giọng nói tổng hợp và triển khai các biện pháp đối phó, nhưng chưa thấy trường hợp giọng nói nào như vậy được sử dụng để thực hiện hành vi lừa đảo đối với khách hàng của mình. Họ cho biết giọng nói tổng hợp không hấp dẫn đối với những kẻ lừa đảo như các phương pháp phổ biến hơn nhiều khác và Voice ID đã giúp giảm đáng kể gian lận với dịch vụ ngân hàng qua điện thoại.

Do mức độ hiếm gặp của gian lận bằng giọng nói tổng hợp vào thời điểm hiện tại, người tiêu dùng có khả năng sử dụng nó tốt hơn nếu điều đó bảo vệ họ khỏi các loại gian lận khác. Tuy nhiên, giả định này có thể thay đổi nếu khách hàng là người của công chúng, với rất nhiều âm thanh chất lượng cao giọng nói của họ có sẵn trên internet.

TD Bank, Chase và Wells Fargo đã không trả lời yêu cầu bình luận về việc liệu họ có biết giọng nói do AI cung cấp đang được sử dụng để nhắm mục tiêu tài khoản khách hàng hay không và họ đang thực hiện những biện pháp giảm thiểu nào, nếu có, để ngăn chặn mối đe dọa. Vào tháng 9/2022, các luật sư đã kiện một nhóm các tổ chức tài chính của Mỹ vì bản ghi giọng nói sinh trắc học được sử dụng để xác định người gọi vi phạm Đạo luật xâm phạm quyền riêng tư của California.

Cục Bảo vệ Tài chính Người tiêu dùng (CFPB), một trong những cơ quan của Mỹ quản lý ngành tài chính, đã trả lời Joseph trong một tuyên bố sau khi ông gửi video trình diễn: “CFPB quan tâm đến bảo mật dữ liệu và các công ty được thông báo rằng họ sẽ chịu trách nhiệm về thực hành kém chất lượng. Chúng tôi hy vọng rằng bất kỳ công ty nào cũng tuân thủ luật pháp, bất kể công nghệ được sử dụng là gì”.

Trong vài tuần trước đó, Joseph đã thử nghiệm một số dịch vụ tạo giọng nói bằng AI. Hầu hết trong số các dịch vụ đó gặp vấn đề hoặc hạn chế trong việc tạo lại giọng Anh của ông, điều cần thiết để truy cập vào tài khoản Ngân hàng Lloyds. Cuối cùng, ông đã sử dụng ElevenLabs và phần mềm này xử lý giọng tốt.

Để tạo giọng nói, ông đã ghi âm khoảng năm phút phát biểu (đọc các phần của luật bảo vệ dữ liệu của châu Âu) và tải nó lên ElevenLabs. Một thời gian ngắn sau, giọng nói tổng hợp đã sẵn sàng để sử dụng, với nội dung đọc bất kỳ văn bản nào được nhập vào trang web của ElevenLabs.

Thử nghiệm đăng nhập tài khoản ngân hàng đã nhiều lần không thành công, khi hệ thống của Ngân hàng Lloyds cho biết hệ thống không thể xác thực giọng nói. Sau khi thực hiện một số điều chỉnh trên ElevenLabs, chẳng hạn như để nó đọc phần văn bản dài hơn để làm cho nhịp điệu nghe tự nhiên hơn, âm thanh được tạo ra đã vượt qua hệ thống bảo mật của ngân hàng.

Trên trang web của mình, ElevenLabs cho biết các trường hợp sử dụng của nó bao gồm cung cấp giọng nói cho các bản tin, sách và video. Nhưng với các biện pháp bảo vệ tối thiểu khi ra mắt, mọi người đã nhanh chóng lạm dụng công nghệ của ElevenLabs. Các thành viên của 4chan đã sử dụng ElevenLabs để tạo ra các phiên bản tổng hợp của những người nổi tiếng nói ra những điều phân biệt chủng tộc và chuyển giới. Sau đó, những kẻ lừa đảo đã sử dụng trình tạo giọng nói AI để tạo bản sao của các diễn viên lồng tiếng cụ thể và sau đó yêu cầu họ đọc địa chỉ nhà của các diễn viên đó trong các bài đăng trên Twitter (những kẻ tấn công tuyên bố công nghệ của ElevenLabs đã được sử dụng như một phần của vụ phá phách này, nhưng ElevenLabs chỉ tuyên bố một clip khác, không bao gồm địa chỉ của mục tiêu, được tạo bằng phần mềm của nó).

Sau các clip của người nổi tiếng, ElevenLabs đã tweet để hỏi họ nên áp dụng các biện pháp bảo vệ nào, chẳng hạn như yêu cầu nhận dạng ID đầy đủ của người dùng hoặc yêu cầu thông tin thanh toán. Tuy nhiên, tạp chí Vice có thể tạo giọng nói mà không cần cung cấp ID hoặc bất kỳ thông tin thanh toán nào, có thể là do tài khoản được tạo trước khi ElevenLabs giới thiệu các biện pháp bảo mật mới. Chi phí tạo giọng nói qua mặt hệ thống xác thực ngân hàng là bằng 0 (miễn phí).

ElevenLabs đã không trả lời nhiều yêu cầu bình luận. Trong một tuyên bố trước đó, Mati Staniszewski, cựu chiến lược gia triển khai Palantir và hiện là đồng sáng lập của ElevenLabs, cho biết “Các biện pháp bảo vệ mới của chúng tôi đã nhanh chóng giảm thiểu các trường hợp sử dụng sai mục đích và chúng tôi rất biết ơn cộng đồng người dùng của mình vì đã tiếp tục gắn cờ bất kỳ trường hợp nào sử dụng sai mục đích cần phải bị xử lý và chúng tôi sẽ hỗ trợ các cơ quan chức năng xác định những người dùng đó nếu luật bị vi phạm”.

Theo Vice

Nguyễn Anh Tuấn