Mục tiêu mới của hai ngành AI và thần kinh học: Biến ý nghĩ của con người thành giọng nói

Doanh nghiệp gần bạn nhất

được xác nhận bởi itcctv

Mục tiêu mới của hai ngành AI và thần kinh học: Biến ý nghĩ của con người thành giọng nói
Hình ảnh rao vặt

Mục tiêu mới của hai ngành AI và thần kinh học: Biến ý nghĩ của con người thành giọng nói

Các thần kinh học đang nỗ lực tìm cách nghiên cứu để trao "giọng nói" cho những người mất khả năng phát âm, trong một cuộc chạy đua đầy hứa hẹn để khai thác sóng não nhằm khôi phục hoặc tăng cường các khả năng vận động.

Các nhà nghiên cứu tại các trường đại học ở California và các công ty như Precision Neuroscience, trụ sở tại New York, đang là một trong những bên dẫn đầu ngành trong việc tạo ra giọng nói tự nhiên thông qua sự kết hợp giữa cấy ghép não và trí tuệ nhân tạo.

Trước đây, sự quan tâm và đầu tư chủ yếu của ngành thần kinh học công nghệ cao tập trung vào các thiết bị cấy ghép, giúp người khuyết tật vận hành bàn phím máy tính, điều khiển cánh tay robot hoặc lấy lại một phần khả năng vận động của chi bị liệt. Tuy nhiên, một số phòng thí nghiệm hiện đang đạt được những tiến bộ đáng kể trong việc chuyển đổi các kiểu suy nghĩ thành giọng nói.



Tiến sĩ Edward Chang, một bác sĩ phẫu thuật thần kinh tại Đại học California, San Francisco, cho biết: "Chúng tôi đang có những tiến bộ vượt bậc, và mục tiêu lớn nhất là tạo ra giọng nói tổng hợp từ não bộ trôi chảy như cuộc trò chuyện giữa hai người. Các thuật toán AI mà chúng tôi sử dụng đang ngày càng nhanh hơn và chúng tôi học hỏi được nhiều điều với mỗi đối tượng tham gia nghiên cứu mới."


Tiến sĩ Chang và các đồng nghiệp, bao gồm cả những người từ Đại học California, Berkeley, vừa công bố một bài báo trên tạp chí Nature Neuroscience vào tháng trước, mô tả công trình của họ với một phụ nữ bị liệt tứ chi, không thể nói chuyện trong 18 năm sau khi bị đột quỵ.

Bà ấy đã cho phép huấn luyện một mạng neuron deep learning bằng cách cố gắng thầm thì các câu được tạo thành từ 1.024 từ khác nhau. Âm thanh giọng nói của bà sau đó được tạo ra bằng cách truyền dữ liệu não bộ của bà đến một mô hình máy học giải mã văn bản, cuối cùng là mô hình tổng hợp để tạo sinh âm thanh giọng nói từ văn bản mà mô hình trước đó tạo ra.



Kỹ thuật này đã giảm độ trễ giữa tín hiệu não bộ của bệnh nhân và âm thanh phát ra từ 8 giâynhư trước đây xuống còn 1 giây. Điều này gần hơn nhiều với khoảng thời gian 100 - 200 mili giây độ trễ từ ý nghĩ tới cử động của miệng trong khi nói chuyện bình thường. Tốc độ giải mã trung bình của hệ thống là 47.5 từ mỗi phút, tương đương khoảng một phần ba tốc độ hội thoại của người bình thường.

Hàng ngàn người mỗi năm có thể được hưởng lợi từ các thiết bị hỗ trợ giọng nói. Họ có thể vẫn giữ được chức năng nhận thức tương đối tốt, nhưng đã mất khả năng phát âm do đột quỵ, bệnh ALS (bệnh thần kinh vận động chậm) và các tình trạng bệnh lý não bộ khác. Nếu thành công, các nhà nghiên cứu hy vọng kỹ thuật này có thể được mở rộng để giúp đỡ những người gặp khó khăn trong việc phát âm do các tình trạng như bại liệt hoặc tự kỷ.

Tiềm năng của thiết bị hỗ trợ giọng nói thần kinh (voice neuroprosthesis) đang bắt đầu thu hút sự quan tâm từ các doanh nghiệp. Precision Neuroscience tuyên bố rằng họ có thể thu được tín hiệu não bộ với độ phân giải cao hơn so với các nhà nghiên cứu học thuật, vì điện cực trong thiết bị cấy ghép của họ có mật độ dày đặc hơn.

Công ty đã làm việc với 31 tình nguyện viên, là những người đã mất khả năng nói và dự kiến sẽ sớm thu thập dữ liệu từ nhiều người hơn nữa, tạo ra một con đường tiềm năng để thương mại hóa.



Precision đã được FDA phê duyệt vào ngày 17/4 để cấy các cảm biến của họ trong cơ thể các tình nguyện viên, cho phép nó vận hành 30 ngày liên tục trước khi phải tháo bỏ. Điều này sẽ cho phép các nhà khoa học của đơn vị này huấn luyện hệ thống của mình với "kho dữ liệu thần kinh độ phân giải cao lớn nhất trên hành tinh" trong vòng một năm, theo CEO Michael Mager.

Bước tiếp theo là “thu nhỏ các thành phần và đặt chúng vào các gói chân không, tương thích sinh học để có thể cấy ghép vĩnh viễn vào cơ thể”, ông Mager nói.

Neuralink của Elon Musk, startup nghiên cứu nền tảng kết nối não bộ và máy tính (BCI) nổi tiếng nhất, thì tập trung vào việc cho phép những người bị liệt điều khiển máy tính thay vì cung cấp cho họ một giọng nói tổng hợp.

Một trở ngại quan trọng trong quá trình phát triển công nghệ chuyển đổi suy nghĩ thành giọng nói là thời gian bệnh nhân cần để học cách sử dụng hệ thống.

Một câu hỏi quan trọng chưa được giải đáp là các kiểu phản hồi trong vỏ não vận động (motor cortex), bộ phận của não kiểm soát các hành động tự chủ, bao gồm cả phát âm, thay đổi và khác biệt giữa mọi người đến mức nào. Nếu chúng giống y hệt nhau từ người này qua người khác, các mô hình học máy được huấn luyện trên những cá nhân trước đây hoàn toàn có thể được sử dụng cho bệnh nhân mới, theo Nick Ramsey, một nhà nghiên cứu BCI tại Trung tâm Y tế Đại học Utrecht.

Điều đó sẽ đẩy nhanh quá trình hiện nay, tức là tiêu tốn "hàng chục hoặc hàng trăm giờ để tạo ra đủ dữ liệu bằng cách hiển thị văn bản cho tình nguyện viên tham gia và yêu cầu họ cố gắng nói nó."




Ông Ramsey cho biết, tất cả nghiên cứu về chuyển đổi suy nghĩ thành giọng nói đều tập trung vào vỏ não vận động, nơi các nơ-ron kích hoạt các cơ liên quan đến việc phát âm, không có bằng chứng nào cho thấy giọng nói có thể được tạo ra từ các khu vực não bộ khác hoặc bằng cách giải mã những suy nghĩ nội tâm.

Ông cho biết thêm: "Ngay cả khi bạn có thể làm được điều đó, bạn cũng sẽ không muốn mọi người nghe được những suy nghĩ nội tâm của mình. Có rất nhiều điều tôi không nói to vì chúng sẽ không có lợi cho tôi hoặc có thể làm tổn thương người khác."

Việc phát triển một công cụ tạo sinh giọng nói tốt như giọng nói khỏe mạnh vẫn còn “khá xa vời”, theo Sergey Stavisky, đồng giám đốc phòng thí nghiệm thần kinh phục hồi chức năng tại Đại học California, Davis.



Phòng thí nghiệm của ông đã chứng minh được rằng họ có thể giải mã những gì ai đó đang cố gắng nói với độ chính xác khoảng 98%. Nhưng giọng nói đầu ra không tức thời, và nó không nắm bắt được các phẩm chất quan trọng của giọng nói như âm điệu. Chưa rõ liệu các điện cực, thứ phần cứng đang được sử dụng để ghi lại dữ liệu sóng não có thể cho phép tổng hợp để khớp với giọng nói khỏe mạnh của con người hay không.

Các nhà khoa học cũng thực sự cần hiểu sâu hơn cách não bộ mã hóa việc sản xuất ra giọng nói và các thuật toán tốt hơn để dịch hoạt động thần kinh thành đầu ra âm thanh, ông Stavisky cho biết. Ông nói: “Sau cùng thì, một thiết bị hỗ trợ giọng nói thần kinh học nên cung cấp toàn bộ dải biểu cảm của giọng nói con người, để họ có thể kiểm soát chính xác cao độ và thời điểm của mình và làm những việc như ca hát chẳng hạn.”

Theo FT
Nguồn:tinhte.vn/thread/muc-tieu-moi-cua-hai-nganh-ai-va-than-kinh-hoc-bien-y-nghi-cua-con-nguoi-thanh-giong-noi.4012184/
💬 bình luận

Bình luận

Trở thành viên của itcctv — Đăng ký
Thủ thuật tin học văn phòng Thủ thuật Word Thủ thuật Excel
Cuộn