Tin tức

Những Điều Bạn Chưa Biết Về Phần Mềm Nhận Dạng Giọng Nói

50 Views
Ứng dụng nhận diện hình ảnh, phần mềm nhận dạng giọng nói, công nghệ xe tự động,.. đã đánh những dấu mốc quan trọng về bước đột phá của trí tuệ nhân tạo (AI), Machine learning trong kỷ nguyên số. Trong số đó, phần mềm nhận dạng giọng nói được cho là ngày càng trở nên “quyền lực” khi nó có thể điều khiển được hầu hết mọi thiết bị di động hiện đại ngày nay.

phan-mem-nhan-dang-giong-noi

Phần mềm nhận dạng giọng

Phần mềm nhận dạng giọng nói là gì?

Phần mềm nhận dạng giọng nói là một hệ thống có khả năng nhận và dịch (hoặc hiểu và thực hiện) các lệnh thu được từ giọng nói con người. Nhận dạng giọng nói gồm 2 thuật ngữ: Voice recognition và Speech recognition.

- Voice recognition liên quan đến việc xác định giọng nói chính xác của một cá nhân nào đó, tương tự một phương pháp nhận diện sinh trắc học.

- Speech recognition là việc xác định những từ ngữ trong câu nói rồi dịch chúng sang ngôn ngữ máy tính.

Ứng dụng của phần mềm nhận dạng giọng nói

phan-mem-nhan-dang-giong-noi

Chuyển giọng nói thành văn bản được xem là ứng dụng phổ biến nhất của phần mềm nhận dạng giọng nói hiện nay. Chúng ta có thể dễ dàng nhìn thấy những phần mềm nhận dạng giọng nói ngay trên smartphone hàng ngày đang sử dụng. Bên cạnh đó, nó còn được sử dụng rất nhiều trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence), Google Assistant là một ví dụ điển hình.

Google Assistant là hệ thống trợ lý cá nhân ảo được phát triển bởi Google. Điểm nổi bật của Google Assistant là nó có thể tương tác, nói chuyện với người dùng.

Assistant lần đầu xuất hiện rộng rãi trong ứng dụng nhắn tin Allo, sau đó là hệ thống loa thông minh Google Home. Phần mềm nhận dạng giọng nói Google Assistant chính thức có mặt trên các thiết bị Android từ tháng 2/2017 bao gồm smartphone và đồng hồ Android Wear, 3 tháng sau thì xuất hiện trên iOS trong một ứng dụng độc lập.

Hiện nay, phần mềm nhận dạng giọng nói Google Assistant đã và đang được mở rộng để hỗ trợ thêm nhiều thiết bị thông minh khác như xe hơi và nhà thông minh. Với tính năng ưu việt,  Assistant cũng có thể mở rộng thông qua các ứng dụng từ bên thứ ba.

Ưu điểm và nhược điểm của phần mềm nhận dạng giọng nói hiện nay

Ưu điểm của phần mềm nhận dạng giọng nói

-    Khả năng truy cập: Đây là một thuận lợi đối với người khuyết tất khi họ không thể dùng chuột hay bàn phím, nhưng có thể dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển một cách dễ dàng.

-    Kiểm tra chính tả: Người dùng có thể truy cập vào các công cụ chỉnh sửa tương tự một giải pháp xử lý văn bản chuẩn. Đương nhiên mọi thứ sẽ không chính xác 100% nhưng phần mềm có thể nhận diện và xử lý phần lớn lỗi chính tả, ngữ pháp.

-    Tốc độ nhanh: Phần mềm nhận dạng giọng nói có thể nắm bắt giọng nói của người dùng với tốc độ nhanh hơn so với khi nhập liệu bằng bàn phím, vì vậy tốc độ khi nhập liệu bằng giọng nói sẽ cải thiện đáng kể.

Nhược điểm của phần mềm nhận dạng giọng nói

-    Thiết lập và "dạy": Mặc dù tất cả phần mềm nhận dạng giọng nói hiện nay đều hứa hẹn có thể hoạt động sau vài phút thiết lập, nhưng thực sự quá trình ghi nhận, làm quen với giọng nói, âm điệu và tốc độ nói của người dùng có đôi chút phức tạp và tốn thời gian. Một số phần mềm nhận dạng giọng nói còn bắt người dùng nói lại, thậm chí không thể nhận diện được bạn đang nói gì.

-    Chưa thực sự ổn định: Việc đang nói mà bị ngắt giữa chừng có thể khiến người dùng cảm thấy khó chịu. Đặc biệt, một số người không thích phần mềm nhận dạng giọng nói vì nó gây bối rối cho người dùng khi lên xuống giọng hay bỗng dưng nói nhỏ lại.

-    Kho từ vựng hạn chế: Người dùng phải sẵn sàng chấp nhận trường hợp phần mềm xử lý quá lâu vì những từ vừa nói không nằm trong từ điển có sẵn. Đó là điều các nhà nghiên cứu đang cố gắng cải tiến ở phần mềm nhận dạng giọng nói hiện nay.

3 ứng dụng phần mềm nhận dạng giọng nói giúp chuyển giọng nói thành văn bản

-    Phần mềm nhận dạng giọng nói Gboard

phan-mem-nhan-dang-giong-noi

Phần mềm nhận dạng giọng nói Gboard

Phần mềm nhận dạng giọng nói Gboard có tên gọi trước đây là Google Keyboard. Phần mềm này hỗ trợ trên 120 ngôn ngữ khác nhau và được tích hợp khá nhiều tính năng mạnh mẽ như nhập liệu bằng giọng nói, biểu tượng cảm xúc, tìm kiếm ảnh động (GIF), tra cứu thông tin, dịch thuật nội dung tin nhắn ngay trên bàn phím… 

Nếu đang sử dụng các thiết bị iOS, sau khi cài đặt xong, bàn phím xuất hiện người dùng chỉ cần nhấn giữ lên biểu tượng dấu phẩy và chạm vào hình Trái đất. Cuối cùng, nhấn vào biểu tượng micro trên bàn phím và bắt đầu nói để nhập liệu.

Người dùng laptop hoặc PC cũng có thể thực hiện sử dụng tính năng nhập liệu văn bản bằng giọng nói thông qua Google Docs. Nếu muốn gõ dấu chấm, phẩy, xuống dòng… người dùng cần phải nói chậm rãi và ngắt quãng. Theo thử nghiệm, khả năng nhận diện giọng nói (tiếng Việt) của Gboard khá tốt, nội dung thể hiện rõ ràng và ít bị sai chính tả.

-    Phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes 

phan-mem-nhan-dang-giong-noi

Phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes 

Với phần mềm nhận dạng giọng nói ListNote Speech-to-Text Notes, người dùng có thể tạo nhanh các ghi chú bằng giọng nói. So với các ứng dụng khác, ListNote Speech-to-Text Notes tương đối dễ sử dụng, mọi dữ liệu (ghi chú) đều được lập chỉ mục nên việc tìm kiếm diễn ra khá nhanh… Người dùng còn có thể đặt mật khẩu hoặc mã hóa nội dung theo tiêu chuẩn AES nếu muốn bảo vệ tập tin khỏi con mắt tò mò của người khác 

-    Phần mềm nhận dạng giọng nói Voice Text 

Phần mềm nhận dạng giọng nói Voice Text 

Phần mềm nhận dạng giọng nói Voice Text

Voice Text là một phần mềm nhận dạng giọng nói cho phép người dùng có thể gửi/nhận tin nhắn bằng giọng nói, nhập văn bản mà không cần chạm vào điện thoại, dự đoán nội dung, thực hiện cuộc gọi bằng giọng nói…