NộI Dung
Live Caption là một trong những tính năng hay nhất của Android, sử dụng máy học trên thiết bị để tạo phụ đề cho video và clip web địa phương.
Google đã xuất bản một bài đăng trên blog chi tiết chính xác cách thức hoạt động của tính năng tiện lợi này và nó thực sự bao gồm ba mô hình học máy trên thiết bị, dành cho người mới bắt đầu.
Có một mô hình chuyển tải chuỗi mạng thần kinh tái phát (RNN-T) để nhận dạng giọng nói, nhưng Google cũng đang sử dụng mạng thần kinh tái phát để dự đoán dấu câu.
Mô hình học máy trên thiết bị thứ ba là mạng thần kinh tích chập (CNN) cho các sự kiện âm thanh, như tiếng chim hót líu lo, tiếng vỗ tay của con người và âm nhạc. Google cho biết mô hình học máy thứ ba này bắt nguồn từ công việc của nó trên ứng dụng trợ năng Live Transcribe, có thể phiên âm các sự kiện âm thanh và lời nói.
Giảm tác động của chú thích trực tiếp
Công ty cho biết, họ đã thực hiện một số biện pháp nhằm giảm nhu cầu sử dụng pin và tiêu thụ pin Live Caption.Đối với một, công cụ nhận dạng giọng nói hoàn toàn tự động (ASR) chỉ chạy khi phát hiện giọng nói thực sự, trái ngược với việc liên tục chạy ở chế độ nền.
Ví dụ, khi âm nhạc được phát hiện và lời nói không có trong luồng âm thanh, nhãn sẽ xuất hiện trên màn hình và mô hình ASR sẽ được tải. Mô hình ASR chỉ được tải trở lại vào bộ nhớ khi có tiếng nói trong luồng âm thanh một lần nữa, Google Google giải thích trong bài đăng trên blog của mình.
Google cũng đã sử dụng các kỹ thuật như cắt tỉa kết nối thần kinh (cắt giảm kích thước của mô hình lời nói), giảm 50% mức tiêu thụ điện năng và cho phép Live Caption chạy liên tục.
Google giải thích rằng kết quả nhận dạng giọng nói được cập nhật vài lần mỗi giây khi chú thích được hình thành, nhưng dự đoán dấu câu là khác nhau. Gã khổng lồ tìm kiếm nói rằng nó đưa ra dự đoán dấu chấm câu trên đuôi văn bản từ câu được công nhận gần đây nhất để giảm nhu cầu tài nguyên.
Live Caption hiện có sẵn trong sê-ri Google Pixel 4 và Google cho biết nó sẽ có sẵn ngay sau đó trên Sê-ri Pixel 3 và các thiết bị khác. Công ty nói rằng nó cũng làm việc về hỗ trợ cho các ngôn ngữ khác và hỗ trợ tốt hơn cho nội dung nhiều người nói.