Dưới đây là cách Live Caption của Android 10 thực sự hoạt động

Tác Giả: Peter Berry
Ngày Sáng TạO: 16 Lang L: none (month-012) 2021
CậP NhậT Ngày Tháng: 1 Tháng BảY 2024
Anonim
Dưới đây là cách Live Caption của Android 10 thực sự hoạt động - Tin TứC
Dưới đây là cách Live Caption của Android 10 thực sự hoạt động - Tin TứC

NộI Dung


Live Caption là một trong những tính năng hay nhất của Android, sử dụng máy học trên thiết bị để tạo phụ đề cho video và clip web địa phương.

Google đã xuất bản một bài đăng trên blog chi tiết chính xác cách thức hoạt động của tính năng tiện lợi này và nó thực sự bao gồm ba mô hình học máy trên thiết bị, dành cho người mới bắt đầu.

Có một mô hình chuyển tải chuỗi mạng thần kinh tái phát (RNN-T) để nhận dạng giọng nói, nhưng Google cũng đang sử dụng mạng thần kinh tái phát để dự đoán dấu câu.

Mô hình học máy trên thiết bị thứ ba là mạng thần kinh tích chập (CNN) cho các sự kiện âm thanh, như tiếng chim hót líu lo, tiếng vỗ tay của con người và âm nhạc. Google cho biết mô hình học máy thứ ba này bắt nguồn từ công việc của nó trên ứng dụng trợ năng Live Transcribe, có thể phiên âm các sự kiện âm thanh và lời nói.


Giảm tác động của chú thích trực tiếp

Công ty cho biết, họ đã thực hiện một số biện pháp nhằm giảm nhu cầu sử dụng pin và tiêu thụ pin Live Caption.Đối với một, công cụ nhận dạng giọng nói hoàn toàn tự động (ASR) chỉ chạy khi phát hiện giọng nói thực sự, trái ngược với việc liên tục chạy ở chế độ nền.

Ví dụ, khi âm nhạc được phát hiện và lời nói không có trong luồng âm thanh, nhãn sẽ xuất hiện trên màn hình và mô hình ASR sẽ được tải. Mô hình ASR chỉ được tải trở lại vào bộ nhớ khi có tiếng nói trong luồng âm thanh một lần nữa, Google Google giải thích trong bài đăng trên blog của mình.

Google cũng đã sử dụng các kỹ thuật như cắt tỉa kết nối thần kinh (cắt giảm kích thước của mô hình lời nói), giảm 50% mức tiêu thụ điện năng và cho phép Live Caption chạy liên tục.


Google giải thích rằng kết quả nhận dạng giọng nói được cập nhật vài lần mỗi giây khi chú thích được hình thành, nhưng dự đoán dấu câu là khác nhau. Gã khổng lồ tìm kiếm nói rằng nó đưa ra dự đoán dấu chấm câu trên đuôi văn bản từ câu được công nhận gần đây nhất để giảm nhu cầu tài nguyên.

Live Caption hiện có sẵn trong sê-ri Google Pixel 4 và Google cho biết nó sẽ có sẵn ngay sau đó trên Sê-ri Pixel 3 và các thiết bị khác. Công ty nói rằng nó cũng làm việc về hỗ trợ cho các ngôn ngữ khác và hỗ trợ tốt hơn cho nội dung nhiều người nói.

Tại ự kiện phần cứng của mình hôm nay, Amazon đã tiết lộ một bước lặp mới của phụ kiện nhà thông minh nổi tiếng của mình, Amazon Echo Dot. Phần mới trong ê-ri có...

Thứ áu vui vẻ, độc giả. Đến thời điểm này, bạn có thể đã được nhắc nhở rằng tuần có thể làm việc ai trong bao lâu. Nếu bạn thích ý tưởng trở thành một...

Bài ViếT CủA CổNg Thông Tin