Освежаю динозавра (очень старую тему) в надежде найти людей, которые преуспели в выдирании субтитров.
До меня теперь дошло как все работает, после того, как повозился довольно долго.
Пока что использую SubRip, могу извлечь субтритры в графические файлы, то есть успешно распознается поток субтитров и выдрать в отдельные файлы. Для того чтоб, эти файлы конвертировать в текст нужен файл матрицы для соответствующего шрифта (скорее по шрифту, а не по языку, напр. английский и латинский можно было бы объединить в одну группу, т.к. все символы языка - одинаковые).
Матрицы можно создавать вручную при помощи SubRip, следующий раз тот же символ в идеале уже будет узнан (матрица обновляется). Чем больше работаешь с матрицей, тем меньше ручной работы (матрицу нужно сохранять). Конечно с алфавитными языками проще - столько то букв заглавных и маленьких, цифр, пунктуаций. С китайским и японским сложнее, нужно пройти несколько штук, прежде чем он почти перестал останавливаться, и то, если начать новую тему DVD, кто знает...
Вопрос, есть ли у кого-то на Полушарии такие матрицы (обычно сохраняется в файл с расширением .sum), можете ли поделиться. Такие точно есть у кого-то, так как в наличие у многих уже много китайских и японских субтитров в текстовых файлах. Может быть вы создали сами, может быть кто-то с вами поделился.
Один момент - одна матрица может не работать одинаково с разными производителями DVD, если шрифты выглядят по-другому, или если их делают ка-то нестандартно. Чем ровнее и четче шрифт, тем больше вероятности, что он будет распознан, но матрица созданная для такого шрифта будет работать с таким же DVD.