nataraj | Вопрос по перлу (html2fb2)

Есть замечательный perl-скрипт html2fb2 писаный неким товарищем Mike Matsnev

Скрипт этот открывает файл, если имя задано, или берет STDOUT, скармливает открытый файл-хэндл HTML::Parser'у и дальше делает что надо.

Все бы хорошо, но возникает одна проблема... HTML::Parser не умеет правильно раскрывать амперсант-последовательности для случая когда его кормят уникодом не сказав что это уникод... (то есть когда в строке уникод но не выставлен флаг UTF8.) Но если открывать уникодный html-файл без доп ухищерений, то именно такие данные из него и приходят.

При этом скрипт сам, на момент открытия файла не всегда знает какая кодировка там будет, потому что в если ничего не сказано явно, то он по возможности берет кодировку из META в заголовке...

Эта мета ловиться парсером, но на момент когда она ловится, файл уже открыт... И из этого открытого файла уже сыпятся уникодная разнобайтица...

Проблема бы легко решалась бы, если бы контент файла загружался целиком, и можно было бы регекспить и преобразовывать его по самое неболуйся...

Но скрипт изначально задуман как фильтр (или какое там правильное слово... короче они не накапливает информацию, а по мере чтения выплевывает вывод, не дожидаясь пока все прочитается), и у нас есть ровно один шанс чтобы сделать все правильно... (Второй раз на STDIN никто ничего посылать не будет)

Вот... Короче я не понимаю как это сделать идеологически правильно не переиначивая всю идею скрипта... :-/

Есть кто-то кто может сказать что-то умное по этому поводу?

Flat | Top-Level Comments Only

From:

vitus_wagner

HTML::Parser-у совершенно необязательно скармливать хэндл. Можно и строку.
Т.е. зачитать файл или STDIN в строку самому, поанализировать на предмет meta и потом отдавать парсеру.
HTML-файлы книг они МАЛЕНЬКИЕ. Нет никакой необходимости читать их по кускам, даже если снаружи это выглядит как фильтр.

shaplov.livejournal.com

Да, я понимаю... Я наверное так и сделаю...

Но к этой задаче у меня еще и чисто академический интерес... Она таки не имеет нормального решения?

beldmit.livejournal.com

Коля, а ты не в курсе - как fb2 переконвертить в pdb?

Я не знаю...
Либо написать, либо конвертировать fb2 во что-то что можно потом конвертировать в pdb...

Вроде бы cpan говорит о http://search.cpan.org/~bdfoy/p5-Palm-1.009/lib/PDB.pm

Но мне это писать совершенно незачем...

Посмотри на www.fictionbook.org - вроде был там конвертер.

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Swami Dhyan Nataraj

Вопрос по перлу (html2fb2)

Вопрос по перлу (html2fb2)

no subject

no subject

no subject

no subject

no subject

Profile

July 2024

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags