Peter True Be Know (ptrue) wrote,
Peter True Be Know
ptrue

Фейл

Хотел написать скрипт, чтобы в публикуемых статьях на сайте boychoir.ru автоматически проставлялись тэги по всем именам собственным (сейчас тэги проставляютя вручную, и авторы часто ленятся это делать). Ведь, в принципе, найти имена собственные не так сложно: нужно искать все слова, начинающиеся с прописной буквы и стоящие не после точки. Можно даже сразу определять сочетания имён и фамилий — это рядом стоящие, не разделённые знаками препинания слова с прописных букв.

Понятно, что имена в тексте по всякому склоняются, видоизменяются (например, может быть написано «Пашка» вместо «Павел»). Однако можно было бы, как минимум, выдавать список имён, а дальше автор уже сам мог бы отредактировать его, превратив в список тэгов.

Ничего не вышло: php не дружит с юникодом, и парсить русский текст оказалось весьма затруднительно.
Tags: boychoir, php, web
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 16 comments