Плагины по определению контекста

Date: 2010-02-17 04:12 GMT
Subject: Плагины по определению контекста
Tags:

Контекст и гиперконтекст тема уже много лет как избитая, но по-прежнему сталкиваешься с тем, что для небольших сайтов фичи вроде "похожие темы", или ещё хуже - гиперконтекстных ссылок на свои или чужие страницы - либо таких фич вообще для "малышей" в природе нет, либо есть кривые, сделанные на коленке.

Напрашивается небольшая библиотека, которая берёт массив, допустим, анкоров/ключевиков и массив текстов, и для указанного текста подбираются подходящие релевантные ключевики из заданного массива, и наоборот. Затем, реализуется в виде плагина для всех популярных движков - друпала, пхпбб, вордпресса, на Яве для роллера, т.п. Затем, эти плагины либо очень дёшево продаются в скомпилированном виде, либо выдумывается бизнес-модель для раздачи их бесплатно. И веб-сервис вроде Акисмета тоже можно организовать, чтобы, например, расставлял релевантные ссылки любого вида на страницах заказчика джаваскриптом - и ссылки, и страницы контролируются заказчиком. В установке плагины и сервис делаются элементарными, чтобы себе на бложек или форум мог поставить кто угодно.

Короче, смысл - доступное препарирование текста и ключевиков на сайте грамотным алгоритмом для различных целей, причём полностью под контролем не Гугл-Адсенса, а вебмастера.

Как это использовать - очевидно:

  • "гиперконтекст" - выделяем прямо в тексте ключевые слова ссылками:
    • на другие страницы этого же сайта, для поисковиков и завлечения читателей на другие страницы - почему Википедия сидит в топе по всем запросам? Потому что нашпигована релевантными ссылками в тексте, как ни один другой сайт на свете. Почему бы не сделать то же самое и с любым другим сайтом? "Викифицировать" все сайты на свете?
    • платные ссылки на другие сайты - для СЕО или неиндексируемые для трафика
  • блок "похожие статьи/посты/темы" под текстом на странице, подобранные по нашему добротному алгоритму (а не сделанному на коленке)
  • обычный контекст - вращать заданные вебмастером (или его реклами) банеры или текстовые объявления в зависимости от тематики текста
  • традиционные саповские ссылки в подвале - разумнее распределять ссылки от сапы в зависимости от тематики конкретной страницы
    • сейчас, даже если весь сайт про туризм, отдельные страницы то про египет, то про лыжи в австрии - сапа вообще это учитывает при распределении ссылок?

Гугл, Бегун, Яндекс и иже с ними сто лет назад для себя похожее уже сделали, но вот в виде плагина для Вордпресса или Phpbb для многомиллионного хвоста из мелких сайтов я вроде не видел.

Комментарии

Очень сложно выбирать правильный контекст. На сайте ролевиков слово "лук" может означать оружие (аутентичный дальнобойный рэйлган XII века), а может обозначать лук репчатый (аутентичная еда операторов дальнобойного рэйлгана XII века). Это именно что вопрос контекста. Просто ключевые слова выделять можно, но это приведёт к состоянию www.anekdotov.net - ссылки есть, но по ним никто не ходит, потому что они ведут не туда, куда надо. А анализировать контекстно-зависимую грамматику за полиномиальное время компьютеры ещё не умеют, и не факт, что когда-нибудь сумеют.

Ну Адсенс, Директ, Бегун и все-все-все же как-то справились с определением тематики текста и подбору для него нужных ключевиков с достаточной точностью. Да, лажается, иногда глупости показывает, но индустрия контекста работает в целом очень хорошо и приносит миллиарды.

У анекдотов.нет может быть неудачная реализация этого алгоритма, или эти ссылки там могут быть не для того, чтобы по ним ходили люди...