Посты за: Март, 2008

Тематический социальный PageRank — 2. Несколько рейтингов сообществ

Для упрощения выборок на сей раз я сузил анализируемые группы только до членов конкретных LJ сообществ, не затрагивая общие интересы.

Для интересующихся выборки расчёта PageRank для нескольких сообществ.
Скажу сразу, этот рейтинг не означает что автор много пишет по этой теме, он может вообще ничего в сообществе не публиковать. Рейтинг демонстрирует

Читать больше

Продолжение рассуждений о Semantic Web и Linked Data

Если говорить о классических поисковых системах и наиболее распространенных поисковых алгоритмах, то неизбежно приходится возвращаться к PageRank или его аналогам. Причем не только для Web, но и для всех случаев связанных ссылками информационных массивов, например, базы научных работ. Особенность PageRank в том что ссылка в нём —

Читать больше

Бизнес vs. Политика

Я обычно стараюсь не писать о политике на страницах техноблога, но бывают темы настолько переплетённые с ИТ что не упоминуть их сложно.

ArsTechnica пишут пишут о Европейском аналоге Global Online Freedom Act, это закон регулирующий провайдеров, хостинговые компании и поисковые системы вводить какие-либо ограничения на доступ к своим ресурсам их

Читать больше

SUP, базовые аккаунты и статистика

Читая многочисленные посты по активностям СУПа в ЖЖ я покопался в букмарках и нашёл статистику по росту Livejournal. В августе 2007 в блоге pyrop автор публиковал детальные графики и сравнения прироста числа аккаунтов, активности пользователей и числа активных аккаунтов на основе реальных цифр — данных отдаваемых в статистике сервиса

Читать больше

Англоязычные ссылки на 18.03.2008.

Социальный тематический PageRank

Продолжая ударными темпами разбираться во математических внутренностях PageRank, TrustRank и прочих неконтентных алгоритмах, и ,решив выбрать упрощённую экспериментальную выборку, далее будут результаты нескольких моих экспериментов по расчёту аналога PageRank для Livejournal и аналога ТиЦ групп в блогах.

Как проходил эксперимент:

1. С помощью API ЖЖ была сформирована тестовая выборка в несколько тысяч

Читать больше

Алгоритмы выявления отношений веб сайтов

Собрав за последнее время материалов на чтение на ближайшие несколько лет, наконец-то получил материалы подтверждения что текущая логика используемого мной алгоритма выявления платнных ссылок основнанная на контентном анализе, явно недостаточна.  Причём если математическую основу под анализ подобрать несложно, то куда больше работы над сбором тестовых выборок, их детальным разбором и

Читать больше

Semantic Web, рассуждения, алгоритмы и переспективы.

В России на удивление малое число публично доступных материалов по  анализу и обработке текстов, работе с метаданными и  распознаванию и выявлению фактов.

Далее некоторые мои рассуждения, на уровне фиксации личного понимания этой темы.

Неполный список компаний о которых я знаю что так или иначе затрагивают эту тему — это: Яндекс, Ашманов и

Читать больше

США — электронные карточки граждан

Пока только ссылки, подробнее отпишу как будет время:

  • Smart.gov — Smart Card strategy and interoperability —  портал по технологиям смарт-карт для государства
  • USAccess (fedidcard.gov) — проект GSA по созданию единой инфраструктуры идентификации граждан различными агенствами. Используют правильный организационный подход — делегируют выдачу идентификаторов региональным и агенским центрам регистрации.
  • IDManagement.gov

    Читать больше

Скрытые факты и метаданные метаданных. Непростые вопросы

Читаю материалы и исследования по выявлению и работе с метаданными и, в очередной раз, убеждаюсь что тема куда сложнее чем можно было подумать вначале.

Например, наиболее часто встречающиеся схемы работы с нимия:

Объект + тэги

Упрощённая модель когда дополнительные характеристики и атрибуты объектов определяются исключительно смысловым значением ключевых слов. Плюсы — простая

Читать больше

Яндекс.Метрика