Доклады по Web Mining

Очередная встреча Санкт-Петербургского Сообщества .Net-Разработчиков, посвященная вопросам web mining – получения, анализа и записи данных из интернета

Программа:

  • 19.00 – 20.30 — Practical web data extraction (in .NET): .NET и другие, Андрей Щекин
    Технологии:
    • Доступ: WebRequest/WebClient, альтернативы (libcurl), кэширование, интеграционные тесты
    • Разбор: HtmlAgilityPack и Majestic-12
    • Извлечение: задание правил трансформации, XPath extension functions, регулярные выражения, микроформаты
      Практический пример: Reuse Project
    • Анализ (web mining, кратко): кластеризация, bayesian classification, stemming
  • 20.30 – 22.00 — Web Mining От и До, Дмитрий Нестерук
    • Основные понятия. Что такое ETL.
    • Extraction
      • WebRequest против WatiN
      • Навигация по DOM
      • Проблемы с многопоточностью
    • Transformation
      • Приведение к Xml (SgmlReader)
      • Создание схем
      • Визуальный мэппинг
    • Load (он же Persistence)
      • Append-only vs. upsert
      • Выбор persistence store
    • Инфраструктура
      • Поллинг vs. ad-hoc
      • “Правильный” сервис
      • Логирование
      • Использование в распределенной среде
Место проведения: офис Exigen Services, ул. Рентгена, д. 5 (м. Петроградская)
Стоимость участия: бесплатно

Реклама

Популярные мероприятия
Соглашение на обработку персональных данных