Yet another Conference 2010

Основные темы конференции — хранение данных, инструменты, тестирование, обработка мультимедиа, web mining. Впервые в России докладчики подробно расскажут о технологиях Elliptics, Hadoop, Lunapark, Map Reduce, Parallel Composer, Phantom, Skype Kit, Thread Sanitizer и о многом другом.

iCalendar - Экспортировать в органайзер

Москва, Россия

01.10.2010, 10:00 - 21:00

Тезисы выступлений

  • Петр Попов, Яндекс
    Закончил механико-математический факультет Московского государственного университета, защитил кандидатскую диссертацию в области алгебраической топологии. С 2003 года работает в софтверной индустрии, с 2009 года в Яндексе на должности разработчика. Область интересов – низкоуровневые оптимизации, вычисления на неклассических архитектурах (IBM Cell, GPU).
    Тема доклада: Базовые оптимизации.
    Тезисы: Поисковая инфраструктура Яндекса требует значительных затрат на поддержку и постоянно растет. Растет и объем проиндексированной информации, и сложность алгоритмов ранжирования, и сложность запроса. Расхожий тезис «вычислительные мощности дешевле усилий программиста по оптимизации» становится неверным. Поисковый запрос пользователя в Яндекс проходит несколько стадий обработки, «базовый поиск» – это самая низкоуровневая и требовательная к оптимизациям подсистема, потребляющая до 95% серверных мощностей. Сам базовый поиск включает в себя нахождение документов-кандидатов, вычисление для них факторов ранжирования и финальный подсчет релевантности. Мы расскажем про подходы Яндекса к сжатию поискового индекса и про ускорение алгоритма ранжирования MatrixNet.
  • Константин Серебряный, Google
    Закончил механико-математический факультет Московского государственного университета в 2000 году. Семь лет работал над оптимизирующими компиляторами (4 года в SUN и 3 года в Intel). В 2004 защитил диссертацию на степень кандидата технических наук по теме «Методы высокоуровневой оптимизации циклов». С 2007 года Константин работает в московском отделении Google и занимается динамическим анализом программ, в том числе поиском ошибок многопоточного кода.
    Тема доклада: Как мы охотимся на гонки (data races) или «найди багу до того, как она нашла тебя».
    Тезисы: При создании высоконагруженных систем, как серверных, так и клиентских, становится всё сложнее обходиться без многопоточности. Однако программирование многопоточных приложений не становится легче – во многом из-за проблемы гонок (data races).Гонки практически не поддаются «отлову» при помощи классических методов тестирования, так как не проявляются при каждом запуске программы. Рассказ пойдёт об инструменте поиска гонок «ThreadSanitizer», который был разработан и внедрен в Google. ThreadSanitizer позволяет находить гонки в программах, написанных на C, C++, Java и работающих на Linux, Mac Os и Windows. Мы поделимся опытом реального использования этого инструмента при тестировании крупных проектов, таких как Google Chrome или серверное ПО Google. Вы узнаете, какие гонки мы находили, с какими сложностями сталкивались при обучении пользователей, как внедряли регулярное автоматическое тестирование.
  • Сергей Нурк, Яндекс
    Студент 5 курса математико-механического факультета Санкт-Петербургского государственного университета. В Яндексе разрабатывает системы автоматического сбора структурированных данных.
    Тема доклада: Автоматический сбор данных по примерам.
    Тезисы: В настоящее время в интернете можно найти огромное количество полезной информации. Повсеместно встает проблема сбора этой информации в автоматическом режиме. Однако полностью автоматические методы извлечения информации далеко не всегда могут обеспечить необходимую полноту и точность результата. В докладе будет представлен новый инструмент для управляемого извлечения структурированных данных. Пользователь указывает примеры интересующей его информации на нескольких страницах сайта. Система автоматически строит шаблоны специального вида для поиска такой же информации на всех страницах сайта. Будет рассказано об используемых алгоритмах и проблемах, с которыми пришлось столкнуться при их реализации. Также будет дан обзор нерешенных задач и перспектив их развития.
  • Кирилл Мавродиев, Intel
    Работает в Intel 2 года на позиции инженера по разработке ПО. Занимается технической консультацией по вопросам компиляторов (Compiler Technical Consulting Engineer) в регионе EMEA (Europe, Middle East and Africa).
    Тема доклада: Обзор современных возможностей по распараллеливанию и векторизации приложений с использованием Parallels Composer.
    Тезисы: В начале сентября был выпушен новый инструментарий Intel® Parallel Studio 2011. Intel® Parallel Studio 2011 включает в себя 4 компонента (Parallel Adviser, Parallel Composer, Parallel Amplifier и Parallel Inspector), которые позволяют быстро и эффективно перейти от последовательного приложения к параллельному приложению для систем с общей памятью. В релизе Intel® Parallel Composer появились новые компиляторные возможности: Intel® Cilk™ Plus, Array Notation, Guided Auto-parallelization(GAP) и другие. Вы познакомитесь на примерах с этими расширениями, а также увидите, как они применялись в разработке симулятора перемещения частиц.
  • Влад Селиверстов, Яндекс
    Закончил Кубанский государственный университет в 2004 году по специальности "Компьютерные технологии и прикладная математика". С 2005 года работает в Яндексе. Спроектировал и запустил Рекламную Сеть Яндекса. С 2008 года руководит группой администраторов рекламных технологий.
    Тема доклада: Веб-сервер Phantom.
    Тезисы: При проектировании нагруженных систем приходится сталкиваться с тем, что разные типы запросов к веб-серверам затрачивают разное количество ресурсов, выполняются за разное количество времени и имеют разные приоритеты выполнения. Некоторые запросы «стоят» мало и должны выполняться как можно быстрее. Некоторые «стоят» дорого, и главное, чтобы они не блокировали обработку быстрых запросов. Существующие схемы приоритезации показались нам громоздкими и неудобными – при росте количества типов запросов конфигурация системы усложнялась в разы. Поэтому, чтобы решить эту проблему, а также для того, чтобы сделать ответы на запросы еще более быстрыми, мы написали свой веб-сервер – Phantom. Я расскажу вам, как он устроен, покажу, какие задачи можно решать с его помощью, а в завершение покажу на практике, как работает приоритезация разных типов запросов, используя для этого инструмент нагрузочного тестирования, основанный на Phantom.
  • Konstantin V. Shvachko, Yahoo!
    Principal software engineer at Yahoo!, where he develops HDFS. He specializes in efficient data structures and algorithms for large-scale distributed storage systems. Konstantin holds a Ph.D. in computer science from Moscow State University, Russia. He is a member of the Project Management Committee for Apache Hadoop.
    Title: Scaling Storage and Computation with Hadoop.
    Abstract: Hadoop provides a distributed storage and a framework for the analysis and transformation of very large data sets using the MapReduce paradigm. Hadoop is partitioning data and computation across thousands of hosts, and executes application computations in parallel close to their data. A Hadoop cluster scales computation capacity, storage capacity and IO bandwidth by simply adding commodity servers. Hadoop is an Apache Software Foundation project; it unites hundreds of developers, and hundreds of organizations worldwide report using Hadoop. This presentation will give an overview of the Hadoop family projects with a focus on its distributed storage solutions.
  • Андрей Кузьмичев, Яндекс
    Закончил Московский государственный технический университет им. Н.Э. Баумана. Работает в Яндексе с 2007 года. До июня 2008 года был специалистом по нагрузочному тестированию. С июня 2008 года руководит группой нагрузочного тестирования.
    Тема доклада: Танки в Лунапарке: нагрузочное тестирование в Яндексе.
    Тезисы: Ежедневно миллионы людей пользуются сервисами Яндекса и месяц от месяца число посетителей на наших сервисах растёт. Обновление существующих проектов в условиях возрастающей нагрузки и запуск совершенно новых проектов невозможен без проведения соответствующего тестирования. Мы расскажем про «Лунапарк» – инструмент нагрузочного тестирования, который был разработан и внедрен в Яндексе. Вы узнаете, как, зачем и почему мы создавали свой инструмент. Также мы обсудим риски, связанные с созданием собственного инструмента, и те преимущества, которые он может дать.
  • Александр Дмитриев, Яндекс
    Закончил механико-математический факультет МГУ. До прихода в Яндекс работал в индустрии компьютерных игр и в области медицинской 3D визуализации. В Яндексе с 2007 года, занимается разработкой системы распределенных вычислений.
    Тема доклада: Yet Another MapReduce.
    Тезисы: Одной из самых популярных концепций параллельной обработки больших объёмов данных на сегодня является MapReduce. Простота и масштабируемость этого подхода привели к появлению множества различных реализаций. В настоящем докладе рассматривается реализация MR, используемая в Яндексе. Помимо традиционной отказоустойчивости хранения и обработки данных в больших кластерах, мы поговорим также о расширениях классического подхода, появляющихся в результате решения ряда практических задач.
  • Alexandre (Shura) Iline
    Alexandre Iline is a lead quality engineer in SUN Microsystems, working as a quality architect of Java and JavaFX as well as several products in Java SE and JavaFX portfolio, and also as a test tools architect. Prior to that, Alexandre was playing a role of quality lead/architect of such products as Java Studio Creator and Netbeans. Before that, Alexandre was working as a member/lead of NetBeans QE tools team. Alexandre is the author of Jemmy – the open-source UI testing tool used widely for Swing/AWT UI applications testing as well as for testing of Swing itself. Jemmy v3 is a new generation tool developed/led by Alexandre which, along with the other UI libraries, allows to test JavaFX UI. The tool is used successfully for testing JavaFX SDK and JavaFX products developed internally.
    Title: UI test automation techniques by an example of JavaFX UI.
    Abstract: Test automation is an essential part of a software development process. Being used wisely, it
    • optimizes testing resources,
    • increases testing quality,
    • leads to earlier bug detection,
    • allows to build continuous development processes.
    UI Test automation requires tools, experience and human time investment. The session demonstrates a solution used by Java and JavaFX quality team based on experience of testing such products as Swing, NetBeans, JavaFX SDK and JavaFX Authoring tool. The solution is designed to address the key aspects of UI test automation: effectiveness, test base scalability, stability, and maintainability. The core part of the solution is an open source high-level UI test library Jemmy. During the session, Alexandre will be creating JavaFX UI tests from scratch and demonstrating existing test base for real JavaFX products. He will give an overview of JemmyFX API and explain how UI test automation aspects are applied to real test code. The session is intended for Java and JavaFX UI application developers and quality engineers as well as for everyone interested in UI testing techniques and approaches.
  • Роман Шапошник, Yahoo! Inc.
    C отличием окончил математико-механический факультет Санкт-Петербургского государственного университета в 1999 году. В том же году он был принят в компанию Sun Microsystems, где начал работать над компилятором языка С++, входящим в проект Sun Studio. В 2008 году стал одним из архитекторов проекта Developer Cloud Computing, разрабатываемого в то время компанией Sun. С 2010 года Роман работает в должности старшего менеджера группы системной интеграции кластерных решений в компании Yahoo! inc.
    Тема доклада: Apache Hadoop в Yahoo! -- что же еще нужно для работы с астрономическими объемами данных кроме HDFS и mapreduce?
    Тезисы: Тот факт, что компания Yahoo! inc. располагает одним из самых больших кластеров в мире, работающих под управлением платформы Apache Hadoop, – ни для кого уже не секрет. Гораздо менее известным фактом является то, что эта платформа гораздо богаче, чем простая комбинация двух самых известных проектов -- HDFS и mapreduce. В докладе будет рассказано об уникальном опыте по поддержке всего многообразия компонентов, входящих в нашу платформу: HDFS, mapreduce, Pig, Hive, Oozie, HDFSproxy, DAQ, Vaidya, Zookeeper, etc. Будет затронут весь цикл разработки и обслуживания программного обеспечения – начиная от сотрудничества с другими компаниями и частными лицами в рамках Open Source модели Apache Software foundation, заканчивая сервисным обслуживанием платформы и работе с внутренними клиентами.
  • Richard James Cole, Skype
    Richard Cole is a Product Manager with 15 years experience within the high tech software communications industry. Richard leads the Product Management for SkypeKit Desktop, responsible for the product strategy and market requirements for SkypeKit on Windows / Mac and Linux desktop operating systems. Prior to that Richard Programme Managed the technical delivery of many of the successful services found in Skype. Richard holds a MSc and BSc in Applied Chemistry from Imperial College, London.
    Title: Our connected future and the rise of real time video (доклад читается на английском языке)
    A short brief: What is driving Skype's popularity today, and how SkypeKit is helping our partners to share in our success.
  • Евгений Поляков, Яндекс
    Закончил Московский физико-технический институт в 2005 году, факультет физической и квантовой электроники. С 2000 года занимается разработкой ядра Linux и работой с компьютерными комплексами – от встраиваемых PPC систем до многомашинных кластеров. С 2003 года принимает участие в разработке сетевого стека и системы поддержки криптографии в ядре Linux. С 2005 года занимается исследованиями файловых систем и технологий хранения больших объемов данных.
    Тема доклада: Распределенные системы хранения данных, особенности реализации DHT в проекте Elliptics network.
    Тезисы: В этом докладе будет описана система хранения данных Elliptics network, основной задачей которой является предоставление пользователям доступа к данным, расположенным на физически распределенных серверах с плоской адресной моделью в децентрализованном окружении. Распределенная система хранения данных, предоставляющая доступ к объекту по ключу (key/value storage), и в частности распределенная хэш-таблица (distributed hash table), является весьма эффективным решением с незначительным набором ограничений. Для подтверждения работоспособности данной идеи и функционала в докладе будет представлена практическая реализация распределенной хэш-таблицы с модульной системой хранения данных и различными системами доступа: от POSIX файловой системы до доступа по протоколу HTTP. Также мы обсудим ограничения, накладываемые технологией распределенной хэш таблицы, и сравним особенности высоконагруженного и высоконадежного доступа в ненадежной среде с классическими моделями, использующими централизованные системы. Опираясь на полученные практические результаты и гибкость реализованной системы, будут предложены способы решения поставленных задач и расширения функционала.
  • Вячеслав Борилин, SRIPIT DSP
    Уже более 8 лет работает в SPIRIT. На посту вице-президента по продуктам, он руководит рыночным продвижением голосовых и видео решений SPIRIT под брэндом TeamSpirit™, определяет стратегию развития новых продуктов и решений SPIRIT в области VoIP. До SPIRIT Вячеслав работал руководителем отдела электронной коммерции в компании Mail.ru, был инициатором ряда инновационных проектов, предугадывающих основные рыночные тренды, на российском рынке высоких технологий.
    Тема доклада: Построение системы видеокоммуникаций для большого числа пользователей в сети Интернет. Эффективное кодирование и передача real-time трафика. Сигнализация и техники firewall traversal.
    Тезисы: В интернете давно появились качественные VoIP сервисы, однако их сценарии позволяют соединяться в основном один на один (PC-to-PC). А как на счёт видеосервиса, с помощью которого 10, 20 или даже 50 человек смогли бы одновременно видеть друг друга и обсуждать, скажем, футбол? Качественная многопользовательская аудио- и видеосвязь – алгоритмически очень сложный сервис. В докладе мы попытаемся разобраться, что же там такого сложного, и посмотрим, из чего должна состоять такая система. Будет дано сравнение различных аудио- и видеокодеков. Мы также расскажем про последние разработки в области кодирования аудио- и видеосигналов. Опишем основные механизмы адаптации real-time трафика к сетевым условиям – потерям пакетов, джиттеру, задержке. Дадим рекомендации, как сделать коммуникационный сервис, в котором качество голоса и видео будет отличным, и при этом в нем будет возможность объединить в один диалог десятки пользователей. Кроме блока, отвечающего за передачу медиаданных в коммуникационной системе, определённую сложность вызывает блок сигнализации. В особенности актуальным для сети Интернет является блок, обеспечивающий прохождение медиаданных через NAT сервера и firewall. Будут рассмотрены примеры и описаны основные подходы и техники прохождения таких серверов.
  • Дмитрий Николаев, SUP
    Работал в ООО ЦИТ "Акко", Саратов программистом. Языки C++, Delphi, Perl, Java. Базы MySQL, MSSQL. Создание и поддержка сайтов. Создание обучающей системы для Министерства труда и социального развития. В настоящее время является главным разработчиком сервиса статистики и рейтингов в ЗАО "Суп Фабрик", Москва. Языки C/C++, Perl. Базы MySQL, PostgreSQL.
    Тема доклада: Система статистики и рейтингов LiveJournal.com.
    Тезисы: В докладе представлен общий обзор архитектуры и взаимосвязи компонентов действующей системы статистики и рейтингов LiveJournal.com. Рассмотрены разработанные методы сбора, обработки и хранения данных с учетом их специфики и объема, а также требуемого функционала. Проанализирована целесообразность выбора хранилища на основе реляционных баз и альтернативных способов хранения, заточенных под конкретную задачу, преимущества и недостатки перехода на файловую модель хранения. Вкратце затронуты вопросы администрирования и отказоустойчивости, а также методы расширения функциональности системы, возникающие проблемы и пути их решения.
  • Арам Пахчанян, ABBYY
    Закончил Московский физико-технический институт. Работает в ABBYY с 1993 года. До 1996 года был сотрудником отдела исследований и разработок в должностях технического писателя и интерфейс-дизайнера, разработчика, заместителя руководителя отдела. С 1996 года руководитель отдела корпоративных проектов, с 2002 года – вице-президент и руководитель департамента продуктов для ввода данных компании ABBYY.
    Тема доклада: Устройство современной системы искусственного интеллекта на примере технологии FlexiCapture.
    Тезисы: Термин «искусственный интеллект» появился в 50-х годах XX века, с тех пор по-разному понимался, и до сих пор несет в себе различный смысл, зачастую выходящий за прагматические рамки. Современное прагматичное понимание систем искусственного интеллекта сводится к программным системам, которые могут в определенных ситуациях эффективно заменить человека, принимать решения и совершать действия, которые требуют анализа сложных по структуре входных данных. Примерами таких данных являются текст, голос, изображения и т.д. Типовая система представляет собой машину, целенаправленно решающую задачу выбора и классификации сложных объектов, основываясь на правилах, заложенных в систему вручную или автоматически (на основе обучения). В докладе на примере технологии FlexiCapture, применяемой для автоматизации ввода данных с бумажных документов, рассказывается о практических методах, применяемых при создании таких систем. Описывается процесс целенаправленного построения гипотез, работа классификатора, выбирающего наиболее правильную гипотезу, основываясь на знаниях системы об объекте анализа, а также на знаниях, привнесенных в систему людьми. Также доклад описывает инструментарий, с помощью которого система позволяет человеку формулировать эти знания так, чтобы они одновременно были доступны для понимания и могли служить для принятия решений системой. Хотя этот инструментарий и привязан к конкретной задаче поиска и ввода данных с бумажных документов, принципы, заложенные в него, могут применяться для широкого класса аналогичных задач. В качестве практического дополнения описывается архитектура самой системы FlexiCapture и способ организации в ней распределенных вычислений для обеспечения масштабируемости и устойчивости системы.
  • Олег Юхно, Яндекс
    Работает в сфере IT c 1998 года. В 2000 году получил первое высшее образование (юриспруденция), в 2006 году окончил в МГТУ им. Баумана по специальности «информационные системы и технологии». С 2005 года работает в Яндексе на должности системного администратора и руководителя группы администрирования. Область интересов – эксплуатация высокодоступных и высоконагруженных систем и оптимизация их производительности, СУБД Oracle.
    Тема доклада: От Статистики до Статистики. Эволюция архитектуры системы на примере системы расчета статистики Яндекса.
    Тезисы: В докладе я расскажу о том, как мы строили систему расчета статистики в Яндексе и как она эволюционировала в процессе своего существования. Я постараюсь рассказать о достоинствах и недостатках сильно централизованной монолитной системы и децентрализованной модульной системы, а также расскажу о некоторых технологических решениях, которые использовались для увеличения производительности системы.

Огранизаторы приглашают разработчиков, тестировщиков, системных администраторов, студентов, которые специализируются в этих областях, а также всех заинтересовавшихся.

Место проведения: Краснопресненская набережная, 12, Центр международной торговли, Конгресс-центр

Стоимость участия: бесплатно

Реклама

Популярные мероприятия
Соглашение на обработку персональных данных