Работа с большими данными: часть 1


Решил немного рассказать о своей работе. Может будет одна заметка, может будет цикл. Инструменты, которыми я пользуюсь; возникающие задачи и то, как я их решаю. В этой заметке я расскажу об одной задаче с большими данными, сотни миллионов строк и гигабайты сырой информации.

В данный момент я работаю над интересным проектом. По сути это извлечение определенных данных из огромного набора закрытой информации. Одна из подзадач – получение номера телефона по ФИО. Ниже я немного расскажу о процессе.

Итак, у нас есть большие текстовые файлы (от 10Гб и более), которые заполнены информацией о людях и их телефонах. Причем не в формате фио – телефон, а с кучей ненужных подробностей, вперемешку с юрлицами, другой информацией, иногда в одном файле фио и ид, а в другом ид и телефон. Само собой с дублями и ошибками.

Так как я делаю веб сервис, то для начала это все надо занести на сервер и залить в базу данных (в сыром виде для начала). И даже просто залить по фтп не получится – файлы большие, надо предварительно их разбить. Для этого отлично походит EmEditor.

EmEditor

Открываем в нем документ и делим на несколько. Я разделил по числу мегабайт – по 100Мб вышел каждый файл. Эти файлы уже не проблема залить по SFTP на сервер и, главное, работать с ними.

Дальше надо подумать. Да-да, работа программиста зачастую заключается не в написании кода, а в обдумывании процесса, архитектуры. В данной задаче в конечном итоге нам необходимо получить более-менее быстрый поиск номера телефона по ФИО. Формат таблицы напрашивается сам собой – идентификатор, фамилия, имя, отчество, номер телефона.

И сразу приходит в голову возможная оптимизация: сделать не одну таблицу, а несколько. Каждая таблица будет соответствовать одной букве алфавита – первой букве фамилии. Таким образом мы сразу ускоряем поиск в несколько раз.

Создаем обычный массив соответствий

$alfavit = [
    'а' => 'a',
    'б' => 'b',
    'в' => 'v',
    'г' => 'g',
    'д' => 'd',  
    'е' => 'e',
    'ё' => 'yo',
    'ж' => 'zh',
    'з' => 'z',
    'и' => 'i', 
	'й' => 'j',
    'к' => 'k',
    'л' => 'l',
    'м' => 'm',
    'н' => 'n', 
	'о' => 'o',
    'п' => 'p',
    'р' => 'r',
    'с' => 's',
    'т' => 't', 
	'у' => 'u',
    'ф' => 'f',
    'х' => 'h',
    'ц' => 'c',
    'ч' => 'ch', 
	'ш' => 'sh',
    'щ' => 'csh',
    'ь' => 'mz',
    'ы' => 'y',
    'ъ' => 'tz', 
	'э' => 'ye',
    'ю' => 'yu',
    'я' => 'ya'
];
Да, это обычная транслитерация, можно в принципе делать её как угодно. Таблицы называем, например, так – для буквы «а» - surname_a, «б» - surname_b и так далее.

Второй неочевидный (для меня) момент заключался в том, что не надо проверять на дубли при занесении строки таблицу. Почему? Да, я сам сначала стал делать обычную схему: проверяем на дубль и заносим. Однако, это подходит только для занесения одной-нескольких строк в миллионную таблицу. А вот добавление второго миллиона в имеющийся миллион – это уже не оправдывается. Сами посчитайте – пара секунд на поиск – это сколько суток будет?

Таким образом, заносим сразу все, а потом уже делаем две доработки: при поиске отсеиваем дубли и запускаем процесс удаления дублей автоматом, в фоне – пусть хоть несколько лет делается.

Это кстати в реальной разработке для бизнеса не редкость – надо запустить проект сейчас, вот сразу, может еще вчера, а уже потом дорабатываем напильником.
Автор этого материала - я - Пахолков Юрий. Я оказываю услуги по написанию программ на языках Java, C++, C# (а также консультирую по ним) и созданию сайтов. Работаю с сайтами на CMS OpenCart, WordPress, ModX и самописными. Кроме этого, работаю напрямую с JavaScript, PHP, CSS, HTML - то есть могу доработать ваш сайт или помочь с веб-программированием. Пишите сюда.

тегизаметки, php, файлы, программирование



Семейство ARM: история, виды и классификация
Урок 33. Создание исключений в C#
Урок 12. Рендеринг диаграмм в приложениях Laravel