от
Имейте коллекцию ~ 10 миллионов GZipped CSV-файлов, каждый из которых имеет от 100 до 1000 строк и> 2000 столбцов. Каждый файл также содержит заголовок. В каждом CSV-файле есть два важных столбца: «ID» и «target». Я пытаюсь удалить строки с дубликатом «target», но сохраняю идентификатор из строки, которая будет удалена, со строкой, которая не будет удалена. Например. Входные данные:
CSV1
|   ID  |  Target                      |
|

Выход:

CSV1*
|   ID         |  Target                      |
|

Это было бы просто для небольшого числа файлов с помощью Pandas (Python) или чего-то подобного, но надеялся, что кто-то мог бы иметь намного лучший способ сделать это для миллионов файлов с миллиардами записей.
    

        

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Анти-спам проверка:
Чтобы избежать проверки в будущем, пожалуйста войдите или зарегистрируйтесь.
Добро пожаловать на сайт ByNets, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...