от
Если у меня есть датафрейм в форме:
 tag   |   element_id
  1          12
  1          13
  1          15
  2          12
  2          13
  2          19
  3          12
  3          15
  3          22
Как я могу вычислить перекрытия
tags
с точки зрения
element_id
? Я предполагаю, что результатом должна быть матрица перекрытия вида:
   1   2   3
1  X   2   2
2  2   X   1
3  2   1   X
где я ставлю X по диагонали, поскольку перекрытие тега с самим собой не имеет значения, а числа в матрице представляют общее значение
element_ids
, которое разделяют два тега. Мои попытки: Вы можете попробовать использовать цикл for:
for item in df.itertuples():
    element_lst  = [item.element_id]
    element_tag = item.tag
# then intersect the element_list row by row. 
# This is extremely costly for large datasets
Второе, о чем я подумал, это использовать
df.groupby('tag')
и попытаться каким-то образом пересечь
element_id
, но мне не ясно, как я могу это сделать с сгруппированными данными.              

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Анти-спам проверка:
Чтобы избежать проверки в будущем, пожалуйста войдите или зарегистрируйтесь.
Добро пожаловать на сайт ByNets, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...