DataInfo#

class libreco.data.DataInfo(col_name_mapping=None, interaction_data=None, user_sparse_unique=None, user_dense_unique=None, item_sparse_unique=None, item_dense_unique=None, user_consumed=None, item_consumed=None, user_unique_vals=None, item_unique_vals=None, sparse_unique_vals=None, sparse_offset=None, sparse_oov=None, multi_sparse_unique_vals=None, multi_sparse_combine_info=None, seed=42)[source]#

Object for storing and updating information of indices and features.

Parameters:

col_name_mapping (dict of {dict : int} or None, default: None) – Column name to index mapping, which has the format: {column_family_name: {column_name: index}}. If no such family, the default format would be: {column_family_name: {[]: []}}
interaction_data (pandas.DataFrame or None, default: None) – Data contains user, item and label columns
user_sparse_unique (numpy.ndarray or None, default: None) – Unique sparse features for all users in train data.
user_dense_unique (numpy.ndarray or None, default: None) – Unique dense features for all users in train data.
item_sparse_unique (numpy.ndarray or None, default: None) – Unique sparse features for all items in train data.
item_dense_unique (numpy.ndarray or None, default: None) – Unique dense features for all items in train data.
user_consumed (dict of {int : list} or None, default: None) – All consumed items by each user.
item_consumed (dict of {int : list} or None, default: None) – All consumed users by each item.
user_unique_vals (numpy.ndarray or None, default: None) – All the unique users in train data.
item_unique_vals (numpy.ndarray or None, default: None) – All the unique items in train data.
sparse_unique_vals (dict of {str : numpy.ndarray} or None, default: None) – All sparse features’ unique values.
sparse_offset (numpy.ndarray or None, default: None) – Offset for each sparse feature in all sparse values. Often used in the embedding layer.
sparse_oov (numpy.ndarray or None, default: None) – Out-of-vocabulary place for each sparse feature. Often used in cold-start.
multi_sparse_unique_vals (dict of {str : numpy.ndarray} or None, default: None) – All multi-sparse features’ unique values.
multi_sparse_combine_info (MultiSparseInfo or None, default: None) – Multi-sparse field information.
seed (int, default: 42) – Random seed.

Variables:

col_name_mapping (dict of {dict : int} or None) – See Parameters
user_consumed (dict of {int, list}) – Every users’ consumed items in train data.
item_consumed (dict of {int, list}) – Every items’ consumed users in train data.