import numpy as np
import pandas as pd
print(pd.__version__)
df = pd.DataFrame(
    {
        "a": range(5),
        "b": [("red", "black")[i % 2] for i in range(5)],
        "c": [("x", "y", "z")[i % 3] for i in range(5)]
    }
)
df.columns


idx = pd.Index(list("stats"))
df.index = idx 
df


df1 = df.iloc[[3, 2, 1], ]
df_alt = df1.set_index('a')
df_alt


try:
    df.reindex(['a', 't', 's'])
except:
    print('Duplicate label error.')

df.loc[['a', 't', 's'], 'a':'b']


df['idx'] = df.index.to_frame()
df.reset_index(inplace=True)
df


df['a_sq'] = df['a'].map(lambda x: x ** 2)
df['a2'] = df['a'].transform(lambda x: np.power(x, 2))
df['a3'] = df[['a']].applymap(lambda x: x ** 3)
df['c'].replace('z', 'w', inplace=True)
df


df['b'] = df['b'].str.title()
df['b'].str[:2]


num = [('object', 'numeric')[v != np.dtype('O')] for v in df.dtypes.values]
df.columns = [num, df.columns]
print(df.columns)
df.loc[:, 'numeric']


print([df.loc[:, 'numeric'].columns, df.loc[:, ['numeric']].columns])
print(df.columns.to_flat_index())
df.loc[:, ('object', 'b')]


df.loc[:, ['numeric']] = (df.loc[:, ['numeric']].
                             transform(lambda x: x - np.mean(x)))
df.columns = df.columns.droplevel()
df


df0 = df.loc[:, 'a':'c'].reset_index()
df1 = df.loc[:, 'a':'c'].reset_index().query('b == "Red"')
df0['old'] = 0
df1['new'] = 1
pd.merge(df0, df1, on=['index', 'b', 'c'], how='left', indicator=True)


pd.merge(df0, df1, on=['b', 'c'], how='right', suffixes=('_0', '_1'))


pd.merge(
    df0.set_index('index'), 
    df1.set_index('index'),
    left_index=True,
    right_index=True
)


(df0
 .set_index(['b', 'c'])
 .join(df1.set_index(['b', 'c']), rsuffix='_1')
)


dat = pd.DataFrame({
    'id': range(1, 5),
    'trt': 2 * [0] + 2 * [1],
    'a1': np.random.uniform(size=4),
    'a2': np.random.uniform(size=4),
    'b1': np.random.uniform(size=4),
    'b2': np.random.uniform(size=4)   
     })
dat.loc[:, 'a1':'b2'] = (dat.loc[:, 'a1':'b2']
                         .transform(lambda x: np.round(x, 2))
                         )
dat


dat_long0 = dat.melt(
    id_vars=['id', 'trt'],
    value_vars=['a1', 'a2', 'b1', 'b2']
)
dat_long = pd.melt(dat, id_vars = ['id', 'trt'], value_name='val')
#all(dat_long0 == dat_long)
dat_long


dat_wide = (dat_long
            .pivot(index=['id', 'trt'], columns='variable', values='val')
            )
#dat_wide.columns.name = None
#dat_wide.reset_index(inplace=True)
dat_wide

dat


a_long = dat.melt(
    id_vars=['id', 'trt'],
    value_vars=['a1', 'a2'],
    var_name='time',
    value_name='a'
 )
a_long['time'] = np.int8(a_long['time'].str[1:].values)
a_long


b_long = dat.melt(
    id_vars=['id', 'trt'],
    value_vars=['b1', 'b2'],
    var_name='time',
    value_name='b'
 )
b_long['time'] = np.int8(b_long['time'].str[1:].values)
b_long


d0 = pd.merge(a_long, b_long, on=['id', 'trt', 'time'])
d0


d1 = dat.set_index(['id', 'trt'])
d1.columns = [2 * ['a'] + 2 * ['b'], 2 * ['1', '2']]
d1.columns.names = (None, 'time')
d1 = d1.stack()
d1.reset_index(inplace=True)
d1


d2 = dat.set_index(['id', 'trt'])
# d2.columns = reversed([2 * ['a'] + 2 * ['b'], 2 * ['tm1', 'tm2']])
d2.columns = [[i[1] for i in d2.columns], [i[0] for i in d2.columns]]
d2.columns.names = (None, 'var')
d2 = d2.stack()
d2.reset_index(inplace=True)
d2


d3 = dat.set_index(['id', 'trt'])
#print(type(d3.stack()))
#d3.columns = [len(d3.columns) * ['value'], d3.columns]
#d3.columns.names = ('value', 'var')
#d3 = d3.stack().reset_index(2)
#d3.insert(1, column='time', value=np.int8(d3['var'].str[1]))
#d3['var'] = d3['var'].str[0]
#d3 = d3.reset_index().set_index(['id', 'trt', 'var', 'time'])
#d3 = d3.unstack(level=3)
d3

Pandas DataFrames¶

Overview¶

DataFrame Operations¶

Indices¶

Indices¶

Indices¶

Indices¶

Indices¶

Transformations¶

Strings¶

Hierarchical Indices¶

Hierarchical Indices¶

Example¶

Merging¶

Merging¶

Merging¶

Merging¶

Pivoting¶

Example¶

Melt¶

Pivot¶

Example¶

Approach 1¶

Approach 1¶

Approach 1¶

Stack / Unstack¶

Approach 2¶

Approach 2¶

Approach 3¶

Takeaways¶