news_train_df['assetCodes'] = news_train_df['assetCodes'].str.findall(f"'([\w\./]+)'")
语法:.str.findall()找出Series/Index中含括号内的
语法:f"’([\w./]+)’",[\w./]+这部分是正则表达式,
\w:用于匹配字母,数字或下划线字符;.指一个字符;然后就看不懂了。。知道的小伙伴给我讲讲?
assetCodes_expanded = list(chain(*news_train_df['assetCodes']))
语法:list(chain(*))
实现举例: L=[ [1,2,3],[4,5,6],[7,8,9]] 合并成[1,2,3,4,5,6,7,8,9],合并多个list
assetCodes_index = news_train_df.index.repeat( news_train_df['assetCodes'].apply(len) )
语法:.apply(len) 获取该列长度,.repeat()
vc = series.value_counts()
语法:.value_counts()计算该列不同值的个数
x['assetCode'] = x['assetCode'].map(le_assetCode).fillna(-1).astype(int)
语法:map()会根据提供的函数对指定序列做映射。
market_train_df['time'] = market_train_df['time'].dt.floor('1D')
语法:dt.floor() 返回下舍整数 只返回整数部分
df_sentiment = news_train_df.loc[news_train_df['sentimentClass'] == i, 'assetName']
语法:.loc