intelligent-trading-bot/scripts/generate_features.py

import sys
from pathlib import Path
from datetime import datetime, timezone, timedelta
from typing import Union
import json
import pickle
import click

import numpy as np
import pandas as pd

from service.App import *
from common.feature_generation import *
from common.label_generation import *

#
# Parameters
#
class P:
    feature_sets = ["kline", ]  # "futur"

    in_nrows = 10_000_000


@click.command()
@click.option('--config_file', '-c', type=click.Path(), default='', help='Configuration file name')
def main(config_file):
    load_config(config_file)

    freq = "1m"
    symbol = App.config["symbol"]
    data_path = Path(App.config["data_folder"])
    if not data_path.is_dir():
        print(f"Data folder does not exist: {data_path}")
        return

    start_dt = datetime.now()

    #
    # Load historic data
    #
    in_path = (data_path / f"{symbol}-{freq}.csv").resolve()

    print(f"Loading data from source file {str(in_path)}...")

    in_df = pd.read_csv(in_path, parse_dates=['timestamp'], nrows=P.in_nrows)

    print(f"Finished loading {len(in_df)} records with {len(in_df.columns)} columns.")

    #
    # Generate derived features
    #

    if "kline" in P.feature_sets:
        print(f"Generating klines features...")
        k_features = generate_features(in_df)
        print(f"Finished generating {len(k_features)} kline features")
    else:
        k_features = []

    if "futur" in P.feature_sets:
        print(f"Generating futur features...")
        f_features = generate_features_futur(in_df)
        print(f"Finished generating {len(f_features)} futur features")
    else:
        f_features = []

    if "depth" in P.feature_sets:
        print(f"Generating depth features...")
        d_features = generate_features_depth(in_df)
        print(f"Finished generating {len(f_features)} depth features")
    else:
        d_features = []

    #
    # Generate labels (always the same, currently based on kline data which must be therefore present)
    #
    print(f"Generating labels...")
    labels = []

    # Binary labels whether max has exceeded a threshold or not
    labels += generate_labels_thresholds(in_df, horizon=180)

    # Numeric label which is ration between areas over and under the latest price
    labels += add_area_ratio(in_df, is_future=True, column_name="close", windows=[60, 120, 180, 300], suffix = "_area_future")

    print(f"Finished generating {len(labels)} labels")

    #
    # Store feature matrix in output file
    #
    out_file_name = f"{symbol}-{freq}-features.csv"
    out_file = (data_path / out_file_name).resolve()

    print(f"Storing feature matrix with {len(in_df)} records and {len(in_df.columns)} columns in output file...")

    in_df.to_csv(out_file, index=False, float_format="%.4f")

    #in_df.to_parquet(out_path.with_suffix('.parquet'), engine='auto', compression=None, index=None, partition_cols=None)

    elapsed = datetime.now() - start_dt
    print(f"Finished feature generation in {int(elapsed.total_seconds())} seconds")
    print(f"Output file location: {out_file}")


if __name__ == '__main__':
    main()
initial commit 2020-02-23 20:45:50 +01:00			`import sys`
			`from pathlib import Path`
			`from datetime import datetime, timezone, timedelta`
			`from typing import Union`
			`import json`
			`import pickle`
parameterizing scripts 2021-09-09 20:48:11 +02:00			`import click`
initial commit 2020-02-23 20:45:50 +01:00
			`import numpy as np`
			`import pandas as pd`

parameterizing scripts 2021-09-09 20:48:11 +02:00			`from service.App import *`
refactor 2020-12-13 19:30:06 +01:00			`from common.feature_generation import *`
			`from common.label_generation import *`
initial commit 2020-02-23 20:45:50 +01:00
			`#`
			`# Parameters`
			`#`
			`class P:`
introduce linear trend derived features 2021-01-02 21:25:55 +01:00			`feature_sets = ["kline", ] # "futur"`
features for depth and futures 2020-05-09 20:14:22 +02:00
refactor scripts to allow for better configuration and different trade pairs 2021-10-09 14:01:10 +02:00			`in_nrows = 10_000_000`
initial commit 2020-02-23 20:45:50 +01:00

parameterizing scripts 2021-09-09 20:48:11 +02:00			`@click.command()`
			`@click.option('--config_file', '-c', type=click.Path(), default='', help='Configuration file name')`
			`def main(config_file):`
			`load_config(config_file)`
initial commit 2020-02-23 20:45:50 +01:00
parameterizing scripts 2021-09-09 20:48:11 +02:00			`freq = "1m"`
			`symbol = App.config["symbol"]`
			`data_path = Path(App.config["data_folder"])`
			`if not data_path.is_dir():`
			`print(f"Data folder does not exist: {data_path}")`
			`return`
initial commit 2020-02-23 20:45:50 +01:00
			`start_dt = datetime.now()`

			`#`
			`# Load historic data`
			`#`
parameterizing scripts 2021-09-09 20:48:11 +02:00			`in_path = (data_path / f"{symbol}-{freq}.csv").resolve()`
refactor scripts to allow for better configuration and different trade pairs 2021-10-09 14:01:10 +02:00
			`print(f"Loading data from source file {str(in_path)}...")`

initial commit 2020-02-23 20:45:50 +01:00			`in_df = pd.read_csv(in_path, parse_dates=['timestamp'], nrows=P.in_nrows)`

generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`print(f"Finished loading {len(in_df)} records with {len(in_df.columns)} columns.")`

initial commit 2020-02-23 20:45:50 +01:00			`#`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`# Generate derived features`
initial commit 2020-02-23 20:45:50 +01:00			`#`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00
reimplement train_predict_models 2020-12-14 20:42:14 +01:00			`if "kline" in P.feature_sets:`
update 2020-09-13 18:22:25 +02:00			`print(f"Generating klines features...")`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`k_features = generate_features(in_df)`
update 2020-09-13 18:22:25 +02:00			`print(f"Finished generating {len(k_features)} kline features")`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`else:`
			`k_features = []`

reimplement train_predict_models 2020-12-14 20:42:14 +01:00			`if "futur" in P.feature_sets:`
update 2020-09-13 18:22:25 +02:00			`print(f"Generating futur features...")`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`f_features = generate_features_futur(in_df)`
update 2020-09-13 18:22:25 +02:00			`print(f"Finished generating {len(f_features)} futur features")`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`else:`
			`f_features = []`

reimplement train_predict_models 2020-12-14 20:42:14 +01:00			`if "depth" in P.feature_sets:`
update 2020-09-13 18:22:25 +02:00			`print(f"Generating depth features...")`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`d_features = generate_features_depth(in_df)`
update 2020-09-13 18:22:25 +02:00			`print(f"Finished generating {len(f_features)} depth features")`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`else:`
			`d_features = []`
initial commit 2020-02-23 20:45:50 +01:00
			`#`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`# Generate labels (always the same, currently based on kline data which must be therefore present)`
initial commit 2020-02-23 20:45:50 +01:00			`#`
			`print(f"Generating labels...")`
update descriptions of scripts 2020-11-14 21:06:33 +01:00			`labels = []`
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00
update descriptions of scripts 2020-11-14 21:06:33 +01:00			`# Binary labels whether max has exceeded a threshold or not`
			`labels += generate_labels_thresholds(in_df, horizon=180)`

			`# Numeric label which is ration between areas over and under the latest price`
update feature/label definitions 2020-11-15 20:23:45 +01:00			`labels += add_area_ratio(in_df, is_future=True, column_name="close", windows=[60, 120, 180, 300], suffix = "_area_future")`
initial commit 2020-02-23 20:45:50 +01:00
generation of derived features from merged source files 2020-05-17 16:52:30 +02:00			`print(f"Finished generating {len(labels)} labels")`

initial commit 2020-02-23 20:45:50 +01:00			`#`
			`# Store feature matrix in output file`
			`#`
parameterizing scripts 2021-09-09 20:48:11 +02:00			`out_file_name = f"{symbol}-{freq}-features.csv"`
configuration options for train signal models 2021-10-10 11:47:46 +02:00			`out_file = (data_path / out_file_name).resolve()`
initial commit 2020-02-23 20:45:50 +01:00
update 2021-03-07 10:44:32 +01:00			`print(f"Storing feature matrix with {len(in_df)} records and {len(in_df.columns)} columns in output file...")`

configuration options for train signal models 2021-10-10 11:47:46 +02:00			`in_df.to_csv(out_file, index=False, float_format="%.4f")`
initial commit 2020-02-23 20:45:50 +01:00
refactor signal generation model search 2020-11-29 21:15:13 +01:00			`#in_df.to_parquet(out_path.with_suffix('.parquet'), engine='auto', compression=None, index=None, partition_cols=None)`
initial commit 2020-02-23 20:45:50 +01:00
			`elapsed = datetime.now() - start_dt`
			`print(f"Finished feature generation in {int(elapsed.total_seconds())} seconds")`
configuration options for train signal models 2021-10-10 11:47:46 +02:00			`print(f"Output file location: {out_file}")`
initial commit 2020-02-23 20:45:50 +01:00
scripts improvements 2021-09-09 08:20:29 +02:00
initial commit 2020-02-23 20:45:50 +01:00			`if __name__ == '__main__':`
parameterizing scripts 2021-09-09 20:48:11 +02:00			`main()`