从零开始训练一个神经网络之数据收集和准备

2024-08-10

字数统计: 2.2k字 | 阅读时长≈ 9分

任务目标：金价数据的收集、预处理和准备

1. 数据收集

1）使用yfinance库来获取历史金价数据。yfinance 是一个方便的库，可以从Yahoo Finance下载金融市场数据。

import yfinance as yf
import pandas as pd

# 获取金价的历史数据，代码为 'GC=F' (Gold Futures)
gold_data = yf.download('GC=F', start='2010-01-01', end='2023-12-31')

# 查看数据
print(gold_data.head())

# 保存数据到本地文件
gold_data.to_csv('gold_price_data.csv')

print("数据已成功收集并保存为 gold_price_data.csv 文件。")

QQ_1723556751605

似乎出现了一些问题…

从错误信息来看，yfinance在尝试获取GC=F（Gold Futures，黄金期货）数据时遇到了连接超时的错误，并且下载失败了。这个问题可能是由网络连接问题或Yahoo Finance服务器的暂时性问题引起的。

解决方法

检查网络连接: 确保网络连接正常，尤其是在尝试访问外部API时。你可以尝试在不同的网络环境下再次运行代码。(我是OK的~)
尝试其他数据源: 如果yfinance一直无法正常工作，考虑使用其他数据源，比如Quandl，或者直接从金融数据网站下载数据。(这个换赛道其实也行，但是不解决当前问题内心当然会OB~)
增加超时时间: 可以尝试增加yfinance请求的超时时间，以防止连接超时问题。虽然这是一个临时解决方案，但有时可能有用。
直接从其他站点下载: 如果问题持续，那就简单粗暴一点，直接手动从一些网站（如Yahoo Finance：https://finance.yahoo.com/quote/GOGL/）直接下载数据，并将其保存为CSV文件，然后继续数据预处理步骤，欸嘿，主打一个弯道直达~

首先，尝试使用以下代码增加超时时间：

import yfinance as yf
import pandas as pd

# 设置超时时间为60秒
gold_data = yf.download('GC=F', start='2010-01-01', end='2023-12-31', timeout=60)

# 检查数据是否为空
if gold_data.empty:
    print("未能成功获取数据。请检查网络连接或尝试其他数据源。")
else:
    # 保存数据到本地文件
    gold_data.to_csv('gold_price_data.csv')
    print("数据已成功收集并保存为 gold_price_data.csv 文件。")

如果还是不行，那就试试简单粗暴的办法吧：

替代方法 1: 手动下载数据

访问Yahoo Finance:

打开 Yahoo Finance。

搜索“Gold Futures”或直接搜索GC=F。

QQ_1723558894800

在页面中找到历史数据，选择你需要的时间范围（比如2010年至今），然后下载为CSV文件。

(找了半天没看到有download按键，而且网页还增加了反爬虫技术，tnnd~~，那就直接把整个网页保存下来进行解析~~简单粗暴)

保存网页：

QQ_1723560528665

在网页空白处右键选择“另存为”

QQ_1723560562289

保存为html文件后；

开始解析文件：

from bs4 import BeautifulSoup
import pandas as pd

# 读取保存的HTML文件
with open('/mnt/data/Micro Gold Futures,Dec-2024 (MGC=F) Stock Historical Prices & Data - Yahoo Finance.html', 'r', encoding='utf-8') as file:
    soup = BeautifulSoup(file, 'html.parser')

# 尝试查找包含历史数据的表格
table = soup.find('table')
if table is None:
    print("未找到数据表格，请检查HTML文件的结构。")
else:
    # 如果找到了表格，继续提取数据
    headers = []
    if table.find('thead'):
        headers = [th.text.strip() for th in table.find('thead').find_all('th')]

    rows = []
    for tr in table.find('tbody').find_all('tr'):
        cells = [td.text.strip() for td in tr.find_all('td')]
        if len(cells) > 1:  # 过滤掉空行
            rows.append(cells)

    # 检查是否成功提取数据
    if not headers or not rows:
        print("未能提取到任何数据，请检查表格内容。")
    else:
        # 将数据转换为DataFrame
        gold_data = pd.DataFrame(rows, columns=headers)

        # 保存为CSV文件
        gold_data.to_csv('gold_price_data_extracted.csv', index=False)
        print("数据已成功提取并保存为 gold_price_data_extracted.csv 文件。")

QQ_1723561257616

数据提取完成！

QQ_1723561309162

2. 数据预处理

数据收集完毕后，我们需要对数据进行一些预处理。

1.数据检查和清洗

检查数据格式：确保日期列是datetime类型，价格数据是数值类型。
处理缺失值：检查并处理任何缺失数据。
删除无关列：如果有无关的列（如“交易量”等），可以选择删除。

2. 特征工程

生成技术指标：添加一些常用的技术指标（如移动平均线、相对强弱指数RSI、MACD等）。
生成目标变量：创建模型的目标变量，即未来三天的金价变化。

3. 数据标准化/归一化

对特征进行标准化或归一化处理，以提高模型训练的效果。

import pandas as pd
import numpy as np

# 读取从网页提取并保存的CSV文件
def load_data(file_path):
    """
    加载并初步检查数据。
    """
    data = pd.read_csv(file_path)
    print("原始数据预览:")
    print(data.head())
    return data

# 清理数据列名并处理数据类型
def clean_data(data):
    """
    清理列名，处理数据类型，并移除多余字符。
    """
    # 清理列名：去除列名中的多余空白和说明
    data.columns = data.columns.str.strip().str.split().str[0]
    
    # 将日期列转换为datetime类型
    data['Date'] = pd.to_datetime(data['Date'])
    
    # 将'Close', 'High', 'Low'列中的字符串转换为浮点数，先移除逗号
    data['Close'] = data['Close'].str.replace(',', '').astype(float)
    data['High'] = data['High'].str.replace(',', '').astype(float)
    data['Low'] = data['Low'].str.replace(',', '').astype(float)
    
    # 按日期升序排序
    data = data.sort_values('Date')
    
    # 检查数据缺失情况
    print("\n数据缺失值统计:")
    print(data.isnull().sum())
    
    # 移除缺失值
    data = data.dropna()
    
    return data

# 特征工程：生成技术指标
def generate_features(data):
    """
    生成多种技术指标，包括移动平均线、RSI、MACD、布林带、ATR等。
    """
    # 移动平均线 (MA)
    data['MA_5'] = data['Close'].rolling(window=5).mean()
    data['MA_10'] = data['Close'].rolling(window=10).mean()
    
    # 相对强弱指数 (RSI)
    data['RSI_14'] = compute_RSI(data['Close'], window=14)
    
    # MACD (移动平均收敛散度指标)
    short_ema = data['Close'].ewm(span=12, adjust=False).mean()  # 12日指数移动平均线
    long_ema = data['Close'].ewm(span=26, adjust=False).mean()   # 26日指数移动平均线
    data['MACD'] = short_ema - long_ema
    
    # 布林带 (Bollinger Bands)
    data['BB_upper'], data['BB_lower'] = compute_bollinger_bands(data['Close'], window=20)
    
    # 平均真实波动幅度 (ATR)
    data['ATR'] = compute_atr(data, window=14)
    
    # 移除因滚动计算产生的NaN值
    data = data.dropna()
    
    return data

# 创建目标变量
def create_target(data, forward_days=3):
    """
    生成目标变量，预测未来指定天数的收盘价变化。
    """
    data['Target'] = data['Close'].shift(-forward_days) - data['Close']
    data = data.dropna()  # 移除最后几行因缺失目标而产生的NaN值
    return data

# 计算相对强弱指数 (RSI)
def compute_RSI(series, window=14):
    """
    计算相对强弱指数 (RSI)。
    """
    diff = series.diff(1).dropna()
    gain = 0.5 * (diff + abs(diff))
    loss = 0.5 * (diff - abs(diff))
    avg_gain = gain.rolling(window=window, min_periods=1).mean()
    avg_loss = abs(loss.rolling(window=window, min_periods=1).mean())
    rs = avg_gain / avg_loss
    rsi = 100 - (100 / (1 + rs))
    return rsi

# 计算布林带 (Bollinger Bands)
def compute_bollinger_bands(series, window=20):
    """
    计算布林带的上下轨道。
    """
    sma = series.rolling(window=window).mean()
    std = series.rolling(window=window).std()
    upper_band = sma + (std * 2)
    lower_band = sma - (std * 2)
    return upper_band, lower_band

# 计算平均真实波动幅度 (ATR)
def compute_atr(data, window=14):
    """
    计算平均真实波动幅度 (ATR)。
    """
    high_low = data['High'] - data['Low']
    high_close = np.abs(data['High'] - data['Close'].shift())
    low_close = np.abs(data['Low'] - data['Close'].shift())
    tr = high_low.combine(high_close, max).combine(low_close, max)
    atr = tr.rolling(window=window, min_periods=1).mean()
    return atr

# 保存数据到CSV文件
def save_data(data, file_path):
    """
    保存处理后的数据到指定的CSV文件。
    """
    data.to_csv(file_path, index=False)
    print(f"\n数据预处理完成并保存为 {file_path} 文件。")

# 主流程
if __name__ == "__main__":
    # 1. 加载数据
    gold_data = load_data('gold_price_data_extracted.csv')
    
    # 2. 清理数据
    gold_data = clean_data(gold_data)
    
    # 3. 生成技术指标
    gold_data = generate_features(gold_data)
    
    # 4. 创建目标变量
    gold_data = create_target(gold_data)
    
    # 5. 保存处理好的数据
    save_data(gold_data, 'processed_gold_data.csv')

成功数据净化：

下期预告：

下一步：模型设计与训练

我们将从以下几个方面着手：

数据集划分：将数据分为训练集和测试集。
模型选择：设计一个合适的深度学习模型（例如LSTM或GRU）来处理时间序列数据。
模型训练：使用训练集对模型进行训练，并使用验证集进行超参数调优。
模型评估：在测试集上评估模型的性能，使用指标如均方误差（MSE）等。

本文作者： Anderson
本文链接： http://nikolahuang.github.io/2024/08/10/从零开始训练一个神经网络之二：数据收集和准备/
版权声明： 转载请注明出处，谢谢。