https://github.com/JapanExchangeGroup/FinancialResultsHTML-DataExtraction
https://github.com/JapanExchangeGroup/FinancialResultsHTML-DataExtraction
Last synced: about 2 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/JapanExchangeGroup/FinancialResultsHTML-DataExtraction
- Owner: JapanExchangeGroup
- License: mit
- Created: 2022-07-20T08:32:29.000Z (almost 3 years ago)
- Default Branch: dev
- Last Pushed: 2022-11-24T11:26:25.000Z (over 2 years ago)
- Last Synced: 2024-11-16T08:32:40.671Z (7 months ago)
- Language: HTML
- Size: 5.43 MB
- Stars: 13
- Watchers: 2
- Forks: 1
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- Contributing: CONTRIBUTING.md
- License: LICENSE.md
- Code of conduct: CODE_OF_CONDUCT.md
Awesome Lists containing this project
- awesome-studio-lab-jp - 決算短信セグメント情報のデータ抽出ハンズオン
README
# 決算短信セグメント情報のデータ抽出ハンズオン
[](https://github.com/JapanExchangeGroup/FinancialResultsHTML-DataExtraction/actions/workflows/ci.yml)
[](https://github.com/pre-commit/pre-commit)
[](https://github.com/psf/black)
[](https://github.com/PyCQA/flake8)
[](https://pycqa.github.io/isort/)
[](https://github.com/python/mypy)HTML 化された決算短信から、セグメント情報を抽出する方法が学べるハンズオンです。

HTML 化された決算短信は、[適時開示情報閲覧サービス](https://www.release.tdnet.info/inbs/I_main_00.html)か、[東証上場会社情報サービス](https://www.jpx.co.jp/listing/co-search/index.html)から取得できます。データを取得し、セグメント情報を抽出する方法はハンズオン資料を参照してください。
## ハンズオンコンテンツ
1. HTML から情報を抽出する方法を学ぶ [](https://studiolab.sagemaker.aws/import/github/JapanExchangeGroup/FinancialResultsHTML-DataExtraction/blob/main/notebooks/01_how_to_extract_from_html.ipynb)
* HTML とは
* Python による HTML からの情報抽出
* Exercise1: 目的の HTML 要素を検索する
* Exercise2: 目的の HTML 要素へ移動する
2. HTML 化された決算短信からセグメント情報を抽出する方法を学ぶ [](https://studiolab.sagemaker.aws/import/github/JapanExchangeGroup/FinancialResultsHTML-DataExtraction/blob/main/notebooks/02_how_to_extract_segment_data_from_html.ipynb)
* HTML 化された決算短信とは
* Exercies1: 決算短信 HTML ファイルからセグメント情報を抽出する
* Exercies2: セグメント情報の抽出が失敗する理由を分析する※本ハンズオンはあらゆる企業の HTML からセグメント情報が抽出できるプログラムを提供するものではありません。抽出が失敗する理由を理解し、修正箇所を特定できる技能を身に着けることを目的としています。
## ハンズオンの進め方
Amazon SageMaker Studio Lab を使用し簡単に始めることができます。ハンズオンのはじめ方は、 [ハンズオンの進め方](docs/README_usage.md)を参照してください。
ハンズオンは2部構成を想定して作られています。
* Day1: ハンズオンコンテンツを実施し、HTMLから情報を抽出する方法を身に着ける。宿題として興味ある企業からセグメント情報の抽出を試み、HomeworkTemplateに記載する。
* Day2: Homeworkの共有を行う。読み取り結果の統計を参照しながら、発行体に促すべき記載の方式についてディスカッションする。
* 決算短信HTMLの読み取り可否状況レポート [](https://studiolab.sagemaker.aws/import/github/JapanExchangeGroup/FinancialResultsHTML-DataExtraction/blob/main/notebooks/a1_financial_result_to_dataframe.ipynb)