{"id":23925531,"url":"https://github.com/jenslys/skrape-py","last_synced_at":"2026-06-12T06:32:25.695Z","repository":{"id":267114253,"uuid":"900297986","full_name":"jenslys/skrape-py","owner":"jenslys","description":"Python SDK to easily interact with the skrape.ai API","archived":false,"fork":false,"pushed_at":"2025-04-25T07:19:25.000Z","size":61,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"master","last_synced_at":"2025-11-16T13:00:37.782Z","etag":null,"topics":["ai","llm-scraper","python-scraper","scraper","scraping","skrape"],"latest_commit_sha":null,"homepage":"https://skrape.ai","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/jenslys.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":null,"dco":null,"cla":null}},"created_at":"2024-12-08T12:24:07.000Z","updated_at":"2025-04-25T07:19:22.000Z","dependencies_parsed_at":"2024-12-08T13:36:13.806Z","dependency_job_id":"e6edb39d-97dc-4817-88d9-231a6fb2e84c","html_url":"https://github.com/jenslys/skrape-py","commit_stats":null,"previous_names":["jenslys/skrape-py"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/jenslys/skrape-py","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/jenslys%2Fskrape-py","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/jenslys%2Fskrape-py/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/jenslys%2Fskrape-py/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/jenslys%2Fskrape-py/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/jenslys","download_url":"https://codeload.github.com/jenslys/skrape-py/tar.gz/refs/heads/master","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/jenslys%2Fskrape-py/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":34232790,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-05-26T15:22:16.424Z","status":"online","status_checked_at":"2026-06-12T02:00:06.859Z","response_time":109,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["ai","llm-scraper","python-scraper","scraper","scraping","skrape"],"created_at":"2025-01-05T20:14:39.852Z","updated_at":"2026-06-12T06:32:25.680Z","avatar_url":"https://github.com/jenslys.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"# skrape-py\n\nA Python library for easily interacting with Skrape.ai API. Define your scraping schema using Pydantic and get type-safe results.\n\n## Features\n\n- 🛡️ **Type-safe**: Define your schemas using Pydantic and get fully typed results\n- 🚀 **Simple API**: Just define a schema and get your data\n- 🔄 **Async Support**: Built with async/await for efficient scraping\n- 🧩 **Minimal Dependencies**: Built on top of proven libraries like Pydantic and httpx\n- 📝 **Markdown Conversion**: Convert any webpage to clean markdown\n- 🕷️ **Web Crawling**: Crawl multiple pages with browser automation\n- 🔄 **Background Jobs**: Handle long-running tasks asynchronously\n\n## Installation\n\n```bash\npip install skrape-py\n```\n\nOr with Poetry:\n\n```bash\npoetry add skrape-py\n```\n\n## Environment Setup\n\nSetup your API key in `.env`:\n\n```env\nSKRAPE_API_KEY=\"your_api_key_here\"\n```\n\nGet your API key on [Skrape.ai](https://skrape.ai)\n\n## Quick Start\n\n### Extract Structured Data\n\n```python\nfrom skrape import Skrape\nfrom pydantic import BaseModel\nfrom typing import List\nimport os\nimport asyncio\n\n# Define your schema using Pydantic\nclass ProductSchema(BaseModel):\n    title: str\n    price: float\n    description: str\n    rating: float\n\nasync def main():\n    async with Skrape(api_key=os.getenv(\"SKRAPE_API_KEY\")) as skrape:\n        # Start extraction job\n        job = await skrape.extract(\n            \"https://example.com/product\",\n            ProductSchema,\n            {\"renderJs\": True}  # Enable JavaScript rendering if needed\n        )\n        \n        # Wait for job to complete and get results\n        while job.status != \"COMPLETED\":\n            job = await skrape.get_job(job.jobId)\n            await asyncio.sleep(1)\n        \n        # Access the extracted data\n        product = job.result\n        print(f\"Product: {product.title}\")\n        print(f\"Price: ${product.price}\")\n\nasyncio.run(main())\n```\n\n### Convert to Markdown\n\n```python\n# Single URL\nresponse = await skrape.to_markdown(\n    \"https://example.com/article\",\n    {\"renderJs\": True}\n)\nprint(response.result)  # Clean markdown content\n\n# Multiple URLs (async)\njob = await skrape.to_markdown_bulk(\n    [\"https://example.com/1\", \"https://example.com/2\"],\n    {\"renderJs\": True}\n)\n\n# Get results when ready\nwhile job.status != \"COMPLETED\":\n    job = await skrape.get_job(job.jobId)\n    await asyncio.sleep(1)\n\nfor markdown in job.result:\n    print(markdown)\n```\n\n### Web Crawling\n\n```python\n# Start crawling job\njob = await skrape.crawl(\n    [\"https://example.com\", \"https://example.com/page2\"],\n    {\n        \"renderJs\": True,\n        \"actions\": [\n            {\"scroll\": {\"distance\": 500}},  # Scroll down 500px\n            {\"wait_for\": \".content\"}  # Wait for content to load\n        ]\n    }\n)\n\n# Get results when ready\nwhile job.status != \"COMPLETED\":\n    job = await skrape.get_job(job.jobId)\n    await asyncio.sleep(1)\n\nfor page in job.result:\n    print(page)\n```\n\n## API Options\n\nCommon options for all endpoints:\n\n```python\noptions = {\n    \"renderJs\": True,  # Enable JavaScript rendering\n    \"actions\": [\n        {\"click\": {\"selector\": \".button\"}},  # Click element\n        {\"scroll\": {\"distance\": 500}},       # Scroll page\n        {\"wait_for\": \".content\"},           # Wait for element\n        {\"type\": {                          # Type into input\n            \"selector\": \"input\",\n            \"text\": \"search term\"\n        }}\n    ],\n    \"callbackUrl\": \"https://your-server.com/webhook\"  # For async jobs\n}\n```\n\n## Error Handling\n\nThe library provides typed exceptions for better error handling:\n\n```python\nfrom skrape import Skrape, SkrapeValidationError, SkrapeAPIError\n\nasync with Skrape(api_key=os.getenv(\"SKRAPE_API_KEY\")) as skrape:\n    try:\n        response = await skrape.extract(url, schema)\n    except SkrapeValidationError as e:\n        print(f\"Data doesn't match schema: {e}\")\n    except SkrapeAPIError as e:\n        print(f\"API error: {e}\")\n```\n\n## Rate Limiting\n\nThe API response includes rate limit information that you can use to manage your requests:\n\n```python\nresponse = await skrape.to_markdown(url)\nusage = response.usage\n\nprint(f\"Remaining credits: {usage.remaining}\")\nprint(f\"Rate limit info:\")\nprint(f\"  - Remaining: {usage.rateLimit.remaining}\")\nprint(f\"  - Base limit: {usage.rateLimit.baseLimit}\")\nprint(f\"  - Burst limit: {usage.rateLimit.burstLimit}\")\nprint(f\"  - Reset at: {usage.rateLimit.reset}\")\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fjenslys%2Fskrape-py","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fjenslys%2Fskrape-py","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fjenslys%2Fskrape-py/lists"}