https://github.com/evertonsavio/spark-big-data-analitycs

Base Codes Repository for technologies related to Big Data such as Spark, Kafka, Storm and others. Languages: Python, Java
https://github.com/evertonsavio/spark-big-data-analitycs

java kafka python spark

Last synced: about 2 months ago
JSON representation

Base Codes Repository for technologies related to Big Data such as Spark, Kafka, Storm and others. Languages: Python, Java

Host: GitHub
URL: https://github.com/evertonsavio/spark-big-data-analitycs
Owner: evertonsavio
License: mit
Created: 2020-05-29T22:24:15.000Z (about 6 years ago)
Default Branch: master
Last Pushed: 2021-05-23T12:50:49.000Z (about 5 years ago)
Last Synced: 2025-07-24T04:50:00.250Z (11 months ago)
Topics: java, kafka, python, spark
Language: Java
Homepage:
Size: 26.9 MB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

### "Numbers Everyone Should Know"

Some Latency Numbers:
1. CPU - 0.4 nanoseconds
2. Memory - 100 nanoseconds
3. SSD - 16 microseconds
4. Network - 150 miliseconds
---------------------------------------------------
* CPU -> Twitter: 6000 tweets/s, cada um por volta de 200bytes = 1.2 milhoes de bytes ou 1mb/s
* 2.5GHz CPU -> 2.5 Bilhões operações por segundo. Cada operação tem um processamento X Bytes ~~ 8 bytes
* Então usariamos 0.01% da capacidade da cpu, não é um problema.

* Knowing that tweets create approximately 104 billion bytes of data per day, (6000 tweets / second) x (86400 seconds / day) x (200 bytes / tweet) = 104 billion bytes / day. How long would it take the 2.5 GigaHertz CPU to analyze a full day of tweets? (say that for each operation, the CPU processes 8 bytes of data) Ans: 5.2 seconds
--------------------------------------------------
* Mas há um detalhe... Na maior parte do tempo a CPU não esta processando dados.
* A Memoria Leva 250X tempo que a CPU para encontrar o mesmo byte na memória.
--------------------------------------------------
#### Processo de 1 hora de Tweets -> Memoria:30ms, SSD:0.5s, HD:4s. Network ~~30s.
--------------------------------------------------
#### SPARK foi desenvolvido especificamente para otimizar o uso da memória, trabalhando com clusters de computadores conectados pela REDE, então é crucial otimizar a rede. Existe um TRADEOFF devido a uso da rede.

### Então, quando usar usar Big Data? Conheça esses numeros:
* CPU 200X mais rápida que memória.
* Memória é 15x mais rápida que SSD.
* SSD é usualmente 20x mais rápido que rede.
----------------------------------------------------

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/evertonsavio/spark-big-data-analitycs

Awesome Lists containing this project

README