https://github.com/evertonsavio/spark-big-data-analitycs
Base Codes Repository for technologies related to Big Data such as Spark, Kafka, Storm and others. Languages: Python, Java
https://github.com/evertonsavio/spark-big-data-analitycs
java kafka python spark
Last synced: about 2 months ago
JSON representation
Base Codes Repository for technologies related to Big Data such as Spark, Kafka, Storm and others. Languages: Python, Java
- Host: GitHub
- URL: https://github.com/evertonsavio/spark-big-data-analitycs
- Owner: evertonsavio
- License: mit
- Created: 2020-05-29T22:24:15.000Z (about 6 years ago)
- Default Branch: master
- Last Pushed: 2021-05-23T12:50:49.000Z (about 5 years ago)
- Last Synced: 2025-07-24T04:50:00.250Z (11 months ago)
- Topics: java, kafka, python, spark
- Language: Java
- Homepage:
- Size: 26.9 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
### "Numbers Everyone Should Know"
Some Latency Numbers:
1. CPU - 0.4 nanoseconds
2. Memory - 100 nanoseconds
3. SSD - 16 microseconds
4. Network - 150 miliseconds
---------------------------------------------------
* CPU -> Twitter: 6000 tweets/s, cada um por volta de 200bytes = 1.2 milhoes de bytes ou 1mb/s
* 2.5GHz CPU -> 2.5 Bilhões operações por segundo. Cada operação tem um processamento X Bytes ~~ 8 bytes
* Então usariamos 0.01% da capacidade da cpu, não é um problema.
* Knowing that tweets create approximately 104 billion bytes of data per day, (6000 tweets / second) x (86400 seconds / day) x (200 bytes / tweet) = 104 billion bytes / day. How long would it take the 2.5 GigaHertz CPU to analyze a full day of tweets? (say that for each operation, the CPU processes 8 bytes of data) Ans: 5.2 seconds
--------------------------------------------------
* Mas há um detalhe... Na maior parte do tempo a CPU não esta processando dados.
* A Memoria Leva 250X tempo que a CPU para encontrar o mesmo byte na memória.
--------------------------------------------------
#### Processo de 1 hora de Tweets -> Memoria:30ms, SSD:0.5s, HD:4s. Network ~~30s.
--------------------------------------------------
#### SPARK foi desenvolvido especificamente para otimizar o uso da memória, trabalhando com clusters de computadores conectados pela REDE, então é crucial otimizar a rede. Existe um TRADEOFF devido a uso da rede.
### Então, quando usar usar Big Data? Conheça esses numeros:
* CPU 200X mais rápida que memória.
* Memória é 15x mais rápida que SSD.
* SSD é usualmente 20x mais rápido que rede.
----------------------------------------------------