Databases & Data

Relational Databases

PostgreSQL

Proficiency: Advanced
Key Skills:
- Database design and normalization
- Complex queries and joins
- Indexing strategies
- Query optimization and EXPLAIN ANALYZE
- Transaction management
- ACID compliance
- Window functions
- Common Table Expressions (CTEs)
- JSON/JSONB support
- Full-text search
Administration:
- User and role management
- Backup and restore (pg_dump, pg_restore)
- Replication and failover
- Extensions (PostGIS, pgvector, etc.)
- Performance tuning
- Monitoring and statistics
Projects: Personal Finance Manager (planned), HAY platform, homelab services
Strengths: Robustness, advanced features, excellent documentation

SQLite

Proficiency: Intermediate
Use Cases: Development, embedded databases, small projects
Key Skills:
- Schema design
- SQL queries
- Performance considerations
- File management
- Limitations and workarounds

NoSQL Databases

Document Databases

Basic understanding of MongoDB
JSON document storage concepts
Schema-less design

Distributed Data Systems

Kafka (Event Streaming)

Proficiency: Intermediate
Key Skills:
- Topic creation and management
- Producer/Consumer concepts
- Partition strategies
- Offset management
- Consumer groups
- Replication factor
- Event schema design
- Avro/Protobuf serialization
Use Cases:
- Asynchronous processing
- Event sourcing
- Microservice communication
- Stream processing
- Data pipelines
Projects: Personal Finance Manager (planned), homelab dev stack

Ceph Distributed Storage

Proficiency: Intermediate
Key Skills:
- Object Storage (RADOS)
- Block Storage (RBD)
- File Storage (CephFS)
- Monitor architecture
- OSD management
- Data placement and replication
- Health monitoring
- Scaling
Projects: Proxmox homelab cluster storage

Message Queues

RabbitMQ

Proficiency: Basic-Intermediate
Concepts:
- Exchanges and routing
- Queues and consumers
- Dead-letter queues
- Message persistence
- TTL (Time To Live)
- Priority queues
Use Cases: Task queues, async processing, microservice communication

SQL Skills

Query Design

SELECT queries: Projections, filtering, ordering
JOINs: INNER, LEFT, RIGHT, FULL OUTER
Aggregations: GROUP BY, HAVING, window functions
Subqueries: Correlated and uncorrelated
CTEs: Common Table Expressions for complex logic
UNION/UNION ALL: Combining result sets

Advanced SQL

Window Functions: ROW_NUMBER, RANK, DENSE_RANK, LAG/LEAD
JSON Operations: JSON creation, extraction, modification
Full-Text Search: Text indexing and search
Array Operations: ARRAY types and functions
Recursive Queries: WITH RECURSIVE

Performance Optimization

Indexing Strategies:
- B-tree indexes
- Hash indexes
- Partial indexes
- Composite indexes
- BRIN indexes
Query Analysis:
- EXPLAIN ANALYZE
- Query plans
- Sequential vs. index scans
- Nested loop vs. hash joins
Optimization Techniques:
- Avoiding full table scans
- Index selectivity
- Query rewriting
- Statistics and ANALYZE
- Vacuum and maintenance

Schema Design

Normalization

First Normal Form (1NF)
Second Normal Form (2NF)
Third Normal Form (3NF)
Boyce-Codd Normal Form (BCNF)
Denormalization trade-offs

Relationship Design

One-to-Many relationships
Many-to-Many with junction tables
Self-referencing relationships
Soft deletes vs. hard deletes
Foreign key constraints

Data Types

Numeric: INT, BIGINT, DECIMAL, NUMERIC
Text: VARCHAR, TEXT, CHAR
Date/Time: DATE, TIME, TIMESTAMP
Boolean: BOOL
Arrays: ARRAY types
JSON: JSONB for flexibility
Enums: Custom enumerated types

Data Migration

Data Import/Export

CSV import/export
Bulk loading
ETL processes
Data transformation
Validation and error handling

Schema Migrations

DDL statements
Non-blocking schema changes
Backwards compatibility
Rollback strategies
Zero-downtime deployments

Backup & Recovery

Backup Strategies

Full backups
Incremental backups
Point-in-time recovery (PITR)
WAL (Write-Ahead Logging)
Continuous replication

Disaster Recovery

RTO (Recovery Time Objective)
RPO (Recovery Point Objective)
Failover procedures
Testing recovery plans

Caching

In-Memory Caching

Redis basics
Cache invalidation strategies
TTL management
Cache-aside pattern
Write-through caching

Query Caching

Application-level caching
Materialized views
Query result caching

Replication & Failover

Replication Strategies

Streaming replication
Logical replication
Multi-master replication
Consistency considerations

High Availability

Primary/Standby setup
Automatic failover
Load balancing
Synchronous vs. asynchronous replication

ORMs & Data Abstraction

SQLAlchemy (Python)

Model definition
Session management
Query API
Relationships and joins
Lazy vs. eager loading
Custom types

Micronaut Data (Java)

Compile-time query generation
Annotation-based configuration
Repository pattern
Custom queries
Performance optimization

Monitoring & Observability

Database Monitoring

Query performance
Slow query logs
Connection pool health
Disk usage
Transaction rates
Lock monitoring
Replication lag

Tools

Prometheus PostgreSQL exporter
Grafana dashboards
pgBadger for log analysis
pg_stat views

Data Privacy & Security

Security Considerations

User authentication
Role-based access control (RBAC)
Column-level encryption
Row-level security (RLS)
Audit logging
Secrets management

Compliance

Data retention policies
GDPR compliance
Encryption at rest
Encryption in transit
PII handling

JSON & Semi-Structured Data

JSONB in PostgreSQL

JSON storage and querying
GIN indexes for JSON
@>, @, ? operators
jsonb_extract functions
JSON schema validation

Time-Series Data

Concepts

Time-series storage
Compression
Retention policies
Downsampling
Aggregation

InfluxDB (Basic)

Time-series database
Retention policies
Continuous queries

Best Practices

Meaningful column names
Consistent data types
Proper indexing
Regular backups
Monitoring in production
Query optimization before scaling
Documentation
Version control for schema
Testing data migrations